検索エンジンのクロールを拒否インデックスさせない設定方法 robots.txt
普通はね検索エンジンにインデックスさせたい訳だけど、プログラムの稼働試験をする為のコピーサイトを違うドメインでテストしていると、内容が稼動サイトと同じなのでグーグルさんが被リンクを沢山見つけてしまって、同じ内容のページが存在するとSEO的にもよくないので、稼働試験コピーサイトは、検索エンジンにインデックスしてもらいたくない。検索エンジンクロール拒否のやり方。robots.txt 設定の備忘録。
検索エンジンのクローラーがサイトを巡回(クロール)する時は、robots.txt を最初にクロールするらしいので、robots.txt に「インデックスしないで!」と記述しておくと公開しているサイトでも検索エンジンはインデックスしないらしい。未確認なのであくまでもらしいです。
ファイル名は robots.txt アップロードするディレクトリはサイトのドキュメントルート。このブログサイトの場合は以下になります。
正しいドキュメントルート http://hk-plus.net/robots.txt
すべての検索エンジンが対象で、Disallowでサイト全体をクロールさせない記述。
123.html と 123ディレクトリ のみクロールさせない記述。
User-Agent: *
すべての検索エンジンの皆さーん
Disallow: /wp-admin/
/wp-admin/ このディレクトリはクロールしないで!
Allow: /wp-admin/admin-ajax.php
/wp-admin/admin-ajax.php でも例外で、このファイルはクロールしてね
Sitemap: http://hk-plus.net/sitemap.xml
/sitemap.xml サイトマップはここにあるから見てね~
このブログサイトはこんな感じです。
Google Search Console の「robots.txt テスター」で、robots.txt の内容やクロールしないで(ブロック)になっているか確認できます。