robots.txtやbasic認証を使った秘密サイトを以前作っていたのもあって(このサイトは公開ですよ)、最近気になっているんですが。
ブログでの検索よけ(ロボットよけ)は、一般的に知られている方法とはちょっと勝手が違います。
ブログには、これまでなじみのなかった要素があります。
フィードとPING(+トラックバック)です。
※Six Apart: 「フィードとは?」…俗にRSSやATOMと言われているものです。
これらについての扱いを誤ると、ブログでの検索よけになりません。
キモは、
>>更新pingを打たない設定にすること
>>フィード自体やフィードに関する記述を、テンプレートから全て削除すること
です。
以下、具体的にブログでの検索よけについて説明します。
ブログには、「サーバーインストール型」と、「ブログサービス」(FC2とかSeesaaとかgooブログとか、登録するだけで作れるブログ)がありますが、それぞれ、できる検索よけの方法が違ってきます。
「サーバーインストール型」MovableTypeの場合
うちで使っているサーバーインストール型の
MovableTypeはサーバーに設置するものです。
よく知られた、METAタグ・robots.txt・.htaccessによる検索よけが普通に可能です。
しかし、MovableTypeで検索よけをするには、これらを仕込むことに加えて、ブログ特有の以下の項目が必要です。
- 更新PINGの設定を無効にする
- インデックステンプレートから「RSS1.0」「RSS2.0」「ATOM」を削除する(テンプレート自体を削除する強硬手段がいやな場合は、再構築しないように設定してもいい)
- 既に生成されている各フィードファイル(index.rdf、index.xml、index.atom)をサーバーから削除
- HTMLヘッダーにあるフィードへのリンク
<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="http://***/index.xml" /> (拡張子rdf、atomも同様)
を削除。 - サイドバーの「フィードを取得」とかRSSやXMLなどのボタンを取り払う。
FC2とかSeesaaとかgooブログなどの「ブログサービス」の場合
ブログサービスはサーバーを直接操作することができませんから、MovableTypeのようにフィード自体の削除ができませんし、robots.txtも.htaccessも仕込めません。できることに限りがあります。
とりあえず、テンプレート編集でHTMLヘッダーが編集できるブログであれば、検索よけのMETAタグは仕込めます。(=gooブログの無料版では無理)
【METAタグ】
テンプレートの<head>〜</head>の間に以下のような記述を入れます。
サイトのページをすべてのロボットのクロール対象から除外するには
- XHTMLの場合 <meta name="robots" content="noindex, nofollow" />
- HTMLの場合 <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
※XHTMLとHTMLの見分け方
- ソース先頭に「<!DOCTYPE」から始まる文がなければHTML
- 「<!DOCTYPE(中略)""-//W3C//DTD HTML 4.01(後略)」だったらHTML
- 「<!DOCTYPE(中略)""-//W3C//DTD XHTML 1.x(後略)」だったらXHTML
テンプレート編集の後、全てのページにMETAタグが入っていることを確認しましょう。
参照:
Googleウェブマスター向けヘルプセンター「メタ タグを使用してページをブロックまたは削除する」
Yahoo!検索ヘルプ「特定のページ、キャッシュを検索結果から削除したい」
【フィードへのリンクを削除】
フィードを削除できないため、とりあえずフィードへのリンクだけは、テンプレートから削除しておきましょう。
HTMLの<head>〜</head>の中にある、
<link rel="alternate" type="application/rss+xml" title="RSS 2.0"
href="http://***/index.xml" />
このような記述を削除します。拡張子.xml、.rdf、.atomを目印に。
////注意////
- METAタグを無視するロボットもいるので、完全にロボットを排除できるわけではありません。
- 「フィードへのリンクの削除」は、あくまで「リンクを削除」するだけで、フィードファイル自体は実際は存在します(削除は不可能です)。よってリンクの削除は気休め程度。
→これらの対処だけでは時間の問題です
ではどうすればブログサービスで検索よけができるのかは、以下のお話の後。
ブログの存在を知られるきっかけ
今までは、YahooやGoogleなどの検索サイトが不特定多数を呼び込んでしまう大きな玄関となるため、これをとにかく避け、サイトの存在を知られないようにする(クローラーを避ける)のが、今までの「検索よけ」でした。
しかし、ブログの場合、
「ブログ検索」
「(オンラインの)フィードリーダー」(に付属のフィード・ブログ検索)
という玄関も加わります。それぞれに深く関係してくるのが、「更新ping」と「フィード」です。
多くのブログサービスで設けられている「更新ping」。これは、pingサーバーへブログ(サイト)が更新されたことを伝える仕組みです。記事を新規投稿すると、自動的にブログのURLとブログタイトル(記事タイトルと記事URLではありません)が、登録されたpingサーバーへ送信されます。
ブログ検索を提供しているポータルサイトにpingを送った場合、受信したping情報をトリガーとして逆アクセスし、ブログのフィード情報を収集していきます。
ping受信後の動きは、各サーバーごとの独自仕様です。例えば、一旦index.htmlにアクセスし、そこにロボットを拒否するmetaタグが書かれていると、フィードの情報を収集しない行儀のいいブログライクボットもいるようです。
一方で、更新pingやフィードの登録情報のみならず、ブログにあるリンク情報を伝い、できる限り多くのブログを探そうと動いているものもあります。
Googleブログ検索ヘルプ:8.検索結果に自分のブログが表示されないようにできますか。参照
サイト フィードを公開していないブログは、ブログ検索の結果に表示されません。ただし、以前にサイト フィードを公開してインデックスに登録された場合は、その後新しくサイト フィードを公開していなくても、昔の投稿がインデックスに残っていることがあります。
ブログ検索では、robots.txt ファイルや NOINDEX, NOFOLLOW メタ タグを使用して、検索結果にブログを表示しないよう設定することもできます。
テクノラティジャパンヘルプ:ブログをインデックスしないでほしい 参照
お手数ですがコンタクトフォームの「その他」より
* 該当ブログのURL
* 理由(機密情報を漏洩した可能性がある・プライバシーを侵害してしまった等)
を併記の上、ご連絡ください。上記のような理由のある場合、早急に対応させていただきます
というように、各社対応が違うようです。
検索よけー各社の対応状況参照
オンラインのフィードリーダーについてもちょっと説明。
フィードを登録されてしまった場合、フィードリーダーのロボットは、登録されているフィードに15分〜1時間間隔で定期的にアクセスし、更新された情報がないかどうか確認します。もちろん、その情報はブログ検索の対象になります。
キーワード検索でリンクを公開しているまとめサイトやオンラインブックマークなんかに見つかって表示されたりすると、そこからも人が流入し始めます。(「イタイ」なんてカテゴリでブックマークされたり^^;)
Googleウェブマスター向けヘルプ センター:RSS または Atom フィードを削除する
Feedfetcher のリクエストは人間のユーザーによって行われるため、robots.txt のためのガイドラインを無視するよう設計されています。(中略)一般的に提供されているフィードへのアクセスを制限することはできません。
ということは、オンライン型のフィードリーダーに登録されてしまった場合、何の対策も打てないということになります。
【2008年7月18追記】Googleのヘルプからこの記述が削除されているようです。Googleでは、robot.txtやMETAタグによるフィードリーダーのボットよけができるようになっているのかも。
これらを避けるには、更新pingを打たないこと、何よりフィードファイルの情報を収集させないこと、ということになります。ですがご存じの通りブログサービスの場合、フィードファイルを削除することもフィードファイル自体に検索よけタグを入れることもできません。
閲覧パスワードのかけられるブログサービスを使う
ブログサービスを使って検索よけをする方法が一つあります。閲覧パスワードをかけること(閲覧パスワードがかけられるブログを選ぶこと)です。
これなら、ブログ本体にもフィードファイルへのアクセスにもパスワードが必要なので、Web上に情報が流れるようなことはなさそうです。
サイト入口+ブログでサイトを運営しているなら、ブログ入室時の長ったらしい注意書きに加え、パスワード(のヒント)でも書いておけばよろしい。もちろん、サイト入口もrobots.txtや.htaccessで検索よけ対策できるサービスやサーバーを使うことが前提です。(「アクセス制限」などで検索してみると方法を解説したサイトが見つかります)
ブログサービス単体で活動していたり、閲覧パスワードのかけられないブログサービスを使っているなら、フィードが検索にかかってくるのは時間の問題だということを肝に銘じておかなければいけません。
人間によってフィードを発見されフィードリーダーに登録されることを防ぐことはできないからです。
…と、こういう記事を書きたくなったのは、実際「バイファム」キーワードでブログ検索した結果をフィードリーダーで購読していて、おんなのこむけのサイト(俗にいう腐女子サイト)のブログがひっかかってきたからなんですよね。。。(バイファムネタはありませんでしたが)
そのブログのソースを見てみると、ちゃんと検索よけのMETAタグが仕込んであるのです。でもヘッダーにフィードへのリンクが残ったままでした。更新pingをうってしまってるのか、誰かにフィードを登録されてしまったのか、どこかのリンクを伝ってブログライクボットがやってきちゃったのか。
トラックバックをする、フィードを生成することだけがブログのよさではありません。CMSとしてのよさがブログにはあります。
ただ、使い方を知らないと、「頭(ヘッダ)隠して尻(フィード)隠さず」……ブログご使用の際はくれぐれもご注意を。
※パスワードをかけていながらフィードリーダーに記事が表示される、という例を聞きました。
MySpaceというSNSの、フレンズしか読めない方の日記をBloglinesに登録してみたところ、ちゃんと全文読めます。(購読できます)
そういえばFc2ブログは以前、パスワードをかけるとフィードも出力しなかったのですが、今はフィードを出力しています。
ってことは非公開ブログでも、リーダーでの購読OKってことなのでしょう。
とりあえずブログ検索にはかからないみたいなのですが、ブログサービスによってパスワード機能設定時の仕組みが違うかもしれませんので、ダミーのブログを作って、パスワードをかけた際、フィードがどのようにテンプレートやフィードリーダーに反映されるか、検索にかかったりしないのかを、お使いになる前に確認することをお勧めします。
【2008年7月15日追記】
検索エンジンとブログの関係について、いまいち「?」な部分があったので、ちょっと頭を整理してみました。
→検索エンジンとブログの関係
ご質問などありましたらできる範囲でお答えしますのでお気軽にどぞ。
グッジョブだったらポチッと→