リンクなしでも検索対象

  • 投稿日:
  • by

J-CASTニュース : 「非公開」でも「拒否設定」しないと グーグル・ロボットで「情報流出」

グーグルでは、「グーグルボット(Googlebot)」と呼ばれるロボットがウェブ上を巡回しており、ロボットが「探検した成果」が、検索対象としてデータベースに反映される仕組みだ。しかも、「私のサイトは、どこからリンクをされていないから見つからない」という訳にはいかないようなのだ。
 
グーグルが提供しているウェブサイト管理者向けの文書には「Googlebot が 『非公開』のウェブサーバーから情報をダウンロードするのはなぜですか」という質問項目があり、その答えでは
 
「ウェブサーバーへのリンクを公開しなくても、そのサーバーの存在を隠しておくことはほぼ不可能です」
 
と断言している。
 
グーグルボットから逃れるためには、明示的に巡回を拒否するという設定が必要だ。今回の流出事件は、ID・パスワードをかけていなかったのはもちろん、この設定を怠っていたことが原因だとも言えそうだ。

そうなんだ。 知らなかった。 

ウェブマスター向けヘルプ センター - Googlebot が "非公開" のウェブ サーバーから情報をダウンロードするのはなぜですか。

ウェブ サーバーへのリンクを公開しなくても、そのサーバーの存在を隠しておくことはほぼ不可能です。 ユーザーが "非公開" のサーバーから他のウェブ サーバーへリンクをたどると、"非公開" の URL が参照タグ内に含められ、別のサーバーによって参照ログの形で保存、公開される可能性があります。 非公開のサーバーやページでもウェブ上の他のサイトなどからリンクが張られていれば、Googlebot や他のウェブ クローラにクロールされる可能性があります。

あー、なるほど。 で、サーバーの存在さえバレてしまえば、あとは隅々まで精査されちゃうと。 気をつけましょうね。

ちなみに、Googlebotを拒否するには、「Google がサイトの一部または全体をクロールしないようにするにはどうすればよいですか。 」を参照のこと。