Googleクローラーは3種類あった

2009年12月11日 00:25

前回の調査で、本サイトにロボット(クローラー)らしきアクセスが毎日1,500ビューあることが分かりました。このうち、毎日500PV分(4日間で2,077)がGoogle所有ドメインからのアクセスです。

図:Google Webmaster Toolのクローラーログ:

Google Webmaster Toolのクローラーログと比較

GoogleのWebmaster Toolsに自分のサイトを登録しておくと、クロールの回数や転送容量の推移を調べることができます。

図:Google Webmaster Toolのクローラーログ:

グラフのみで数字が公開されていないため、図の上にラインを引いて数値を割り出してみました。12/1~12/4の合計値は1,275PV。

66.249.65.*が検索エンジンのクローラーだとすると合計1,359PVなので、上記の1,275とほぼ一致します。

図:Google Webmaster Toolのクローラーログ:

残りの2種類のIPアドレスは検索エンジンクローラーではなく何なのか?生ログがあればAgent(ブラウザ)名で判別できるかもしれませんが、今回はCMS付きホスティングなので、IPしか分かりません。Whoisで調べると、どちらもGoogle所有です。

Google所有ドメインから3種類のロボットがアクセス

そこで、IPアドレスをGoogle検索してみたところ、

と名乗るロボットであることが分かりました。URLの情報を読むと、FeedFetcherはGoogleリーダー用のRSS取得クローラーであることが分かります。FeedBurnerは最近導入したRSS用のアクセス解析サービスです。PVが多いので、RSSの更新を検出するために頻繁にアクセスしているようです。4日間で592PVなので、1日あたり約150PVです。

分かったことのまとめ

  • Google Webmaster Toolsのクローラーログは結構正確だった
  • Googleロボットには少なくても検索エンジンのクローラー、Googleリーダーのクローラー、FeedBurnerのクローラーの3種類があった
  • FeedBurnerを導入したところ、1日に150回RSSをクロールするようになった(本サイトでFeedBurnerに登録したフィードは6つ)

今回の分析はアクセスがまだ少ない本サイト、しかも4日間のみを対象としたので、分かった事実にあまり意味はないかもしれません。

ですが、いろいろな制約がある状況でも、仮説を立てて工夫しながら段階的に検証していけば、ある程度結果が見えてくる、というプロセスを実践した点で意義があるかもと思い、エントリーしてみました。


Real Time Web Analytics