Googleは半日で10ページをクロールしインデックス

2009年08月01日 15:49

Googleのインデックス(キャッシュ)状況

ドメイン「cms-ia.info」を取得して6日目、DESIGN IT! Forum 2009の告知ページからたった1本の被リンクを受けて半日後、合計10ページがGoogleによってインデックスされていたことを8/1の昼に確認しました。

合計10ページを時系列に並べてみます(キャッシュ日時は日本時間です)。

Google Webmaster Toolsをまだ導入していないので、今回は「site:www.cms-ia.info」で検索して調べました。
(FTPできないCMSなのでルートにファイルをUPできず、CMSのテンプレートをハックする必要があるのです)

分かったこと

  • 被リンクを受けたのはTOPページなのに、なぜかキャッシュ日はタグ一覧のページから始まっている。
  • www.cms-ia.infoで検索すると、このうちTOPページとRSSフィード一覧のみがヒット。ブログ一覧は補欠表示される。
  • キャッシュされたタイミングと、それが検索結果に表示され始めるタイミングには数日の時差がある(8月1日に初めて確認)

仮説

  • TOPのみ、もっと早いタイミングですでにキャッシュされていた?
  • クロールの順番とキャッシュ保存のタイミングは別?
  • クロール間隔は90秒?

生ログを入手できないので深追いはやめておきますが、更新がどれくらい検索順位や流入に影響を与えるかは引き続き調査します。

8/4 23:21調査

更新した2ページのみ、Googleのキャッシュ日が更新されました。2009-08-01 02:16更新のブログ記事が反映されています。クロールはするけど更新されたページのみキャッシュに反映する、ということですね。

8/6 02:20調査

8/6 20:10調査

クロールしキャッシュした時点と、それがインデックスに反映されるまでの時差は3日程度です。


Real Time Web Analytics