読者です 読者をやめる 読者になる 読者になる

ログマニアックス

日々学んだこと、気づいたことをメモ代わりに残していければ。カバー範囲は割と広めです。

アクセス解析とクローラ

Binoculars 2Black / metallic binoculars. I would like to know where it will be used. Please comment. It is still free to use!	  Objects / Tools

インターネットの中のユーザーの動きを明らかにしていくのがアクセス解析ですが、
ウェブサイトを閲覧しているのは生身の人間だけではありません。
クローラやbotと呼ばれるプログラムもサイトを訪れます。

クローラとは

クローラ – Wikipedia

クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「ロボット」、「スパイダー」、「ロボット」などとも呼ばれる。
主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。
一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。

とのことですが、主に検索エンジン
そのインデックス作成のために大量に巡回をさせています。

検索エンジン以外に、
最近きくのが、競合分析やら、文章データ収集のためのbotです。

アクセス解析によってはこうしたクローラを含めて計測をすることができます。

アクセス解析とクローラ

クローラの扱いはアクセス解析の種別によってことなります。

タグ型

PCの場合は最近はほとんどこの形式ですが、
多くのクローラはJS(Javascript)を実行することはできません。
ただし、最近のクローラによってはJSを解釈する場合もあるようです。

参考:GoogleがJavascriptを認識し始めたことによる弊害|CyberAgent SEO Information

生ログ型

生ログ型はアパッチのログを利用します。
Analogなどが有名ですが、
サーバーへのアクセスのすべてが分析に使用する材料になるので、
当然クローラのログも含まれます。

アパッチモジュール型

Mobylogなどが有名ですが、
こちらの形式でも計測が可能です。

モバイル標準『MOBYLOG ENGINE』 | MOBYLOG(モビログ)-携帯(モバイル)サイトのアクセス解析・効果測定

例えば、mobylogでは検索エンジンからのアクセスを
通常のアクセスと分けて計測用のコードを埋めこまないだけではなく、
時間とコンテンツを計測できるようです。

パケットキャプチャリング型

サーバーへの通信への過程に計測用サーバーを設置する
こちらの形式でもクローラからの流入計測が可能です。

こうしてみるとタグ型以外アクセス解析ではなんらかの形で
クローラの計測がされているようです。

特にアクセス解析間のデータを比べる際に、
大きな差異が生まれるのが、このクローラの扱いの違いになります。

 

クローラ分析・把握の目的

また、クローラを分析することで何ができるでしょうか

SEO分析の材料として

まず、クローラを使った分析を行うことでSEOの対策ができると考えられます。
クローラと人間の区別はUserAgentで行いますが、
特定のUserAgentだけを追えば、
SEOの対象として、どのページが対象になっているのか、
どこのページが見られていないのか、
というのを分析することができます。

例えば、

Google Japan Blog: Google モバイル検索についてのウェブマスター向け情報

こちらによると、Googleでは、
Googlebot-Mobileといった文字列を含んだUAでロボットが巡回しているそうです。

検索エンジン上に表示して欲しいページに対して、
このUAで巡回がされないと、永遠に反映されることはありません。
robot.txtというテキストを設置することで、
ロボットの動作はある程度コントロールできるので、
その上で、あまりにも検索結果に反映されないようであれば、
UAがきちんとアクセスしてるか確認してみてはいかがでしょうか。

計測対象から明確に外す

また、クローラの種類は日々増え続けています。

最近気がついたのは例えば、Mediapartners-GoogleというUserAgentを持つクローラ。
これは、

SEOコラム > 第9回 Mediapartners-GoogleはGooglebotの役割を持っている? - Su-Jine

こちらによるとAdsenseを掲載したサイトを巡回しているようです。
こうした新しいクローラをちゃんと把握することが大切です。

一方で、クローラを分析した上で、あえて計測対象から外すことも重要です。
特にPV課金でのソリューションの場合、
クローラのUAや場合によっては、IPを指定することで明確に除外設計を実施しましょう。