クローラーとは

 2019.07.08  LeadPlus

クローラーとは、Googleなどのロボット型検索エンジンがウェブ上を自動で巡回し、ファイル全般を回収・登録していくプログラムのことです。「ロボット」「スパイダー」などとも呼ばれています。
クローラーが集めてきたHTML文書、画像、PDFなどといったファイルのデータはインデックス化され、全文型検索エンジンの検索データベースが作成されます。ユーザーが検索したいキーワードを入力すると、検索データベースを基に検索結果を表示する仕組みです。

このような検索サービスを、ロボット型検索サービスといいます。Googleがウェブ上の情報を収集するために持っているクローラーは、複数あります。ウェブ検索には「Googlebot」を、画像検索には「Googlebot-Image」を、モバイル検索には「Googlebot-Mobile」などと、用途別にさまざまなクローラーを使っているのです。
なお、Yahoo!がGoogleの検索エンジンを使用していることもあり、日本の検索エンジンの圧倒的シェアを占めているのはGoogleです。日本国内向けのコンテンツに関しては、Googleのクローラーについて対策を打っておけば基本的に問題ありません。

クローラーはウェブページに存在するリンクを辿り、ページの構造やキーワードなどの情報を常に収集しています。ウェブページの検索順位を上げるには、クローラーにウェブページを巡回してもらい、インデックスを増やしていくことが重要です。そのためには、クローラーがウェブサイトを巡回しやすくする対策「クローラビリティ」が必要になります。クローラーは全てのウェブページを巡回できるわけではないので、公開したページをすぐにクロールするとも限らないからです。コンテンツの量が増えれば増えるほど、クローラビリティを改善する必要性も増していくことになります。

まずは、Google Search Consoleなどからクローラーの回数やインデックスカバレッジを確認します。ウェブサイトの規模の割に、クロールされた回数やインデックスの数があまりに少ないと感じる場合は、ウェブサイトに問題があってクローラーが巡回しにくいということです。外部のウェブサイトからのリンクを作る、Google Search Consoleからサイトマップを送信する、新しく作成したウェブページに内部リンクを貼る、パンくずリストを作成するなど、クローラーがウェブページを巡回しやすくなるような対策をします。

検索結果に表示させたくないウェブページ内のコンテンツを、クロールされないようにする対策も求められます。具体的な方法としてはrobots.txtなどで指示したり、複数のURLで同じコンテンツが生成される際、どのURLをインデックスにしてほしいかを指定したりすることなどです。
クローラーの仕組みを理解して上記の対策を行うことは、検索順位を上げることに不可欠だといえます。