検索ロボットクローラ（IT用語）

2024年8月9日 2024年10月18日

検索ロボットクローラ
- 検索ロボットクローラとは
- 検索ロボットクローラの動き
会話で学ぼ
- 基礎知識編
SNSで発信
あとがき

検索ロボットクローラ

検索ロボットクローラとは

公開サイトを自動的に巡回し、文書や画像などのデータを収集するシステム

※目的に応じて、「収集するサイトの範囲」や「データの種類」「巡回頻度」などは異なるよ

検索ロボットクローラの動き

①WebサイトのURLをリストにする

②そのリストに従ってWebサイトを訪れる

③Webサイトに到達すると、そのページのHTMLコードを読み込み、データを取得

④ページに含まれる他のWebサイトへのリンクがあれば、そのリンク先のURLをリストに追加

このようにして、Webサイトを芋づる式に巡回していきます。

CHATGPT4参照

会話で学ぼ

基礎知識編

【検索ロボットクローラ】って何？

インターネット上のウェブページを
自動的に巡回して
情報を収集するプログラムのことだよ。

どうやって動くの？

例えば、
Googleの検索エンジンは、
クローラを使ってウェブページを見つけ、その内容をデータベースに保存しているよ。

クローラはリンクをたどって次々にページを訪問し、
新しい情報や更新された情報を収集するよ。

なるほど、それで検索結果が最新の情報になるんだね。
クローラはどんな情報を集めるの？

クローラは、　
「ページのタイトル」「本文」「画像」「リンク」など、
さまざまな情報を集めるよ。

検索エンジンはその情報をもとに、
ユーザーが検索したときに関連性の高い結果を表示できるようにしているんだ。

それは便利だね！
クローラが訪問するページはどうやって決まるの？

クローラは、
検索エンジンのアルゴリズムに基づいて
訪問するページを決めているよ。

例えば、
「新しいページ」「更新されたページ」
「他のページから多くリンクされているページ」などが
優先的に巡回されることが多いんだ。

SNSで発信

X（元Twitter）

【見えないロボット】サイト公開のとき「検索の表示に反映されるには、遅いと半年くらいかかるョ」って言われたけど、3ヶ月で来てくれた！ロボットが見えたわけじゃないョ（笑）デジナンIT用語【検索ロボットクローラ】公開サイトを自動的に巡回し、文書や画像などのデータを収集するシステムのこと。 pic.twitter.com/Z6XN521uA9
— ばそら@もに隊長プロジェクト (@baabaandsora) December 13, 2023