Webサイトには検索エンジンのクローラー以外にも、スクレイパーやスパムボット、監視ボットなどさまざまなボットがアクセスします。robots.txtを使用して不要なボットをブロックすることで、サーバー負荷の軽減やコンテンツの無断転載防止に貢献できます。このツールでは、既知の悪意あるボットのUser-agent名をリストから選択できます。
ただし、robots.txtはあくまで「お願い」のレベルであり、ルールを遵守しないボットも存在します。robots.txtでブロックしたからといって完全な対策とはならないため、必要に応じてサーバー側の.htaccessやファイアウォールでIPアドレス単位のブロックを併用することが推奨されます。robots.txtは第一段階の緩い制御と割り切って使いましょう。
よくある誤りとして、robots.txtにアクセス認証情報を記述してしまうケースがあります。robots.txtは誰でもアクセス可能な公開ファイルであるため、管理ページのURLをDisallowルールに記述することは、逆にそのページの存在を知らせる結果になりかねません。本当に隠したいコンテンツは、robots.txtに頼らずサーバー側の認証で保護すべきです。