apacheのログ整理 その後

一日ほど様子を見て、httpsdのログを確認したところ、bot_logファイルが作成され、指定したGooglebotのログはそちらにきちんと振り分けられていました。
また、Googlebot-Moblileのログもそちらに振り分けられていたので、どうやらUser-AgentでGooglebotを指定すれば、Googlebot*を指定したのと同じになるらしいことも分かりました。

というわけで、その他のボット(クローラー)も適宜振り分けすることにし、現在のCustomLog設定はこのようになりました。

#
# Original Log Management
#
SetEnvIf Remote_Addr “192.168.2.” own_log no_log
SetEnvIf Request_URI “\.(gif)|(GIF)|(jpg)|(JPG)|(png)|(PNG)|(cgi)$” own_log no_log
SetEnvIf user-agent “internal dummy connection” own_log no_log
SetEnvIf User-Agent “Googlebot” bot_log no_log
SetEnvIf User-Agent “bingbot” bot_log no_log
SetEnvIf User-Agent “Exabot” bot_log no_log
SetEnvIf User-Agent “Yeti” bot_log no_log
CustomLog /var/log/httpsd/access_log combined env=!no_log
CustomLog /var/log/httpsd/bot_log combined env=bot_log

GooglebotはGoogleの、bingbotはMicrosoftの、Exabotは・・・Yetiは・・・えーっと、どこだったっけな・・・。
ま、まぁとにかくいわゆるボット(クローラー)のログは振り分けることができた、ということです。

これでaccess_logがずいぶんとみやすくなりました。また、容量的にもずいぶんと少なくなり、コレまでの半分くらいのサイズに収まりそうです。
ちなみにこれまでaccess_logは現在のaccess_log+bot_logの合計サイズだけあったわけですが、現在のaccess_logがこれの半分ということは、要するにこれまでのaccess_logのほぼ半分をボット(クローラー)からのアクセスが占めていたということですね・・・。なんだかなぁ。

ま、access_logが見やすくなったことで今まで以上にスパムアクセスを発見しやすくなったし(手作業ということには変わらないのですが)、やってよかったという操作の典型なのかも知れませんね(^-^)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)