Vor ziemlich genau zwei Monaten habe ich eine Webseite veröffentlicht, welche bis heute nur eine Startseite bietet. Alle weiteren Seiten sind nur über einen Login oder über einen Code erreichbar. Da sich die Webseite momentan noch in der Entwicklung befindet, bekomme ich bei 500 Error eine eMail geschickt um entsprechend reagieren zu können. Die meisten Fehler werden derzeit von Bots verursacht, die die Seite versuchen zu spidern und dabei immer wieder URLs aufrufen die nicht existieren bzw. die auch noch nie existiert haben. Es sieht so aus als würden die Bots raten. Nachfolgend ein kleiner Ausschnitt:

[PHP]
‘HTTP_FROM’ => ‘googlebot(at)googlebot.com’,
‘HTTP_USER_AGENT’ => ‘Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)’,

Fehler-URL: http://www.example.com/a
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/en/IRL/spider)’,

Fehler-URL: http://www.example.com/js/+
[/PHP]

[PHP]
‘HTTP_FROM’ => ‘bingbot(at)microsoft.com’,
‘HTTP_USER_AGENT’ => ‘Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)’,

Fehler-URL: http://www.example.com/events/
Fehler-URL: http://www.example.com/news/
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)’,
‘HTTP_FROM’ => ‘support@search.yandex.ru’,

Fehler-URL: http://www.example.com/example/example-logo-new-small.jpg
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘Mozilla/3.0 (compatible; Indy Library)’,

Fehler-URL: http://www.example.com/manager/html
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4325; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30707; MS-RTC LM 8)’,

Fehler-URL: http://www.example.com/groups/
[/PHP]