yandex – BugBlog.de

Im August 2012 schrieb ich hier im Blog das erste Mal, über die EMails von Google bzgl. der Nicht-Erreichbarkeit des Blogs. Es folgten weitere Einträge, ohne das sich an der Erreichbarkeit etwas geändert hat. Selbst der Server wurde gewechselt, jedoch ohne eine Verbesserung.

Bei der Analyse der Apache Access-Logfiles sah ich, das auch die Suchmaschinen Bing, von Microsoft, und Yandex, aus Russland, meine Seite crawlten. Ich fragte mich, ob diese die selben Probleme haben wie der Googlebot und ob sie auch eine Webmaster Zentrale anbieten. Über Google fand ich die entsprechende Toolbox von Bing (http://www.bing.com/toolbox/webmaster) bzw. von Yandex (http://webmaster.yandex.ru/). Ich registrierte ein Konto und implementierte den entsprechenden Verifikations-Code in meinen Meta-Angaben.

Während Bing nichts auffälliges anzeigte, gab es bei Yandex gleich in zwei Fehler-Kategorien eine Häufung. Aufgrund der automatischen Übersetzung durch Google Translate kann der Fehlercode ggf. abweichen.

Ungültige Dokument Format

Mit der falschen Anzahl von Daten

Auffällig ist die Auflistung von nur PDF-Dateien. Also probierte ich es selbst einmal aus. Tatsächlich, irgendwas scheint mit der PDF Erweiterung nicht mehr zu funktionieren. Der Chrome-PDF-Viewer zeigt, dass das PDF vollständig geladen wäre, gleichzeitig dreht sich der Spinner im Tab. Wenn dieser nach einiger Zeit aufgehört hat sich zu drehen, ist kein PDF zu sehen.

Rückblickend kann ich mich auch nicht erinnern, wann es für die PDF Erweiterung das letzte Mal ein Update gegeben hat. Daher habe ich es jetzt mal deaktiviert und warte gespannt auf den nächsten Besuch vom Googlebot.

Vor ziemlich genau zwei Monaten habe ich eine Webseite veröffentlicht, welche bis heute nur eine Startseite bietet. Alle weiteren Seiten sind nur über einen Login oder über einen Code erreichbar. Da sich die Webseite momentan noch in der Entwicklung befindet, bekomme ich bei 500 Error eine eMail geschickt um entsprechend reagieren zu können. Die meisten Fehler werden derzeit von Bots verursacht, die die Seite versuchen zu spidern und dabei immer wieder URLs aufrufen die nicht existieren bzw. die auch noch nie existiert haben. Es sieht so aus als würden die Bots raten. Nachfolgend ein kleiner Ausschnitt:

[PHP]
‘HTTP_FROM’ => ‘googlebot(at)googlebot.com’,
‘HTTP_USER_AGENT’ => ‘Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)’,

Fehler-URL: http://www.example.com/a
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/en/IRL/spider)’,

Fehler-URL: http://www.example.com/js/+
[/PHP]

[PHP]
‘HTTP_FROM’ => ‘bingbot(at)microsoft.com’,
‘HTTP_USER_AGENT’ => ‘Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)’,

Fehler-URL: http://www.example.com/events/
Fehler-URL: http://www.example.com/news/
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)’,
‘HTTP_FROM’ => ‘support@search.yandex.ru’,

Fehler-URL: http://www.example.com/example/example-logo-new-small.jpg
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘Mozilla/3.0 (compatible; Indy Library)’,

Fehler-URL: http://www.example.com/manager/html
[/PHP]

[PHP]
‘HTTP_USER_AGENT’ => ‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4325; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30707; MS-RTC LM 8)’,

Fehler-URL: http://www.example.com/groups/
[/PHP]

Categories

Recent Comments

Tag: yandex

Google Webmaster vs. Yandex Webmaster

Bots, Bots, Bots