Bots, Bots, Bots

Vor ziemlich genau zwei Monaten habe ich eine Webseite veröffentlicht, welche bis heute nur eine Startseite bietet. Alle weiteren Seiten sind nur über einen Login oder über einen Code erreichbar. Da sich die Webseite momentan noch in der Entwicklung befindet, bekomme ich bei 500 Error eine eMail geschickt um entsprechend reagieren zu können. Die meisten Fehler werden derzeit von Bots verursacht, die die Seite versuchen zu spidern und dabei immer wieder URLs aufrufen die nicht existieren bzw. die auch noch nie existiert haben. Es sieht so aus als würden die Bots raten. Nachfolgend ein kleiner Ausschnitt:

Error 404, 500, etc. automatisch finden

Gerade bei größeren Webseiten, mit unterschiedlichen Plugins und Erweiterung, kann es vorkommen das einzelne Seiten nicht aufrufbar sind. Die Gründe dafür sind noch vielfälter als die zur Verfügung stehenden Status-Codes. In den Google Webmaster Sitemap Tools befindet sich unter der Kategorie Crawling Fehler folgende Einteilung:

  • Nicht gefunden
  • Nicht aufgerufene URLs
  • URLs durch “robots.txt” eingeschränkt
  • Zeitüberschreitung beim Aufrufen von URLs.

Typo3 X UA Compatible Meta

Mit der Veröffentlichung vom Internet Explorer 9 und der automatischen Installation auf Windows 7 Systemen, stellt man womöglich fest, das die eigene Homepage anders aussieht bzw. JavaScript nicht mehr wie gewünscht funktioniert. Je nach Größe der Seite und Umfang des anzupassenden Codes, besteht die Notwendigkeit einer Übergangslösung, bis der Code entsprechend angepasst wurde.