Web Logging

Jeder, der ein Webangebot bereitstellt, möchte sich über den Erfolg seiner Seiten ein klares Bild machen können. Dazu sind folgende drei Schritte notwendig.

  1. Daten sind zu messen.
  2. Daten sind zu verdichten.
  3. Daten sind zu interpretieren.

Es reicht nicht aus, einfach nur die Zugriffe zu zählen. Ein Zugriff ist nicht nur der Aufruf einer Seite, sondern auch jede Anforderung zur Übertragung einer Datei. Also gilt jede geladene Grafik auf einer HTML Seite ebenfalls als Zugriff.

Die erfassten Daten werden meist nicht nur in eine Datei geschrieben, sondern in ein ganzes Set von Dateien. Beispiele für solche Einträge sind die Access, Referer und Agent Logs. Der Access Log erfaßt die IP Adresse des Nutzers, den Server, den Namen des Anwenders (wenn authentifiziert), das Datum, die Uhrzeit, den HTTP-Befehl mit den angeforderten Dateien, Protokoll-Version, den Status und die Übertragungszeit.

In dem Referer Log finden sich Informationen, die darüber Auskunft geben, von wo sich der Nutzer in die Seite eingeloggt hat. Das Referer Log unterscheidet zwischen externen und internen Referenzen. Dadurch lässt sich feststellen, wie der Nutzer auf die eigene Seite gekommen ist, also z. B., ob er durch das direkte Eintippen der Adresse in den Web Browser oder durch einen Link auf einer anderen Seite auf das Web Angebot zugegriffen hat. Das direkte Eintippen der Adresse in den Web Browser stellt eine externe Referenz dar. Ruft der Nutzer eine HTML Seite über einen Link auf dem eigenen Web Server auf, ist dies eine interne Referenz.

In der Agent Log findet man Informationen über den Browsertyp, das Betriebssystem und über die Version des Browser.

Diese Daten können unter anderem zur Fehleranalyse genutzt werden, denn für eine gründliche Fehleranalyse kann es unter Umständen wichtig sein, den verwendeten Browser sowie das Betriebssystem zu kennen. Ebenfalls ermöglichen es diese Daten zu testen, wie sich der Server in Stoßzeiten verhält, und sie erleichtern es, darüber zu entscheiden, ob ein Server technisch erweitert werden muss. Aus der Sicht des Administrators sind die HTTP Status Meldungen interessant. Diese Meldungen enthalten Nummern, die sich Fehlern zuordnen lassen.

Diese großen Mengen an Daten müssen verdichtet werden, um sinnvolle Aussagen machen zu können. Am Einfachsten ist es festzustellen, wer, wann, womit und wie jemand etwas genutzt hat. Allein durch die Untersuchung der Hits und der Zeit können schon interessante Rückschlüsse gezogen werden. Es kann z. B. festgestellt werden, ob ein Angebot überwiegend von Privat- oder Geschäftspersonen genutzt wird. Die Frage nach dem "wer" ist wichtig, um den Inhalt an das Nutzungsverhalten anzupassen. Es kann davon ausgegangen werden, dass die meisten privaten Nutzer überwiegend abends auf ein Angebot zugreifen. Die meisten der größeren geschäftlichen Nutzer haben eine Standleitung mit einem zentralen Router, der über eine IP verfügt, die wiederum mit einem einfachen DNS Lookup in eine Domäne umgewandelt werden kann. So lassen sich die Daten anreichern. Es ist allerdings zu beachten, dass alle Mitarbeiter in dem Unternehmen die gleiche IP Adresse haben. Kleinere Unternehmen und Privatleute, die sich über eine Wählleitung ins Internet einwählen, hinterlassen einen Eintrag wie "dial045.provider.net".

Durch den Vergleich zwischen der Access Log (IP Adresse) und der Referer Log (Zeit) lassen sich Rückschlüsse über die Verweildauer des Nutzers ziehen. Die Verweildauer läßt Rückschlüsse auf die Qualität des Angebots zu. Bei einer durchschnittlich kurzen Verweildauer kann man davon ausgehen, dass der Nutzer nicht das findet, was er sucht. Eine Volltextsuche kann unter Umständen Abhilfe schaffen. Es ist auch darauf zu achten, dass sich die Hits möglichst gleichmäßig auf das Angebot verteilen. Denn es kann nicht im Interesse des Anbieters sein, wenn 90% der Nutzer auf ein einziges HTML Dokument zugreifen.