sysiphus.de: Logfiles

Logfiles - Informationen vom Baumstamm

Mit Logfiles kann der Provider Benutzerprofile erstellen.

Serversoftware ist normalerweise einfach ein Programm, das im Hintergrund auf einem Rechner läuft. Dadurch wird dieser Rechner zu einem "Server" - ein Rechner, der nach außen hin "Services" (Dienste) anbietet. Um die Arbeit der Serversoftware kontrollieren und auswerten zu können, schreibt diese in eine Datei brav mit, was sie gemacht und was sie an Fehlern bemerkt hat.

Auf die Logfiles haben normalerweise nur die technischen Betreuer (Administratoren) eines Servers Zugriff, bei "gemieteten" Servern auch der Kunde. Als einfacher Benutzer eines Onlinedienstes wie T-Online oder AOL hat man normalerweise keinen Zugriff auf die Logfiles des Webservers, ebenso kann man als "anonymer Surfer" nicht einfach fremde Logfiles einsehen, da diese mit Passwort und Benutzernamen in einem geheimen Verzeichnis auf dem Server außer Reichweite liegen.

Was in einem Logfile steht, ist eine Sache des jeweiligen Servers. Hier gibt es als Beispiel einfach eine einzelne Zeile aus dem Logfile eines Webservers:

`192.168.1.52 - - [25/Jan/1999:17:12:08 +0100] "GET /grafix/logo.gif HTTP/1.0" 200 2820 "http://www.sysiphus.de/intro.html" "Mozilla/4.07 (Macintosh; I; PPC, Nav)"`
Diese eine Zeile wird von Marketingexperten auch als "Hit" bezeichnet. Ein Hit bedeutet aber alles andere als "ein vollständiger Seitenabruf" (pageview) oder gar "ein Besucher" (visitor) - derartige Daten kann man nur aufwendig aus den etwas dürftigen Daten des Logfiles heraussuchen, errechnen und zu einem guten Teil auch einfach schätzen. Egal, was ihnen Ihre Webserver-Analysesoftware vormacht. Aufgeschlüsselt besteht die eine Zeile aus verschiedeneb Werte:
192.168.1.52	die IP-Adresse des anfragenden Rechners
-	Authentifizierter Benutzername
[25/Jan/1999:17:12:08 +0100]	Die Uhrzeit im GMT-Format.
"GET /grafix/logo.gif HTTP/1.0"	Der Befehl des Browsers
200	Ergebnismeldung des Webservers
2820	Traffic des Objekts
"http://www.sysiphus.de/intro.html"	Referenz
"Mozilla/4.07 (Macintosh; I; PPC, Nav)"	Browserkennung

IP-Adresse

192.168.1.52

Die IP-Adresse ist die technische Adresse des Rechners, der diese Information ausgelöst hat. Im einfachsten Fall ist dies der Rechner, an dem der Browser dieses Seite oder diese Datei haben wollte. Fragt man einen Nameserver (DNS) nach dieser Zahlenkombination, so kann dieser einem darauf einen "Hostnamen" wie z.B. powerbook.ista.infra.de heraussuchen und man weiss, daß die Anfrage aus dem Netzwerk "ista.infra.de" bzw. "infra.de" kam.
Darüber kann man herausfinden, über welchen Provider die Seite bezogen wurde. Wenn man einen Webcache oder Proxy benutzt, steht hier die IP-Adresse des Proxies. Die IP-Adresse braucht der Webserver, damit er weiss, an welchen Rechner er überhaupt die Daten zurückzuschicken hat.

Benutzername

-

Der "authentifizierte Benutzername" steht da, wenn man sich als Benutzer mit Passwort anmelden muß. In den meisten Fällen ist dieses Feld leer. Üblicherweise wird die Benutzerauthentifizierung genutzt, um einen Serverbereich nur bestimmten Personen zugänglich zu machen. In so einem Fall steht dann an dieser Stelle der Benutzername, der zur Anmeldung am Server nötig ist.

Uhrzeit

[25/Jan/1999:17:12:08 +0100]

Die Uhrzeit ist als "Greenwich Mean Time" angegeben, die Angabe "+0100" muß man noch dazuaddieren, um auf die lokale Uhrzeit zu kommen.

Browser-Befehl

"GET /grafix/logo.gif HTTP/1.0"

Der vollständige Browser-Befehl ist wichtig, um Fehler nachvollziehen zu können. "GET" bezeichnet hierbei das Anfordern einer Datei, "HEAD" das Anfordern von Informationen wie z.B. Änderungsdatum der Datei. Am Ende steht noch, nach welcher Version des HyperTextTransportProtocol der Befehl formuliert wurde. Mit der Information des Browserbefehls kann man auch herausfinden, welche Datei auf dem Webserver wie oft abgerufen wurde - man muß nur zählen, wie oft sie angefordert wurde.

Ergebnismeldung des Webservers

200

Einfach das Ergebnis des Befehls:

200er-Bereich	Es hat alles geklappt.
300er-Bereich	Der Webbrowser wurde auf eine andere Seite umgeleitet.
400er-Bereich	Der Browser hat einen Fehler gemacht.
500er-Bereich	Der Server hat einen eigenen Fehler bemerkt.

Einige der Codes sind recht bekannt, weil auch einfache Benutzer auf sie stossen können - 200 für "alles ok" oder 404 für "nicht gefunden". Eine vollständige Auflistung findet sich im RFC 1945.

Traffic des Objekts

2820

Hier steht einfach, wie viele Byte an Information übertragen wurden. Da Provider unter sich mit "Traffic" (Datenmenge pro Woche oder Monat) abrechnen, kann man anhand dieser Angabe herausfinden, ob ein bestimmter Teil eines Webangebotes besonders "kostenintensiv" ist.

Referenz

"http://www.sysiphus.de/intro.html"

Hier steht, von welcher Seite aus die Anfrage gestellt wurde. Bei HTML-Seiten ist das üblicherweise die Seite, die darauf einen Verweis hinterlegt hat, bei Grafiken oder anderen Elementen die Seite, von der aus das angeforderte Objekt angefordert wurde.

Das klingt recht harmlos, ist aber die Basis vieler Statistiksoftware und noch mehr überzogener Marketingaussagen und Befürchtungen halbinformierter Benutzer.

Mit der Referenzangabe kann man herausfinden, welchen Weg man innerhalb einer Website nimmt. Man sucht nacheinander alle Browserbefehle und Seitenanforderungen heraus, die innerhalb eines kurzen Zeitraums (z.B. 15 Minuten) von einer bestimmten IP-Adresse aus gesendet wurden. Die Reihenfolge gibt daraufhin an, welchen Pfad der Benutzer durch eine Website genommen hat.

Da eine IP-Adresse aber nicht viel sagt und z.B. nur auf einen Webcache führen kann, der als zentraler Proxy für einen großen Provider arbeitet, identifiziert das keine Benutzer und auch Fehldeutungen sind leicht möglich - was passiert, wenn zwei Leute mit einer IP-Adresse von t-online.de (mit einigen Millionen Kunden) fast zeitgleich von der selben Seite auf zwei verschiedene Seiten gehen? Solche Fälle kann keine Statistiksoftware erfassen.
Mit der Referenzangabe kann man auch herausfinden, von welcher fremden Website auf das eigene Angebot verwiesen wird - so entdeckt man z.B., daß man plötzlich in der "Link der Woche"-Liste der Website eines Fernsehsenders aufgetaucht ist. So kann man auch eine Statistik "35% aller Besucher kommen über eine Suchanfrage von AltaVista" schreiben lassen.
Mit der Information der Referenz bekommt z.B. ein Admin der Domain "abc.de" aber auch heraus, daß der Aufruf "kopier dir diese Bilder in dein eigenes Webverzeichnis und verlinke nicht einfach auf dieses Bild" nicht befolgt wurde, wenn im Log unter "Referenz" für diese Bilder etwas anderes als z.B. "http://www.abc.de/gallerie.html" steht.
Mit einem geeigneten Programm auf dem Server kann man auch eine Situation einrichten, bei der ein Benutzer z.B. die Seite "download.html" nicht zu sehen bekommt, wenn man nicht vorher die Seite "lizenzabkommen.html" bekommen hat.

Der Referenz-Eintrag ist eine Angabe, die der Webbrowser liefert, der Benutzer kann sie bei den üblichen Browsern nicht verhindern. Ein Gegenbeispiel ist der Browser iCab für den Macintosh - da kann die Referer-Angabe ausgeschaltet werden, ebenso kann bei der Browserkennung zwischen mehreren Varianten gewählt werden, um gegenüber dem Webserver als "bekannter" Browser zu erscheinen.

Browser-Kennung

"Mozilla/4.07 (Macintosh; I; PPC, Nav)"

Der Webbrowser identifiziert sich gegenüber dem Server mit einer "Client-Kennung", damit z.B. der Serveradministrator herausfinden kann, ob es nur mit bestimmten Webbrowsern ein bestimmtes Problem gibt. Diese Client-Kennung kann ein Produktname sein, eine Version beinhalten oder einfach sonst etwas, anhand dessen man den Browser identifizieren kann. Im Beispiel meldet sich ein Browser namens "Mozilla". Mozilla ist der Spitzname der Entwickler für den Netscape Navigator/Communicatior und bezeichnet einen feuerspeienden Drachen einer alten Geschichte (letzterer Link funktioniert nur im Netscape Navigator und dient gleichzeitig als abschreckendes Beispiel für schlecht geschriebenes HTML).
In diesem Beispiel ist der verwendete Browser Netscape Navigator 4.07 auf einem Apple Macintosh und es wird die erste Version der PPC (PowerPC)-Version verwendet.

Interessante Links

Requests for Comment 1945 ist die technische Beschreibung von HTTP/1.0
Netscape-Oldies ist das Archiv alter Versionen vom Netscape Navigator
Netcraft findet heraus, was für eine Serversoftware eine bestimmte Website verwendet.
Browserwatch gibt eine Übersicht über die Browserkennungen so ziemlich jeder WWW-Client-Software.

Anders Henke, 10.03.1999