> Über neue Veröffentlichungen informieren wir Sie regelmäßig in unserem
Newsletter.
|
 |
Zusammenfassung |
|
| |
Eine Möglichkeit, die Nutzung der eigenen Website bzw. der angebotenen Webseiten auszuwerten
ist die Logfile Analyse. Dies kann sowohl durch kommerzielle Software als auch durch eigene
Auswertung der Logfiles geschehen.
Der folgende Text erläutert, welche statistischen Informationen
in den Logfiles enthalten sind. Er zeigt weiterhin, dass gebräuchliche Werte wie "Page Views",
"Page Impressions" bzw "Seitenaufrufe" einerseits und "User Sessions" bzw. "Seitenbesucher"
andererseits keine eindeutigen Größen darstellen, sondern vielmehr aus der eigentlichen
Datengrundlage abgeleitete Werte sind, die mit entsprechender Vorsicht zu bewerten sind.
Die Schlussfolgerung lautet, dass mit der Logfile Analyse recht brauchbare Aussagen über die
Nutzung einer Website gemacht werden können, die ermittelten Werte aber in der Regel nicht
ohne weiteres mit den Werten anderer Websites verglichen werden können.
|
|
| |
 |
Einführung |
|
| |
Die naheliegendste Grundlage der statistischen Auswertung der Nutzung einer Website bilden die
sogenannte Logfiles (wörtlich: Protokolldateien) des Servers, auf dem die Website gehostet ist.
Ähnlich einem Logbuch verzeichnet hier der Server alle Zugriffe auf das Verzeichnis, in dem sich
Ihre Webseiten befinden: Wenn ein Internetbenutzer eine Seite Ihrer Webpräsentation aufruft, so
ist das für den Server nichts weiter als der Aufruf einer bestimmten Datei -im Falle der
Startseite beispielsweise meistens die Datei index.html- und diesen Vorgang vermerkt der Server in
seinem Logfile.
Daneben kann der Server aber üblicherweise noch diverse andere, z.T. sehr aufschlussreiche
Informationen zur Nutzung der Website speichern. Welche Werte gespeichert werden und ob sie
überhaupt gespeichert werden hängt allerdings von den Einstellungen und Möglichkeiten des
Webservers ab.
Wenn Sie die Nutzung Ihrer Site irgendwann einmal auswerten möchten, sollten Sie daher am besten
bereits bei der Wahl des Providers darauf achten, dass dieser Ihnen die Server Logfiles zur
Verfügung stellt und möglichst viele relevante Werte mitloggt.
Neben dieser Methode, der sogenannten Logfile-Analyse besteht die Möglichkeit gänzlich
individuelle Daten aus der Website heraus zu erheben. Diese Methoden sind in der Regel aufwändiger
und teurer, da sie nicht auf den Logfiles des Servers basieren, können aber dafür gezielter das
Verhalten der Benutzer aufgrund des jeweiligen Erkenntnisinteresses dokumentieren.
|
|
| |
 |
Die Datengrundlage: Server Hits |
|
| |
Server-Logfiles sind nicht gerade das, was man sich als abendliche Bettlektüre wünscht, eher das
genaue Gegenteil. In aller Regel handelt es sich um unübersichtliche, kommagetrennte Textdateien,
die auch im hartleibigsten Wordverweigerer den Wunsch nach Formatvorlagen und Steuerzeichen
wachrufen. An dieser Stelle soll daher bereits erwähnt werden, dass es normalerweise nicht
erfoderlich ist, diese Textwüsten selbst zu lesen. Es gibt zum Glück jede Menge Tools, die diese
Dateien auswerten. Trotzdem ist ein gewisses Grundverständnis dessen, was Freund Server da so
tagtäglich mitschreibt essentiell für das Verständnis der wichtigsten Größen, die zur Bewertung
der Websitenutzung genutzt werden können. Nicht zuletzt deshalb, weil alle Standardtools zur
Auswertung von Websitestatistiken auf die vom Server mitgeschriebenen Daten angewiesen sind. Wie
im Folgenden gezeigt wird, sind diese Daten aber erheblich interpretationsbedürftig und nicht
immer legen die Hersteller der Auswertungssoftware offen, nach welchen Regeln Ihr Programm die
Logfiles auswertet.
Die Grundeinheit der Logfiles ist der "Aufruf" oder "Hit". Er bezeichnet nichts weiter als die
Tatsache, dass ein Internetnutzer eine beliebige Datei vom Server angefordert hat. Zu jedem Hit
notiert der Server in seiner Log Datei ergänzende Daten, wie Datum und Uhrzeit des Aufrufes,
IP-Adresse des Aufrufenden und möglicherweise noch den benutzten Browser (falls dieser sich zu
erkennen gibt).
Auszug aus einem Server-Logfile (IIS5, gekürzt)
2002-09-04 213.148.136.68 - 62.112.130.65 80 /index.asp -
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0) -
2002-09-04 213.148.136.68 - 62.112.130.65 80 /resources/global.css - Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0)
Erläuterung:
- 2002-09-04: Das Datum des Dateiaufrufs
- 213.148.136.68: Die IP-Adresse des aufrufenden Rechners
- 62.112.130.65: Die IP-Adresse des aufgerufenen Rechners (www.keyseven.de)
- 80: Der Server-Port
- /index.asp bzw. /resources/global.css : Die aufgerufene Datei (unsere Startseite bzw. die
zugehörige Stylesheet Datei))
- Mozilla/4.0+(...): Angaben zum Browser und OS des Besuchers ( Internet Explorer 6, Windows
2000)
Vor dem Server sind alle Dateien gleich: D.h. nicht nur die eigentlichen Webseitendateien wie die
bereits erwähnte index.html (in diesem Fall: index.asp, Hinweis zu Dateitypen vgl.
unten) erzeugen einen Logfile Eintrag sondern auch jede andere dort abgelegte
Datei, die aufgerufen wird. Also auch jede Bilddatei, wie das Logo der Webseite, eine (Word, PDF
oder Excel-) Datei, die Sie zum Download anbieten, externe Stylesheetdateien, externe
JavaScriptdateien und so manches andere mehr. Wenn in Ihre Startseite 10 Grafiken eingebaut sind,
so führt alleine der Aufrufs dieser Datei bereits zu 11 Hits auf Ihrem Server. Der Aufruf einer
einzelnen normalen HTML Webseite kann also ein Vielfaches an Hits erzeugen. Insofern sind die Hits
nur sehr begrenzt als Kenngröße für die Nutzung einer Website verwendbar und was besonders wichtig
ist: Die Hits sind völlig untauglich als Vergleichswert zwischen verschiedenen Websites, da sie
sehr stark vom jeweiligen Aufbau der Site abhängen.
Beispiel:
Die Startseite der Webseite A ist eine HTML Datei, die nur Text enthält, also keine Bilder,
Stylesheets oder externe Javascripts. Ruft ein Internetnutzer diese Seite auf, so erzeugt sein
Besuch genau einen Eintrag in den Server Log File, also genau einen Hit.
Website B arbeitet mit einem Frameset, der das Browserfenster in neun Bereiche unterteilt, in die
jeweils eine HTML Datei geladen wird. Die Hauptinhaltsseite enthält 5 Grafiken und eine externe
Stylesheetdatei. Die anderen 8 Dateien enthalten jeweils eine Grafikdatei, die in der
Zusammenschau im Browser den optischen Rahmen um die Hauptinhaltsseite bilden. Ein
Webseitenbesucher der die Startseite aufruft generiert also 24 Hits (1X Framedatei, 9 X
Inhaltsdateien, 13 Grafikdateien und 1 X Stylesheetdatei) im Logfile des Servers
Vergleichen nun die beiden Websitebetreiber die Hits, so sieht es aus, als wäre Website B um den
Faktor 24 mehr besucht worden als Website A, obwohl in beiden Fällen nur ein Internetbenutzer eine
Seite der Internetpräsentation betrachtet hat.
|
|
| |
 |
Page Views, Page Impressions oder Seitenaufrufe |
|
| |
Möchten Sie eine Aussage über die quantitative Nutzung Ihrer Website oder einzelner Seiten
treffen, so werden Sie an "Page Views", "Page Impressions" oder auch "Seitenaufrufen" interessiert
sein. Diese drei Begriffe (und es gibt noch einige mehr) bezeichnen alle das gleiche: Die Anzahl
der von Benutzern tatsächlich aufgerufenen Webseiten Ihres Internetauftritts (wobei der Begriff
Webseite hier aus der Nutzersicht zu verstehen ist, also das, was im Browser auf einmal angezeigt
wird).
Diese Größe läßt sich relativ simpel aus der Datengrundlage (den Logfiles) extrapolieren. Da jedem
Hit die aufgerufene Datei zugeordnet ist, können Sie diese Daten nach Dateitypen der aufgerufenen
Dateien filtern.
Die Dateitypen unterscheiden sich durch die Dateierweiterung (File Extension), also schlicht der
Endung. Je nach den auf Ihrem Webserver eingesetzeten Technologien können dies unterschiedliche
Typen sein. Die gängigsten Dateitypen für Webdateien sind .htm, .html, .shtml, .asp, .jsp, und
.php. Wenn Sie also Ihre Logfiles hinsichtlich dieser Dateitypen filtern, erhalten Sie einen recht
guten Anhaltspunkt darüber, wieviele und welche Ihrer Webseiten aufgerufen wurden.
Was Vergleichbarkeit bzw. Aussagekraft der Page Views angeht, so ist wiederum zu beachten, dass
die Verwendung von Framesets auch diesen Wert verfälscht. Was im Beispiel oben beschrieben wurde
gilt natürlich auch hier: Eine Framesetdatei, die 9 (Web-) Dateien aufruft, generiert bereits beim
einmaligen Seitenaufruf 10 Page Views (= 9 aufgerufene Webdateien + 1 da die frameerzeugende Datei
selbst auch eine Webdatei ist). Um einen vergleichbaren Wert zu erhalten, muß die ermittelte
Anzahl Page Views in diesem Beispiel also noch durch 10 dividiert werden.
|
|
| |
 |
User Sessions, Visits oder Besuche |
|
| |
Page Views werden also aus den Hits unter Einbeziehung der Dateitypen der aufgerufenen Dateien
ermittelt. Analog dazu werden "User Sessions", "Visits" oder "Besuche" ermittelt. Diese Größe soll
Auskunft darüber geben, wieviele unterschiedliche Benutzer Ihre Seiten aufgesucht haben. Dies wird
aus der Kombination Hits und den zugehörigen IP-Adresse hergeleitet. Wie eingangs erwähnt,
vermerkt der Server in den Logfiles diese eindeutige Adresse, die jeder Internetbenutzer während
seiner Online-Aktivitäten hat. Sortiert man also die Einträge in den Logfiles nach den Ips der
aufrufenden Clients, so erhält man die Anzahl der Sessions, Vistits bzw. Benutzer, die die
Webseiten besucht haben.
Aber auch dieser Wert sollte wiederum nur als Näherungswert verstanden werden. Zum einen ist die
IP eines Rechners tatsächlich nur solange verlässlich eindeutig, wie dieser Benutzer mit dem
Internet verbunden ist. Neben Rechnern (meist Webservern oder Clientrechnern, die über ein festes
Netzwerk mit dem Internet verbunden sind), die eine feste IP besitzen, sind auch viele
Clientrechner mit dem Internet verbunden, die lediglich eine temporäre IP haben. Dies gilt bspw.
für alle Clientrechner, die sich per Einwahlverfahren (dial-in) mit dem Internet verbinden. Solche
Rechner wählen sich über ein Modem ein (egal ob analog, ISDN oder per DSL) und erhalten bei jeder
Verbindung dynamisch eine IP aus dem Netz des Anbieters zugewiesen. Wird die Verbindung beendet,
so steht die IP wieder zur Verfügung und wird bei Bedarf einem anderen Rechner zugewiesen, der sich beim
gleichen Anbieter einwählt. Im Ergebnis können sich hinter ein und derselben IP somit durchaus
unterschiedliche Benutzer verbergen (mal ganz abgesehen von Benutzern, die Ihre IP Adresse bewußt
verschleiern und meist nichts Gutes im Sinn haben, wenn Sie vorwiegend nachts Ihre Seiten
besuchen). Zum anderen können natürlich vom gleichen Rechner aus ganz unterschiedliche Personen
Ihre Seiten besuchen. Das ist sicher der Fall bei Rechnern, die in Internetcafes betrieben werden,
aber auch in Firmen mit sensiblen Daten ist es durchaus üblich, dass die normalen Workstations der
Mitarbeiter komplett vom Internet gekapselt sind und statt dessen gemeinsam genutzte Internet PCs
zur Verfügung stehen.
Während letztere Fehlerquelle anhand der Logfiles alleine praktisch nicht zu eliminieren ist, kann
man für den ersten Fall den Fehler doch zumindest minimieren, indem man zusätzlich den Faktor Zeit
berücksichtigt. Eine übliche Vorgehensweise ist es, die Seitenaufrufe, die über eine IP innerhalb
eines bestimmten Zeitfensters erfolgen, zu einem Besuch zusammenzufassen, wobei das Zeitfenster
bei jedem erneuten Aufruf über diese IP wieder auf den Ausgangswert zurückgesetzt wird. Das
bedeutet: Taucht die IP zum ersten Mal in den Logfiles auf, so werden alle weiteren Aufrufe dieser
Session zugeordnet und zwar so lange, bis eine bestimmte Zeit an Inaktivtät den Schluss nahe legt,
dass der Benutzer die Seite verlassen hat. In der Regel würde man dafür etwa 30 Minuten ansetzen.
Je kleiner dieses Zeitfenster gewählt wird, umso größer ist die Gefahr einen Besucher doppelt zu
zählen. Je größer das Zeitfenster gewählt wird, umso wahrscheinlich wird die Möglichkeit zwei oder
mehr verschiedene Benutzer zu einer Session zusammenzufassen.
Beispiele:
Benutzer A ruft Ihre Startseite auf und tut dann nichts mehr. Nach 29 Minuten ruft er eine
Unterseite auf und wartet erneut 29 Minuten, bis er eine weitere Seite aufruft. Nach der
beschriebenen Regel, würden diese Aufrufe korrekt zu einer User Session zusammengefasst werden.
Ist Benutzer A jedoch über eine Einwahlverbindung online, trennt diese nach dem ersten Aufruf und
verbindet sich später erneut, um die nächste Seite anzusurfen, so wird er eine neue IP haben und
daher als zwei Benutzer gewertet.
Benutzer B verhält sich genau wie Benutzer A, lässt jedoch jeweils 31 Minuten verstreichen. Jeder
Seitenaufruf wird dann als eigene User Session gewertet.
Torsten Blatt
|
|
| |
| |