Status quo zur Indexqualität von Websuchen

Das heutige Interview habe ich mit Prof. Dr. Dirk Lewandowski geführt, zum Thema Indexqualität in Web-Suchmaschinen. Herr Lewandowski ist Dozent an der HAW, Fachbereich Design, Medien und Information . Er beschäftigt sich intensiv mit den Fragestellungen rund um die Qualität, die Messbarkeit und die Unterschiede der Web-Indizees. Über diese Themen hat er schon zahlreiche Fachpublikationen und Fachbücher veröffentlicht.

Wir arbeiten im Rahmen von Semesterprojekten und studentischen Arbeiten seit 2006 regelmäßig zusammen. Darüber hinaus wurde auch mein Artikel zur Universal Search in dem von ihm herausgegebenen Buch Handbuch Internet-Suchmaschinen veröffentlicht.

Mehr als in Contentportalen trifft bei einer Web-Suche die Aussage „content is king“. Die Qualität der Suchergebnisse, also das Ausmaß der inhaltlichen Übereinstimmung der angezeigten Ergebnisse zur Suchintension des Nutzers, wirkt sich bedeutend auf die positive Wahrnehmung einer Suche als Produkt aus. Unrelevante Suchresultate werden nicht so schnell von den Usern verziehen.

Insbesondere Google, Yahho/bing mit ihren eigenen Indizees zeigen Unterschiede in der Qualität der Ergebnisausspielung und sind fleißig am Optimieren und Testen.

SQ: Welche Messverfahren bezüglich Indexqualität in Suchmaschinen gibt es, Dirk (DL)?

DL: Bei der Bewertung von Suchmaschinen-Indexen geht es vor allem um die Frage der Abdeckung des Web und die Aktualität des Datenbestands.

Es ist sehr schwierig, die Abdeckung zu messen, denn wir wissen ja erst mal gar nicht, wie groß das Web eigentlich ist. Dazu kommt, dass Suchmaschinen gar nicht alle Dokumente indexieren sollen. Wenn wir nur mal an die ganzen Spam-Dokumente denken, dann können wir doch froh sein, dass die Suchmaschinen diese schon während der Indexierung ausschließen. Oder es zumindest versuchen. Und dann gibt es noch die ganzen durch Social Software automatisch generierten Seiten, die ja größtenteils nicht viel mehr als Dubletten sind.

Insofern ist es eigentlich sinnlos, überhaupt über Indexgrößen zu sprechen bzw. diese zu vergleichen. Die Suchmaschinenbetreiber haben es ja glücklicherweise schon vor längerer Zeit aufgegeben, mit ihren Indexgrößen anzugeben.

Aber man kann natürlich versuchen, die Abdeckung eines Sets von bekannten Seiten zu prüfen oder mittels statistischer Verfahren eine Auswahl von Dokumenten zu treffen, die dann bei unterschiedlichen Suchmaschinen abgefragt wird. Das halte ich dann auch für die geeignetste Methode und es gibt auch ein paar Studien, die eine solche Methodik angewandt haben. Leider sind diese aber inzwischen ziemlich veraltet. Wäre mal eine Herausforderung, so eine Studie auf ordentlicher Datenbasis zu wiederholen…

Ein weiterer Bereich ist die Aktualität der Datenbestände. Auch die ist ja für einen guten Index wichtig. Verlässlich messen kann man die Aktualität, indem man eine Stichprobe von Seiten bildet und dann jeweils die aktuellen Versionen dieser Seiten mit den von den Suchmaschinen gespeicherten Kopien im Cache vergleicht.

SQ: Welche aktuellen Qualitätsunterschiede gibt es bei Google, Bing und Yahoo bezüglich ihrer Indexe?

DL: Es ist schwer, dazu eine Aussage zu machen, da leider keine aktuelle, echte Index-Untersuchung vorliegt. Aber man sieht bei den drei genannten Suchmaschinen schon sehr schön, dass ihre Datenbestände zwar unterschiedlich groß sein mögen, der jeweilige Datenbestand für die allermeisten Anfragen aber mehr als ausreichend ist. Es ist ja auch fast schon paradox, dass wir Suchmaschinen immer nach ihren Indexen vergleichen wollen. Dabei wäre doch das Ergebnis eines größeren Index in den allermeisten Fällen einfach eine noch längere Trefferliste. Und die wollen wir dann ja auch wieder nicht.

Sinnvoll ist ein möglichst großer Index aber in den Fällen, wo nach Begriffen gesucht wird, zu denen es nur sehr wenig Dokumente gibt. Da kann man dann schon gut sehen, wie sich die drei Suchmaschinen unterscheiden. Und interessant ist, dass man nicht sagen kann, dass Google in allen Fällen mehr Dokumente findet als die anderen beiden.

Das gilt auch für andere Suchmaschinen: Die Indexe unterscheiden sich deutlich, und auch eine Suchmaschine, die sonst nicht so toll ist, hat in manchen Fällen dann doch ein Dokument indexiert, das die anderen nicht kennen.

Um noch mal auf die Aktualität zu sprechen zu kommen: Hier haben wir in den vergangenen Jahren ein paar Untersuchungen gemacht, bei denen rausgekommen ist, dass alle Suchmaschinen Probleme haben, ihre Indexe aktuell zu halten. Oft dauert es auch oft ein paar Tage, bis ein Dokument in den Index kommt, nachdem der Crawler die Seite besucht hat.

SQ: Welche Optimierungsmöglichkeiten gäbe es für die einzelnen Indexe? Wie sähe – deiner Meinung nach – der „ideale“ Index aus?

DL: Man kann die Indexe natürlich immer in die beiden Richtungen Umfang und Aktualität optimieren. Der ideale Index würde einerseits alles abdecken und andererseits top-aktuell sein. Also so eine Art „Complete-Web-Real-Time-Index“.

Da liegt aber meiner Meinung nach gar nicht das Hauptproblem der Suchmaschinen. Das liegt eher bei der Relevanzbewertung und der Benutzerführung in der Ergebnispräsentation. Aber beides wird natürlich durch einen optimalen Index erleichtert.

Bei Umfang und Aktualität muss man immer die Frage stellen, inwieweit sich das ganze auch finanziell lohnt. Das heißt: An welcher Stelle ist der Index „gut genug“? Natürlich ist es immer schön, wenn der Index besonders groß ist, ab einem gewissen Punkt muss man aber damit rechnen, dass die dann noch hinzukommenden Dokumente – nun ja, nicht gerade mehr die Perlen des Internets sind. Und die Frage ist dann, ob man sich nicht die Qualität seiner Ergebnisse versaut, nur weil man den Index vergrößern wollte.

Bei der Aktualität ist es ähnlich: Crawlen kostet Geld, und je häufiger ich eine URL abfrage, desto mehr kostet mich das ganze. Also muss man auch hier abwägen, wann es gut genug ist.

Aktualität wird aber auch durch spezielle Indexe gestützt wie zum Beispiel den Nachrichtenindex, den Blog-Index und seit kurzem ja auch den Real-Time-Index. Wenn man die Ergebnisse aus diesen Datenbeständen mit in die normale Suche einbaut, dann kann man die Aktualität schon wesentlich verbessern.

SQ: In den von mir betreuten Usability-Tets habe ich die Erfahrung gemacht, dass die Probanten immer wieder darauf verweisen, dass die Ergebnisse oftmals nicht zur Suchanfrage passen. Also inhaltlich. Die Frustration steigt mit zunehmender fehlender Übereinstimmung der Ergebnisse zur Suchanfrage.

SQ: Welchen Einfluss auf die Wahrnehmung des Produktes hat die Indexqualität für den Nutzer?

DL: Na ja, die Nutzer interessiert ja in erster Linie, was rauskommt, das heißt, welche Ergebnisse sie zu sehen bekommen auf den ersten Plätzen der Trefferliste. Dafür ist ein guter Index natürlich wichtig, wir sehen aber in den letzten Jahren immer mehr die Tendenz, zumindest bei allen halbwegs populären Suchanfragen die Trefferliste zu mischen mit Ergebnissen aus unterschiedlichen Datenbeständen. Insofern nimmt die Bedeutung des Web-Index für die Wahrnehmung der Qualität einer Suchmaschine ab. Und da die Nutzer in der Regel sowieso nur eine einzige Suchmaschine verwenden, haben sie ja keinen Vergleich. Außerdem spielt die Indexqualität immer stark mit der Qualität der Suchergebnisse (also mit der Qualität des Rankings einer Suchmaschine) zusammen, so dass einem Laien ja eine getrennte Beurteilung dieser beiden Komponenten gar nicht möglich ist.

Man bemerkt eine schlechte Qualität des Index aber schnell, wenn man nach aktuellen Inhalten sucht und die Suchmaschine nur altes Zeug präsentiert. Das ist dann so eine typische Situation, in der auch Nutzer ohne große Ansprüche merken, dass die Suchergebnisse nicht immer die bestmöglichen sind.

SQ: Die User haben auf jeden Fall eine Suchmaschine, die sie hauptsächlich verwenden und das ist Google. Je nach Erfahrungsstand benutzen einige für bestimmte Fragestellungen eine weitere Web-Suchmaschine, oder sogar direkt eine Spezialsuchmaschine, wie z. B. Personensuchmaschinen, Bildersuchmaschinen oder Suchen für Webclips.  Das zeigen nicht nur Statistiken zur Marktverteilung, sondern auch unsere Umfragen.

SQ: Vielen Dank für das interessante Interview! Dirk, ich wünsche Dir für Deine Zukunft und weitere Forschungen alles Gute und weiterhin viel Erfolg.

Siehe auch:

2 Trackbacks / Pingbacks

  1. Tweets that mention Indexqualität Websuchen « Sonja Quirmbach -- Topsy.com
  2. „Die Suche steht am Anfang – wir befinden uns quasi 15 Jahre nach Erfindung des Buchdrucks“ | Online Marketing Mix

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: