Wichitge Informationen zu Suchmaschinen
Die Datenquelle
Ein anderes Merkmal zur Kategorisierung ist die Quelle aus der die von der Suchmaschine erfassten Daten stammen.
Meistens beschreibt bereits der Name der Suchmaschinenart die Quelle.
• Einige Suchmaschinen erfassen Dokumente aus dem World Wide Web
• Andere Suchmaschinen betrachten einen ausgewählten Bereich des World Wide Web und erfassen nur Webdokumente zu einem bestimmten Thema wie Fußball, Gesundheit oder Recht.
• Usernet-Suchmaschinen Beiträge aus dem weltweit verteilten Diskussionsmedium Usernet.
• Intranetsuchmaschinen beschränken sich auf die Rechner des Intranets einer Firma.
• Als Desktop-Suchmaschinen werden Programme bezeichnet, die den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen spricht man von einem Katalog oder Verzeichnis.
In solchen Verzeichnissen wie dem Open Directory Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert.
Die heutzutage wichtigste Gruppe sind indexbasierte Suchmaschinen.
Dieselesen passende Dokumente ein und legen einen Index an.
Dabei handelt es sich um eine Datenstruktur. die bei einer späteren Suchanfrage
verwendet wird.
Nachteil ist die aufwendige Pflege und Speicherung des Indexes.
Vorteil ist hierbei die Beschleunigung des Suchvorgangs.
Häufigste Ausprägung dieser Struktur ist ein invertierter Index.
Suchmaschinen senden Suchanfragen parallel an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse.
Als Vorteil ergeben sich die größere Datenmenge sowie die einfachere Implementierung da kein Index vorgehalten werden muss.
Nachteil ist die relativ lange Dauer der Anfragebearbeitung.
Außerdem ist das Ranking durch reine Mehrheitsfindung von fragwürdig ein Wert. Die Qualität der Ergebnisse wird unter Umständen auf die Qualität der schlechtesten befragten Suchmaschine reduziert.
Metasuchmaschinen sind vor allein bei selten vorkommenden Suchbegriffen sinnvoll.
Ein relativ neuer Ansatz sind föderierte Suchmaschinen.
Dabei wird eine Suchanfrage an eine Vielzahl von einzelnen Computern weitergeleitet die jeweils eine eigene Suchmaschine betreiben, und die Ergebnisse zusammengeführt.
Vorteil ist die hohe Ausfallsicherheit aufgrund der Dezentralisierung und je nach Sichtweise die fehlende Möglichkeit, zentral zu zensieren.
Schwierig zu losen ist allerdings das Ranking, also die Sortierung der grundsätzlich passenden Dokumente nach ihrer Bedeutsamkeit für die Anfrage.
Die Auslegung der Eingabe
Die Suchanfrage eines Nutzers wird vor der eigentlichen Suche interpretiert und in eine für den intern verwendeten Such - Algorithmus verständliche Form gebracht.
Dies dient dazu die Syntax der Anfrage möglichst einfach zu halten und dennoch komplexe Anfragen zu erlauben.
Viele Suchmaschinen unterstützen die logische Verknüpfung von verschiedenen Suchworten durch Boolesche Operatoren.
Dadurch lassen sich Webseiten finden, die bestimmte Begriffe enthalten, andere jedoch nicht.
Eine neuere Entwicklung ist die Fähigkeit von etlichen Suchmaschinen eingerechnet vorhandene Informationen aus einem Zusammenhang der Suchanfrage selbst zu erschließen und zusätzlich auszuwerten.
Die bei unvollständigen Suchanfragen typischerweise vorhandenen Mehrdeutigkeiten der Suchanfrage können so reduziert, und die Bedeutsamkeit der Suchergebnisse erhöht werden.
Aus den Gemeinsamkeiten der eingegebenen Suchbegriffe wird auf eine oder mehrere hinterlegende Bedeutungen der Anfrage geschlossen.
Die Ergebnismenge wird so um Treffer auf semantisch verwandte, in der Anfrage jedoch nicht explizit eingegebene Suchbegriffe erweitert.
Dies führt in der Regel nicht nur zu einer quantitativen sondern vor allein bei unvollständigen Anfragen und nicht optimal gewählten Suchbegriffen auch zu einer qualitativen Verbesserung der Ergebnisse.
Unsichtbar mitgegebene Informationen (Ortsangaben oder andere Informationen) oder erschlossene Bedeutungsvorlieben aus der gespeicherten Suchgeschichte des Benutzers sind weitere Beispiele für nicht ausdrücklich in den eingegebenen
Suchbegriffen vorgegebene, von etlichen Suchmaschinen zur
Modifikation und Verbesserung der Ergebnisse verwendete Informationen.
Es gibt daneben auch Suchmaschinen die nur mit streng formalisierten Abfragesprachen abgefragt werden können, dadurch in der Regel jedoch auch sehr komplexe Anfragen sehr genau beantworten können.
Eine bislang noch nur ansatzweise oder auf beschränkte Informationsgrundlagen realisierbare Fähigkeit von Suchmaschinen ist die Fähigkeit zur Bearbeitung natürlichsprachiger sowie unscharfer Suchanfragen.