Die Geschichte der Internet-Suche (2024)

Inhaltsverzeichnis

Wer heute wissen will, wann der Spiegel das erste Mal über die Klimakatastrophe berichtete, hat es einfach. Er geht auf die Website, sucht ein bisschen herum und wird schnell fündig. In der Nummer 52 des Jahres 1949 wird die Theorie des CO₂-Ausstoßes von Svante Arrhenius vorgestellt, wonach der Treibhauseffekt – das Wort gab es damals noch nicht – die Welt unbewohnbar machen könnte. Wer den Namen des schwedischen Nobelpreisträgers nicht kennt, ruft die Wikipedia auf und informiert sich. Und wer es noch gründlicher haben will, hangelt sich über die Fußnote zum Originalartikel von Arrhenius über die Erderwärmung, der als PDF-Datei verfügbar ist.

Die kleine Recherche hätte man vor 2008 nicht durchführen können, denn das komplette Archiv aller Spiegel-Artikel gibt es erst seit diesem Jahr als Online-Version. Davor hätte man auf den CD-ROMs stöbern müssen, die der Verlag seit 1993 als "platzsparendes Archiv" im Angebot hat, oder gar das Archiv selbst mit einer kostenpflichtigen Recherche beauftragen müssen.

Das Beispiel soll zeigen, wie zeitbezogen jede Suche ist. Als das Internet Anfang der 90er-Jahre durch einen Beschluss der National Science Foundation zur Kommerzialisierung freigegeben wurde, war der Bedarf an Suchsystemen groß. Jeder war in dieser Zeit ein "Content User" und ein "Content Provider". Es ist kein Zufall, dass das erfolgreichste Internet-Buch jener Zeit, Ed Krols "The Whole Internet" sich neben der Erklärung von E-Mail und Telnet hauptsächlich mit Suchsystemen wie Archie, WAIS und Gopher beschäftigte.

Die letzten 100 Seiten des Buches bestand aus einem Katalog zum Nachschlagen ausgewählter Themen von A wie Astronautics bis Z wie Zymurgy, worunter Anlaufstellen für Informationen zum Brauen von Bier im Netz gesammelt wurden. Schon in der nächsten Auflage des Buches war dieser Katalog so rasant gewachsen, dass sich der Verlag O’Reilly dazu entschloss, das Link- und Adressenverzeichnis im August 1993 als "Global Network Navigator" (GNN) auf einen Webserver zu stellen. Es war eines der ersten Adressenverzeichnisse.

Von Archie …

Einen anderen Weg schlugen Peter Deutsch und Alan Emgate an der kanadischen McGill University ein. Sie arbeiteten als Teilzeitadministratoren, wurden aber laufend mit Fragen der Internet-Nutzer belästigt, wo diese oder jene Datei zu finden war. Von den Anfragen entnervt, schrieben sie ein Programm: einen Crawler, der regelmäßig FTP-Archive abklapperte und dort nach neuen Dateien suchte. Diese wurden in einer Datenbank archiviert, die von einem Serverprogramm durchsucht wurde. Beim Wort Archive wurde das "v" entfernt und Archie war geboren.

Peter Deutsch wollte seinem Kollegen Alan ein Essen spendieren, wenn mehr als 30 Anfragen pro Tag von Archie beantwortet wurden. Am Ende des ersten Jahres hatten sie 63 Archie-Server beisammen, die über 100.000 Suchanfragen pro Tag beantworteten. 1992 gründeten sie Bunyip Information Systems, um den "Archie Explorer" zu vermarkten, was gegen das aufkommende World Wide Web etwas schwierig war. Aber die Firma existiert noch heute.

… bis WAIS

Dow Jones war ein klassischer Datenbankbetreiber, der in den USA die Artikel von mehr als 500 Tageszeitungen und Magazinen mithilfe der Software DowQuest indexierte und verschlagwortete. Wer aktuelle Informationen über eine Firma suchte, kam an Dow Jones nicht vorbei.

WAIS sollte diese Informationen aus der Superdatenbank lokal über die Supercomputer von Thinking Machines im US-amerikanischen ISDN verfügbar machen, so die ursprüngliche Idee des Projektleiters Brewster Kahle. Dieser Ansatz scheiterte, weil die Telefongesellschaften, allen voran AT&T, in dem Plan keine Gewinnmöglichkeiten sahen. So stellten Kahle und seine Crew WAIS auf IP um und veröffentlichten die Serversoftware im April 1991 als Freeware.

Enthusiastische Nutzer programmierten Frontends für WAIS-Ressourcen. Bekanntheit erlangte WAIS als Informationsmaschine, als sowohl Bill Clinton wie sein Gegner Ross Perot im Wahlkampf 1992 WAIS zum Sammeln aller möglicher Wählerdaten nutzten. Der internationale Durchbruch kam, als Genetiker beschlossen, ihre Gen-Datenbanken auf WAIS-Servern zu hosten. In ähnlicher Manier gelang dem World Wide Web der Durchbruch als Informationsplattform der Teilchenphysiker. Doch der Versuch, WAIS zu kommerzialisieren, scheiterte auf ganzer Linie. Das lag auch daran, dass sich die Supercomputer von Thinking Machines nicht verkauften. Im Mai 1995 kaufte America Online (AOL) die Rechte an WAIS auf.

In den USA gab es eine zeitweilig sehr populäre Comicreihe um eine Teeny-Rockband namens "The Archies". Die Sängerin der Band war Veronica, der Drummer hieß Jughead. Niemanden wunderte es in den USA, warum auf die rudimentäre Dateisuche von Archie ein Angebot namens Veronica entstand, das großen Zuspruch erfuhr. Das war eine Suchmaschine, die 1992 an der Universität von Nevada von Steven Foster und Fred Barrie geschrieben wurde. Veronica durchsuchte nicht mehr die FTP-Archive, sondern das Verzeichnis der FTP-Archive, die über das Gopher-Protokoll verfügbar waren. Noch einen Tacken schneller war Jughead, das 1993 von Rhett Jones an der Universität von Utah entwickelt wurde. Das Suchprogramm konnte parallel mehrere Gopher-Server abfragen.

Gelehriges Erdhörnchen

Gopher war der heimliche Suchstar des frühen Internet. Es wurde 1991 an der Universität von Minnesota unter der Leitung von Mark McCahill entwickelt und war eigentlich eine komplette Protokollsuite zur Präsentation von Textdateien auf zeichenorientierten Terminals. Die Entwicklung von Gopher war eine Reaktion auf den Bedarf eines einfachen, campusweiten Informationssystems an den US-Universitäten, das eine Hierarchie von Texten abbilden, aber auch FTP-Archive als Fundstellen verzeichnen kann.

Das kleine Erdhörnchen (Gopher), das Maskottchen der Universität Minnesota, wühlte Anfang der 90er-Jahre an vielen Universitäten, entsprechend ausgedehnt war der Gopherspace, den andere Suchsysteme wie Veronica und Jughead ausnutzten. 1993 entschloss sich die Universität, für die kommerzielle Nutzung von Gopher happige Gebühren zu verlangen, während das gerade entstehende World Wide Web mit seinen Verzeichnissen kostenlos war. Heute wird der Gopherspace nur noch von eingefleischten Enthusiasten am Leben gehalten. Bei der Berliner Tageszeitung taz zum Beispiel kann man noch sehen, wie Gopher funktioniert.

Gopher wurde ein Opfer des World Wide Web, das mehr konnte, als nur Texte anzuzeigen. Das Web besaß allerdings zunächst keine eigene Suchmaschine, sondern nur eine "Virtual Library", die der WWW-Erfinder Tim Berners-Lee nach eigenem Gutdünken befüllte, wenn er Zeit hatte. Eine Kopie dieses allerersten Kataloges ist heute noch online verfügbar.

Von handverlesenen Webverzeichnissen …

Die nächste Stufe in der Entwicklung der WWW-Kartografie war WWWW, der World Wide Web Wanderer, der im Juni 1993 erschien. Der MIT-Student Matthew Gray wollte wissen, wie viele Webseiten es eigentlich weltweit gibt und schrieb ein kleines Perl-Skript. Der so programmierte Bot legte einen Index an, der Wandex genannt und am MIT zur Suche genutzt wurde. Er hätte das Potenzial für eine Suchmaschine gehabt, doch Gray war nur an der Zahl der Webseiten interessiert. Später ging er zu Google, wo er zehn Jahre lang an der Entwicklung der Suchmaschine arbeitete.

Die erste richtige Suchmaschine war der W3Catalog von Oscar Nierstrasz, der an der Universität Genf eine erste beeindruckende Sammlung von Webseiten angelegt hatte und diese fortlaufend ausbaute. Der W3Catalog war das von Nierstrasz programmierte Web-Frontend zu dieser Sammlung. Das Gegenstück entwickelte der Niederländer Martijn Koster im November 1993, als er Aliweb ankündigte, ausgeschrieben "Archie Like Indexing for the Web".

Aliweb bestand aus einem Bot, der als "Crawler" das Web durchforstete und neue Webseiten in einem Index aufnahm, wobei Koster sie verschlagwortete. Da Aliweb einiges an Netzlast erzeugte, schlug Koster den "Robots Exclusion Standard" vor: In der Datei robots.txt können Webseiten-Betreiber seither festlegen, was Webcrawler und andere Bots wie der Wanderer dürfen.

… zu ersten Crawlern

Die Jumpstation, die der Engländer Jonathan Fletcher an der Universität Stirling in Schottland im Dezember 1993 entwickelte, war die erste Suchmaschine im heutigen Sinne. Fletcher fasste die drei Komponenten Crawlen, Indexieren und Suchen zusammen. Er versuchte, seine Idee zu kommerzialisieren, scheiterte aber am Widerstand der Universität. Als die Jumpstation Ende 1994 abgeschaltet werden musste, enthielt das Verzeichnis 275.000 Einträge von 1500 Servern. Fletcher durfte sich im Nachhinein immerhin mit dem Titel "Vater der Suchmaschinen" schmücken.

Im Januar 1994 erschien ein handverlesenes Verzeichnis interessanter Webseiten unter dem Namen Yahoo!, angepriesen als "Jerry and David’s Guide to the World Wide Web". Jerry Yang und David Filo pflegten ihren Katalog nicht nur mit Hingabe, sondern hatten auch Glück mit der Vermarktung. Auf Yahoo! Directory folgte 1995 Yahoo! Search als Suchmaschine, die Yahoo! zur beliebtesten Webseite der 90er-Jahre machte. Im einsetzenden Dotcom-Boom gelang der Börsengang im April 1996 und machte Yang und Filo zu den ersten Internet-Multimillionären. In rascher Folge entstanden weitere kommerzielle Suchmaschinen und Kataloge wie Looksmart, HotBot oder Lycos.

Erwähnenswert ist noch der Start von Altavista im Dezember 1995, einer experimentellen Suchmaschine mit der Abfrage in natürlicher Sprache anstelle der booleschen Verknüpfung mit "und" und "oder". Anfang 1996 erhielt Robin Li das erste US-Patent für Rankdex, einem Indexierungsalgorithmus, der die Ausgabe der Suchergebnisse nach einer Rangliste sortierte. Li entwickelte später die populäre chinesische Suchmaschine Baidu. Auf der Basis von Rankdex begannen Larry Page und Sergej Brin im März 1996 mit der Arbeit an Google. Der Rest ist Geschichte.

Zur Geschichte gehört auch, dass es Suchmaschinen für Internet-Dienste gab, die heute nahezu vergessen sind. So gab es ungemein viele Nutzerforen im Internet, die unter dem Namen Usenet zusammengefasst wurden. Diese News-Kommentare zu hunderten von Themen tauchten auf Newsservern auf, die die jeweiligen Themen abonniert hatten und verschwanden nach einiger Zeit wieder.

Im Jahre 1995 tauchte im Web Deja News auf, eine von Steve Madere entwickelte Suchmaschine, die sich auf die News-Beiträge im Usenet spezialisiert hatte und sie mit Online-Werbung kombinierte. Der Erfolg war enorm, denn erstmals konnte man in den Archiven der Newsgruppen gezielt nach Beiträgen suchen. Er währte aber nicht lange, denn das Interesse, in einer Newsgroup zu diskutieren, brach ab 1998 ein; das bunte, blinkende und unterhaltsamere Web obsiegte.

Aus Deja News wurde Deja.com und das Angebot war nun ein Preisvergleichsportal. Schließlich kaufte Google die gesammelten Archive auf und machte sie als Google Groups wieder verfügbar. Die Suche in diesen Gruppen funktioniert sporadisch; etliche Beiträge europäischer Netznutzer sind auch gelöscht worden, denn Google muss das "Recht auf Vergessen" wahrnehmen, wenn sich jemand seiner jugendlichen Kommentare schämt. Doch mitunter macht es Spaß, in alten Diskussionen zu blättern, etwa als in deutschen Newsgroups der "Dümmste Anzunehmende Journalist" gesucht wurde.

Von Datenbanken …

Vor Archie, WAIS, Gopher und dem WWW gab es noch andere Suchmöglichkeiten nach Informationen: Die Datenbanken, die etwa der Dow Jones Retrieval Service mit DowQuest aufbaute oder die der Recherchedienst LexisNexis extrahierte, entstanden seit Anfang der 70er-Jahre, als die Vernetzung mit dem Arpanet noch in den Kinderschuhen steckte.

In Deutschland starteten 1975 Angebote wie German Business Information, Genios und DIMDI mit ihren Datenbanken. Im Prinzip konnte man in solchen Systemen sehr vieles finden, wenn man sich über ein Terminal einwählen konnte. Das üppige Angebot reichte von Patentdatenbanken (mit Abstand die teuersten Datenbanken) über Firmen- und Börseninformationen sowie medizinischen und chemischen Informationssystemen bis hin zu indexierten Zeitungsartikeln.

Die Realität setzte jedoch enge Grenzen, weil kein einheitlicher Standard beim Aufbau dieser Datenbestände existierte, keinerlei Übereinstimmung der Schlüsselwörter, mit denen gesucht werden konnte, und absolut kein Standard bei den Suchoptionen. Das Resultat war, dass einzelne Suchläufe eine Menge Datenmüll lieferten oder aber wenige, nicht aussagekräftige Informationen – und das meistens zu einem happigen Preis.

Wollte man zudem Volltextinformationen beziehen, so musste man wissen, welcher Anbieter sie führte und wer nur indexierte Stichworte zu einem Patent oder einem Zeitungsartikel in der Datenbank hatte. Wer dieses umfangreiche Detailwissen nicht aufbauen konnte oder wollte, war auf sogenannte Informationsbroker angewiesen. Das waren Fachleute, die über den Zugriff auf mehrere Anbieter verfügten und vor allem die Abfragesprache der einzelnen Systeme beherrschten.

Einem Informationsbroker konnte man den Auftrag geben, in zehn Datenbanken nach der Beteiligungsstruktur einer Firma zu suchen. In der Regel machte er dann Vorschläge zu den Datenbanken, zusammen mit einem Kostenvoranschlag für die Suche. Bei erteiltem Auftrag kamen die Ergebnisse als Datei per Mail oder ausgedruckt, ergänzt mit einer Zusammenfassung, wie man weiter vorgehen kann.

… zu CD-ROMs

In einem IT-Rückblick der Suchstrategien darf eine Sonderform der Suche nicht fehlen: Mit dem Erscheinen der CD-ROM als Datenträger wurden lokale Suchen möglich. Die erste CD dieser Art war das Microsoft Bookshelf, das im Jahre 1987 erschien und eine Reihe höchst unterschiedlicher Datenbanken für Autoren enthielt, vom American Heritage Dictionary bis zum ZIP Code Directory des US-amerikanischen Dictionary.

Insgesamt konnten unter DOS direkt in der Textverarbeitung zwölf Datenbanken über ein speicherresidentes Programm aufgerufen werden. Der "fingertip access to some of the best writing tools" sollte jedem "not-too-well-known journalist" helfen, zu einem "star writer" aufzusteigen.

Nützlicher waren da schon die CD-ROMs, die ab 1988 von US-amerikanischen IT-Verlagen produziert wurden, etwa die Computer Library von Ziff Davis oder die Computerworld on CD von IDG. Ach ja, die c’t-ROM gibt es ja auch immer noch – nicht nur als DVD, sondern auch als USB-Stick.

Mit diesen Sammlungen von indexierten oder auch Artikeln im Volltext konnte und kann man schnelle Suchläufe durchführen, etwa mit der Frage, wie viele Explorer-Programme es in den 80er-Jahren am Markt gab (75). Doch das ist wirklich eine ganz andere Geschichte.

c’t Retro 27/2021

Die c’t Retro 2021 liefert Lesestoff für lange Winterabende. Wir zeichnen den Weg der Notebooks vom schweren Ungetüm zum superschlanken Allrounder auf und beleuchten die Anfänge des Internet. Nostalgiker erfahren, wie sie alte Hardware wieder flott kriegen, und Fans alter Spiele, wie sich Klassiker auf aktuelle PCs transferieren lassen. Für die sagenumwobene Enigma haben wir eine Programmieranleitung in Python erstellt. Die c't-Retro-Ausgabe finden Sie ab dem 18. Oktober im Heise-Shop und am gut sortierten Zeitschriftenkiosk.

(jo)