Wie ein Mathematiker aus New Jersey die größte Suchmaschine der Welt übertrumpfen will: Eine Reise ins Reich der Algorithmen. Aus: Die Zeit 41/2005. Von Heike Faller.
Apostolos Gerasoulis ist Mathematiker und eigentlich mit Problemen beschäftigt, auf deren Lösung die Welt noch warten kann. Doch neuerdings befällt ihn manchmal, abends, wenn er mit seiner Frau vor dem Fernseher sitzt, eine kleine Unruhe. Dann entschuldigt er sich für ein paar Minuten. Aber seine Frau weiß, dass es länger dauern wird, wenn er sich so spät in sein Wohnzimmer verzieht, wenn er im Schein seines Dell-Inspiron-Laptops sitzt, weil er dann nachsieht, was der Welt an diesem Tag durch den Kopf gegangen ist.
Apostolos Gerasoulis ist der Erfinder der viertgrößten amerikanischen Internet-Suchmaschine Ask Jeeves. Zehn Millionen Suchbegriffe werden jeden Tag dort eingegeben, das sind zehn Millionen Fragen und Wünsche, nach Nachrichten und Produkten, nach Diagnosen und Namen und natürlich nach nackten Frauen und Pornos und Strippern und Orgien und Pam-Anderson-Videos. Und auch nach dem Sinn des Lebens wird gefragt, nach Gott und dem Teufel, die aber beide sehr weit hinter Britney Spears zurückliegen, die sich als einzige Weltberühmtheit seit Jahren ganz oben hält und von deren Namen Apostolos Hunderte Schreibweisen gesehen hat.
In Shorts sitzt er vor seinem Computer. Ein Mann von 54 Jahren, mit einem kleinen Gewichtsproblem und Haarsträhnen, in seinem Wohnzimmer, in einem großen Haus unter alten Eichen, am Ende einer Sackgasse, in einem Vorort von New Jersey. Sein Sohn, er ist neun, fragt manchmal, ob man noch etwas Großes werden könne, wenn man schon als Kind alles hat. Vor zwei Jahren hat Apostolos die zweistöckige Villa mit dem Säulenportal über ein Holzhäuschen aus den dreißiger Jahren setzen lassen. Das Wohnzimmer ist ganz mit Mahagoni vertäfelt. Wenn er hier sitzt, blickt er auf einen alten Golfplatz, der in sanften Wellen an seiner Terrasse anschlägt. Um Mitternacht ist alles still. Er registriert die lautlose Kakophonie von Fragen, welche die Menschen seiner Maschine anvertrauen. Von oben ruft seine Frau, dass sie jetzt schlafen ginge.
Natürlich kann er sich nicht um jeden Einzelnen kümmern. Apostolos Gerasoulis ist Professor für Angewandte Mathematik, er glaubt, dass die Wahrheit in Zahlen liegt. Auf seinem Bildschirm häufen sich die Wörter zu einer Statistik, und die Statistik ergibt eine Geschichte des vergangenen Tages. An diesem Abend im August rangieren wie immer Irak und die USA in den obersten zehn der Länderliste, aber heute haben sich in dem großen Computerchor zwei neue Stimmen herausgebildet; die einen, allem Anschein nach Gegner des Irak-Kriegs, schreiben »Grieving Moms« und »Out of Iraq«, die andere Gruppe, offenkundig Kriegsbefürworter, fragt nach »Iraq despite deaths« und »Northern Offensive«. »Du siehst Trends, die sich vielleicht eines Tages auswirken«, sagt Apostolos. Das passiert häufig: Die späteren Gewinner von Talentshows im Fernsehen kann er oft vor der Entscheidung an der Zahl der Suchanfragen ablesen. Auch nach Kardinal Ratzinger wurde in den Tagen vor der Papstwahl häufiger gefragt als nach seinen Konkurrenten. Manchmal sieht er auch, wie die Aufregung in seine Statistiken schießt, »Tsunami« oder »New Orleans« oder das Mitgefühl, »Red Cross«, das nach dem Hurrikan in den USA viel häufiger erfragt wurde als nach dem Tsunami in Asien. »Gibt es eine Korrelation zwischen Distanz zum Ereignis und der Größe des Mitleids?«, fragt er sich. »Lässt sich aus diesen Zahlen extrapolieren, wie groß der seelische Schock war?«
Die Tage, an denen kein neues Wort auftaucht, sind selten. Dann nimmt der Alltag im Netz seinen Lauf, freitags Filmtipps, samstags Einkaufswünsche, sonntags Hausaufgaben. Truthahnrezepte kündigen die Zeit vor Thanksgiving an, bis das Wort »Turkey« wieder verschwindet und kurz vor Weihnachten noch mal auftaucht. Apostolos nennt es eine saisonabhängige Anfrage, wie auch die »Liebe« eine solche ist, jedes Jahr zum Valentinstag feiert sie ein kurzes Hoch, um danach steil abzustürzen. »Manchmal ist es, als ob ich die Gefühle der Welt spüre. Aber das ist auch ein Druck. Was wäre, wenn wir auf Anfragen wie Liebe oder Hurrikan einen falschen Rat geben würden?« Apostolos Gerasoulis glaubt, dass es auf alle Fragen richtige Antworten gibt.
Der Börsenwert von Google liegt über dem von DaimlerChrysler
Es geht um einen Hunger, der noch lange nicht gestillt ist. Genau wie Kinder haben die meisten Erwachsenen den Kopf voller Fragen, aber ohne jemanden an der Hand, der mehr weiß als sie, haben sie aufgehört, sie zu stellen, und gelernt, die Fragen zu verschieben. Bis Google kam, also die Möglichkeit, aus dieser riesigen Sammlung menschlichen Wissens eine Antwort zu bekommen, aus dieser Bibliothek von Babel, wie der argentinische Dichter Jorge Luis Borges sie sich erträumt hat, und die alles enthält, alle Buchstaben in jeder Kombination, allen Sinn und allen Unsinn in allen Sprachen. In Borges Erzählung werden die Menschen in der Bibliothek alt, ohne eine Antwort gefunden zu haben auf das, was sie umgetrieben hat.
Heute dauert es Sekundenbruchteile, bis eine Suchmaschine Tausende (mehr oder weniger passende) Texte apportiert hat auf die Frage, die Menschen durch den Kopf geschossen ist, und auf die Fragen, die sich daraus ergeben, dieses kindliche Vergnügen, immer weiterzufragen, den Verweisen zu folgen, bis man auf Abwege gerät und irgendwo in Absurdistan endet. Googeln so sehr ist dieses Verb schon Teil des Alltags geworden, dass es im vorigen Jahr in den Duden aufgenommen wurde. Und als Google im Mai eine Viertelstunde ausfiel, wegen Server-Problemen, berichteten darüber die Nachrichtenagenturen. Die Abhängigkeit von diesem Antwortlieferanten, den vor fünf Jahren kaum einer kannte, ist immens. Wenn Google ausfällt, dann ist es so, als wäre der Welt für eine Viertelstunde das Wasser abgedreht worden.
Welch ein Markt. Auf der einen Seite die menschliche Neugierde. Auf der anderen Seite das Internet. Dazwischen die Suchmaschinen, die immer genauere Antworten liefern wollen. Ask Jeeves ist das kleinste unter den großen Suchprogrammen, mit einem Marktanteil von etwa sechs Prozent in den USA und in Großbritannien. Seine Antworten haben die Treffsicherheit von Google erreicht; es heißt in der Branche, dass Ask Jeeves über die innovativste Technik verfüge. Vor ihm liegen Yahoo und Microsoft. Yahoo ist Anfang 2004 mit einem eigenen Suchprogramm auf den Markt gekommen, dann stieg Microsoft ein, und alle fürchten, dass der Monopolist die Massen über sein Betriebssystem in das eigene Suchprogramm MSN lenken könnte. Über allem schwebt Google, 300 Millionen Nutzer, zwei Milliarden Anfragen im Monat. Weltweit erledigt das Programm etwa die Hälfte aller Suchanfragen, in Deutschland sogar über 80 Prozent. »The big G«, sagt Apostolos. G wie Gott. Oder wie Goliath. Er ist David.
»Die Informationen dieser Welt zu organisieren und sie allgemein verfügbar und zugänglich zu machen«, das ist das Unternehmensziel von Google. Bessere Antworten zu liefern als Google, das ist der Ehrgeiz von Apostolos Gerasoulis. Er glaubt, dass er ihm Marktanteile abnehmen, vielleicht sogar seine Vorherrschaft kippen könnte.
Davon träumen alle. Man müsste nur eine Zauberformel finden, die bessere Antworten liefert. So wie Google eine gefunden hat, die all die anderen Suchprogramme alt aussehen ließ, Alta Vista und Excite und Fireball und wie sie alle heißen. Suchmaschinen, die auf der Strecke geblieben sind und die immer noch im Internet stehen, abseits der Datenströme, ausgeweidet um ihre besten Teile, wie Autowracks an einer Wüstenstraße.
Es könnte ganz schnell gehen, sagt Apostolos. »Alles, was man braucht, sind eine Menge Computer und extrem schnelle Netzverbindungen. Und die Formel. Nach der suchen im Moment ziemlich viele. Microsoft hat in den vergangenen zwei Jahren Hunderte Millionen Dollar ausgegeben, um in das Spiel einzusteigen. Und ich habe täglich eine Mail auf dem Schreibtisch, in der irgendwer behauptet, den besten Suchalgorithmus gefunden zu haben.«
Der amerikanische Branchenexperte Charles Ferguson schätzt, dass in diesem Markt in den nächsten Jahrzehnten insgesamt eine halbe Billion Dollar verdient werden können. Bald wird es nicht mehr nur um Internet-Seiten gehen, sondern um alles: Fernsehsendungen, Buchtexte, Datenbanken, Privates, Mitschnitte von Telefonaten.
Die Gewinne werden natürlich mit der Werbung erzielt. Wer die Aufmerksamkeit der ganzen Welt auf sich zieht, der kann ihr viel verkaufen. Bei den Suchmaschinen geschieht dies mit den so genannten Adwords, gekauften Wörtern, die in der rechten Spalte neben den Ergebnissen auftauchen oder auf den aufgerufenen Seiten erscheinen, passend zur Anfrage. Für die Werbebranche muss es ein Traum sein. Als würden die Leute auf der Straße nur noch Plakate zu dem Thema sehen, an das sie gerade denken. Die Werbeeinnahmen von Google sind bereits höher als die der New York Times. 2005 sind die Werbegelder, die im Internet ausgegeben wurden, um zwanzig Prozent gestiegen. Ask Jeeves hat im vorigen Jahr 261 Millionen Dollar Gewinn gemacht, Google drei Milliarden. Der Börsenwert von Google beträgt im Moment 80 Milliarden Dollar, mehr als der von DaimlerChrysler. Apostolos Gerasoulis sagt, er könnte aufhören zu arbeiten wenn es ihm nur ums Geld ginge. Aber jetzt geht es um die Welt. Er sei ein glücklicher Mann. Gerade noch haben sich ein paar hundert Leute für seine Algorithmen interessiert. Jetzt beeinflussen sie das Leben von Millionen.
Er war schlecht in der Schule, dann las er Dostojewskij
Ausgerechnet er. Ein Mathematiker. Mit dem Kopf immer woanders. »Abstraktion« ist sein Lieblingswort, das große Thema von Apostolos Gerasoulis. Wie er schon als kleiner Junge abhob in die Welt der Zahlen, weil ihm die echte Welt, ein armes Bergdorf in Griechenland, zu langweilig war. Der Sohn eines Eisenwarenhändlers, zunächst schlecht in der Schule, bis er als Jugendlicher in den Geschichten von Dostojewskij das Prinzip der Abstraktion entdeckte. Bester Matheschüler im Gymnasium, bester Mathestudent an allen Universitäten, erst in Griechenland, später in Amerika. Eigentlich ist er Professor für Angewandte Mathematik an der Rutgers University, der staatlichen Universität von New Jersey, Spezialist für Algorithmen. Algorithmen sind Ablaufpläne, die beschreiben wie man von A nach B kommt, das können Formeln sein oder Rezepte. In seinen Algorithmen ging es um Programme für Supercomputer. Ein paar hundert andere Wissenschaftler haben sie verstanden, und manchmal kam es ihm so vor, als könnten sie der Welt auch egal sein. Bis er im September 1998 seinen Studenten eine Aufgabe stellte: Wie lassen sich die Dokumente des Internet zu einem Thema in eine sinnvolle Reihe bringen?
Aus der Hausaufgabe wurde eine Formel, aus der ein Suchprogramm wurde, das den Gefallen eines Risikokapitalgebers fand. 1999 war das, und so entstand die Suchmaschine Teoma. 2001 wurde die Firma Apostolos, sein Vizepräsident Tao Yang, acht Mitarbeiter und ihr Suchprogramm für 4,5 Millionen von Ask Jeeves gekauft, benannt nach dem exzentrischen Butler aus den Geschichten von P. G. Wodehouse. Mittlerweile hat die Firma Büros in Japan, China, Italien, Spanien, England und Irland, zum Jahresende soll es auch eine deutschsprachige Suche geben. In diesem Sommer hat die Internet-Gruppe IAC die Firma Ask Jeeves für 2,3 Milliarden Dollar gekauft. IAC gehört Barry Diller, er gilt als Visionär, früher war er Chef von Paramount, später hat er mit Fox News einen vierten großen Fernsehsender in den USA etabliert. Mit 63 Jahren ist Diller Teil einer Medienrevolution, bei der nicht mehr nur die traditionellen Massenmedien eine Stimme haben, bei der die Grenze zwischen Autoren und Lesern verschwimmt. Im Internet kann jeder veröffentlichen, und jeder kann selbst entscheiden, was er liest. Zwischen Autor und Leser stehen nur die Suchprogramme, die einen entscheidenden Einfluss darauf haben, welchen Botschaften überhaupt Aufmerksamkeit geschenkt wird. »The geeks have taken over«, sagt Apostolos, die Streber beherrschen jetzt die Welt.
Er hat den Gesichtsausdruck eines Kindes, immer ein bisschen erstaunt, manchmal fast glücklich. Im Büro trägt er beigefarbene Hosen und verwaschene T-Shirts, auf denen das Logo seiner ersten Firma, Teoma, zu sehen ist. Wenn mittags ein Kaffeefleck dazukommt, bleibt er für den Rest des Tages zu sehen. Das ist der Dresscode der Geeks. Zuerst haben sie die Produktionsprozesse automatisiert, jetzt automatisieren sie die Verbreitung von Informationen. Früher hieß es: Welche Zeitung liest du? Die Antwort sagte etwas über die Vorlieben, politische Ausrichtung, Bildung des Lesers aus. Demnächst könnte man fragen: Welches Programm holt dir die Informationen aus dem World Wide Web? Journalisten werden vermutlich Lieferanten bleiben, ergänzt und korrigiert von privaten Weblogs, 100000 solcher Internet-Kolumnen gibt es in Deutschland. Aber die Zusammenstellung des täglichen Informationsmenüs erledigen Computer immer besser. Bei Google News bekommt man bereits heute Nachrichten, automatisch zusammengestellt von einem Programm, das 4500 Quellen auswertet.
So machen sich die Algorithmen über Sprache her, die doch eigentlich den Menschen vorbehalten ist und die eben noch wild und unberechenbar erschien. Jetzt kriechen Tag und Nacht Crawler über die Dokumente des Internet, Programme, die jede Seite scannen und sich von dort zur nächsten weiterleiten lassen. Wer eine Homepage hat, kann das auch sehen. Wenn der Google-Suchroboter eine Seite eingelesen hat, hinterlässt er einen Vermerk: »Visit Google Bot«. So wird das Wissen der Welt aufgenommen von Supercomputern, deren Speicherkapazität in Terabyte gemessen wird, Teras heißt auf Griechisch Monster.
In einem bronzeverspiegelten Bürogebäude sitzen sie, eingeschnürt von Highways, in the middle of nowhere, New Jersey. Abgeschnitten von der Welt auf einer Verkehrsinsel, die nur mit dem Auto zu verlassen ist. Im fünften Stock arbeiten etwa fünfzig Programmierer in blauen Arbeitswaben, man läuft vorbei an Schildern mit indisch oder chinesisch klingenden Namen, Migranten im Cyberspace. Steckt man den Kopf in eine Wabe, liegt eine Verlegenheit in ihrem Blick, ein Zögern in ihrem Händeschütteln, eine Unsicherheit im Auftreten, was vielleicht asiatisch ist oder Naturwissenschaftlern eigen oder einfach nur provinziell. Sie kommen aus Dörfern und Kleinstädten, zwei Drittel aus Asien, ein Fünftel aus Europa, nichts hat sie darauf vorbereitet, dass sie einmal den Informationsfluss der Welt umprogrammieren würden, dass ihre Arbeit einmal von öffentlichem Interesse sein würde. Die meisten sind mit Mitte zwanzig nach Amerika gekommen, um ihr Studium hier abzuschließen. Ihr Englisch ist schlecht oder schwer zu verstehen, aber sie schreiben gemeinsam an einem großen Text in C++. Das ist eine der größten Programmiersprachen, die vor allem dann verwendet wird, wenn es um große Datenmengen geht.
Ein gut geschriebenes Programm ist wie ein gutes Buch
C++ wird ständig weiterentwickelt, »die Sprache wird jedes Jahr leistungsfähiger«, sagt Wei Wang, der den Hauptteil des Programms von Ask Jeeves geschrieben hat. Ständig lernt er Vokabeln, die neu entwickelt werden, um den immer schnelleren Rechnern Herr zu werden. Computersprachen sind eine Mischung aus mathematischen Formeln und Englisch, Wörter in eine strikte Logik gebracht. Befehle, die von Menschen formuliert und von Maschinen befolgt werden. Als Laie meint man, Satzfetzen zu verstehen: IF my_document CONTAINS b THEN RETURN 0; IF my_document CONTAINS a THEN results.add(my_document).
Jeder Programmierer hat seinen Stil, es gibt verschiedene Möglichkeiten, zu sagen, was man will. Viele machen sich vorher einen Plan, andere schreiben einfach drauflos, manche schreiben ausufernd, andere knapp. Erfahrene Leute können an einem Programm sehen, welcher Kollege es geschrieben hat. Einer der Mitarbeiter lässt sich sogar zu der Bemerkung hinreißen, ein gut geschriebenes Programm sei wie ein gutes Buch, beeindruckend in seiner Klarsicht und Intelligenz.
Wei Wang gilt als langsamer Schreiber. Seine Programme werden an ihrer Schnörkellosigkeit erkannt, an der Direktheit, mit der er in einem Schritt erreicht, wofür andere mehrere brauchen. Und an der Aufmerksamkeit, die er Fehlerquellen schenkt, bevor sie entstehen können, »brain debugging« nennt er das, alle Eventualitäten vorwegnehmend. Von seiner Frau hört er immer, dass er ähnlich auch an die Urlaubsplanung herangehe.
C++ brachte er sich selber bei, als er noch an der Zhejiang-Universität, südlich von Shanghai, Informatik studierte. Im Sommer 1999 kam er nach New Jersey, ein schmalschultriger Junge Mitte zwanzig. Er belegte das Seminar von Apostolos Gerasoulis. Im ersten Jahr hat er kaum ein Wort gesagt und kein Referat gehalten. Aber in C++, das merkte sein Professor sofort, konnte sich keiner so korrekt ausdrücken.
Information Retrieval, also die Technik, aus einer Masse von Texten einen bestimmten herauszufischen, ist ein altes Gewerbe. Lange war es vor allem für die Arbeit in Bibliotheken von Bedeutung, seit den fünfziger Jahren stagnierte die Disziplin. Dann wuchs das Internet und wucherte immer weiter, diese Parallelwelt, von der niemand weiß, wie groß sie überhaupt ist. Google erfasst seit neuestem 30 Milliarden Dokumente, aber noch immer liegt vermutlich der größte Teil des Netzes unerschlossen, eine Wildnis aus geschlossenen Datenbanken, Firmennetzen, entlegenen Homepages ohne Links zur Außenwelt. Die Frage war deshalb: Wem gelingt es, das alles zu kartografieren?
Am Anfang gab es Listen, die noch von Hand zusammengestellt wurden. Yahoo entstand 1994 als Link-Sammlung zweier Studenten an der kalifornischen Stanford University. Alta Vista war die erste bekannte Suchmaschine. Der Algorithmus basierte darauf, das Suchwort mit dem Dokument abzugleichen:
IF QUERY CONTAINS“Disney“THEN FIND DOCUMENTS CONTAINING“Disney“.
Das Komplizierte an einem Suchprogramm ist nicht, Texte im Internet zu finden, die irgendetwas mit der Anfrage zu tun haben. Das Zauberwort heißt Ranking, also die Reihenfolge, in der die Antworten dem Nutzer präsentiert werden. Der Ranking-Algorithmus ist das wichtigste an einem Suchprogramm. Im Durchschnitt klicken Leute nur zwei Dokumente an von den Tausenden, die angeboten werden. Einer Seite, die an der 52. Stelle erscheint, wird etwa die gleiche Aufmerksamkeit geschenkt wie einem Flugblatt, das einem in einer Fußgängerzone entgegengestreckt wird.
Der Ranking-Algorithmus des frühen Alta Vista bewertete die Dokumente vor allem nach der Häufigkeit, mit der das gesuchte Wort im Text auftauchte. Die Leute fingen an, ein bestimmtes Wort x-mal auf ihre Homepage zu schreiben. Manchmal schrieben sie auch Wörter auf eine Seite, die mit dem eigentlichen Inhalt nichts zu tun hatten, um mehr Besucher oder Kunden auf ihre Seite zu locken. Wer Disney wollte, bekam Porno. Wer nach »God« suchte, fand die Homepage eines Hot-Dog-Standes in Chicago, der mit dem Slogan warb: »The god damn best Hotdogs in Chicago«.
Apostolos Gerasoulis interessierte sich damals vor allem deshalb für Suchprogramme, weil sie mit linearen Algorithmen arbeiteten, sein Fachgebiet. Er leitete zu jener Zeit eine Arbeitsgruppe an der Universität von Rutgers. Den Studenten legte er zwei Aufsätze vor, die unter Experten heiß diskutiert wurden. Es ging um die Frage, mit welcher Ranking-Methode sich die Dokumente des Internet am besten ordnen ließen. Eine Arbeit kam aus Stanford und war geschrieben worden von zwei jungen Informatikern, Sergey Brin und Larry Page.
Deren Idee war, dass das Internet selbst eine Aussage darüber macht, wie wichtig ein Dokument ist, durch die Anzahl von Links, die darauf verweisen, deren Gewicht wiederum bestimmt wird von der Anzahl der Links, die auf sie deuten, und so weiter. Auf die Seite einer überregionalen Zeitung zeigen heute etwa 50000 Links, auf die private Homepage eines Bloggers verweisen vielleicht drei seiner Kumpels. Schreibt er aber besonders interessant über das Thema wie der junge Iraker Salam Pax, der aus Bagdad über den Krieg berichtete und mit seinem Internet-Tagebuch berühmt wurde , dann kann es sein, dass immer mehr und immer wichtigere Seiten auf ihn verweisen, sodass er zu einem bestimmten Stichwort weiter oben steht als die Profis. Nach diesem Prinzip sollte das Suchprogramm von Brin und Page funktionieren.
Apostolos Gerasoulis fand den Ansatz gut, aber nicht ganz so elegant wie die zweite Idee. Sie stammt von John Kleinberg, einem amerikanischen Mathematiker. Kleinberg ging noch einen Schritt weiter. Er schlug vor, dass nicht alle Links gezählt werden sollten, sondern nur die, die von Seiten kommen, die sich mit dem Thema der Suchanfrage beschäftigen. Problem dabei: der lange Rechenvorgang. Bei dem ersten Ansatz konnte der Grad der Vernetzung, unabhängig von der jeweiligen Suchanfrage, bestimmt werden. Bei der zweiten Idee war die Berechnung abhängig vom Suchwort und musste zu jeder Eingabe neu bestimmt werden. Das dauerte Stunden. Für Apostolos Gerasoulis war es eine mathematische Herausforderung: eine Formel zu finden, mit der man die Berechnungsdauer verkürzen konnte.
Vier Passwörter schützen den Algorithmus der Suchmaschine
1999 war das Jahr, in dem er mit den zehn Studenten seiner Arbeitsgruppe stets bis Mitternacht im fensterlosen Computerraum der Universität saß. Wei schrieb ein Programm, das anderthalb Stunden brauchte, um Ergebnisse zu liefern. Apostolos arbeitete an einer mathematischen Lösung, um die Kleinberg-Idee zu beschleunigen. Und während er noch über seinen schnellen Matrix-Multiplikationen brütete, hatten die beiden Doktoranden aus Stanford ihre Maschine schon ins Netz gestellt. Sie nannten sie Google, ein Spiel mit dem Wort Googol, mit dem die Zahl 10 hoch 100 beschrieben wird.
Im August 1999 hatten sie die Suche auf Sekunden verkürzt. Apostolos Gerasoulis empfahl seinen Studenten, ihre Studien zu unterbrechen, und meldete sein Programm zum Patent an. Für ihn selbst war es, als sei er aus der Sphäre des Abstrakten wieder in der echten Welt gelandet.
Die Formel von Ask Jeeves liegt in einem Datenzentrum in Boston und auf einem Server in den Büros, übersetzt in binären Code, die Ursprache aller Computer. Sie ist geschützt von vier Passwörtern und nicht an externe Datenleitungen angeschlossen. Keiner hat Zugang zu dem gesamten Algorithmus, und es wäre wohl auch unmöglich, ihn ganz zu kennen: Er ist zu lang. Ein Mensch würde Monate brauchen, um alles zu lesen.
Ständig werden einzelne Kapitel umgeschrieben. Ungefähr zweimal im Jahr wird eine neue Idee eingebaut. Die Implementierung neuer Programmteile ist wie eine Operation am offenen Herzen. Die Mitarbeiter von Ask Jeeves operieren in den frühen Morgenstunden, wenn die Zahl der Fragen am niedrigsten ist. Dann versammelt sich das ganze Büro, um zu sehen, wie sich die Antworten der Maschine verändern. An solchen Tagen ist Apostolos nervös, wenn er zur Arbeit kommt: »Der Algorithmus reagiert auf seine eigene Weise.«
Der Algorithmus einer großen Suchmaschine kann vieles. Er muss Spam, ungewollte Werbung, von Information unterscheiden. Er muss Seiten erkennen, die nur so tun, als ob sie besonders gut vernetzt wären, er sollte »Link Farms« enttarnen, Verbindungen, die nur deshalb eingerichtet wurden, um eine Seite möglichst wichtig erscheinen zu lassen. Er muss erkennen, ob eine Seite von einem bestimmten Thema handelt oder ob es in Wirklichkeit darum geht, Viagra zu verkaufen. Er muss Nachrichtenseiten von Tagebüchern unterscheiden, Doubletten aussortieren.
Manche Suchmaschinen kennen auch ihre Benutzer: Wer die Google Toolbar auf seinen Desktop herunterlädt oder auf der Google-Internet-Seite seine Einstellungen erweitert, der stimmt zu, dass seine Anfragen unter der Adresse seines Computers gespeichert und unter bestimmten Bedingungen, zum Beispiel bei Verdacht auf Terrorismus, an die Behörden weitergegeben werden.
Die Gesetze eines Landes sind in ein Programm eingeschrieben. Als 2002 Google China gegründet wurde, beugte sich die Firma den chinesischen Zensurvorschriften und nahm regimekritische Inhalte aus dem Index. Oder in Deutschland: Bestimmte pornografische Seiten werden nicht angezeigt, weil sie auf der schwarzen Liste der Freiwilligen Selbstkontrolle Multimedia-Diensteabieter stehen, deren Mitglied Google ist. Und unter google.de bekommt man für den Suchbegriff »Nazi« an erster Stelle eine Seite des Deutschen Historischen Museums. Auf der amerikanischen Version google.com bekommt man als Nummer eins die Homepage der American Nazi Party. Aber unabhängig von den Gesetzen eines Landes nehmen Suchmaschinen, so sagen ihre Betreiber, nur Seiten aus dem Programm, die ihr Ranking auf unlautere Weise nach oben drücken wollen. Politische oder ethische Gründe spielten keine Rolle. Wirklich nachprüfen kann das niemand. Der Algorithmus und seine Kriterien werden so geheim gehalten wie die Formel von Coca-Cola.
»Wenn Wissen Macht ist, dann sind die Suchmaschinen Supermächte«
Vielen Menschen wird es langsam unheimlich. Vielleicht, weil keiner wissen darf, nach welchen Kriterien die Suchmaschinen ihre Antworten auswählen. Eben noch war Google eine weiße Seite, angenehm werbefrei, mit einem unschuldigen bunten Kinderlogo, gegründet von zwei Studenten, deren Unternehmensphilosophie lautete: »Do no evil«. Man hörte, dass in ihrer Kantine in Kalifornien der ehemalige Chef der Rockgruppe Grateful Dead kochte. Dann gingen sie an die Börse, hatten plötzlich Microsoft zum Konkurrenten, und ihr Unternehmensziel klang mit einem Mal ein wenig bedrohlich: die Informationen der Welt sortieren.
An einem Abend im Mai trafen sich, hoch über Berlin-Mitte, im Dachgeschoss der Heinrich-Böll-Stiftung 200 Leute, um über die Weltmaschine zu diskutieren.
Vorn, auf dem Podium, saß Stefan Keuchel, der junge Sprecher von Google Deutschland. Die Vorwürfe, die an diesem Abend an ihn gerichtet wurden, waren ziemlich ernst. »Sie tun so, als ob es einige Websites nicht gäbe. Die deutsche Google-Version zeigt einige Seiten nicht an«, behauptete Burkhard Schröder, Chefredakteur des kleinen Medienmagazins Berliner Journalisten. »Sie lügen. Sie sagen, dass es Inhalte nicht gäbe, die es aber eigentlich gibt. Es ist eine Haltung, die einer Diktatur würdig ist.«
»Unser Ziel ist es, das Leben für die Nutzer leichter zu machen. Wir halten uns an bestehendes Recht,« erwiderte Google-Sprecher Keuchel. »Wenn etwas verboten ist, dann werden wir diesen Link entfernen. Aber wir sitzen zwischen allen Stühlen. Wenn wir Dinge zulassen, heißt es: Warum zeigt ihr das? Wenn wir sie vom Index nehmen, heißt es: Ihr zensiert.«
Wolfgang Sander-Beuermann, der an der Uni Hannover die größte deutsche Meta-Suchmaschine betreibt, die sich aus den Ergebnissen von dreißig anderen Suchmaschinen speist, saß an diesem Abend ebenfalls auf dem Podium. Er sagte: »Ich will kein Google-Bashing betreiben, aber mein Vertrauen endet, wenn ich das Monopol sehe. 85 Prozent aller deutschen Suchanfragen gehen an Google. Wenn Wissen Macht ist, dann sind Suchmaschinen Supermächte. Wir müssen verhindern, dass Google zur absoluten Supermacht wird.«
»Google hat kein Betriebssystem, das jemanden zwingt, Google zu nutzen«, spielte Keuchel auf Microsoft an. »Wir sehen den Vorwurf des Monopols anders. Unsere Nutzer verwenden Google, weil sie dort die besten Ergebnisse bekommen.«
»Man kann die Leute nicht zwingen, andere Suchmaschinen zu verwenden«, sagte Katja Husen, die medienpolitische Sprecherin im Vorstand der Grünen. Und Sabine Frank von der Freiwilligen Selbstkontrolle meinte: »Mit traditioneller Gesetzgebung kommen wir überhaupt nicht mehr weiter. Wir müssen die Inhalte auch international regeln.«
Die Vertreterin der traditionellen Gesetzgebung wirkte ein bisschen ratlos an diesem Abend. »Es gibt die Vorstellung, man könnte die digitale Welt analog regeln«, sagte die Grünen-Sprecherin, »aber diese Politik wird scheitern.«
Am Ende gab Firmensprecher Keuchel einen Ausblick auf die Zukunft. Er sprach von dem neuen Projekt Google Print, bei dem Teile der Bestände von fünf großen amerikanischen und englischen Bibliotheken eingescannt und im Internet zur Verfügung gestellt werden. Es sollte ein Versprechen sein, aber es klang ein bisschen so, als hätten sie vor, die Welt aufzufressen.
Der Suchmaschinenkrieg tobt. Aus Sorge um die mangelnde Verbreitung europäischer Kultur hat der Präsident der französischen Nationalbibliothek angeregt, europäische Literatur zu digitalisieren und ins Netz einzuspeisen. Jacques Chirac und Gerhard Schröder haben angekündigt, das Projekt mit 150 Millionen Euro zu finanzieren. An der deutschstämmigen Suchmaschine Yacy arbeiten Entwickler nach dem Open-Source-Prinzip, das heißt, jeder kann sie für seine Datensammlung benutzen, jeder kann mitprogrammieren. In Hannover hat Wolfgang Sander-Beuermann den Verein SuMa e.V. initiiert, der glaubt, dass die Zukunft in vielen regional und thematisch spezialisierten Suchmaschinen liegt, deren Betreiber Spam effektiver herausfiltern können und die weißen Flecken auf der Karte des Internet erschließen.
In Berlin läuft der vielleicht interessanteste Versuch, Computern das Lesen beizubringen. Das Gebäude der Berlin-Brandenburgischen Akademie der Wissenschaften erstreckt sich über die halbe Längsseite des Gendarmenmarkts, ein grauer Steinquader, vier Stockwerke hoch. Die Akademie sammelt seit dreihundert Jahren deutsche Sprache, sortiert, erforscht und konserviert sie. Hier wird an einem Goethe-Wörterbuch gearbeitet, Goethes Vokabular in seinen historischen Bezügen erfasst; es werden die Preußischen Staatsprotokolle aufgearbeitet, eine neue Marx-Engels-Ausgabe kritisch editiert. Das Herzstück, der Klassiker, wie es hier heißt, ist »der Grimm«, das größte Bedeutungswörterbuch der deutschen Sprache, das von den Brüdern Grimm begonnen wurde. Man läuft vorbei an der Pförtnerloge, dahinter beginnt ein Gang mit dunkelgelbem Linoleumboden. Hier werden seit 151 Jahren Beispielsätze für jedes deutsche Wort gesammelt. Der Zweite der beiden Grimms starb, als er den Buchstaben F, wie Fruchtfliege, bearbeitet hatte; seither haben Generationen von Germanisten daran weitergearbeitet.
Ein altmodischer Geruch liegt in der Luft, nach Kohlsuppe vielleicht und nach Papier, schnell geht man weiter, nimmt den Paternoster in den dritten Stock, wo plötzlich alles weiß und frisch gestrichen ist. Hier wird das digitale Wörterbuch der Deutschen Sprache erstellt, bei dem es um die gleiche vertrackte Frage geht wie bei den Grimms, nämlich: Was bedeuten die Wörter des Deutschen?
Vor fünf Jahren haben die Linguisten und Germanisten angefangen, 100 Millionen Wörter aus Romanen, Zeitungen, Fachtexten, Gebrauchsanweisungen und gesprochener Sprache einzuscannen. Dann gingen sie daran, das alles zu sortieren. Mit einem Suchprogramm, das ihnen ein Programmierer aus Moskau geschrieben hat, ein junger Mann, der selbst erst im Laufe seiner Arbeit richtig gut Deutsch lernte. Die Suchmaschine musste vor allem die deutsche Grammatik beherrschen, sie musste zum Beispiel Adjektive von Substantiven unterscheiden oder ein Wort, das konjugiert, dekliniert, halbiert oder neu zusammengesetzt wurde, seiner Stammform zuordnen können.
Bisher hat die Suchmaschine 2,5 Millionen unterschiedliche Wörter gefunden, die meisten von ihnen zusammengesetzte Wortschöpfungen wie der Selbstbausarg, die Apache-Kampfhubschrauberpilotin, Wörter, von denen manches nur ein einziges Mal verwendet wurde. Als Nebenprodukt ist die Suchmaschine des jungen Russen geblieben, die nicht nur nach Schlagwörtern suchen kann, sondern die auch etwas von den Regeln der Sprache weiß. »Das ist die Voraussetzung dafür, dass Computer Texte verstehen können«, sagt Gerald Neumann, Linguist, Informatiker und wissenschaftlicher Mitarbeiter beim Wörterbuch, »irgendwann einmal, später.« Er will nicht zu viel versprechen. Die Futuristen von der Künstliche-Intelligenz-Forschung behaupten seit vierzig Jahren, dass Computer bald Sprache verstehen werden. »Keine Ahnung, wann. Aber es wird passieren. Denn zum ersten Mal ist extrem viel Geld in der Branche. Im Moment tun die Suchprogramme noch so, als verstünden sie, was in den Texten steht. Aber irgendwann werden sie es verstehen.«
Es ist ein merkwürdiger Zufall, dass an diesem Tag Noam Chomsky zu Besuch ist, der amerikanische Linguist, den viele als politischen Aktivisten kennen. Aber eigentlich ist er berühmt geworden, weil er eine Grundannahme über die Sprache neu formuliert hat. In den fünfziger Jahren hat er mit seiner Transformationsgrammatik die Sprachwissenschaften grundlegend verändert. Er ging davon aus, dass die Fähigkeit zur Sprache nicht von Grund auf erlernt wird, sondern bereits ins menschliche Gehirn eingeschrieben ist als eine anthropologischeKonstante. Und dass es deshalb unterhalb der Grammatiken der Sprachen gemeinsame Regeln geben müsste, eine Art Gencode, der für alle menschlichen Sprachen gilt.
Ein Investor kaufte Ask Jeeves für 2,3 Milliarden Dollar
In den achtziger Jahren war Noam Chomsky ein wenig aus der Mode gekommen. Es fanden sich einfach zu viele Sonderbarkeiten, für die immer neue Regeln geschaffen werden mussten. Aber seine Vorstellung von der Tiefenstruktur der Sprache hat die Geisteswissenschaften seitdem nicht mehr verlassen. Und jetzt sieht es so aus, als könnten Chomskys Ideen, fünfzig Jahre nach dem Erscheinen von Syntactic Structures, wieder interessant werden für den Milliardenmarkt der automatisierten Informationsverarbeitung. »Müsste ein Computer nicht auch diese Tiefengrammatik können, um Texte intelligent durchsuchen zu können?«, fragt Linguist Gerald Neumann. »Denn: Langfristig gesehen, hilft gegen die Informationsflut kein noch so gutes Ranking, sondern nur automatisches Sprachverstehen. Und genau daran wird hier gearbeitet.«
Vor einem Jahr ist Apostolos Gerasoulis in Amerika in sein neues Haus eingezogen. Seit sie hier wohnen, haben die Kinder einen Wäschekorb voller Golfbälle gesammelt, er ist das Erste, was Tomasz Imielinski besichtigen muss, als er an einem Tag im August das Haus seines Freundes betritt. Sie sitzen an einer Küchenbar, Apostolos lässt hellbraunen Whiskey über die Eiswürfel rinnen.
»Ich hab die Uni am Ende nicht mehr ertragen«, sagt Tomasz, der sich in Rutgers beurlauben ließ. Bei Ask Jeeves nennt er sich nun »Vice President of Data Solutions«. »Du arbeitest drei Jahre an einem Problem, du trägst die Lösung auf einer Konferenz zehn Leuten vor, danach klopfen dir drei davon auf die Schulter. Dann fährst du nach Hause, und es geht wieder von vorn los.«
»Bis du stirbst«, sagt Apostolus, und um dieser Aussicht zu entgehen, haben sie darauf bestanden, auch Managementpositionen in der Firma zu übernehmen. So wie die beiden Jungs von Google das vorgemacht haben. »Deswegen habe ich großen Respekt für Sergey und Larry«, sagt Apostolos. »Sie haben der Welt gezeigt, dass Naturwissenschaftler ein Unternehmen führen können. Dass nicht länger Wall-Street-Broker und Wirtschaftstypen aus Harvard die Welt regieren.«
An einem Morgen im Juni war Apostolos Gerasoulis sofort hellwach. Es war der Tag, an dem Investor Barry Diller seinen Besuch angekündigt hatte. In Amerika ist Barry Diller eine große Nummer, reich und glamourös, verheiratet mit der Society-Designerin Diane von Furstenberg.
Dennoch sei manchem seiner Programmierer der Name des Gastes kein Begriff gewesen, glaubt Apostolos, die Mitarbeiter mussten ihn noch schnell in die Suchmaschine eingeben. Dort erfährt man, dass Barry Diller 1999 angefangen hat, Internet-Dienstleistungsunternehmen aufzukaufen, und dass seine Firma IAC den Internet-Hype mit Gewinnen überlebt hat. Jetzt wollte Diller eine Suchmaschine. »Normalerweise rede ich viel«, sagt Apostolos, »aber an diesem Tag war ich still. Es war so ein Tag, an dem man über sich selbst nachdenkt, sein Leben an sich vorbeiziehen lässt und sich denkt: Wow, ich hätte nie geglaubt, dass es so kommen würde. Dass ich einmal im selben Raum sein würde wie er.«
Diller ließ sich von ihm die Maschine vorführen. Apostolos zeigte die Zoom-Funktion, die er gerade entwickelt hatte und die Vorschläge zur Eingrenzung oder Erweiterung der Suche macht. Als er den Namen »Diane von« eingab, schlug der Zoom vor, die Suche auf Diane von Furstenberg einzugrenzen. Diller nannte es unglaublich und sagte, dass sie das neue Produkt sofort auf den Markt bringen müssten.
Dann wollte der Gast wissen, was die Zukunft bringen würde. Apostolos prophezeite ihm, dass demnächst alles, was in der Welt ist, eingeschmolzen werden könnte in die Sphäre des Digitalen. Später könnte alles mit Hilfe einer perfekten Suchmaschine gezielt wieder hervorgeholt werden. Die Frage ist nur: Wer wird in dieser universalen Bibliothek die besten Antworten finden? Wird er es sein, er, Apostolos Gerasoulis, Sohn eines griechischen Eisenwarenhändlers?
Mitte Juli war es so weit. Barry Diller hat Ask Jeeves für 2,3 Milliarden Dollar gekauft. Apostolos Gerasoulis lächelt noch etwas glücklicher als sonst, als er erzählt, dass Diller versprochen hat, ihn demnächst in New York City auf eine große Party mitzunehmen.
M | D | M | D | F | S | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
Neueste Beiträge
Archive
- März 2023
- September 2021
- April 2021
- November 2020
- September 2020
- März 2020
- Juni 2018
- Januar 2018
- April 2017
- Dezember 2016
- November 2016
- Oktober 2016
- September 2016
- August 2016
- Juli 2016
- Juni 2016
- Mai 2016
- März 2016
- Februar 2016
- Oktober 2015
- Februar 2015
- Oktober 2014
- April 2014
- März 2014
- Februar 2014
- Januar 2014
- Dezember 2013
- November 2013
- September 2013
- März 2013
- Februar 2013
- Dezember 2012
- Oktober 2012
- Juli 2012
- Juni 2012
- Mai 2012
- April 2012
- März 2012
- Februar 2012
- Januar 2012
- Dezember 2011
- November 2011
- September 2011
- August 2011
- Juli 2011
- Juni 2011
- Mai 2011
- April 2011
- März 2011
- Februar 2011
- Januar 2011
- Dezember 2010
- November 2010
- September 2010
- August 2010
- Mai 2010
- April 2010
- März 2010
- Februar 2010
- Januar 2010
- Dezember 2009
- November 2009
- Oktober 2009
- September 2009
- August 2009
- Juli 2009
- Juni 2009
- Mai 2009
- April 2009
- März 2009
- Februar 2009
- Januar 2009
- Dezember 2008
- November 2008
- Oktober 2008
- September 2008
- August 2008
- Juli 2008
- Juni 2008
- Mai 2008
- April 2008
- März 2008
- Februar 2008
- Januar 2008
- Dezember 2007
- November 2007
- Oktober 2007
- September 2007
- August 2007
- Juli 2007
- Juni 2007
- Mai 2007
- April 2007
- März 2007
- Februar 2007
- Januar 2007
- Dezember 2006
- November 2006
- Oktober 2006
- September 2006
- August 2006
- Juli 2006
- Juni 2006
- Mai 2006
- April 2006
- März 2006
- Februar 2006
- Januar 2006
- Dezember 2005
- November 2005
- Oktober 2005
- September 2005
- August 2005
- Juli 2005
- Juni 2005
- Mai 2005
- April 2005
- März 2005
- Februar 2005
- Januar 2005
- Dezember 2004
- November 2004
- Oktober 2004
- September 2004
- August 2004
- Juli 2004
- Juni 2004
- Mai 2004
- April 2004
- März 2004
- Februar 2004
- Januar 2004
- Mai 2003
- April 2003
- März 2003
- Februar 2003
- Dezember 2002
- Juni 2002
- Mai 2002
- April 2002
- März 2002
- Februar 2002
Neueste Kommentare