Karen Spärck Jones, Pionierin der Suchalgorithmen

Mit ihrer Formel finden Suchmaschinen, was wir wissen wollen

Jenny Tiesler
Portrait von  Karen Spärck Jones, daneben die Worte "TF*IDF Entwicklerin des Suchalgorithmus"

I think it’s very important to get more women into computing. Computing is too important to be left to men.

Ein Bild sagt mehr als tausend Worte? Blödsinn, wenn es nach Karen Spärck Jones geht. Schließlich brauchen wir Worte, um uns über Bilder zu unterhalten. Zu einer Zeit, in der die meisten Wissenschaftler:innen Menschen dazu bringen wollten, über Codes mit Computern zu kommunizieren, drehte die britische Informatikerin Karen Spärck Jones den Spieß um. Sie brachte Computern bei, die menschliche Sprache zu verstehen – und schuf damit die Grundlage für Suchmaschinen wie Google, Bing und Duck Duck Go.

Damals...

…studierte die Tochter einer Norwegerin und eines Briten in den 50er-Jahren am Girton College in Cambridge neben Geschichte auch Philosophie und vertiefte sich in Wittgensteins Analyse der Sprache. In Cambridge lernte Karen Spärck Jones die Pionierin auf dem Gebiet der Computerlinguistik und Gründerin der Cambridge Language Research Unit kennen, Margaret Mastermann. Eine Begegnung, die ihre wissenschaftliche Laufbahn nachhaltig beeinflusste. Karen Spärck Jones war fasziniert von der emanzipierten Wissenschaftlerin und dem neuen Forschungsbereich der Computerlinguistik.

“At that stage there were no opportunities for women. You have no conception of how narrow the career options were.”

Karen Spärck Jones begann für Masterman zu arbeiten. Mit den Ergebnissen im Rahmen ihrer Doktorarbeit über "Synonymy and Semantic Classification" war sie im Bereich der natürlichen Sprachverarbeitung (NLP) ihrer Zeit weit voraus. 1964 erschien das Werk – bis heute eine grundlegende Arbeit der NLP.

Angetrieben von der Frage, wie wir in einem Berg von Dokumenten genau die Textstelle finden, die wir suchen, beginnt sie in den frühen 60er-Jahren mit der Forschung an Information Retrieval (IR)-Systemen. Vor ihrer Arbeit war die Suche mühselig: Die Termfrequenz (tf) sortierte Dokumente nach der Wortdichte – kaum aussagekräftig, da Wörter wie “und”, “der”, “ist” oder “ein” zu einem Rauschen führten.

Die junge Forscherin entwickelte 1972 eine Formel, die in ihrer Einfachheit und Eleganz besticht: tf*idf. Ihre Idee: eine umgekehrte statistische Gewichtung der Worthäufigkeit, inverse document frequency.

“The specificity of a term can be quantified as an inverse function of the number of documents in which it occurs.”

Die Inverse Document Frequency (IDF)-Gewichtung ist eine numerische Statistik, die Wörter innerhalb von Dokumenten als mehr oder weniger wichtig einstuft und so eine effizientere Suche nach Informationen ermöglicht. Wörter, die seltener vorkommen, gewinnen für die Relevanzbewertung an Bedeutung und andersherum verlieren Wörter, die häufig vorkommen an Relevanz. Anwenden konnte Karen Spärck Jones ihre Formel in operativen Systemen allerdings nicht direkt. Die Bibliothekswelt war viel zu konservativ und griff die Idee der natürlichsprachlichen Suche nur sehr langsam auf. Die bibliografischen Dienste nutzen Thesauri und das “Boolsche Retrieval”, eine Suche ohne Ranking der Ergebnisse.

Während sich 1972 niemand für Textsuche oder die Nadel im Dokumenten-Heuhaufen interessierte, sieht das 20 Jahre später ganz anders aus: Das Internet wuchs und mit ihm die Daten- und vor allem Textberge. Der Schlüssel zu dem Schatz: die Suchmaschine. Jetzt wird Karen Spärck Jones’ Formel auch für Unternehmen interessant und Michael Burrows, Mitentwickler einer der ersten Suchmaschinen, klopft 1994 bei ihr an. Als erste Suchmaschine benutzte “Alta Vista” Karen Spärck Jones Formel zur Volltextsuche im Web.

Karen Spärck Jones kehrte wieder zum Gebiet der NLP zurück und begann in den 80er-Jahren mit der Arbeit an frühen Spracherkennungssystemen. Bis 2002 lehrte sie an der Universität Cambridge und arbeitete am US-amerikanischen TREC-Programm (Text REtrieval Conference) mit. Sie wurde Fellow der British Academy und 1994 Präsidentin der Association for Computational Linguistics. Sie erhielt den ACL Lifetime Achievement Award und 2007 die BCS Lovelace Medal. Für ihre bedeutenden Beiträge zum Verständnis von Informationssystemen im Laufe ihrer Karriere wurde sie mit vielen weiteren Auszeichnungen geehrt.

Die Informatikerin war Mentorin einer ganzen Generation von Forscherinnen. In einer Zeit, in der es nur wenige weibliche Forschende gab, appelliert sie, wie wichtig der weibliche Blick gerade in dieser Wissenschaft ist.

“I think women bring a different perspective to computing, they are more thoughtful and less inclined to go straight for technical fixes. My belief is that, intellectually, computer science is fascinating - you're trying to make things that don't exist.”

Auch in anderer Hinsicht war Karen Spärck Jones ihrer Zeit voraus: Jahrzehnte vor der moralischen Auseinandersetzung mit dem Silicon Valley mahnte sie, die Auswirkungen von Algorithmen auf die Gesellschaft zu berücksichtigen.

“You don't need a fundamental philosophical discussion every time you put finger to keyboard, but as computing is spreading so far into people's lives you need to think about these things.”

Ihr zu Ehren verleiht die British Computer Society seit 2008 den Karen Spärck Jones Award an Forschende, die innerhalb der ersten zehn Jahre nach ihrer Promotion herausragende Leistungen erbringen.

Heute...

…sind Suchmaschinen aus unserem Alltag nicht mehr wegzudenken und die berühmteste hat es in unseren Wortschatz geschafft. Längst ist “googlen” ein Synonym für “etwas suchen” geworden. tf*idf und seine Varianten liegen allen modernen Suchmaschinenalgorithmen zu Grunde. Karen Spärck Jones erfand nichts Geringeres als die wichtigste Komponente des Relevanzalgorithmus. Auch wenn Google seinen Algorithmus regelmäßig anpasst, ist z.B. PageRank ein direkter Nachfahre von Karen Spärcks Formel aus den 70er-Jahren. Und für alle SEO-Manager:innen ist die Termgewichtung ein interessantes Instrument zur Onpage-Optimierung.

Bild: Karen Spärck Jones, University of Cambridge, CC BY 2.5 via Wikimedia Commons