Pressemitteilung 2022/151 vom

Über 75 Wissenschaftler:innen forschen in den nächsten drei Jahren am Kern eines europäischen Open Web Index (OWI) als Grundlage für eine neue Websuche in Europa. Ziel des Programms ist es, die Dominanz außereuropäischer Internetkonzerne wie Google oder Microsoft zurückzudrängen. Das Projekt wird von der Europäischen Kommission in Höhe von 8,5 Millionen Euro im Rahmen des Projekts „Horizon Europe“ gefördert. Eine tragende Rolle spielt dabei die Informatik der Universität Leipzig um Juniorprofessor Dr. Martin Potthast. Im Interview spricht er über die Bedeutung dieses Forschungsprojekts.

Was kann man sich unter einem europäischen Open Web Index vorstellen?

Ein Index dient Suchmaschinen zur massiven Beschleunigung des Abgleichs aller Webseiten mit einer Suchanfrage. Viele verschiedene Suchalgorithmen werden je nach Situation dynamisch gewählt. Es braucht aber nur einen Index, auf den alle Algorithmen zugreifen. Dieser ist damit eine Art Schlüssel zum Bau moderner Suchmaschinen. Und daher ist der Index der wenigen großen kommerziellen Suchmaschinen nicht öffentlich einsehbar oder gar frei verfügbar. Die Tatsache, dass ausschließlich außereuropäische Konzerne Suchmaschinen in Europa anbieten, wird regelmäßig kritisch diskutiert. Unser Ziel ist daher, die Grundlagen für einen offenen Web-Index zu erforschen und einen ersten Prototypen zu entwickeln. Dieser wird verfügbar sein und demonstriert, dass Europa die digitale Souveränität auf eine Weise erlangen kann, die Innovation und Diversität fördert.

Mehrere europäische Forschungszentren werden an diesem Index arbeiten. „Open“ bedeutet aber auch, dass sich jeder an der Entwicklung beteiligen kann, dass das also ein Open Source-Projekt ist?

Es ist geplant, externe Partner für erste Tests und gemeinsame Arbeit zu gewinnen sowie eine Open-Source-Community zu etablieren. Ein Vorbild für eine Community könnten die seit Kurzem aufkommenden Initiativen wie BigScience und LAION sein, in der große Konsortien aus Forschenden und Citizen Scientists zusammenarbeiten, um den neuronalen Netzen GPT-3 zur Texterzeugung und DALL-E zur Bilderzeugung, die in letzter Zeit Furore machen, freie Alternativen gegenüberzustellen. Ältere und überaus erfolgreiche Beispiele für Projekte dieser Art sind OpenStreetMaps, die Wikipedia und nicht zuletzt das Internet-Archive. Wir wollen aber auch weitere Partner aus Wissenschaft und Wirtschaft gewinnen, um zu zeigen, dass ein offener und verteilter Index auch kommerzielle Aussichten hat. Eine zukünftige Kooperation mit dem ortsansässigen „Center for Scalable Data Analytics and Artificial Intelligence“ ScaDS.AI Dresden Leipzig liegt nahe.

Die im Projekt vertretenen Partner bestehen aus ausgewählten europäischen Universitäten und Institutionen, darunter auch die Europäische Organisation für Kernforschung CERN, die mit ihrer jeweiligen Expertise und ihren Ressourcen die erste Grundlage für einen offenen Web-Index legen. Am Ende werden alle erstellten Ressourcen und möglichst alle gesammelten Daten prinzipiell jedem zur Verfügung gestellt werden, sodass jede Person und jede Institution Beiträge leisten sowie eigene Ideen und Produkte verwirklichen kann.

Bei der Websuche und -analyse spielt heute das Sammeln von Nutzer:innendaten eine große Rolle. Wird dies auch für eine offene Suchmaschine nötig werden?

Moderne Suchalgorithmen basieren auf Verfahren des Maschinellen Lernens aus möglichst vielen Beispielen. Diese Beispiele werden aus der Analyse des Nutzer:innenverhaltens auf Suchergebnisseiten gewonnen. Es wäre schön, wenn ich an dieser Stelle versprechen könnte, dass unser Projekt eine neue Technologie entwickeln wird, mit der die Sammlung dieser Daten in Zukunft ausbleiben und trotzdem konkurrenzfähige Suchergebnisse gefunden werden könnte. Das ist allerdings nach gegenwärtigem Stand der Forschung außer Reichweite, fast schon utopisch. Interessanter ist viel mehr die Frage des Datenschutzes bei einer offenen Suche. Auch hier werden diese Daten nicht an Dritte weitergegeben, aber anders als bei den kommerziellen Anbietern wird eine Zweitverwertung der Daten für nicht dem Suchzweck dienliche Interessen unterbunden. Das erfasste Nutzer:innenverhalten wird hingegen allen Suchmaschinen, die auf den offenen Web-Index aufsetzen, ausschließlich in Form von fertig angelernten Suchalgorithmen anonym zur Verfügung gestellt. Alle profitieren von allen anderen, die das auch tun. Die Qualität der Suchergebnisse aller Suchmaschinen wird dadurch optimiert und die Daten können nicht anderweitig zweckentfremdet werden.

Das Projekt soll einen wichtigen Beitrag zur Demokratisierung der Indexerstellung für zukünftige Suchmaschinen in der EU leisten. Was ist darunter zu verstehen?

Wir glauben, dass in Zukunft nicht nur eine Suchmaschine den Markt dominiert, egal ob europäisch oder nicht. Stattdessen wird der offene Index als eine Art Plattform dienen, auf der Anbieter von Suchmaschinen sich auf ihre jeweiligen Märkte konzentrieren können. Dies führt einerseits zu besseren Suchergebnissen, da spezialisierte Suchmaschinen leistungsfähiger sind als solche, die eine „universelle“ Suche für alles und jeden anbieten. Gleichzeitig wird so eine größere Konkurrenz und damit mehr Innovation und Fortschritt gefördert.

Welchen Beitrag leistet die Universität Leipzig?

Wir werden einen wichtigen Beitrag zur Index-Erzeugung leisten, also der inhaltlichen Analyse und Aufbereitung gesammelter Webseiten für den offenen Index, und leiten das entsprechende Teilprojekt. Darüber hinaus beteiligen wir uns an der Entwicklung neuer Suchalgorithmen mit dem Ziel, eine Reihe neuartiger Suchanwendungen zu entwickeln, darunter die Suche nach Argumenten zu kontroversen Themen im Web und die „Conversational Search“, das heißt die „Suche im Dialog“, zum Beispiel mit Sprachassistenten.

Dies geschieht in enger Kooperation unter anderem mit Forschern der Bauhaus-Universität Weimar und der Martin-Luther-Universität Halle-Wittenberg. Wir arbeiten seit mehreren Jahren sehr eng zusammen als „Webis-Gruppe“, einer universitätsübergreifenden Forschungsgruppe in den Bereichen Sprachtechnologien und Künstlicher Intelligenz. Unter anderem betreiben wir mit dem „Immersive Web Observatory“ eine Infrastruktur zur Analyse von Web-Archiven im Petabyte-Bereich, die in das Projekt eingebracht wird. Die Webdaten hierfür beziehen wir exklusiv vom Internet Archive, dem einzigen öffentlichen Anbieter von Webdaten, die bis in die 1990er-Jahre zurückreichen und die in Umfang und Diversität mit den nicht-öffentlichen Webdaten Googles von damals bis heute konkurrieren können. Dieser Zugriff auf Petabytes von Webdaten, der in dieser Form in Europa einmalig ist, erlaubt, Analyseverfahren zu entwickeln, die es mit denen kommerzieller Suchanbieter aufnehmen können. Die von uns entwickelten Verfahren werden erstmals auch öffentlich verfügbar sein.

Über die Webis-Gruppe:

Die Webis-Gruppe befasst sich mit wichtigen Herausforderungen der Informationsgesellschaft. Sie erforscht Grundlagen, entwickelt Technologien und implementiert und evaluiert Prototypen für zukünftige Informationssysteme. Schwerpunkte sind dabei Web Mining und Retrieval, maschinelles Lernen, Computerlinguistik und symbolische Künstliche Intelligenz.