Die schnellsten Spürnasen auf Video-Suche

Täglich werden alleine auf der Videoplattform YouTube 80.000 Stunden Videomaterial hochgeladen, was einer Zeit von neun Jahren entspricht. Weltweit bemühen sich Forscher*innen im Multimediabereich darum, die Suche in solchen Videopools, wie sie auch in Medienorganisationen reichlich vorhanden sind, zu verbessern. Zu ihnen gehört Klaus Schöffmann, der für dieses Feld 2012 den Video Browser Showdown gegründet hat. An diesem Wettbewerb nehmen heute die weltweit besten Wissenschaftler*innen teil und präsentieren ihre neuen Ansätze für die Videosuche.

„Teams von Forscher*innen treten in einem Wettbewerb gegeneinander an. Dabei ist es das Ziel der Teams, in einem großen Pool von Videos möglichst rasch eine bestimmte Sequenz zu finden.“

Es war im Jahr 2012, als Klaus Schöffmann und seine Kolleg*innen die MMM-Tagung in Klagenfurt veranstalten wollten. Um diese „International Conference on Multimedia Modeling“ kostendeckend zu organisieren, war Kreativität gefragt: Schöffmann erinnerte sich an einen Wettbewerb (VideOlympics), den er bei einer Tagung erlebt hat, und der für viel Begeisterung gesorgt hatte. Man steckte also angesichts noch zu geringer Anmeldezahlen die Köpfe zusammen und entwickelte so die Idee des Video Browser Showdown. Das Konzept ist einfach erklärt: „Teams von Forscher*innen treten in einem Wettbewerb gegeneinander an. Dabei ist es das Ziel der Teams, in einem großen Pool von Videos möglichst rasch eine bestimmte Sequenz zu finden“, erläutert Klaus Schöffmann.

Im Sommer 2022 feierte man bereits das elfjährige Bestehen des Video Browser Showdown im Rahmen der MMM-Konferenz in Phu Quoc in Vietnam. Das Format wurde zum Erfolgsmodell: Waren es anfangs noch einzelne Videos von 60 bis 90 Minuten, in denen man suchte, ist der Pool mittlerweile 2.300 Stunden groß. Die besten Forscher*innen in dem Feld bereiten sich Jahr für Jahr auf den Showdown akribisch vor, beantragen extra Forschungsprojekte dafür, und messen sich live vor Ort oder in hybriden Veranstaltungsformaten.

Doch was ist so kompliziert daran, eine Videosequenz in einem großen Pool von Videomaterial zu finden? Einerseits sei, so Klaus Schöffmann, die große Menge an Analysedaten entscheidend. Beim diesjährigen Wettbewerb waren es insgesamt 2,5 Millionen Segmente, die durchsucht werden mussten. Bei dieser Menge kann auch niemand mehr „manuell“ das ganze Material sichten. Die andere Schwierigkeit liegt in der Methode, mit der man an den Wettbewerb herangeht. „Üblicherweise setzt man sich durch, wenn man einen Ansatz wählt, den die anderen nicht zur Verfügung haben.“ Zudem ist es trotz modernster AI-basierter Bildanalyse noch immer eine große Herausforderung, alle wesentlichen Inhalte in Videos korrekt zu erkennen.

Den Teilnehmer*innen am Video Browser Showdown werden zwei Aufgaben gestellt: In dem einen Format zeigt die Jury den Wettkämpfer*innen eine kurze Sequenz von zwanzig Sekunden, die dann gefunden werden soll. Im anderen Format, das noch schwieriger zu bewältigen ist, wird ihnen ein kurzer Text gezeigt. Wenn es nun darum geht, Szenen zu finden, in denen „Essen zubereitet“ oder „Gemüse geschnitten“ wird, muss sich zuerst in den Köpfen der Forscher*innen ein Bild formen, das sie dann wiederum im großen Videopool aufspüren sollen.

Wer glaubt, dass Suchen wie diese automatisiert ohne Interaktion mit einem Menschen funktionieren, wird im Gespräch mit Klaus Schöffmann eines Besseren belehrt: „Wir brauchen eine*n Benutzer*in, der*die bei der interaktiven Suche mitarbeitet; also schrittweise durch die Beantwortung von Fragen oder durch eine bestimmte Auswahl von Sequenzen zum Ziel kommt. Ganz autonom funktioniert eine solche Suche noch gar nicht.“

Was wie ein Spiel unter Wissenschaftler*innen anmutet, hat in der Praxis viele Anwendungsbereiche und wird – angesichts der immer größer werdenden Videopools – auch dringend benötigt. Klaus Schöffmann verweist auf Medienorganisationen, die oft einen enormen Datenbestand haben. In diesen Unternehmen sind bessere Videosuchtools Gold wert. Videos sind außerdem für viele andere Praxisanwendungen nutzbar: Das Team rund um Klaus Schöffmann forscht beispielsweise an einer besseren Durchsuchbarkeit von Aufnahmen, die bei endoskopischen Operationen entstehen. Ein ähnlicher Wettbewerb wie der Video Browser Showdown existiert außerdem bereits im Bereich der Unterstützung von Menschen mit eingeschränkter Gesundheit: Ihnen sollen bei der Lifelog Search Challenge (LSC) Sequenzen ihres Lebens in Erinnerung geführt werden, was beispielsweise hilfreich sein kann, wenn man sich nicht mehr sicher ist, ob man seine Medikamente eingenommen hat.

Wer heute den Video Browser Showdown gewinnt, gehört zur internationalen Weltspitze in diesem Forschungsfeld. Inzwischen haben Teams aus 21 Ländern aus allen Regionen der Welt teilgenommen. Große Forschungsgruppen haben dabei den Vorteil, dass sich sogar Doktorarbeiten mit den Aufgabenstellungen beschäftigen – und so auch die besseren Ergebnisse erzielt werden. „Ein Team aus der Schweiz hat sogar vier PhD-Studierende, die speziell auf die Tasks im Wettbewerb abzielen“, erzählt Klaus Schöffmann. Insgesamt sind schon über 20 wissenschaftliche Arbeiten (davon 15 Doktorarbeiten) in Verbindung mit dem Showdown entstanden.

„Wir haben nur beim ersten Video Browser Showdown im Jahr 2012 gewonnen, aber  wir waren immer wieder auf dem Podium. Darauf sind wir als relativ kleines Team sehr stolz.“

Zu gewinnen gibt es für die Wissenschaftler*innen vor allem Ruhm und Ehre, und auch ein Preisgeld. Wir fragen bei Klaus Schöffmann nach, ob auch die Forschungsgruppe am Institut für Informationstechnologie an der Universität Klagenfurt Teil der „Hall of Fame“ ist, und erfahren: „Wir haben nur beim ersten Video Browser Showdown im Jahr 2012 gewonnen, aber  wir waren immer wieder auf dem Podium. Darauf sind wir als relativ kleines Team sehr stolz.“

Stolz ist man auch darauf, wie sich der Wettbewerb entwickelt hat und dass sich immer mehr internationale Forscher*innen dafür begeistern. Mittlerweile haben Schweizer Kolleg*innen einen neuen Server aufgesetzt, der die hybride Umsetzung ermöglicht und optimiert. So kann es auch gelingen, dass sich die Forschungsteams zwischen den jährlich stattfindenden Tagungen messen. Der Video Browser Showdown wird außerdem live auf Twitch gestreamt. Das Gewinnerteam verfasst eine umfangreiche Zusammenfassung und Auswertung als wissenschaftliches Paper – und erreicht so noch zusätzliche Sichtbarkeit. Klaus Schöffmann ist noch immer Hauptorganisator des Video Browser Showdown, gemeinsam mit Werner Bailer (Joanneum Research Austria), Jakub Lokoc (Charles University in Prag), Cathal Gurrin (Dublin City University) und Luca Rossetto (Universität Zürich). Die Erfolgsgeschichte, die 2012 in Klagenfurt begann, spornt weltweit Forscher*innen zu Höchstleistungen an. Gewonnen werden dabei nicht nur die Wettbewerbe, sondern vor allem neue Erkenntnisse für die Forschung.

für ad astra: Romy Müller

Zur Person



Klaus Schöffmann ist assoziierter Professor am Institut für Informationstechnologie an der Universität Klagenfurt. Seine Forschungsschwerpunkte sind das Verstehen von Videoinhalten (insbesondere von medizinischen, chirurgischen Videos), Multimediaabruf, interaktive Multimedia und angewandtes Deep Learning. Er ist (Mit-)Autor von mehr als 100 Publikationen in diesem Feld. Er ist Mitglied der IEEE und der ACM sowie regelmäßig Gutachter für internationale Konferenzen und Fachzeitschriften im Bereich Multimedia.

Wie gut können wir Videos auswerten?



Damit beispielsweise Autos autonom fahren und Bildmaterial autonom ausgewertet werden kann, muss die Maschine erkennen, was sie mit Kameras wahrnimmt. Glaubt man der Science Fiction, sind wir bei der Entwicklung von solchen intelligenten Maschinen sehr weit. Klaus Schöffmann relativiert den Fortschritt: „Es braucht noch viel Forschung, bis eine Maschine wie der Mensch erkennt, was sie sieht. Ein autonom fahrendes Auto kann nicht immer zwischen einem Baum oder einem Menschen unterscheiden. Unser Problem ist die Fülle an Daten. In dieser Fülle müssen wir mit Ungenauigkeiten, oftmals mit nur 70 Prozent Präzision, zurechtkommen. In heiklen Einsatzbereichen wie den autonomen Fahrzeugen ist das noch deutlich zu viel.“

Ob nun wenigstens die Suche in großen Videoportalen wie YouTube (künstlich) intelligent funktioniert? Auch hier die ernüchternde Erkenntnis: „Gefunden wird rein über die Texte, die rund um das Video gepostet werden.“ Fortschritte gäbe es in dem Bereich zum Beispiel bei der Ähnlichkeitssuche. Hat man aber noch kein Bildmaterial, mit dem man Ähnliches suchen könne, muss man es erst textuell beschreiben. Und auch hier gilt: Kann man das Konzept eines Baums, eines Hauses, eines Tiers oder eines bestimmten Events (z. B. einer Hochzeit) hinreichend gut beschreiben, dass damit auch Passendes in einem sehr großen Videoarchiv schnell gefunden wird?