Kann ein Filmverbot für Nicolas Cage Menschenleben retten?

Dass zwei korrelierende Ereignisse nicht unbedingt kausal miteinander zusammenhängen, ist eine von vielen Achillesfersen der Statistik. Heute stehen uns mehr sozioökonomische Daten denn je zur Verfügung. Damit diese von Entscheidungsträger*innen auch sinnvoll und korrekt genutzt werden können, braucht es innovative und leistungsstarke Werkzeuge für deren statistische Analyse. Gregor Kastner ist Koordinator eines FWF-Zukunftskollegs, in dem Expert*innen aus unterschiedlichen Disziplinen an solchen neuen Instrumenten arbeiten.

Daten bestimmen seit Ausbruch der Pandemie unser Leben: Sie sind die Grundlage dafür, ob wir ins Kino gehen dürfen oder in welche Länder wir reisen können. Schlägt sich dieser Hype auch auf nichtmedizinische Sphären nieder?
Das, was wir gerade erleben, hat natürlich mit der Tagesaktualität der Pandemie zu tun. In anderen Bereichen sind Daten und statistische Schlussfolgerungen derzeit nicht ganz so prominent. Wofür statistische Methoden verwendet werden, unterliegt also auch Moden. Grundsätzlich sind viele unserer Werkzeuge schon alt und halten sich über Aufmerksamkeitsspannen hinweg. Die Statistik kommt ja aus der Staatslehre, für die man Volkszählungen gemacht hat. Erst später kam die Abstraktion auf ein Modell dazu.

Wir spüren, was die Entscheidungsträger*innen aus Daten schlussfolgern. Als Laiin verstehe ich von den dahinterstehenden Methoden aber nur sehr wenig. Sind diese wirklich so schwierig zu erklären?
Jein. Wie viel Zeit haben wir denn? (lacht) Unsere Methoden sind an der Schnittstelle zwischen Mathematik und beobachtbarer Welt verwurzelt. Sie sind oft sehr abstrakt, und sie zu verstehen wird von wenigen als unterhaltsam empfunden. Ob man wirkliches Interesse daran entwickelt, ist also auch Geschmackssache. Gleichzeitig birgt das Informationsdefizit auch Gefahren in sich: Die Statistik wird oft als ‚Wahrsagerdisziplin‘ gesehen, vor allem von jenen, die keinen fundierten Einblick in die Methoden und ihre Grenzen haben.

Im Zukunftskolleg „Hochdimensionales statistisches Lernen: Neue Methoden für Wirtschafts- und Nachhaltigkeitspolitik“ geht es darum, aus großen Datensätzen Brauchbares für Entscheidungsträger*innen zu generieren. Wie groß sind denn Ihre Datensätze?
Das klassische Machine-Learning-Problem geht ja davon aus, dass die Zahl der Beobachtungen bei relativ wenigen Variablen hoch ist. Diese große Menge an Daten trägt die Statistik unter gewissen Voraussetzungen in die richtige Richtung, ohne komplexe Methoden anwenden zu müssen. Wir widmen uns jedoch vorrangig dem Problem der Hochdimensionalität, wo wir mit verhältnismäßig wenigen Beobachtungen viele Variablen gleichzeitig untersuchen. In anderen Worten: möglichst viel lernen mit einer endlichen Menge an Daten. Bei diesen Problemen muss mit Bedacht modelliert werden, um ungenaue, übergenaue oder gar falsche Schlussfolgerungen möglichst zu vermeiden.

Arbeiten Sie mit konkreten Fragestellungen oder geht es Ihnen um das abstrakte Modell?
Sowohl als auch, aber für mich gilt: real questions matter. Wir gehen also in der Regel von konkreten Fragestellungen aus.

Nehmen wir das konkrete Beispiel der nachhaltigen Mobilitätsangebote in Städten. Welche Daten stehen Ihnen hier zur Verfügung?
Über Mobiltelefondaten wissen wir, wer sich wo wann bewegt hat. Daraus können wir ablesen, wo sich Ansammlungen gebildet haben oder wo es zu Überlastungen kam. Wir arbeiten also mit einer Fülle von verschiedenen Variablen, welche in Verbindung mit statistischen Modellen Schlussfolgerungen und Vorhersagen treffen lassen. Diese kann man für strategische Entscheidungen zur Verfügung stellen.

Stehen den Politiker*innen genügend solche Entscheidungsgrundlagen zur Verfügung?
Daten und ihre statistischen Auswertungen spielen eine zunehmend größere Rolle, aber dennoch: Es ist vieles nicht getan, was man noch tun könnte. An der Schnittstelle zur Politik ist es wichtig zu betonen, dass statistische Modellierung nur eine von vielen Grundlagen für die Entscheidungsfindung darstellt. Sie dient den Verantwortlichen als Prognosetool einerseits und als Empfehlung andererseits. Für sie ist es wichtig, sich auf zuverlässige Ergebnisse berufen zu können.

Damit einher geht aber auch die Gefahr, dass man nur jene Zahlen nutzt, die die eigene Intention unterstützen.
Ja, in der politischen Argumentation kann es auch vorkommen, dass man sich auf Quellen bezieht, die möglicherweise stärker der eigenen Intention dienen, als dass sie für sich seriös und plausibel sind.

Gehen wir im positiven Falle davon aus, dass es sich dabei um Missverständnisse handelt. Worin liegen denn Potenziale für solche Fehleinschätzungen?
Klassisch ist die Unterscheidung zwischen Korrelation und Kausalität. Vergleicht man die Erscheinungstermine von Filmen mit Nicolas Cage mit der Zahl der jährlich in Pools ertrinkenden Personen in den USA, könnte man meinen, die Menschen ertränken sich, wenn Nicolas Cage gehäuft schauspielert. Das ist natürlich ein Unfug. Bei jeder Schlussfolgerung müssen wir uns also fragen: Sind die Dinge wirklich kausal voneinander abhängig oder ist das nur eine Korrelation? In der Pandemie hören wir gerne die geflügelte Phrase von den ‚bewährten Maßnahmen‘. Ohne deren Sinnhaftigkeit grundsätzlich in Frage zu stellen, ist für mich oft unbeantwortet: Wie hat man deren Erfolg gemessen? Manchmal wäre es ehrlicher zu sagen, man weiß manches nicht, anstatt Kausalitäten zu verkünden, die man nicht belegen kann.

Kann man menschliches Verhalten überhaupt gut modellieren?
Das ist das Schöne an der Statistik: Wenn viele unabhängige Partikel agieren, können wir gut vorhersagen, was im Durchschnitt passiert und welche Verteilung dieser Schnitt hat, also was für das große Ganze relevant ist. Schwierig wird es, wenn eine starke Abhängigkeit zwischen den Partikeln besteht, also wenn sich beispielsweise Menschen herdenhaft verhalten. Dann können einzelne Schmetterlingseffekte sehr viel beeinflussen.

Woran merken Sie in Ihrem privaten Alltag, dass Sie Professor für Statistik sind?
Ein Beispiel: Ich nehme a priori wahr, dass ich zu einem bestimmten Phänomen eine Meinung habe. Im Alltag kommen dann Erfahrungen daher, also gewissermaßen Datenpunkte, und ich überlege mir, inwiefern diese meine Meinung verändern. Dieser Vorgang wird als Bayesian thinking bezeichnet. Ich glaube, diese bewusste Differenzierung zwischen einem Gefühl zu einer Sache und dem datengestützten Weg zu Wissen ist am augenfälligsten. Ich würde das als Formalisierung des Alltagserkenntnisbegriffs bezeichnen.

Aus den vorliegenden Datenpunkten rechnen Sie dann in die Zukunft. Macht Sie dieser vorwärtsgerichtete Blick zu einem optimistischen Menschen?
Als Statistiker bemühe ich mich darum, möglichst korrekte Vorhersagen zu treffen. Was die Bewertung angeht, verweise ich immer wieder auf unsere fachlichen Möglichkeitsräume: ‚Ob etwas gut oder schlecht ist, obliegt nicht der statistischen Methode.‘ Die intensive Beschäftigung mit Statistik alleine macht mich also weder zu einem optimistischen noch zu einem pessimistischen Menschen. Für die Statistik selbst jedoch sehe ich optimistisch in die Zukunft.

Mathematiker*innen und Statistiker*innen sprechen häufig von der Schönheit ihres Fachs. Was ist denn schön an der Statistik?
Für mich sind statistische Modelle dann schön, wenn sie einfache Sachverhalte erkennen können, aber auch die Flexibilität haben, ‚um die Ecke zu denken‘. Simplizität ist also weder vorgegeben noch ausgeschlossen, vielmehr gilt: So einfach wie möglich, so kompliziert wie nötig.

für ad astra: Romy Müller

Zur Person


Gregor Kastner ist seit Oktober 2020 als Universitätsprofessor für Statistik an der Fakultät für Technische Wissenschaften tätig. Kastner studierte Technische Mathematik und Informatikmanagement sowie die Lehramtsstudien Informatik, Mathematik und Bewegung & Sport an der Universität Wien und an der Technischen Universität Wien. Internationale Erfahrungen sammelte er an der ETH Zürich und als Visiting Scholar an der University of Chicago Booth School of Business (USA) und der Jiangxi University of Finance and Economics (China). 2014 promovierte Kastner an der Universität Linz sub auspiciis. Vor seiner Berufung an die Universität Klagenfurt war er Senior Postdoc (FWF) und Senior Lecturer sowie Assistenzprofessor am Institute for Statistics and Mathematics der Wirtschaftsuniversität Wien. Seine Forschungsschwerpunkte liegen in der Bayesschen Statistik und Ökonometrie, der computationalen Statistik und der mathematischen Modellierung von Unsicherheiten.

Zum Zukunftskolleg


Die Menge an sozioökonomischen Daten nahm in den letzten Jahren deutlich zu. Gleichzeitig werden diese immer komplexer. Nimmt man unter die Lupe, welche Daten für Entscheidungsträger*innen aufbereitet werden, erkennt man: Die ständig wachsende Datenmenge wird bei weitem nicht voll ausgeschöpft. Ein Team von Forscher*innen aus den Bereichen Statistik, maschinelles Lernen, Ökonomik, Sozialwissenschaften und Informatik versucht mit neuen Methoden zu besseren Schlussfolgerungen aus den Daten zu gelangen. Das Projekt wird vom österreichischen Wissenschaftsfonds FWF gefördert.