User-Centred Evaluations in Computer Vision: Empirical Insights on Explanation Methods and Gaze-Aware Videoconferencing
- Mittwoch, 7. Mai 2025, 14:00 Uhr
- INF 205, Raum B
- Martin Schüßler
Adresse
Mathematikon INF 205
Berliner Str. 43
Raum B - 128 (Großer Seminarraum)Veranstaltungstyp
Disputation

Fortschritte in der Wissenschaft der Computervision (CV), die sich mit computerbasiertem Sehen beschäftigt, haben in den letzten Jahren zu einem gestiegenen Interesse an künstlicher Intelligenz (KI/AI) beigetragen. Mit Hilfe von neuronalen Netzen kam es in einer Vielzahl von Bereichen zu unerwarteten Durchbrüchen. Es ist zum Beispiel nun technisch möglich, Lungenkrebs in Computertomografiebildern automatisierter und zuverlässiger zu erkennen. Darüber hinaus lassen sich immersive virtuelle Umgebungen schaffen, die nicht nur sehr realistisch wirken, sondern menschliche Akteure darin fast realitätsgetreu nachbilden.
Angesichts dieser Errungenschaften ist es nicht verwunderlich, dass primär eine technologiezentrierte Betrachtungsweise in den beteiligten Wissenschaften vorherrscht. Es wird besonderer Wert auf die Entwicklung innovativer Lösungen gelegt, die möglichst eindrucksvoll präsentiert werden sollen. Diese Arbeit unternimmt den Versuch eines Perspektivwechsels und nähert sich dem Feld mit einer kritischeren, nutzerzentrierten Sichtweise. Dabei sind Nutzerstudien, die neue Ansätze evaluieren und mit einfacheren, bereits etablierteren Lösungen vergleichen, integraler Bestandteil der Methodik.
Diese Arbeit hat zwei Teile, wobei sich jeder mit einem eigenen Feld der Computervision beschäftigt. Der erste Teil befasst sich mit erklärbarer künstlicher Intelligenz. Es werden algorithmische Erklärungsmethoden evaluiert, die Bildklassifizierungsmodelle verständlicher machen sollen. Gegenstand der vorgestellten Studien sind Saliency-Maps, Counterfactuals und Concept-Maps. Zum Vergleich kommt eine einfachere Methode zum Einsatz, die eine Auswahl von Bildern und deren Klassifizierungsergebnisse zeigt. Die Interpretation der Klassifikationsgründe wird also mehr dem Nutzer überlassen. Diese Studien wurden iterativ und mit besonderer Sorgfalt entworfen. Dabei wurde auch ein synthetischer Datensatz geschaffen, der auf den Einsatz in Nutzerstudien abgestimmt ist. Diese strukturierte Vorgehensweise erlaubt einen nuancierten Einblick in die Wirksamkeit verschiedener Erklärungsmethoden.
Die Ergebnisse der zwei Studien sind überraschend. Die einfach zu implementierende Methode, die Beispielbilder verwendet, erzielt vergleichbare und zum Teil sogar bessere Ergebnisse als die komplexeren Methoden. Daraus wird unter anderem die Erkenntnis gezogen, dass Erklärungen mit Beispielbildern als Benchmark für alle zukünftigen Evaluierungen von Erklärungstechniken dienen sollten. Neben den detaillierten Erkenntnissen zu jeder evaluierten Erklärungstechnik leistet diese Arbeit auch einen wissenschaftlichen Beitrag, indem sie die konkrete Umsetzung der Benchmarkmethode, ein passendes Studiendesign und einen auf Nutzerstudien abgestimmten Datensatz bereitstellt.
Im zweiten Teil der Arbeit verlagert sich der Fokus auf die Bildsynthese. Es wird untersucht, ob sich Videokonferenzen verbessern lassen, indem man die Blickrichtung der Teilnehmer mittels synthetisierter Kopfdrehungen visualisiert. Es wird ein Konzept für ein solches System namens Gazing Heads vorgestellt. Dieses wird mit Hilfe von mehreren Kameras prototypisch umgesetzt und einer umfassenden Nutzerstudie unterzogen. Als Vergleichssystem dient die marktübliche Videokachelansicht. Dabei wird untersucht, wie sich Gazing Heads auf die Kommunikation, soziale Präsenz und Natürlichkeit der Interaktion auswirkt. Die Ergebnisse zeigen, dass sich die Blickrichtungen der Teilnehmer eindeutig mit synthetischen Kopfrotationen vermitteln lassen. Dies hatte im Experiment zur Folge, dass die Probanden Gazing Heads klar bevorzugten. Sie fühlten sich stärker in die Unterhaltung eingebunden und nahmen eine gesteigerte soziale Präsenz wahr. Daraus wird die Schlussfolgerung gezogen, dass sich das Videokonferenzerlebnis mit dem Einsatz von synthetisierten Kopfdrehungen signifikant verbessern lässt. Um diese Vorteile allerdings in der Praxis nutzen zu können, muss eine nahtlose Integration in bestehende Anwendungsfälle gewährleistet werden. Darüber hinaus gilt es, technische Herausforderungen zu überwinden, damit Kopfrotationen und Gesichter als möglichst realitätsgetreu empfunden werden.
Insgesamt leistet diese interdisziplinäre Arbeit Beiträge zu zwei Wissenschaftsbereichen, den der Mensch-Computer-Interaktion und den der Computervision. Sie liefert empirische Erkenntnisse zu den Vorteilen und Grenzen aktueller Anwendungen von künstlicher Intelligenz. Darüber hinaus zeigt sie den Mehrwert empirischer Netzwerkstudien im Computervision-Bereich auf. Da dieser Perspektivwechsel wichtige wissenschaftliche Erkenntnisse liefert, erkennt man nicht zuletzt auch daran, dass die hier vorgestellten Studien auf führenden Konferenzen und in Journalen veröffentlicht wurden.
Neben den neuen Erkenntnissen und offenen Forschungsfragen liefert diese Arbeit auch wiederverwendbare Artefakte wie Systemkonzepte, Datensätze und Studiendesigns für zukünftige Forschungsvorhaben.