Was ist real? Wie künstliche Bilder die KI noch schlauer machen
In Kombination mit realen Aufnahmen sorgen synthetisch generierte Bilder für mehr Sicherheit und Komfort beim Autofahren. Um eine moderne Innenraumsensierung zu ermöglichen, setzt Bosch Research auf künstliche Intelligenz.
Im Fahrzeuginnenraum geht es manchmal turbulent zu: Gelangweilte Kinder auf der Rückbank schnallen sich ab, Spielzeug wird herumgeworfen und wechselnde Lichtverhältnisse sorgen für Ablenkung vom Verkehrsgeschehen. Oft kann der Fahrer oder die Fahrerin die Situation nicht vollständig überblicken. Hier helfen Innenraumkameras. Sie erkennen Personen im Fahrzeug und deren Verhalten, um unterstützend einzugreifen.
Eine solche Kamera ist die sogenannte Occupant Monitoring Camera (OMC), an welcher der Bosch-Geschäftsbereich Cross-Domain Computing Solutions arbeitet. Sie ergänzt die von Bosch entwickelte Driver Monitoring Camera (DMC), die bereits serienmäßig in Fahrzeuginnenräumen verschiedener Hersteller eingesetzt wird, um neue Funktionen. So beobachtet und erkennt die OMC den gesamten Innenraum eines Fahrzeugs mittels eines Bildverarbeitungsalgorithmus, dem durch maschinelles Lernen beigebracht wurde, das beobachtete Szenario zu verstehen, zu analysieren und aus den Erkenntnissen Warnungen sowie Hinweise abzuleiten.
Die OMC hat einen größeren Sichtbereich als die DMC und erkennt die Fahrerin oder den Fahrer ebenso wie die Beifahrerin oder den Beifahrer und weitere Insassen des Fahrzeugs. Die OMC erfasst, wie viele Personen sich wo im Fahrzeug befinden, was sie tun und ob der Fahrende eventuell abgelenkt ist. Dies ist im Hinblick für das automatisierte Fahren essenziell. Ist die oder der Steuernde beispielsweise müde oder im Gespräch, wird in Zukunft kein Übergabemanöver vom automatisierten System zurück an den Menschen ausgelöst, stattdessen kommt das Fahrzeug am Fahrbahnrand zum Halt.
Viele Unfälle im Straßenverkehr sind auf menschliches Versagen zurückzuführen. Gerade der sogenannte Sekundenschlaf, bei dem der Mensch hinter dem Steuerrad kurz wegnickt, kann fatale Folgen haben. Denn für diese Zeit, auch wenn es nur Sekunden sein mögen, ist das Fahrzeug quasi führerlos. Technik kann für mehr Sicherheit sorgen. Das hat auch die EU-Kommission erkannt. Sie hat die „General Safety Regulation“ (GSR) des europäischen Staatenbundes ergänzt. Damit werden Vorschriften über Sicherheitstechnologien und Konstruktionsmerkmale für die Beförderung von Personen und Gütern mit Fahrzeugen auf öffentlichen Straßen festgelegt. Ein wichtiger Baustein: Ab Juli 2024 müssen alle Neufahrzeuge über ein System zur Fahrermüdigkeitserkennung verfügen. Ab Juli 2026 ist zusätzlich ein System zur Erkennung von Fahrerablenkung verpflichtend. Aktuell treibt NCAP Vision 2030 mit dem Protokoll für 2026 die Themen der passiven Sicherheit stark voran, insbesondere in Bezug auf die Klassifizierung der Insassen und die Erkennung von Personen in ungewöhnlichen Positionen. Dadurch gewinnt die Posenerkennung, insbesondere eine hochpräzise 3D-Pose, wieder an großer Bedeutung.
Die neuen Funktionen der OMC sind ein Teil der erweiterten Innenraumsensierung und können die Sensoriksysteme im Fahrzeug durch die Informationen aus dem Innenraum noch präziser unterstützen. Sie erhöhen so die Fahrsicherheit und erfüllen die EU-Vorgaben.
Durch die Erkennung der Personen im Fahrzeug durch die OMC können auch personalisierte Einstellungen automatisch vorgenommen werden. So wird der Sitz speziell für die wahrgenommene Person eingestellt, die Bordelektronik individuell ausgerichtet oder das gewünschte Unterhaltungsprogramm ohne erneute Eingabe aktiviert.
Die Macht der Bilder
Das Forschungs-Team von Bosch Research um Bernd Göbelsmann, Projektleiter und Research Engineer, und Dennis Mack, Research Engineer, entwickelte im Projekt „AI Methods for Interior Sensing“ für die OMC einen Algorithmus zur Schätzung der 3D-Body-Pose, auf dessen Grundlage Anwendungen und Funktionen der Kamera entwickelt werden. 3D-Body-Pose bedeutet, dass ein menschlicher Körper in seiner Haltung sowie seiner Position im Raum vom Kameraalgorithmus erkannt werden kann. Die Schätzung der 3D-Body-Pose erfolgt mittels eines neuronalen Netzes. Um dieses anzulernen, braucht es Bilder – viele Bilder.
Von unterschiedlichen Positionen der Insassen des Fahrzeugs ebenso wie von verschiedenen Personen, Altersgruppen und Konstellationen. „Damit der Algorithmus aus der Analyse der Kamerabilder eine Aktion ableiten kann, hat er die Situation im Vorfeld bestenfalls schon einmal gesehen, muss also darauf trainiert worden sein“, erklärt Bernd Göbelsmann. Ein Datensatz mit realen Bildern wurde bei Bosch Research 2019 mit mehr als 400 Personen in einem Filmstudio in Hanau erstellt und stellt bereits eine gute Datenbasis dar. Doch: Solche Aufnahmekampagnen sind so kostenintensiv wie zeitaufwendig und die statistisch notwendige Menge an Probanden schwer zu gewinnen. Außerdem tut sich eine Lücke auf, die der Laie nicht erwartet: In realen Fotoaufnahmen finden sich keine Tiefeninformationen. „Solche Informationen à la wie weit sitzen die Personen weg, wo befindet sich die Hand im Fahrzeug tatsächlich oder wie weit ist diese von der Kamera entfernt, sind aus einer Kameraperspektive nicht eindeutig ersichtlich “, erklärt Bernd Göbelsmann.
Um diese 3D-Informationen zu bestimmen und für die OMC geeignete Trainingsdaten zu erhalten, wird ein Tiefenmessverfahren benötigt, wie etwa ToF (engl.: time of flight, kurz ToF), Stereo- oder Multikameratriangulation. ToF-Kamerasysteme beispielsweise messen mit dem Laufzeitverfahren Distanzen zwischen Kamera und Objekt und erstellen auf diese Weise 3D-Bildpunkte. Bei einem Multikamerasystem werden die 3D-Bildpunkte mittels Triangulation aus mehreren Kameras berechnet. „Wir haben uns für ein Multikamerasystem entschieden, damit wir auch 3D-Punkte für verdeckte Personen auf der Rücksitzbank erkennen können“, erläutert Bernd Göbelsmann. Für die initiale 3D-Punktbestimmung werden mehrere Kameras eingesetzt. Der Kameraalgorithmus wird in der Folge mit einer Kamera auf der Basis eines Kamerabildes und der dazugehörigen 3D-Punkte angelernt.
Um den Trainingsdatensatz möglichst vielfältig zu gestalten und die Kosten für weitere Realaufnahmen zu vermeiden, verfolgte das Bosch Research-Team daher von Beginn an den Ansatz, reale Daten durch synthetische zu ergänzen. Die Idee des Forschungsteams: Open Source-3D-Modellierungs-Software nutzen, um synthetische Trainingsdaten zu gewinnen. Mit dieser Software können Bilder unterschiedlichster Innenraumszenarien und Posen von Personen generiert werden. Für die künstliche Intelligenz (KI) auf dem Steuergerät, also der Kamera, ist es unerheblich, ob das Bild echt oder künstlich hergestellt ist, sofern es echt aussieht und sie dadurch mit statistisch ausreichenden Anwendungsszenarien und Variationen konfrontiert wird. Diese Methode spart dem Entwicklungsteam Ressourcen, allen voran Zeit und Geld. Beim digitalen Platzieren der synthetischen Personen im virtuellen Fahrzeuginnenraum kann es jedoch passieren, dass diese beispielsweise mit der Kontur des Sitzes verschmelzen und Hände oder Arme nicht mehr sichtbar sind. Um dies von vornherein zu verhindern, entwickelte das Bosch Research Entwicklungsteam ein Adaptionsverfahren: eine digitale Posenkorrektur. Die digitale Posenkorrektur setzt auf einem Machine-Learning-Verfahren auf, das von menschlichen Posenaufnahmen gelernt hat, welche Posen von Menschen eingenommen werden können und welche nicht. Auf Grundlage dieser Informationen und der Kenntnis der Position der Fahrzeuggeometrie in der virtuellen Szene werden die Posen so geändert, dass sie nicht mit dem Fahrzeuginnenraum kollidieren. Dabei wird darauf geachtet, dass sich die Gliedmaßen der Personen weder selbst noch mit den Gliedmaßen anderer Personen überschneiden und trotzdem eine realistische Pose eingenommen wird. Dies nimmt dem Designer der virtuellen Szene viel manuelle Arbeit ab und ermöglicht Posen, die so auch in einem echten Fahrzeug eingenommen werden könnten.
Für das Trainieren des Kameraalgorithmus sind diese KI-generierten Bilder aber noch nicht ausreichend realistisch. Daher setzte das Team im nächsten Schritt generative KI ein, um aus den erzeugten Bildern fotorealistischere Trainingsbilder zu erzeugen. Zum ersten Mal in diesem Forschungsfeld wurde damit eine 3D-Modellierungs-Software mit einem KI-Bildgenerator verknüpft, um Trainingsdaten zu erstellen. Der große Vorteil dieses Vorgehens ist, dass der sogenannte Domain-Gap zwischen synthetischen und realen Daten verkleinert wird. Unter Domain-Gap wird verstanden, dass der Kameraalgorithmus mit synthetischen Bildern trainiert wird, die OMC aber letztlich reale Bilder erfasst und auswerten muss. Je fotorealistischer also die Trainingsdaten sind, desto zuverlässiger ist die Auswertung der eingesetzten Innenraumkamera. „Wenn nur synthetisch trainiert und das Kameramodell dann mit realen Daten getestet wird, fallen die Ergebnisse wegen des Domain-Gaps schlechter aus“, sagt Dennis Mack. Wichtig seien insbesondere Kanten und Silhouetten der Personen ebenso wie Texturen von Körpern oder Kleidung. Ebenso verhält es sich mit den Kontrasten. Denn was ein menschliches Auge an Texturen und Positionen erkennen kann, muss der KI anhand von Trainingsdaten beigebracht werden. „Wir nehmen an, dass je fotorealistischer die Trainingsbilder sind, desto besser kann sie die Kamera-KI erfassen“, erklärt Dennis Mack.
Zahlreich und divers
Die Vorteile von synthetisch generierten Daten liegen auf der Hand: Schnell und unkompliziert kann die Anzahl der Personen im Innenraum eines Fahrzeugs, ihre Posen sowie Größe, Alter und Kleidung in Hinsicht auf Texturen beliebig variiert werden. Auch verschiedene Fahrzeugmodelle können in die Bildsimulation einbezogen werden. Rund 20 verschiedene Typen nutzte das Projektteam bisher. Dank der Modellierungssoftware in Kombination mit generativer KI können binnen weniger Tage so Hunderttausende verschiedene Bilder entstehen. Eine Zahl, die mit Aufnahmekampagnen von realen Personen zeitlich nicht zu realisieren wäre und auch ungeachtet des Zeitfaktors ein Vielfaches der Kosten verursachen würde. Denn beim Trainieren eines Bilderkennungsalgorithmus gilt: Je diverser die Situationen und Posen in den Datensätzen sind, desto besser kann der Algorithmus generalisieren und funktioniert somit auch in unbekannten Situationen besser.
Ein weiterer Aspekt ist, dass synthetische Daten im Einklang mit den aktuell geltenden Datenschutzgesetzen stehen, da keine Zustimmung einer realen Person für die Nutzung ihrer Bilddaten erforderlich ist, wie es bei echten Bildern der Fall wäre.
Die Zukunft ist synthetisch
Die Kombination von realen Aufnahmen mit KI-generierten Bildern liefert derzeit noch die besten Ergebnisse beim Trainieren von Bilderkennungsalgorithmen. Bosch ist sich zudem der Nachteile synthetischer Daten bewusst. Wir analysieren diese Nachteile sorgfältig und bedenken sie in unseren Produkten und Dienstleistungen. Synthetische Daten weisen in der Regel einen Gap-Bereich auf. In diesem Projekt ist es möglich, dass die synthetischen Daten nicht den gleichen Realitätsgrad wie die realen Daten haben und daher andere Rauschmuster aufweisen als die realen Bilder einer Kamera. Durch den generativen Ansatz, der in diesem Projekt zum ersten Mal zur Anwendung kommt, soll der Grad der Realitätsnähe so nah wie möglich an die realen Bilder herangebracht werden. Synthetischen Bildern aber gehört in diesem Zusammenhang dennoch die Zukunft. Weitere Forschung kann dazu führen, dass für das Trainieren von Kameraalgorithmen keine Realdaten mehr benötigt werden.
Das Forschungsprojekt von Bosch Research hat unter Beweis gestellt, dass der Einsatz von synthetischen Daten sinnvoll ist und ein erhebliches Einsparungspotenzial bietet. Zeitaufwendige Aufnahmekampagnen können dank synthetischer Daten vermieden und die Entwicklungszeit von Bilderkennungsalgorithmen signifikant verkürzt werden – auch für andere Kameratypen mit unterschiedlichen Einbaupositionen in einer Vielzahl von Fahrzeugtypen, für noch sichereres und komfortableres Fahren.
Das AI Interior Sensing Team
Bernd Göbelsmann
Bernd Göbelsmann schloss 2010 sein Studium der Computervision und Maschinellen Intelligenz an der Fachhochschule Südwestfalen mit dem Master ab. Derzeit arbeitet er als wissenschaftlicher Mitarbeiter bei Bosch Research in Hildesheim, Deutschland, mit den Schwerpunkten Innenraumsensorik, Deep Learning Methoden und menschliche Poseschätzung. Seit 2018 ist er Projektleiter für Projekte in den Bereichen Fahrzeuginnenraumüberwachung und 3D Wahrnehmung und Szenenverständnis.
Dennis Mack
Dennis Mack absolvierte sein Masterstudium an der Technischen Universität München. Er ist Forschungsingenieur bei Bosch Research und arbeitet an Deep Learning Methoden für die visuelle Wahrnehmung. Seine Forschungsinteressen umfassen Multi-View Rekonstruktion, 3D Körperform- und Posenschätzung und generative KI.