Adaptive Datenfusion für die audio-visuelle Spracherkennung
Produktform: Buch / Einband - flex.(Paperback)
Die Hoffnungen, dass die automatische Spracherkennung die Interaktion zwischen Mensch und Maschine deutlich vereinfachen kann, sind trotz der bisher nur unbefriedigenden Ergebnisse und der nur in kleinen Schritten erfolgenden Verbesserungen nach wie vor sehr groß. Die Erkennungsleistung derartiger Systeme wird stark durch die Präsenz von Hintergrundstörungen beeinträchtigt. Hintergrundstörungen sind insbesondere bei den erfolgversprechendsten Einsatzmöglichkeiten, wie beispielsweise der Bedienung von Taschencomputern und Mobiltelefonen, sehr ausgeprägt. Die in dieser Arbeit behandelte audio-visuelle Spracherkennung stellt ein Verfahren dar, um die Robustheit von Erkennungssystemen gegenüber Hintergrundstörungen zu erhöhen. Dabei werden zusätzlich zum akustischen Signal auch die Bewegungen der Lippen des Sprechers mit ausgewertet. Dass diese Bewegungen viele sprachrelevante Informationen enthalten, zeigt sich eindrucksvoll an der Fähigkeit gehörloser Menschen von den Lippen abzulesen.
In dieser Arbeit werden zunächst die Grundlagen der menschlichen Sprachproduktion und Sprachwahrnehmung dargestellt, wobei vor allem der Einfluss der Lippenbewegungen herausgestellt wird. Im Anschluss daran wird gezeigt, wie die für die Erkennung notwendigen Parameter aus dem Videokanal extrahiert werden können. Kernpunkt der Arbeit ist die Fusion der Audio- und Videodaten. Es werden unterschiedliche Fusionsmöglichkeiten diskutiert, neue Gewichtungsmodelle für den Audio- und Videokanal vorgestellt und diese anhand einer audio-visuellen Datenbank bewertet. Die Datenbank enthält eine englischsprachige Sprecherin. Als Erkennungsaufgabe wurde die Erkennung von englischen Ziffernfolgen gewählt. Im Rahmen der Arbeit wird ein Verfahren entwickelt, welches in der Lage ist, die Gewichte adaptiv an unterschiedliche Hintergrundstörungen im Audiokanal anzupassen. Desweiteren wird die Einsetzbarkeit dieses adaptiven Verfahrens auch bei zusätzlich vorhandenen Videostörungen untersucht und Asynchronitäten zwischen den Audio- und Videodaten simuliert. Den Abschluss bildet eine Einordnung der Ergebnisse im Hinblick auf ihre Relevanz für reale Szenarien.weiterlesen
Dieser Artikel gehört zu den folgenden Serien
48,80 € inkl. MwSt.
kostenloser Versand
lieferbar - Lieferzeit 10-15 Werktage
zurück