zum Hauptinhalt
Der Algorithmus zur Gestenerkennung wurde mit diesen neuen Beispielen trainiert, sodass er sie auch bei unterschiedlichen Händen wiedererkennen konnte.

© Zhang et al., doi: 10.1117/1.JEI.30.6.063026

Der richtige Wink für den Computer: Algorithmus erkennt Handgesten zur Befehlseingabe

Computer berührungslos per Hand zu steuern ist noch weitgehend Science-Fiction. Eine neue Software löst grundlegende Verständigungsprobleme.

Im Science-Fiction-Film „Minority Report“ funktioniert es sehr gut. In dem auf einer Kurzgeschichte des amerikanischen Autors Philip K. Dick basierenden Zukunftskrimi steuert der Protagonist, dargestellt von Tom Cruise, Computer mit Handbewegungen. Er trägt spezielle Handschuhe und öffnet und schließt Dateien und ordnet die auf einen transparenten Bildschirm projizierten Ansichten nach Belieben an.

Die Gestensteuerung ist seit der Filmpremiere vor fast zwanzig Jahren weitgehend „Science-Fiction“ geblieben. In der Gegenwart erhalten Computer ihre Befehle meist in Form von Maus-, Tastatur- oder Touchscreen-Eingaben. Auch Sprachbefehle können bestimmte Funktionen steuern, zum Beispiel die Recherche mit einer Suchmaschine oder das mehr oder weniger aufschlussreiche Gespräch mit einem Programm. Beim bisweilen zu beobachtenden Anschreien des Bildschirms bleiben Computer meist ganz ruhig, erfahren aber auch nicht, was sie tun sollen.

[Wenn Sie aktuelle Nachrichten aus Berlin, Deutschland und der Welt live auf Ihr Handy haben wollen, empfehlen wir Ihnen unsere App, die Sie hier für Apple- und Android-Geräte herunterladen können]

Kompromiss zwischen Komplexität und Genauigkeit

Ein Forschungsteam um Zhiyi Yu von der Sun-Yat-Sen-Universität in Zhuhai, China hat nun einen neuen Algorithmus vorgestellt, der Computer Handgesten in Echtzeit erkennen lässt und sich dabei auch an verschiedene Handtypen anpassen kann. Die Gesamterkennungsrate eines noch sehr überschaubaren Gesten-Grundvokabulars beträgt über 94 Prozent, berichteten die Forschenden in der Fachzeitschrift „Journal of Electronic Imaging“. Sie liegt auch dann noch über 90 Prozent, wenn die Bilder der Handgesten gedreht, vergrößert oder verkleinert werden.

Die meisten bestehenden Algorithmen zur Gestenerkennung schneiden schlechter ab, sagen die Entwickler. Sie brauchen gleich aussehende Hände in einer bestimmten Position und Orientierung vor der Kamera des Computers.

Hauptvorteil der optischen Steuerung ist, dass sie berührungslos funktionieren kann und auch ohne Sensoren oder Datenhandschuhe wie die des Minority-Report-Ermittlers auskommt. Kamerasysteme und Software zur Bildanalyse und maschinellem Lernen werden stetig weiterentwickelt, was auch der Gestenerkennung zugutekommt. Doch der Rechenaufwand ist bislang hoch, die Systeme langsam und fehleranfällig. Auch das nutzbare Gesten-Vokabular ist begrenzt, was die Kommunikation mit dem Computer thematisch stark einschränkt.

Dieses Problem hat das chinesische Forschungsteam mit einem Katalog von neun Computer-erkennbaren Gesten noch nicht gelöst. Ihr Algorithmus sei aber ein guter Kompromiss zwischen der Komplexität der Kommunikation einerseits und den Systemanforderungen sowie der Genauigkeit der Erkennung andererseits. Er könne bereits in Geräten für Verbraucher eingesetzt werden, teilte die Internationale Gesellschaft für Optik und Photonik mit. Das Team testete seinen Algorithmus unter anderem auf einem kommerziellen PC-Prozessor mit einer USB-Kamera.

Vorauswahlschritte beschleunigen die Erkennung

40 Freiwillige führten dem Computer die neun Handgesten mehrfach vor. Anhand der aufgezeichneten Bilder legte die Software eine Musterbibliothek an, etwa der für Menschen recht eindeutigen Gesten für die Zahlen „eins“, „zwei“ und „drei“. Mit 40 weiteren Freiwilligen wurde dann überprüft, wie genau der Computer die Gesten wiedererkennen konnte. Mehr als neun von zehn Gesten wurden jeweils richtig erkannt, obwohl sich die Hände der Gestikulierenden unterschieden.

„Herkömmliche Algorithmen neigen zu niedrigen Erkennungsraten, weil sie mit unterschiedlichen Handtypen nicht zurechtkommen“, sagt Yu. Der neue Algorithmus klassifiziert den Handtyp zunächst anhand der Verhältnisse zwischen Handflächenbreite, Handflächenlänge und Fingerlänge als schlank, normal oder breit. Anschließend wird die zu erkennende Geste nur mit den gespeicherten Mustern desselben Handtyps verglichen. „Dadurch können wir die Gesamterkennungsrate bei fast vernachlässigbarem Ressourcenverbrauch verbessern“, erklärt Yu.

In einem weiteren Vorauswahlschritt grenzt der Algorithmus anhand der Vermessung der sichtbaren Handfläche die in Frage kommenden Gesten auf drei ein. Der Rechenaufwand für die Erkennung der richtigen wird so minimiert.

Das Forschungsteam will nun in weiteren Arbeiten die Zahl der möglichen Gesten erhöhen und außerdem die Leistung des Algorithmus bei schlechten Lichtverhältnissen verbessern.

Zur Startseite