aus c´t 1997, Heft 9
Die Erfindung der Computer-Maus hatte für Aufregung gesorgt, plötzlich war da eine simple Alternative zu Kommandozeilen und abschreckenden Terminals gefunden - heutzutage hat kaum ein Computer ohne sie noch eine Daseinsberechtigung. Wenn sie aber denken, es ginge außerhalb der Science-Fiktion nicht einfacher, dann könnte Sie dieser Artikel eines besseren belehren.
Daß kreative Ideen an ungewöhnlichen Orten entstehen, ist
kein Geheimnis. Da überrascht es kaum, daß Christoph Maggioni
von der Zentralabteilung Technik der Firma Siemens die Idee zu einem gestengesteuerten
Computer vor sechs Jahren in der Badewanne kam. Was allerdings auch schon
zu diesem Zeitpunkt, global gesehen, keine einzigartige Idee mehr war. Inzwischen
hat sich aus der Initialzündung ein anwendungsreifes Produkt entwickelt. (Auch an der Uni Dortmund im Rahmen des Zyklop-Projektes forscht man an der
maschinellen Erkennung von Gesten [1].)
1992 begann das Siemens-Projekt mit der Entwicklung des sogenannten
"GestikComputers" mit der Zielsetzung, ein System zu entwickeln, daß sich sowohl per Hand - als auch per Knopfsteuerung - ja nach Anwendungsgebiet
und Funktionalität bedienen läßt. Die dazu benötigten
Head-Tracking-Algorithmen wurden 1995 bereits auf der Telekom Messe in
Genf demontriert, so konnte der Besucher sich etwa ein per ATM-Leitung
übermitteltes Livebild aus Lugano per Kopfbewegung, die von einer Kamera registriert wurde, von allen Seiten aus ansehen [2]. Dieses
Jahr präsentiert man dann mit dem Virtual Touchscreen (VTS) auf der
Hannover Messe einen handgebastelten Prototyp eines durch Fingerzeige steuerbaren
Systems, das dem Besucher außer virtuellen Mausklicks per Finger beispielweise
die Ansicht eines QuickTime-VR-Modells des neuen ICE 3 gestattet - den
Winkel im Raum wählte man mit einem Fingerschwenken.
Ergonomisch
Die prinzipielle Idee des VTS ist es, die Bedienung eines Computersystems
ohne mechanische Ein- und Ausgabegräte wie Maus, Tastatur und Monitor
zu ermöglichen, indem diese durch Sinnbilder, sogenannte Metaphern,
ersetzt werden. Obwohl derartige Ideen bereits seit Jahrzehnten existieren,
hat man bei Siemens den Visionnen Taten folgen lassen: Den Monitor ersetzt
ein LCD-Beamer, der einige erhebliche Vorteile gegenüber herkömmlichen Monitoren aufweist, denn die Bildausgabe des verwndeten Computers läßt sich nicht nur auf nahezu jede beliebige Oberfläche projizieren, die Projetion ist auch heller und kann zudem Größen einnehmen, die für Monitore schon alleine aus Preisgründen nicht mehr in Frage kommen können. Als ergonomisches Eingabegerät dient die menschliche Hand, die bei ihren Bewegungen und Aktionen (Gesten) von einer Schwarzweißkamera beobachtet wird und nicht auf der Oberfläche aufliegen muß - die Software erkennt die Position der Hand im Raum.
Dabei ist es nun unerheblich, ob diese Hand zu einem Europäer,
Asiaten oder Afrikaner gehört oder durch einen Handschuh eine andere
Farbe angenommen hat. Das Team um Maggioni hat mittlerweile den vorher
benutzten Ansatz, nämlich die Hand anhand der Hautfarbe zu erkennen,
durch einen cleveren Trick ersetzt: einige kleine Infrarotquellen werden
in der Nähe des Beamers zusätzlich angebracht und bestrahlen
ebenfalls die Projektionsoberfläche, ein Filter vor der Kamera entfernt
alle eintreffenden Frequenzen sichtbaren Lichtes. Übrig bleibt nach
der Binarisierung ein Graustufenbild, in dem die Hand durch eine Schwellwerttransformation
schwarz eingefärbt ist, der Schwellwert wird von der Software dynamisch
angepaßt; die Position der Hand wird mit Hilfe einiger (einmaliger)
Kalibrationsschritte berechnet.
Diese Innovation, für die übrigens das Patentverfahren läuft,
bringt noch einen weiteren, nicht sofort offensichtlichen Gewinn mit sich,
hat doch der farbbasierte Erkennungsansatz Probleme, sobald in der Prokjektion
selbst das farbliche korrekte Bild einer Hand auftaucht! Auch gegen mehrere
agierende Hände ist das VTS gefeit: dem oder den Benutzern wird sofort
signalisiert, sich auf eine Hand zu beschränken - hier scheint das
System noch etwas überempfindlich zu sein, bei unserem Test kam das
Feedback zumindest öfters aus unerfindlichen Gründen. Anders
verhält es sich mit nicht agierenden Objekten: Egal ob Arm , Aktenkoffer
oder Jacke, statische Neuerwerbungen auf der Projektionsoberfläche
werden als zu dieser dazugehörig erlernt.
Einsatzfähig
Mögliche Märkte für das VTS sieht man bei Siemens vor
allem im Bereich der "Info-Kioske", wie zum Beispiel das präsentierte ICE-Info-Terminal einen darstellt. Durch die Montage der Kamera und Projektionseinheit an der Decke und die Verlagerung des Rechners an eine unereichbare Stelle kann auf diese Weise die gesamte Hardware außerhalb der Reichweite des Benutzers installiert werden, durch mutwillige Zerstörung oder Schmutz verursachbare Schäden an öffentlichen Plätzen wie Bahnhöfen, Kulturstätten etcetera können wesentlich
reduziert werden, lediglich die Projektionsoberfläche muß für
den Benutzer erreichbar sein. Weitere Einsatzgebiete finden sich natürlich
in der Medizin, in Fabriken oder an anderen Orten, die absolute Reinheit
und Sterilität erforderlich machen. Das von Maggioni angeführte
Beispiel eines Arztes, der im Verlauf einer Operation relevante Daten auf
die Kleidung oder Haut des Patienten gebeamt bekommt und gegebenenfalls
erforderliche Aktionen ausführen kann, mag zwar auf den ersten Blick
wie ein Stück
Science-Fiction klingen, zeigt aber deutlich, was machbar ist. Wesentlich
weniger mutet da das Szenario eines Telefons und eines Taschenrechners
auf dem Büroschreibtisch an - projizierter Geräte, wohlgemerkt.
Dem Chaos würde das keine Abbruch tun, denn Papierstapel eignen sich
als Projektionsoberfläche hervorragend ...
Erstaunlicherweise sind die Hardwareanforderungen an das zugrundliegende
Computersystem vergleichsweise gering. Der in den Siemens-Entwicklungslabors
verwendete Pentium mit 200 MHz verbrät nur zehn Prozent seiner Leistung
für die Bildverarbeitung, eine Matrox Meteor dient als Schnittstelle
zur Kamera, die 25 Bilder pro Sekunde liefert. Dementsprechend hält
man sich auch die Option auf andere Computersysteme durch eine portable
Software-Architektur - das Kernstück sind 300 KByte in eine C++ Library
verpackte Algorithmen - offen, Test-Implementationen existieren außer
für Intels Pentium ebenso auf Mac, Sun SPARCStation und SGI Indy.
Genauso frei wählbar ist die Oberfläche, die bedient werden soll,
auf dem VTS-Prototyp kann jede geeignete Windows-Applikation ihr (Un-)Ding
verrichten, die VTS-Software generiert bei erkannten Aktionen einfach Pseudo-Mausklicks,
indem sie entsprechende Events in die Event-Queue einspeist.
Besonderen Wert legt Maggioni auf die Feststellung, das VTS zeichne
zeichne sich selbst auf Windows-Systemen durch extreme Stabilität
aus. Ein eigens eingeführter Watchdog-Prozeß kontrolliert ständig
das laufende Programm und führt einen Neustart durch, sollte doch
einmal etwas hängen, und das Programm kontrolliert seinerseits wiederum
den Watchdog. Obwohl wir die Stabilität des VTS nicht überprüfen
konnten, ist von entsprechenden Bemühungen auszugehen, schließlich
soll das Produkt im September dieses Jahres in den Markt eingeführt
werden (das System einschließlich Optik-Box mit Kamera etcetera soll
komplett um die 20 000 DM kosten), und ein Info-Kiosk, der durch Software-Ausfälle oder Memory-Leaks glänzt, hätte da, Innovation hin oder her,
eher schlechte Chancen.
Für die nähere Zukunft planen die Entwickler die Erweiterung des Systems auf eine größere Anzahl an Gesten und die kombinierte Steuerung mittels Hand- und Kopfbewegungen, auch das Erkennen von Mimik faßt man ins Auge. Die Head-Tracking-Algorithmen erlauben beispielsweise die Reduktion eines Videokonferenz-Bildes auf das Nötigste: den Kopf. Wenn auch die Einsatzmöglichkeiten fast grenzenlos erscheinen mögen, so ist man in den meisten Fällen doch noch bis auf weiteres auf konventionelle Eingabegeräte angewiesen. Neuartige Bedienungsmethaphern sollen hier in den nächsten Jahren abhelfen. Im übrigen wäre Erfinder Maggioni nicht sonderlich überrascht, "wenn das VTS in drei Jahren an jeder Ecke stehen würde". (ae)
Noch in den Kinderschuhen
c´t sprach mit Christoph Maggioni, Projektleiter bei der Zentralen Technik (ZT) der Siemens AG München, über Entwicklung, Anwendungen und Zukunft des GestikComputers.
c´t: Doug Engelbart hat vor 30 Jahren die Maus erfunden. Stufen Sie Ihre Erfindung als ähnlich revolutionär ein?
Maggioni: Wir befinden uns im Moment in der Situation, in der Herr Engelbart war, als er das technische System Maus erfunden hatte. Damit wurden zu Beginn jedoch nur alphanumerische Terminals bedient, denn die Entwicklung von fensterbasierten Benutzeroberflächen war erst in den Kinderschuhen.
Für eine optimale Nutzung unserer Technologie müssen auch hier neue Metaphern und fortschrittliche Benutzerschnittstellen entwickelt werden, die Handbewegungen und Handgesten als integralen Bestandteil nutzen. Damit ist sichergestellt, daß in Zukunft eine große Anzahl Computersysteme statt mit der Maus mit Hand- und Kopfgesten bedient werden. Dadurch wird eine für den Menschen wesentlich natürlichere Interaktion möglich.
c´t: Eine Entwicklung wie den Virtual Touchscreen hätte man hier eher aus Japan oder Amerika erwartet. Wird die Forschung und die Entwicklung in Deutschland unterschätzt?
Maggioni: Ja, denn es gibt auch in der BRD hervorragende Forschungslabore. Deutsche Forscher sind aber - vor allem im Vergleich zu ihren amerikanischen Kollegen - deutlich vorsichtiger und zurückhaltender bei der Bekanntgabe von Teilerfolgen, neuen Ideen und Konzepten.
c´t: Um Gestik verstärkt zur Steuerung von Computern und technischen Geräten im allgemeinen einsetzen zu können, müssen neue Metaphern gefunden werden. Welche Ideen haben Sie diesbezüglich für zukünftige Entwicklungen?
Maggioni: In unserem ersten Produkt werden wir ausschließlich
die Metapher des Zeigens und Klickens benutzen, um bestehende Windows-Anwendungen
ohne €nderung bedienen zu können. Kurzfristig können wir neue
Gesten wie Blättern (Daumen rechts/links), Gerät an/ausschalten
oder Richtungsänderung (Fingerrichtung) in das System integrieren.
Mittelfristig planen wir jedoch eine völlig neue Formen von
Computerschnittstelle, die die Interaktionsmetaphern mit Objekten der
wirklichen Welt wesentlich stärker nachbildet, als dies zum Beispiel
mausbasierte Interfaces leisten. Objekte können dann mit der Hand
gegriffen, manipuliert und verschoben werden.
c´t: Produkte wie der Virtual Touchscreen könnten auch eine große Hilfe für Behinderte und Taubstumme sein. Wird sich Siemens in diesem Marktsegment engagieren?
Maggioni: Das Vokabular der von uns im Augenblick erkannten Gesten ist noch zu klein, um Gebärdensprache zu erkennen. Für Sehbehinderte und Personen mit Schwierigkeiten der Feimotorik kann der Virtuelle Touchscreen aber auf Grund seines großen, hellen Displays schon jetzt eine große Hilfe sein.