Vom Rechenknecht zum Gesprächspartner

Konferenz im Uniclub der Bonner Universität befasst sich mit künstlicher Spracherkennung und -erzeugung

Bonn. Das "Hacken" auf der Computertastatur könnte schon bald verstummen. Statt per Tastendruck sollen Anwender demnächst mit ihrer Sprache den Rechner steuern. Daran arbeiten die Wissenschaftler um Professor Wolfgang Hess vom Institut für Kommunikationsforschung und Phonetik der Universität Bonn. Seit Montag tauschen sie sich mit ihren Kollegen über die neuesten Entwicklungen aus. Am Dienstag soll im Uniclub die Konferenz "Elektronische Sprachsignalverarbeitung" enden.

Soviel zeichnet sich bereits heute ab: Aus dem rechnenden Knecht soll ein Gesprächspartner werden, der Sprache versteht und Antworten gibt. "Sie haben drei E-Mails empfangen" oder "Es ist nur noch ein Joghurt im Kühlschrank" könnte der Computer sagen, das hält Karlheinz Stöber vom Phonetik-Institut für durchaus möglich. Schließlich kann man sich bereits heute mit Rechnern unterhalten, etwa bei der Bahn- oder Telefonauskunft.

Für den Dialog zwischen Mensch und Maschine müssen die Wissenschaftler zwei Voraussetzungen schaffen: Mit speziellen Erkennungsprogrammen übersetzt der Computer Sprache in Text. Zum anderen soll er sich mit Sprachsyntheseprogrammen selbst äußern. Denn Kommunikation läuft immer in zwei Richtungen. Die Spracherkennung hat bislang noch ihre Grenzen: "Der Computer hat bei weitem noch nicht die Intelligenz des Menschen. Er schreibt, versteht aber die Sprache nicht", bringt es Stöber auf den Punkt.

Auch die künstliche Erzeugung von Sprache durch Maschinen verspricht viel, steckt aber noch in den Kinderschuhen. Zwar codiert heute schon jedes Handy Sprache, um die beim Telefongespräch erzeugte Datenfülle zu reduzieren. Dank des MP3-Standards lässt sich darüber hinaus Sprache in digitale Signale um- und zurückverwandeln. Doch die eigentliche Sprachsynthese aus dem Computer klingt noch recht ungewohnt. "Das hört sich teilweise noch viel schlimmer an als die klassische Roboterstimme", beschreibt Stöber.

Das Ziel ist nämlich nicht, aus vorher aufgezeichneten Sprachfetzen neue Worte zusammenzubasteln, wie es bislang zum Beispiel bei der Telefonauskunft schon Usus ist. "Wir wollen die menschliche Stimme mit dem Computer vollkommen nachbilden", beschreibt der Wissenschaftler das Ziel. Ob die Laute aus dem Rechner halbwegs human oder eher wie Geknatter aus der Konservenbüchse klingen, hänge vor allem von der Sprachmelodie und der Betonung ab: "Der Ton macht die Musik."

Die immer schnelleren Rechner erlauben auch den Bonner Forschern, zunehmend komplexe Kombinationen aus Sprachelementen herzustellen. Dies geschieht mit mathematischen Modellen, die von der Stimmbildung im Kehlkopf bis hin zum Schall - also der Bewegung der Luftmoleküle - den kompletten Sprachprozess nachbilden. Doch die Phonetiker leiden vor allem unter der Qual der Wahl: "Allein für den Laut ¯a® kennen wir 2 500 Varianten", berichtet Stöber. Die Kunst der Phonetiker besteht nun darin, mit ihren mathematischen Modellen die richtigen Varianten der Laute auszuwählen, um eine möglichst menschlich klingende Computersprache zu erzeugen.

Mehr als 50 Forscher werden sich auch Dienstag noch über die neuesten Erkenntnisse in der Spracherkennung und Sprachsynthese informieren. Dass die Konferenz diesmal in Bonn stattfindet, hängt mit einem Jubiläum zusammen: Vor 80 Jahren lehrte Paul Menzerath erstmals an der Bonner Uni Phonetik. Das "Phonetische Kabinett" war damals noch eine Rarität, nur in Hamburg war im Jahr zuvor noch eines gegründet worden.

Für die Konferenz können sich Interessierte noch kurzfristig im Konferenzsekretariat im Uniclub, Konviktstraße 9, anmelden.

Mehr von GA BONN