Deep Learning

Wie Maschinen etwas über Haustiere lernen

Maschinen können lernen, Hunde von Katzen zu unterscheiden.

Maschinen können lernen, Hunde von Katzen zu unterscheiden.

Bonn. Künstliche neuronale Netze werden zur Mustererkennung etwa bei Bildern, Formen und Sprachen eingesetzt. Ein konkretes Beispiel, wie sie beim Deep Learning trainiert werden.

Die bislang von Maschinen gelösten Aufgaben waren für den Menschen häufig schwierig, für Computer jedoch ein Kinderspiel. Rechenaufgaben zum Beispiel: Wie viel sind 123 mal 456? Beim Computer reicht ein Mausklick – 56.088. Die wahre Herausforderung für Maschinen besteht vielmehr in den Aufgaben, deren Lösungen sich nur sehr schwer durch mathematische Regeln formulieren lassen.

Hund oder Katze? Für Menschen ist in der Regel sofort ersichtlich, um welches Tier es sich handelt. Unser Gehirn hat die Unterschiede im Verlauf unseres Lebens durch zahlreiche Beispiele erlernt. Deep Learning funktioniert ähnlich. Im Computer werden neuronale Netze simuliert, die sich am menschlichen Gehirn orientieren. Die am häufigsten verwendete Form des Deep Learnings ist das überwachte Lernen.

Fütterung mit Daten

Damit eine Maschine lernt, einen Hund von einer Katze zu unterscheiden, benötigt sie zunächst eine gewisse Menge an Daten. Im konkreten Beispiel werden dem Computer zahlreiche Bilder von Tieren präsentiert. Je mehr Bilder, desto exakter sind später die Ergebnisse. Die Fotos erhalten jeweils ein „Label“. Das heißt: Jedes Bild wird entweder als Hund oder als Katze definiert. Hier kann man aber einiges falsch machen. Trainiert man zum Beispiel nur mit schwarzen Katzen und weißen Hunden, hat die Maschine später unter Umständen nur gelernt, zwischen schwarzen und weißen Tieren zu unterscheiden. Hat man nur mit Dackeln trainiert, ist der Computer wahrscheinlich verwirrt, wenn er das erste Mal einen Bernhardiner zuordnen soll.

Die Neuronen

Die Neuronen, im menschlichen Gehirn auch Nervenzellen genannt, verarbeiten die eingehenden Daten – hier Fotos von Hunden und Katzen – und leiten sie weiter. Dafür hat ein Neuron mehrere Eingänge und einen Ausgang. Mehrere Neuronen ergeben wiederum eine Ebene und verknüpfen durch Verbindungen der Ausgänge zu den Eingängen der Neuronen der folgenden Ebene die Schichten miteinander. Auf diese Weise bilden sie das neuronale Netzwerk des Computers.

Die Schichten

Beim Deep Learning unterscheidet man drei Ebenen, in denen die Maschine die ihr angebotenen Infos verarbeitet. Die Eingabeschicht, der „input layer“ des neuronalen Netzes, erhält eine Dateneingabe wie beispielsweise die einzelnen Details eines Fotos. Das können Pixel, Ecken, Kanten, Kontraste und andere kleinteilige Merkmale sein. Anschließend leitet die erste Schicht ihre Ergebnisse an die nächste Schicht weiter, wo sie dann verarbeitet werden.

Bei der Unterscheidung von Hund und Katze können die Zwischenergebnisse etwa Definitionen von Pfoten, Schnauzen oder Augen sein. Diese Schichten befinden sich allesamt im Verborgenen und werden als versteckte Ebenen oder „hidden layers“ bezeichnet. Die hier enthaltenden Merkmale werden mit jeder weiteren Schicht abstrakter. Selbst die Wissenschaftler können nicht mehr erkennen, wie das neuronale Netz hier arbeitet. Das Lernverfahren entscheidet eigenständig, welche Infos nützlich sind.

Das Ergebnis, ob es sich bei dem Tier auf dem Ursprungsfoto um einen Hund, eine Katze oder etwas völlig anderes handelt, wird in der Ausgabeschicht, dem „output layer“, erkennbar. Falls das Ergebnis falsch ist und der Computer entscheidet, dass auf dem Hundefoto eine Katze zu sehen ist, nimmt das Lernverfahren in den Ebenen eigenständig Korrekturen vor.

Wiederholung

Dieser Prozess wird mit zahlreichen Daten wiederholt, bis die Ergebnisse immer exakter werden – bis der Computer auf einem Hundefoto also eindeutig einen Hund erkennt. Dafür werden zwar zunächst eine Menge Fotos benötigt, die allesamt durch die verschiedenen Schichten des neuronalen Netzes des Computers laufen müssen. Dafür ist er anschließend in der Lage, Fotos mit hoher Trefferquote zuzuordnen, ohne dass ein Mensch jedes einzelne Foto manuell kategorisieren muss. Das ist auf Dauer deutlich effektiver und erspart viel Arbeit. Der Computer ist nun nicht mehr auf den Menschen angewiesen.