Optische neuronale Netze gewinnen durch Akustik an Nichtlinearität
Rein optisch gesteuerte Aktivierungsfunktion entwickelt, die auf Schallwellen basiert.
Neuronale Netze sind eine typische Struktur, auf der künstliche Intelligenz basieren kann. Die Bezeichnung „neuronal“ beschreibt ihre Art der Lernfähigkeit, die die Arbeitsweise von Neuronen im Gehirns zu einem gewissen Grad nachahmt. Für ihre Funktionsweise sind Schlüsselkomponenten erforderlich – eine davon ist eine Aktivierungsfunktion, die Nichtlinearität der Struktur hinzufügt. Für die Umsetzung großer optischer neuronaler Netze auf der Basis der Lichtausbreitung hat eine photonische Aktivierungsfunktion wichtige Vorteile.

Ein Forschungsteam des MPI für die Physik des Lichts und der Uni Hannover hat jetzt in Zusammenarbeit mit Dirk Englund vom MIT experimentell eine rein optisch gesteuerte Aktivierungsfunktion präsentiert, die auf Schallwellen basiert. Sie eignet sich für eine Vielzahl von Ansätzen für optische neuronale Netze und ermöglicht den Betrieb in der synthetischen Frequenzdimension.
Ähnlich wie die Neuronen im menschlichen Gehirn sind die Knoten der neuronalen Netze in einer sehr komplexen Struktur miteinander verbunden. Derzeit werden sie am häufigsten durch digitale Verbindungen realisiert. Mit der zunehmenden Erfahrung im Training künstlicher Intelligenz, wie etwa bei großen Sprachmodellen, wird offensichtlich, dass der Energieverbrauch enorm ist und in den kommenden Jahren exponentiell ansteigen wird. Daher forschen Wissenschaftler intensiv nach einer Lösung und denken über verschiedene physikalische Systeme nach, die elektronische Systeme bei bestimmten Aufgaben unterstützen oder teilweise ersetzen können. Diese Netzwerke können auf optischen Materialien basieren, aber auch Strukturen von Molekülen, DNA-Strängen und sogar Pilzstrukturen können als Grundlage für solche Netzwerk dienen.
Optik und Photonik zeichnen sich durch eine hohe Bandbreite und die Informationscodierung in hochdimensionalen Symbolen aus – beides Faktoren, die unser Kommunikationssystem beschleunigen. Photonische Systeme sind bereits weit entwickelt und ermöglichen oft eine schnelle parallele Verarbeitung sowie die Anbindung an etablierte Systeme. Das auf Glasfasern basierende weltweite Internet ist ein Anbindungsbeispiel. Und auch bei einer Erweiterung der Systeme für komplexe Anwendungen bleibt der Energieverbrauch der Photonik gering.
Forschungsgruppen nutzen diese Ressourcen und dieses Wissen, um optische neuronale Netze auf vielfältige Weise zu realisieren. Zuvor müssen jedoch zahlreiche zentrale Herausforderungen bewältigt werden, beispielsweise die Hochskalierung der photonischen Hardware und die Rekonfigurierbarkeit der neuronalen Netze.
Für die Hochskalierung optischer neuronaler Netze hat das Team jetzt eine Aktivierungsfunktion entwickelt, die vollständig optisch gesteuert werden kann. Dabei ist es nicht erforderlich, Informationen von der optischen in die elektronische Domäne zurückzukonvertieren. Diese Entwicklung ist ein bedeutender Schritt für photonisches Rechnen, eine analoge Computing-Alternative, die auf längere Sicht energieeffiziente künstliche Intelligenz verspricht.
Eine einfache Form eines neuronalen Netzes besteht aus einer gewichteten Summe von Bits der eingehenden Informationen und einer nichtlinearen Aktivierungsfunktion. Die nichtlineare Aktivierungsfunktion ist für Deep-Learning-Modelle unerlässlich, um komplexe Aufgaben zu lösen. In optischen neuronalen Netzen werden diese Teile idealerweise auch im photonischen Bereich umgesetzt. Für die gewichtete Summe – einen Matrixoperator – gibt es bereits eine Vielzahl photonischer Ansätze. Anders sieht es bei der nichtlinearen Aktivierungsfunktion aus, für die es nur wenige experimentell nachgewiesene Ansätze gibt.
„Das Versprechen, dass optische neuronale Netzwerke eines Tages energieeffizienter sein werden, hängt davon ab, ob wir in der Lage sind, die optische Rechneransätze zu skalieren, und hier wird eine photonische Aktivierungsfunktion vermutlich ein wesentlicher Bestandteil sein“, sagt Birgit Stiller, Leiterin der Forschungsgruppe Quanten-Optoakustik am MPL.
Eine photonische nichtlineare Aktivierungsfunktion ist das optische Äquivalent der nichtlinearen Aktivierungsfunktionen, die in künstlichen neuronalen Netzen verwendet werden, jedoch mit photonischen Geräten anstelle von Elektronik implementiert werden. Sie führt Nichtlinearität in photonische Rechensysteme ein und ermöglicht rein optische neuronale Netze und optische Beschleuniger für maschinelles Lernen. Beispiele für Aktivierungsfunktionen sind ReLU-, Sigmoid- oder Tanh-Funktionen, die die gewichtete Summe von Eingaben in ein künstliches neuronales Netz umwandeln können.
Das Team konnte jetzt zeigen, dass Schallwellen als Vermittler für eine effektive photonische Aktivierungsfunktion dienen können. Die optische Information muss den optischen Bereich nicht verlassen und wird direkt in optischen Fasern oder photonischen Wellenleitern verarbeitet. Durch den Effekt der stimulierten Brillouin-Streuung erfährt die optische Eingangsinformation eine nichtlineare Änderung in Abhängigkeit von der optischen Intensität.
„Die photonische Aktivierungsfunktion kann auf vielfältige Weise modifiziert werden. Wir zeigen die Umsetzung einer Sigmoid-, ReLU- und quadratischen Funktion, und das Konzept lässt auch exotischere Aktivierungsfunktionen zu, wenn diese für bestimmte Aufgaben benötigt werden“, sagt Grigorii Slinkov vom MPL. Ein interessanter Vorteil ergibt sich aus einer strengen Phasenanpassungsregel bei der stimulierten Brillouin-Streuung: Unterschiedliche optische Frequenzen – für paralleles Rechnen – können einzeln angesprochen werden, was die Rechenleistung des neuronalen Netzwerks verbessern kann.
Durch die Integration einer photonischen Aktivierungsfunktion in ein optisches neuronales Netz wird die Bandbreite der optischen Daten beibehalten, eine elektrooptische Umwandlung vermieden und die Kohärenz des Signals erhalten. Die vielseitige Steuerung der nichtlinearen Aktivierungsfunktion mithilfe von Schallwellen ermöglicht die Implementierung des Schemas in bestehende Glasfasersysteme sowie photonische Chips.
MPL / RK