23.06.2021

Schneller Weg zu synthetischen Daten

Neues Projekt zur Datengewinnung mittels neuronaler Netzwerke.

Neben experimentellen Daten wird in der physi­kalischen Grundlagen­forschung auch mit synthetisch erzeugten Daten gearbeitet. Deren Gewinnung mit aktuell verfügbaren Simulations­methoden ist jedoch zeitintensiv und bindet immense Rechner­kapazitäten. Ein neues Projekt des Deutschen Elek­tronen-Synchrotrons Desy in Hamburg, des Helmholtz-Zentrums Dresden-Rossen­dorf HZDR und des Zentrums für dateni­ntensive Systemforschung CASUS – Center for Advanced Systems Under­standing – erprobt einen Ansatz, mit dem Daten zum Verhalten von physi­kalischen Systemen mittels neuronaler Netze schneller erzeugt werden können. Das Projekt „SynRap“ wurde in einem Wettbewerbs­verfahren zur Förderung ausgewählt. Die 15 Gewinner­teams erhalten über Helmholtz AI, der Kooperationseinheit der Helmholtz-Gemeinschaft zum Thema künst­liche Intelligenz, in den kommenden Jahren insgesamt 6,2 Millionen Euro.

Abb.: Ersatz­modelle neuronaler Netze in der Hochenergie­physik: Ein mit...
Abb.: Ersatz­modelle neuronaler Netze in der Hochenergie­physik: Ein mit einem Teilchen­detektor aufge­nommenes Ereignis, aus dem zehn Jets, ein Myon und weitere Elementar­teilchen hervor­gegangen sind. (Bild: CASUS/2021 CMS Coll.)

Synthetische Daten sind am Computer algorithmisch erzeugte Daten. Sie werden zum Beispiel für das Testen von Software oder die Weitergabe von anony­misierten personen­bezogenen Daten genutzt. Das Trainieren von Algorithmen des maschinellen Lernens ist ein weiteres wichtiges Einsatzgebiet. Hier werden synthetische Daten insbesondere zum Trainieren jener Algo­rithmen benötigt, die zu den tiefen neuronalen Netzen zählen. „Diese Algo­rithmen müssen mit besonders großen Daten­sätzen angelernt werden, damit bei der Analyse der experimentellen Daten akkurate Ergebnisse erzielt werden“, sagt Isabell Melzer-Pellmann, Gruppenleiterin bei Desy. Aktuell werden diese Trainings­daten mit komplexen numerischen Simulations­methoden aus zum Beispiel der Quanten­mechanik erzeugt. Dieses Vorgehen ist allerdings rechen­intensiv und nimmt viel Zeit in Anspruch.

Eine schnellere Alter­native wird nun im Rahmen des Projekts „SynRap – Auf maschi­nellem Lernen basierende Generierung synthetischer Daten für die schnelle Modell­bildung in der Physik“ erforscht. Das Ziel von Melzer-Pellmann und ihren Mitstreitern Dirk Krücker, Attila Cangi und Nico Hoffmann ist es, den Prozess der Erzeugung großer Mengen synthetischer Daten um den Faktor 1000 zu beschleunigen. Dafür will das Team eine Toolbox von für diesen Zweck geeigneten Algorithmen des maschinellen Lernens zusammen­stellen. Diese Algorithmen werden aus einer bestimmten Untergruppe der neuronalen Netzwerke stammen. In Abgrenzung zu den tiefen neuronalen Netzwerken wird diese als stell­vertretende neuronale Netzwerke beziehungs­weise Ersatz­modelle neuronaler Netzwerke – surrogate neural networks – bezeichnet.

Ob die Qualität der derart erzeugten Datensätze stimmt, soll anhand je einem Beispiel aus der Hochenergie­dichtephysik und der Hochenergie­physik überprüft werden. Im Bereich der Hochenergie­dichtematerie geht es um die Zusammensetzung des Inneren von Planeten und Sternen, aber auch um Fragen angewandter Forschung wie der Bearbeitung von Materialien mit starken Lasern. Die Hochenergie­physik erforscht indes grundlegende Fragen zur Natur unseres Universums: Woraus besteht Materie? Welche Gesetze bestimmen Wechsel­wirkungen der Bestand­teile der Materie? „Die Besonderheit unseres Projektes ist es, dass unser Werkzeug­kasten von verschiedenen neuronalen Netzwerken letztendlich in vielen Forschungs­gebieten Verwendung finden soll“, erläutert Cangi. Daher wird bei der Entwicklung der Software-Tools der Bedarf anderer Natur­wissenschaften berücksichtigt. „Die inter­disziplinäre Natur von Casus ermöglicht es uns, unsere Arbeit immer auch an typischen Nutzungs­szenarien aus den Umwelt­wissenschaften oder der System­biologie zu orientieren“, fährt Cangi fort.

Die Helmholtz-Kooperations­einheit zur Künst­lichen Intelligenz – Helmholtz AI – stärkt die Anwendung und Entwicklung von angewandter künst­licher Intelligenz und maschinellem Lernen. Das Expertenpanel wählte insbesondere jene Forschungs­projekte des Wettbewerbs aus, bei denen ein hoher Erkenntnis­gewinn in Aussicht steht. Allerdings gelten solche Projekte auch als besonders riskant. Es muss also damit gerechnet werden, auf unlösbare Probleme zu stoßen und das erklärte Projekt­ziel nicht zu erreichen. Im Rahmen der aktuellen Ausschreibungs­runde vergibt die Helmholtz-Gemeinschaft insgesamt 6,2 Millionen Euro. Bei der ersten Ausschreibung der Helmholtz-AI-Projekte vor einem Jahr wurden 19 Vorhaben mit insgesamt 7,2 Millionen Euro bedacht.

HZDR / JOL

Weitere Infos

Virtuelle Jobbörse

Virtuelle Jobbörse
Eine Kooperation von Wiley-VCH und der DPG

Virtuelle Jobbörse

Innovative Unternehmen präsentieren hier Karriere- und Beschäftigungsmöglichkeiten in ihren Berufsfeldern.

Die Teilnahme ist kostenfrei – erforderlich ist lediglich eine kurze Vorab-Registrierung.

Sonderhefte

Physics' Best und Best of
Sonderausgaben

Physics' Best und Best of

Die Sonder­ausgaben präsentieren kompakt und übersichtlich neue Produkt­informationen und ihre Anwendungen und bieten für Nutzer wie Unternehmen ein zusätzliches Forum.

Meist gelesen

Themen