LabV - die Plattform für Material Intelligence
Eine bahnbrechende Studie zeigt, dass KI wie GPT-4 menschliche Chemiker bei vielen Aufgaben in puncto Geschwindigkeit und Genauigkeit übertreffen kann. Aber wenn es um Intuition, strukturelles Denken und Kreativität geht, sind Maschinen immer noch unterlegen. Erfahren Sie, warum die Zukunft der Chemie von einem hybriden Ansatz abhängt, der menschliche Erkenntnisse mit maschineller Intelligenz kombiniert.
Künstliche Intelligenz (KI) auf dem Prüfstand: Eine neue Studie der Friedrich-Schiller-Universität Jena, die in Nature Chemistry publiziert wurde, wirft ein Schlaglicht auf die Leistungsfähigkeit moderner Sprachmodelle in der Chemie. Unter der Leitung von Dr. Kevin M. Jablonka haben Forschende untersucht, wie leistungsstark moderne Sprachmodelle wie GPT-4 in der Chemie wirklich sind. Das Ergebnis? In vielen Fällen sind die Maschinen schneller und präziser als menschliche Fachleute – aber sie haben auch gefährliche Schwächen. Die Studie wurde kürzlich in Nature Chemistry veröffentlicht.
In einer Pressemeldung erklärt Dr. Kevin Jablonka, Leiter der Carl-Zeiss-Stiftungs-Nachwuchsgruppe an der Friedrich-Schiller-Universität Jena: „Die Möglichkeiten künstlicher Intelligenz in der Chemie stoßen zunehmend auf Interesse – daher wollten wir herausfinden, wie gut diese Modelle wirklich sind.”
Im Zentrum der Untersuchung steht das vom Jenaer Forschungsteam neu entwickelte Benchmark-System ChemBench. Es umfasst über 2.700 Aufgaben aus nahezu allen Bereichen der Chemie: organisch, anorganisch, analytisch, physikalisch und technisch. Die Fragen reichen von Schulwissen über Uni-Lehrstoff bis hin zu komplexen Strukturanalysen.
Ein Forscherteam verglich 19 erfahrene Chemiker mit modernen KI-Modellen. Die Menschen durften teils Hilfsmittel nutzen, die KI-Modelle nicht. Das Ergebnis: Die besten Modelle lieferten in vielen Fällen mehr korrekte Antworten als die besten Menschen. „Die Modelle konnten ihr Wissen also ausschließlich aus dem Training mit vorhandenen Daten ziehen“, erläutert Jablonka.
Die Modelle zeigten in vielen klassischen Wissensfragen eine beeindruckende Leistung. Gerade bei Aufgaben aus Lehrbüchern oder Regulierungsfragen überzeugten sie durch Tempo und Genauigkeit – oft sogar mehr als menschliche Expert*innen. So erreichte GPT-4 in einem Test zur Chemikalienverordnung eine Trefferquote von 71 %, während erfahrene Chemiker nur auf 3 % kamen. In der Sicherheitsbewertung könnten KI-Modelle also künftig eine wichtige Rolle als Assistenzsysteme übernehmen, etwa beim Abgleich von Substanzen mit regulatorischen Anforderungen.
Die Modelle hatten besonders bei der Vorhersage von NMR-Spektren und Isomeren Schwierigkeiten – und gaben selbstsichere, aber falsche Antworten. Gerade bei NMR-Spektren zeigte sich deutlich, wie die Modelle mit großer Überzeugung fehlerhafte Ergebnisse lieferten.
„Ein Modell, das fehlerhafte Antworten mit hoher Überzeugung liefert, kann in sensiblen Forschungsbereichen zu Problemen führen“, warnt Jablonka.
Quelle: Universität Jena
Auch bei der Ermittlung von Isomerenzahlen zeigt sich eine typische Schwäche der Modelle: Sie können zwar Summenformeln erfassen, haben aber Schwierigkeiten, alle denkbaren Strukturvarianten zu erkennen. Um die Anzahl möglicher Isomere korrekt zu bestimmen, müssten sie chemische Bindungsverhältnisse und räumliche Anordnungen durchdringen – etwas, das bisher vor allem durch Erfahrung und strukturelles Denken gelingt. Die Kombination aus scheinbarer Sicherheit und fehlendem Strukturverständnis macht deutlich, warum solche Aufgaben für KI eine besondere Herausforderung darstellen.
Kein Wunder also, dass die Modelle bei Aufgaben wie der Wirkstoffentwicklung oder retrosynthetischen Analysen, bei denen chemische Intuition entscheidend ist, bislang kaum besser abschneiden als ein Zufallsgenerator.
Diese Diskrepanz verweist auf eine Schwäche aktueller Evaluationsansätze: Die Erfolge der KI bei standardisierten Fragen sagen womöglich mehr über die Art der Fragen aus als über echtes chemisches Verständnis. Ein Modell kann viele Fakten richtig wiedergeben – echtes chemisches Denken, das Strukturen interpretiert, Mechanismen durchschaut und kreative Synthesewege entwickelt, bleibt jedoch anspruchsvoll.
Ein zentrales Fazit der Studie betrifft die Lehre: Wenn Sprachmodelle imstande sind, Prüfungsfragen schneller und besser zu lösen als Studierende, muss sich das Bildungssystem wandeln. Künftig wird es weniger um Auswendiglernen gehen, sondern stärker um kritisches Denken, Bewertung von Unsicherheit und kreatives chemisches Problemlösen. Dass die Modelle besser abschneiden, bedeutet nicht zwangsläufig, dass sie chemisch ‚denken‘ – aber es zeigt uns, dass wir Lehre und Bewertungskriterien überdenken müssen.
Gleichzeitig zeigt ChemBench, wie wichtig es ist, breitere und tiefere Bewertungsmaßstäbe für KI zu entwickeln. Denn je nach chemischem Fachgebiet und Fragestellung schwankt die Modellleistung erheblich – und das hat direkte Auswirkungen auf ihre praktische Anwendbarkeit. Bisherige Tests konzentrierten sich häufig auf sogenannte „Property-Prediction“-Aufgaben, also die Vorhersage einfacher Stoffeigenschaften wie Schmelzpunkt oder Löslichkeit.
Doch solche Aufgaben greifen zu kurz, wenn KI-Modelle künftig nicht nur Rechenhilfe sein, sondern mit Fachleuten zusammenarbeiten und reale Entscheidungen vorbereiten sollen. Dafür braucht es auch bessere Schnittstellen, über die Mensch und Maschine zuverlässig kommunizieren – also nutzerfreundliche Oberflächen wie bei LabV, die Ergebnisse verständlich darstellen und Rückfragen ermöglichen. Die Autoren betonen, dass Benchmarks wie ChemBench nur ein erster Schritt sind – es brauche benutzerfreundliche Systeme, in denen die KI nicht nur Antworten liefert, sondern auch Unsicherheiten sichtbar macht.
Die Studie macht deutlich: KI ist in der Lage, bestimmte Aufgaben in der Chemie schneller und sicherer zu lösen als Menschen – aber sie bleibt begrenzt in ihrer Fähigkeit zur strukturellen und intuitiven Analyse. Der nächste Schritt liegt daher in der Entwicklung intelligenter Agentensysteme, die nicht nur mit Text umgehen können, sondern auch mit chemischen Formeln, Molekülstrukturen und Versuchsdaten – also mit ganz unterschiedlichen Arten von Information, die im Laboralltag eine Rolle spielen.
„Die eigentliche Herausforderung wird sein, Modelle zu entwickeln, die nicht nur korrekt antworten, sondern auch einschätzen, wann sie falsch liegen könnten“, heißt es in der Studie.
Solche Systeme könnten etwa in der Frühphase der Materialentwicklung experimentelle Parameter mit Literaturdaten abgleichen, alternative Synthesewege vorschlagen oder direkt mit Laborautomatisierungssystemen interagieren. Damit würde KI nicht nur als Wissensspeicher, sondern als aktiver Forschungspartner fungieren – mit dem Potenzial, ganz neue Innovationsprozesse in Gang zu setzen.
Die ChemBench-Studie macht deutlich: Künstliche Intelligenz kann Fachwissen ergänzen, aber sie braucht Kontext, Kontrolle und kritische Einordnung. Genau hier setzen Plattformen wie LabV an. Als Material Intelligence Platform zielt LabV nicht darauf ab, den Menschen zu ersetzen – sondern unterstützt Entscheidungsprozesse durch transparente Datenintegration, nachvollziehbare Analysen und klare Schnittstellen.
Ein hybrider Ansatz, der die Stärken beider Seiten – menschliche Intuition und maschinelle Effizienz – zusammenführt, ist der Schlüssel. Und er wird künftig darüber entscheiden, ob KI im Labor zum Werkzeug oder zur Black Box wird.
ChemBench zeigt, wie weit KI in der Chemie gekommen ist – und wo sie aufhört zu verstehen. Die Studie ist ein Weckruf: Wer KI im Labor nutzt, muss sie verstehen, kontrollieren und richtig einsetzen. Dann kann sie ein unschlagbarer Partner sein. „Unsere Forschung zeigt, dass KI eine wichtige Ergänzung für menschliche Expertise sein kann – nicht als Ersatz, sondern als wertvolles Werkzeug, das in der Arbeit unterstützt“, resümiert Kevin Jablonka. „Damit legt unsere Studie den Grundstein für eine engere Zusammenarbeit von KI und menschlicher Expertise in der Chemie.“
„Obwohl heutige Systeme noch weit davon entfernt sind, wie ein Chemiker zu denken, kann ChemBench ein Baustein auf dem Weg dorthin sein.“, kommentiert Nature Chemistry die Veröffentlichung. KI hat bestanden – aber noch lange nicht promoviert.
Bleiben Sie auf dem Laufenden über die neuesten Trends und Themen