GxP-Blog

Künstliche Intelligenz (KI) und GMP - Validierung von KI-Anwendungen.

Möglichkeiten und Probleme bei der Validierung von KI-Anwendungen.

Seit einigen Jahren hält KI in vielen Bereichen unseres Lebens Einzug, darunter auch in die regulierten Branchen, wie die Medizinprodukte- und pharmazeutische Herstellung. KI-Systeme können künftig als Teil von Medizinprodukten beispielsweise in der Neurologie, Kardiologie, Onkologie, Psychiatrie oder der rehabilitativen Robotik bei der Prävention, frühzeitigen Diagnose sowie der patientengerechten Therapie zu besseren Behandlungsergebnissen führen. Seit dem Jahr 2014 hat FDA mehr als 50 Algorithmen-basierte Medizinprodukte zugelassen (3).

Im Bereich der Pharmazeutischen Herstellung sind auch viele Anwendungsszenarien für KI-Anwendungen absehbar. Z. B. könnten KI-Systeme bei der Optimierung der Fertigungsprozesse in den Produktionsanlagen, zur Effizienzsteigerung und Verringerung von Ausfällen eingesetzt werden. Auch Nutzung der KI zur Überwachung der Herstellparameter oder in der optischen Qualitätskontrolle, z. B. zum Ersatz des 2. Augenpaares beim 4-Augen-Prinzip wäre denkbar. Doch sind mit dem Einsatz der KI-Anwendungen zusätzliche neue Risiken verbunden, die für KI inhärent sind: Die KI-Anwendungen werden als “black boxes” gesehen, deren Kontrollierbarkeit und Nachvollziehbarkeit problematisch sind.

Während diese Risiken generell für den Einsatz von KI gelten, besteht für die Pharmabranche noch eine weitere große Unsicherheit: Bisher fehlen verbindliche regulatorische Vorgaben zur Validierung der KI / ML-basierten Systeme.

Für die KI-Software als Medizinprodukte hat die FDA bereits im April 2019 eine “Discussion paper” herausgegeben, jedoch fehlen derartigen Initiativen für Anwendung der KI/ML in der pharamazeutischen Herstellung noch weitestgehend.

In diesem Bereich sind weiterhin die gültigen GMP-grundsätze zu befolgen, welche den Besonderheiten der KI-Anwendungen nicht immer explizit berücksichtigen.

Um den Potenzial der KI-Anwendungen in der Pharma-Branche zu nutzen, muss daher momentan noch einiges an Pionierarbeit geleistet werden. Die Bereitschaft dazu in der Branche steigt kontinuierlich.

Grundlagen

Als KI-basierten Anwendungen werden Informatik-Anwendungen bezeichnet, deren Ziel es ist, intelligentes Verhalten zu zeigen. Heutigen KI-Systemen ist gemein, dass sie auch trainiert werden können und damit mit der Zeit lernen können, immer bessere Ergebnisse zu erzielen. Dieses Verfahren wird als Maschinelles Lernen (ML) bezeichnet. Computer-Algorithmen lernen dabei aus Daten, beispielsweise Muster zu erkennen, Bilder automatisch zu klassifizieren oder gewünschte Verhaltensweisen zu zeigen, ohne dass jeder Einzelfall im Voraus explizit programmiert wurde. Oft wird Maschinelles Lernen mit KI gleichgesetzt, obwohl es nur eine unter vielen möglichen KI-Methoden ist. Machine Learning mit großen neuronalen Netzen wird als Deep Learning bezeichnet

Ein weiterer verbreiteter Begriff aus dem KI-Umfeld, Big Data steht für die Verarbeitung sehr großer und sehr unterschiedlicher Datenmengen, die mit herkömmlichen Methoden der Datenverarbeitung nicht mehr handhabbar sind.

Probleme

Während herkömmliche IT-Anwendungen auf starren, fest programmierten Regelwerken basieren und ihr Verhalten bzw. ihre Berechnungsergebnisse nicht automatisch im Laufe der Zeit ändern können, sind KI-Systeme in der Lage, sich dynamisch der sich ändernden Umgebungsbedingungen bzw. Inputdaten anzupassen und im Laufe der Zeit bessere Ergebnisse zu liefern, ohne dass das Systemverhalten im Voraus explizit programmiert wurde.

Diese Unschärfe bzw. Nicht-Determinismus der KI-Modelle ist deren inhärente Grundeigenschaft, da die Berechnung bzw. Entscheidung nicht deterministisch vorprogrammiert wird, sondern dynamisch zum Laufzeit des Modells entsteht und auch bei identischem Input-Informationen unterschiedlich ausfallen kann. Es ist bei KI-basierten Anwendungen also nur schwer nachvollziehbar, warum ein System einen bestimmten Vorschlag macht und noch schwerer ist es, diesen zu korrigieren bzw. zukünftig zu unterbinden.

Damit werden die im Schnitt besseren Berechnungsergebnisse der KI-Systeme auf Kosten der Korrektheit und Zuverlässigkeit eines einzelnen Ergebnisses erkauft, welches mit einer gewissen Wahrscheinlichkeit auch fehlerhaft sein kann. Die Zuverlässigkeit, Nachvollziehbarkeit und Reproduzierbarkeit der Ergebnisse ist beim vollautomatischen maschinellen Lernen ein inhärentes Problem.

Im GxP-Umfeld ist es jedoch eine grundsätzliche Anforderung an die computergestützten Systeme, dass die von ihnen erzeugten Ergebnisse – z. B. Berechnungen, Prognosen und daraus resultierende Folgeprozesse bzw. Entscheidungen –transparent, nachvollziehbar und reproduzierbar sind. Für die KI-basierten Systeme, die vielfach als Black-Box erscheinen, ist diese Anforderung besonders schwierig umzusetzen.

Bei den bisher zugelassenen KI-Systemen handelt es sich um die sogenannte „geschlossene Systeme“: Das Lernprozess des Systems wird bereits vor der Zulassung abgeschlossen. Lernt das KI-System nach der Zulassung im Einsatz weiter, stellt sich das Problem der Nachvollziehbarkeit von Ergebnissen in verschärfter Form. Das System lernt dann ohne menschliche Überwachung. Die Software nutzt einen kontinuierlich lernenden Algorithmus und verarbeitet im Betrieb neue Inputdaten – das KI-System verändert sich also ständig und entspricht daher nicht mehr dem Zulassungszustand. Eine Verwendung von unüberwacht weiterlernenden, auf KI basierenden Medizinprodukten ist auf der Basis der geltenden Gesetzgebung nicht möglich.

Schwerpunkte bei der Validierung der KI-basierten Anwendungen

In der Validierung der KI-Systemen kommt den Daten eine größere Bedeutung zu, als man es von herkömmlichen IT-Systemen kennt.  Eine der Hauptursachen für systematische Fehler der KI-Systeme ist z. B, eine unausgewogene Datenmenge: Datensätze können ein Bias, d.h. Verzerrungseffekte (z. B. Fehler in der Stichprobenauswahl) enthalten und somit nicht repräsentativ sein.  Wenn die Trainingsdatenmenge für einen Klassifikationsalgorithmus zu wenige oder gar keine Beispiele mancher Klassen enthält, z. B. nur wenige Bilder von Verunreinigungen für eine KI-basierten optischen Qualitätskontrolle, so wird der Algorithmus Bilder aus diesen Klassen seltener korrekt zuordnen können. Ein unbewussteres Bias bei der Auswahl der Trainingsdaten kann auch dazu führen, dass der Algorithmus z. B. Erkrankungen nicht berücksichtigt, die bei bestimmten ethnischen Gruppen häufiger auftreten. Wird in der Evaluation solcher Algorithmen nicht explizit auf die Ausgewogenheit und Repräsentativität der Trainings- und Validierungsdaten geachtet, so ist die Wahrscheinlichkeit groß, dass das Problem erst nach Inbetriebnahme auffällt. Deshalb sollten in der Validierung von KI-Systemen Verfahren entwickelt werden, mit der Ausgewogenheit der Trainings- und Validierungsdatenmengen systematisch nachgewiesen werden kann.

Qualitätssicherung KI-gestützter Entscheidungen – der Mensch bleibt in der Schleife

Da KI-Anwendungen nicht-deterministisches Verhalten zeigen und Fehler durch zusätzliches Testen nicht vollständig eliminiert werden können, muss das GxP-Risiko für die Produktqualität bzw. den Patienten durch organisatorische Regelungen im Prozess so weit wie möglich minimiert werden. So müssten besonders kritische Entscheidungsprozesse so gestaltet werden, dass die letzte Entscheidungskompetenz bei verantwortlichen Akteuren verbleibt, bis die Steuerungsqualität der KI ein von allen Beteiligten akzeptiertes Niveau erreicht. So wird in den Genehmigungsprozessen die Autonomie nur in kleinen Schritten erweitert. Das Vertrauen in die KI wird – wie das Vertrauen in Menschen – nicht durch unbedingte Nachvollziehbarkeit der Methoden erreicht, sondern durch Erprobung des Algorithmus und Verifizierung seiner Ergebnisse z. B. durch einen menschlichen Experten. „Bei der Einführung von KI-basierenden Entscheidungsprozessen ist auf eine angemessene Sorgfalt bei Dokumentation und Qualitatssicherung zu achten. Bei kritischen Prozessen sollte im Zweifelsfall der Mensch die letzte Entscheidungsinstanz bleiben“ (2).

Wahl der KI- bzw. ML-Methode

Der Wahl der geeigneten KI-Methode kann in einigen Fällen die Validierung der KI-Anwendung vereinfachen.  So ist z. B. die Methode  ≫Bestärkendes Lernen≪, bei dem ein Mensch das KI-Algorithmus trainiert in einigen Anwendungsszenarien sehr hilfreich, um eines der größten Probleme mit Maschinenintelligenz zu umschiffen: Wenn die Maschine ihren eigenen Antworten nicht traut, bittet sie den menschlichen Experten um Rat. Einerseits wird der aktuelle Geschäftsfall erfolgreich abgeschlossen. Andererseits futtert menschliche Expertise die Maschine, um die Algorithmen für die nächste Gelegenheit zu verbessern. Dagegen ist diese Methode z.B. für die KI-Anwendungen in der Prozessindustrie wenig geeignet, weil hier die Ausfälle relativ selten und sehr individuell sind, d.h. es gibt nicht genug Daten, um den Algorithmus darauf zu trainieren, Ausfallzustände automatisch zu erkennen.

Transparenz und Nachvollziehbarkeit

Für die KI-Anwendungen in kritischen Anwendungsbereichen, wie z. B. Medizin oder die pharmazeutische Herstellung, sind Nachvollziehbarkeit der Funktionsweise, prinzipielle Vorhersagbarkeit der Entscheidungen und Verhinderung von einfacher Manipulation einer KI-Anwendung die grundsätzlichen Anforderung an die Sicherheit und Zuverlässigkeit (2).

Die aktuelle Forschung hat bereits Verfahren entwickelt, um für manche Anwendungen, wie beispielsweise den Einsatz Neuronaler Netze in der Bild- und Textverarbeitung, Entscheidungen nachvollziehbar zu machen. Andere Ansätze in Richtung ≫White Box AI≪ versuchen, ein KI-Modell lokal durch ein einfaches, verständliches Modell zu approximieren, um eine Interpretation zu ermöglichen. Diese Ansätze, die unter dem Begriff „Explainable AI“ zusammengefasst werden, könnten für die Validierung der KI-Anwendungen einen wertvollen Beitrag liefern, indem sie verdeutlichen, wie ein datengetriebener Algorithmus zu einer getroffenen Entscheidung oder Empfehlung gelangte und so die Transparenz der KI-basierten Entscheidungen sicherstellen.

Ferner sind Verfahren zur Verbesserung der Evaluation von Modellen in diesem Zusammenhang zu betrachten. Der Einsatz der Performanzmetriken oder die Berechnung von Statistiken solcher Metriken können helfen, Modelle besser zu verstehen und beispielsweise ihre Robustheit zu prüfen. Bei der Auswahl des finalen Modells ist es wichtig, sich auch die verworfenen Modelle genauer anzuschauen, ebenso wie Datenpunkte, welche sich nicht gut modellieren ließen. Beides kann helfen, die Performanz der entwickelten Modelle besser zu verstehen.

Fazit: Viel Potenzial, doch Pionierarbeit ist gefragt

Der Einsatz künstlicher Intelligenz hält für die Pharmaunternehmen enormes Potenzial bereit. Um dieses Potenzial zu nutzen, muss allerdings momentan noch einiges an Pionierarbeit geleistet werden, insbesondere im Bereich der Erschaffung der regulatorischen Grundlagen und Erarbeitung der speziellen Methodik für die Validierung der KI-Systeme.

Quellen:

  1. „Sichere KI-Systeme für die Medizin“ Whitepaper der Arbeitsgruppe IT-Sicherheit, Privacy, Recht und Ethik der Plattform Lernende Systeme, Prof. Dr. Jörn Müller-Quade et al, April 2020
  2. „Entscheidungsunterstützung mit Künstlicher Intelligenz: Wirtschaftliche Bedeutung, gesellschaftliche Herausforderungen, menschliche Verantwortung“, Positionspapier der Bitkom / DFKI
  3. Peix Helth Group, Künstliche Intelligenz im Einsatz für Pharma-Ziele. www.peix.de/2017/08/kuenstliche-intelligenz-im-einsatz-fuer-pharma-ziele/17.08.2017
Dr. Julia Fix

Consultant

Diese Seite verwendet Cookies, um Ihnen das bestmögliche Erlebnis zu gewährleisten. Surfen Sie weiterhin auf unserer Seite, stimmen Sie unserer Cookie-Nutzung und unserer Datenschutzrichtlinie zu.