Zum Hauptinhalt springen

Evaluationen

Übersicht

Was ist eine Evaluation?

Evaluationen sind eine entscheidende Technik, um sicherzustellen, dass Ihre KI-Workflows zuverlässig und stabil sind. Sie bestimmen, ob Ihr KI-Produkt lediglich ein fragiles Proof-of-Concept bleibt oder zu einem robusten, produktionsreifen Workflow wird. Evaluationen sind sowohl während der Entwicklungsphase als auch nach dem Deployment in die Produktion unerlässlich.

Im Kern einer Evaluation steht ein Testdatensatz, der mehrere Testfälle enthält. Jeder Testfall umfasst typischerweise Beispiel-Eingaben für Ihren Workflow und oft auch die erwarteten Ausgaben.

Durch Evaluationen können Sie:

  • Ihren Workflow mit vielfältigen Eingaben testen, um sein Verhalten in Randfällen zu verstehen
  • Änderungen mit Sicherheit vornehmen, ohne unbeabsichtigt andere Teile zu beeinträchtigen
  • die Leistung verschiedener Modelle oder Prompt-Varianten vergleichen

Das folgende Video erklärt, was Evaluationen sind, warum sie nützlich sind und wie sie funktionieren:

Warum sind Evaluationen notwendig?

KI-Modelle unterscheiden sich grundlegend von herkömmlichem Code. Code ist deterministisch – wir können sein Verhalten logisch nachvollziehen. Large Language Models (LLMs) hingegen sind „Black Boxes“, was solche Schlussfolgerungen erschwert. Daher müssen Sie die Leistung eines LLMs messen, indem Sie ihm Daten geben und seine Ausgaben beobachten.

Erst wenn Sie das Modell mit einer Vielzahl von Eingaben getestet haben – die alle relevanten Randfälle aus der Produktionsumgebung realistisch abbilden – können Sie Vertrauen in dessen Stabilität gewinnen.

Zwei Arten von Evaluationen

Leichte Evaluation (vor dem Deployment)

Es ist schwierig, einen sauberen und umfassenden Datensatz zu erstellen. In der frühen Entwicklungsphase reicht es oft aus, nur einige wenige Beispiele zu generieren. Diese ermöglichen es Ihnen, Ihren Workflow iterativ bis zu einem produktionsreifen (oder zumindest Proof-of-Concept-) Zustand zu bringen. Sie können die Ergebnisse direkt vergleichen und so ein erstes Urteil über die Qualität Ihres Workflows fällen, ohne formale Bewertungsmetriken definieren zu müssen.

Metrikbasierte Evaluation (nach dem Deployment)

Nach dem Deployment lässt sich aus den Aufzeichnungen der Produktionsausführungen leichter ein umfangreicher und repräsentativerer Datensatz aufbauen. Wenn Sie einen Fehler entdecken, können Sie die zugehörige Eingabe direkt in Ihren Testdatensatz aufnehmen. Sobald Sie den Fehler beheben, ist es besonders wichtig, den gesamten Datensatz erneut durchlaufen zu lassen – dies ist ein sogenannter Regressionstest, der sicherstellt, dass Ihre Korrektur keine unbeabsichtigten Nebenwirkungen auf andere Funktionen hat.

Da die Anzahl der Testfälle oft zu groß ist, um sie manuell zu prüfen, verwendet die Evaluation Metriken (numerische Werte, die bestimmte Eigenschaften quantifizieren), um die Qualität der Ausgaben zu messen. Dadurch können Sie auch die Qualitätsentwicklung über verschiedene Ausführungen hinweg verfolgen.

Vergleich der beiden Evaluationstypen

Leichte Evaluation (vor dem Deployment)Metrikbasierte Evaluation (nach dem Deployment)
Leistungsverbesserung pro IterationGroßKlein
DatensatzgrößeKleinGroß
Herkunft des DatensatzesManuell erstellt / KI-generiert / andere QuellenProduktionsausführungen / KI-generiert / andere Quellen
Tatsächliche AusgabeErforderlichErforderlich
Erwartete AusgabeOptionalMeist erforderlich
BewertungsmetrikenOptionalErforderlich

Weiterführende Informationen

  • Leichte Evaluation: Ideal für die Entwicklungsphase, um Ihren KI-Workflow mit sorgfältig ausgewählten Testfällen zu bewerten.
  • Metrikbasierte Evaluation: Fortgeschrittene Evaluierungsmethode für große Datensätze, bei der Metriken eingesetzt werden, um Leistung und Korrektheit in der Produktion sicherzustellen.
  • Tipps & häufige Probleme: Erfahren Sie, wie Sie spezifische Evaluierungsanwendungsfälle konfigurieren und typische Fallstricke vermeiden können.