Evaluationen

Übersicht

Was ist eine Evaluation?

Evaluationen sind eine entscheidende Technik, um sicherzustellen, dass Ihre KI-Workflows zuverlässig und stabil sind. Sie bestimmen, ob Ihr KI-Produkt lediglich ein fragiles Proof-of-Concept bleibt oder zu einem robusten, produktionsreifen Workflow wird. Evaluationen sind sowohl während der Entwicklungsphase als auch nach dem Deployment in die Produktion unerlässlich.

Im Kern einer Evaluation steht ein Testdatensatz, der mehrere Testfälle enthält. Jeder Testfall umfasst typischerweise Beispiel-Eingaben für Ihren Workflow und oft auch die erwarteten Ausgaben.

Durch Evaluationen können Sie:

Ihren Workflow mit vielfältigen Eingaben testen, um sein Verhalten in Randfällen zu verstehen
Änderungen mit Sicherheit vornehmen, ohne unbeabsichtigt andere Teile zu beeinträchtigen
die Leistung verschiedener Modelle oder Prompt-Varianten vergleichen

Das folgende Video erklärt, was Evaluationen sind, warum sie nützlich sind und wie sie funktionieren:

Warum sind Evaluationen notwendig?

KI-Modelle unterscheiden sich grundlegend von herkömmlichem Code. Code ist deterministisch – wir können sein Verhalten logisch nachvollziehen. Large Language Models (LLMs) hingegen sind „Black Boxes“, was solche Schlussfolgerungen erschwert. Daher müssen Sie die Leistung eines LLMs messen, indem Sie ihm Daten geben und seine Ausgaben beobachten.

Erst wenn Sie das Modell mit einer Vielzahl von Eingaben getestet haben – die alle relevanten Randfälle aus der Produktionsumgebung realistisch abbilden – können Sie Vertrauen in dessen Stabilität gewinnen.

Zwei Arten von Evaluationen

Leichte Evaluation (vor dem Deployment)

Es ist schwierig, einen sauberen und umfassenden Datensatz zu erstellen. In der frühen Entwicklungsphase reicht es oft aus, nur einige wenige Beispiele zu generieren. Diese ermöglichen es Ihnen, Ihren Workflow iterativ bis zu einem produktionsreifen (oder zumindest Proof-of-Concept-) Zustand zu bringen. Sie können die Ergebnisse direkt vergleichen und so ein erstes Urteil über die Qualität Ihres Workflows fällen, ohne formale Bewertungsmetriken definieren zu müssen.

Metrikbasierte Evaluation (nach dem Deployment)

Nach dem Deployment lässt sich aus den Aufzeichnungen der Produktionsausführungen leichter ein umfangreicher und repräsentativerer Datensatz aufbauen. Wenn Sie einen Fehler entdecken, können Sie die zugehörige Eingabe direkt in Ihren Testdatensatz aufnehmen. Sobald Sie den Fehler beheben, ist es besonders wichtig, den gesamten Datensatz erneut durchlaufen zu lassen – dies ist ein sogenannter Regressionstest, der sicherstellt, dass Ihre Korrektur keine unbeabsichtigten Nebenwirkungen auf andere Funktionen hat.

Da die Anzahl der Testfälle oft zu groß ist, um sie manuell zu prüfen, verwendet die Evaluation Metriken (numerische Werte, die bestimmte Eigenschaften quantifizieren), um die Qualität der Ausgaben zu messen. Dadurch können Sie auch die Qualitätsentwicklung über verschiedene Ausführungen hinweg verfolgen.

Vergleich der beiden Evaluationstypen

	Leichte Evaluation (vor dem Deployment)	Metrikbasierte Evaluation (nach dem Deployment)
Leistungsverbesserung pro Iteration	Groß	Klein
Datensatzgröße	Klein	Groß
Herkunft des Datensatzes	Manuell erstellt / KI-generiert / andere Quellen	Produktionsausführungen / KI-generiert / andere Quellen
Tatsächliche Ausgabe	Erforderlich	Erforderlich
Erwartete Ausgabe	Optional	Meist erforderlich
Bewertungsmetriken	Optional	Erforderlich

Weiterführende Informationen

Leichte Evaluation: Ideal für die Entwicklungsphase, um Ihren KI-Workflow mit sorgfältig ausgewählten Testfällen zu bewerten.
Metrikbasierte Evaluation: Fortgeschrittene Evaluierungsmethode für große Datensätze, bei der Metriken eingesetzt werden, um Leistung und Korrektheit in der Produktion sicherzustellen.
Tipps & häufige Probleme: Erfahren Sie, wie Sie spezifische Evaluierungsanwendungsfälle konfigurieren und typische Fallstricke vermeiden können.

Übersicht​

Was ist eine Evaluation?​

Warum sind Evaluationen notwendig?​

Zwei Arten von Evaluationen​

Leichte Evaluation (vor dem Deployment)​

Metrikbasierte Evaluation (nach dem Deployment)​

Vergleich der beiden Evaluationstypen​

Weiterführende Informationen​