본문으로 건너뛰기

지표 기반 평가

Pro 및 Enterprise 플랜에서 사용 가능

지표 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 등록된 커뮤니티 사용자와 Starter 플랜 사용자도 단일 워크플로 내에서 이 기능을 사용할 수 있습니다.

지표 기반 평가란 무엇인가요?

워크플로를 배포할 준비가 되면, 일반적으로 빌드 단계보다 더 많은 예시 데이터에 대해 테스트하고 싶어집니다.

예를 들어, 프로덕션 실행 중 예상치 못한 엣지 케이스가 발생하기 시작하면, 이러한 사례들을 테스트 데이터셋에 추가하여 모두 커버되도록 보장하고 싶을 것입니다.

프로덕션 데이터로 만든 대규모 데이터셋은 결과를 눈으로만 살펴보는 것으로는 전체 성능을 가늠하기 어렵습니다. 따라서 성능을 정량적으로 측정해야 합니다. 지표 기반 평가는 각 테스트 실행에 하나 이상의 점수를 부여하고, 이전 실행과 비교할 수 있도록 해줍니다. 개별 점수들은 집계되어 전체 데이터셋에 대한 전반적인 성능을 측정합니다.

이 기능을 통해 지표를 계산하는 평가를 실행하고, 여러 실행 간 지표 변화를 추적하며, 이러한 변화가 발생한 원인을 심층적으로 분석할 수 있습니다.

지표는 결정적 함수(예: 두 문자열 간의 편집 거리)일 수도 있고, AI를 사용해 계산될 수도 있습니다. 일반적으로 지표는 워크플로 출력과 참조 출력(ground truth 또는 정답 데이터라고도 함) 간의 차이를 검사하는 방식으로 동작합니다. 이를 위해 데이터셋에는 해당 참조 출력이 포함되어 있어야 합니다. 다만 일부 평가(예: 텍스트의 감성 분석이나 유해 콘텐츠 검출)는 참조 출력 없이도 수행할 수 있습니다.

작동 방식

Google Sheets 자격 증명 관련 안내

평가에서는 데이터 테이블 또는 Google Sheets를 사용해 테스트 데이터셋을 저장합니다. Google Sheets를 데이터셋 소스로 사용하려면 Google Sheets 자격 증명을 설정해야 합니다.

  1. 경량 평가(Lightweight evaluation) 설정
  2. 워크플로에 지표 추가
  3. 평가 실행 및 결과 확인

1. 경량 평가 설정

설정 안내에 따라 데이터셋을 생성하고 워크플로에 연결한 후, 출력을 다시 데이터셋에 기록합니다.

다음 단계에서는 경량 평가 문서에서 사용한 것과 동일한 고객 지원 티켓 분류 예제 워크플로를 사용합니다:

경량 평가 워크플로

2. 워크플로에 지표 추가

지표는 워크플로 출력을 평가하는 기준입니다. 일반적으로 실제 워크플로 출력과 참조 출력을 비교합니다. AI를 사용해 지표를 계산하는 것이 일반적이지만, 때로는 직접 코드를 사용하기도 합니다. n8n에서는 모든 지표가 항상 숫자 형태입니다.

워크플로 출력이 생성된 이후 시점에 지표를 계산하는 로직을 추가해야 합니다. 지표에서 사용하는 참조 출력은 데이터셋의 한 열로 추가하여 워크플로 내에서 사용할 수 있도록 해야 합니다(평가 트리거가 데이터셋 내용을 워크플로로 출력하기 때문입니다).

Set Metrics (지표 설정) 작업을 사용해 다음 지표를 계산할 수 있습니다:

  • Correctness (정확도, AI 기반): 답변의 의미가 제공된 참조 답변과 일치하는지 여부. 1~5점 척도 사용 (5점이 최고).
  • Helpfulness (유용성, AI 기반): 응답이 주어진 질의에 답하고 있는지 여부. 1~5점 척도 사용 (5점이 최고).
  • String Similarity (문자열 유사도): 답변이 참조 답변과 얼마나 유사한지 문자 단위로 측정(편집 거리 기반). 0~1 사이의 점수 반환.
  • Categorization (분류 정확도): 답변이 참조 답변과 완전히 일치하는지 여부. 일치 시 1, 불일치 시 0 반환.
  • Tools Used (도구 사용 여부): 실행 과정에서 도구를 사용했는지 여부. 0~1 사이의 점수 반환.

또한 사용자 정의 지표도 추가할 수 있습니다: 워크플로 내에서 지표를 직접 계산한 후, 이를 평가 노드에 매핑합니다. Set Metrics 작업에서 Custom Metrics (사용자 정의 지표)를 선택한 후, 반환할 지표 이름과 값을 설정합니다.

예시:

  • RAG 문서 관련성: 벡터 데이터베이스 사용 시, 검색된 문서가 질문과 관련이 있는지 여부.

지표 계산은 지연 시간과 비용을 증가시키므로, 평가 실행 시에만 계산하고 프로덕션 실행에서는 건너뛰고 싶을 수 있습니다. 이를 위해서는 Check If Evaluating (평가 중인지 확인) 작업 뒤에 지표 계산 로직을 배치하면 됩니다.

평가 중인지 확인 노드

3. 평가 실행 및 결과 확인

워크플로의 평가(Evaluation) 탭으로 이동하여 Run evaluation (평가 실행) 버튼을 클릭합니다. 평가가 시작되고 완료되면 각 지표의 종합 점수가 표시됩니다.

테스트 실행 행을 클릭하면 각 테스트 케이스의 결과를 볼 수 있습니다. 개별 테스트 케이스를 클릭하면 해당 결과를 생성한 실행 기록이 새 탭에서 열립니다.