-
Notifications
You must be signed in to change notification settings - Fork 0
LLM
HyeonSik edited this page Feb 8, 2026
·
2 revisions
생성일시: 2026-02-03 00:57:09 평가 환경: RunPod Serverless (L40)
- lgai-exaone/exaone-3.5-7.8b-instruct
- meta-llama/llama-3.1-8b-instruct
- qwen/qwen2.5-7b-instruct
- qwen/qwen3-8b
- HEX (6각 차트 분석): 10개
- Job (자기소개 생성): 10개
| 카테고리 | 지표 | 설명 |
|---|---|---|
| 품질 | JSON 스키마 준수 | 출력 형식 정확도 |
| 품질 | 점수 정확도 | HEX 점수의 참조값 대비 편차 |
| 품질 | 한국어 품질 | 유창성, 근거 기반 서술, 구조 |
| 품질 | 일관성 | 점수-서술 정합성 |
| 품질 | 환각 탐지 | 입력에 없는 정보 날조 여부 |
| 성능 | 응답 시간 | 평균/P95 latency |
| 성능 | 처리량 | Tokens/sec |
| 성능 | 안정성 | 타임아웃/파싱 실패율 |
| 모델 | HEX 점수 | Job 점수 | 평균 Latency | Tokens/s | 종합 |
|---|---|---|---|---|---|
| qwen2.5-7b-instruct | 0.98 | 0.86 | 15386ms | 36.8 | 0.78 |
| llama-3.1-8b-instruct | 0.98 | 0.85 | 18034ms | 26.6 | 0.76 |
| qwen3-8b | 0.97 | 0.84 | 25793ms | 24.5 | 0.75 |
| exaone-3.5-7.8b-instruct | 0.87 | 0.86 | 15121ms | 31.4 | 0.72 |
굵은 글씨는 종합 점수 최상위 모델
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| score_accuracy | 1.000 | 1.000 | 1.000 |
| korean_quality | 0.971 | 0.933 | 1.000 |
| consistency | 0.990 | 0.900 | 1.000 |
| hallucination | 0.840 | 0.000 | 1.000 |
가중 평균 점수: 0.969
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| content_accuracy | 1.000 | 1.000 | 1.000 |
| korean_quality | 0.996 | 0.980 | 1.000 |
| search_context | 0.828 | 0.340 | 0.980 |
| hallucination | 0.140 | 0.000 | 0.400 |
가중 평균 점수: 0.844
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| score_accuracy | 0.962 | 0.897 | 1.000 |
| korean_quality | 0.952 | 0.887 | 1.000 |
| consistency | 0.973 | 0.833 | 1.000 |
| hallucination | 1.000 | 1.000 | 1.000 |
가중 평균 점수: 0.977
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| content_accuracy | 0.970 | 0.700 | 1.000 |
| korean_quality | 0.978 | 0.880 | 1.000 |
| search_context | 0.858 | 0.720 | 0.980 |
| hallucination | 0.200 | 0.000 | 0.600 |
가중 평균 점수: 0.846
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| score_accuracy | 0.998 | 0.983 | 1.000 |
| korean_quality | 0.929 | 0.810 | 0.980 |
| consistency | 0.990 | 0.900 | 1.000 |
| hallucination | 1.000 | 1.000 | 1.000 |
가중 평균 점수: 0.984
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| content_accuracy | 0.990 | 0.900 | 1.000 |
| korean_quality | 0.994 | 0.940 | 1.000 |
| search_context | 0.830 | 0.720 | 1.000 |
| hallucination | 0.280 | 0.000 | 1.000 |
가중 평균 점수: 0.863
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| score_accuracy | 0.937 | 0.790 | 1.000 |
| korean_quality | 0.961 | 0.903 | 1.000 |
| consistency | 1.000 | 1.000 | 1.000 |
| hallucination | 0.933 | 0.400 | 1.000 |
가중 평균 점수: 0.870
| 지표 | 평균 | 최소 | 최대 |
|---|---|---|---|
| json_compliance | 1.000 | 1.000 | 1.000 |
| content_accuracy | 1.000 | 1.000 | 1.000 |
| korean_quality | 1.000 | 1.000 | 1.000 |
| search_context | 0.978 | 0.940 | 1.000 |
| hallucination | 0.100 | 0.000 | 0.400 |
가중 평균 점수: 0.862
| 지표 | 값 |
|---|---|
| Cold Start | 90573ms |
| 평균 Latency | 25793ms |
| P50 Latency | 19334ms |
| P95 Latency | 143156ms |
| P99 Latency | 143156ms |
| Tokens/sec | 24.5 |
| 성공률 | 100.0% |
| 타임아웃률 | 0.00% |
| JSON 파싱 실패율 | 0.00% |
| 지표 | 값 |
|---|---|
| Cold Start | 39041ms |
| 평균 Latency | 18034ms |
| P50 Latency | 14235ms |
| P95 Latency | 77207ms |
| P99 Latency | 77207ms |
| Tokens/sec | 26.6 |
| 성공률 | 100.0% |
| 타임아웃률 | 0.00% |
| JSON 파싱 실패율 | 0.00% |
| 지표 | 값 |
|---|---|
| Cold Start | 33149ms |
| 평균 Latency | 15386ms |
| P50 Latency | 12161ms |
| P95 Latency | 40469ms |
| P99 Latency | 40469ms |
| Tokens/sec | 36.8 |
| 성공률 | 100.0% |
| 타임아웃률 | 0.00% |
| JSON 파싱 실패율 | 0.00% |
| 지표 | 값 |
|---|---|
| Cold Start | 39944ms |
| 평균 Latency | 15121ms |
| P50 Latency | 5975ms |
| P95 Latency | 36664ms |
| P99 Latency | 36664ms |
| Tokens/sec | 31.4 |
| 성공률 | 100.0% |
| 타임아웃률 | 0.00% |
| JSON 파싱 실패율 | 0.00% |
qwen/qwen2.5-7b-instruct
- HEX 품질 점수: 0.98
- Job 품질 점수: 0.86
- 평균 응답 시간: 15386ms
- 처리량: 36.8 tokens/sec
- 안정성 (성공률): 100.0%
- Cold Start가 33.1초로 웜업 필요
- 품질 평가: 각 테스트 케이스에 대해 5가지 메트릭 평가 후 가중 평균
- 성능 평가: 웜업 후 실제 요청의 latency 측정 (cold start 별도 기록)
- 종합 점수: 품질 80% + 성능 20% 가중치 적용
| 메트릭 | 가중치 |
|---|---|
| JSON 스키마 준수 | 25% |
| 점수 정확도 | 25% |
| 한국어 품질 | 20% |
| 일관성 | 15% |
| 환각 탐지 | 15% |
| 메트릭 | 가중치 |
|---|---|
| JSON 스키마 준수 | 20% |
| 내용 정확도 | 25% |
| 한국어 품질 | 25% |
| 검색 컨텍스트 활용 | 15% |
| 환각 탐지 | 15% |
Generated by LLM Evaluation Framework