Skip to content
HyeonSik edited this page Feb 8, 2026 · 2 revisions

LLM 모델 평가 리포트

생성일시: 2026-02-03 00:57:09 평가 환경: RunPod Serverless (L40)


평가 개요

평가 대상 모델

  • lgai-exaone/exaone-3.5-7.8b-instruct
  • meta-llama/llama-3.1-8b-instruct
  • qwen/qwen2.5-7b-instruct
  • qwen/qwen3-8b

테스트 케이스

  • HEX (6각 차트 분석): 10개
  • Job (자기소개 생성): 10개

평가 지표

카테고리 지표 설명
품질 JSON 스키마 준수 출력 형식 정확도
품질 점수 정확도 HEX 점수의 참조값 대비 편차
품질 한국어 품질 유창성, 근거 기반 서술, 구조
품질 일관성 점수-서술 정합성
품질 환각 탐지 입력에 없는 정보 날조 여부
성능 응답 시간 평균/P95 latency
성능 처리량 Tokens/sec
성능 안정성 타임아웃/파싱 실패율

모델별 비교

모델 HEX 점수 Job 점수 평균 Latency Tokens/s 종합
qwen2.5-7b-instruct 0.98 0.86 15386ms 36.8 0.78
llama-3.1-8b-instruct 0.98 0.85 18034ms 26.6 0.76
qwen3-8b 0.97 0.84 25793ms 24.5 0.75
exaone-3.5-7.8b-instruct 0.87 0.86 15121ms 31.4 0.72

굵은 글씨는 종합 점수 최상위 모델

품질 평가 상세

qwen3-8b

HEX 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
score_accuracy 1.000 1.000 1.000
korean_quality 0.971 0.933 1.000
consistency 0.990 0.900 1.000
hallucination 0.840 0.000 1.000

가중 평균 점수: 0.969

JOB 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
content_accuracy 1.000 1.000 1.000
korean_quality 0.996 0.980 1.000
search_context 0.828 0.340 0.980
hallucination 0.140 0.000 0.400

가중 평균 점수: 0.844

llama-3.1-8b-instruct

HEX 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
score_accuracy 0.962 0.897 1.000
korean_quality 0.952 0.887 1.000
consistency 0.973 0.833 1.000
hallucination 1.000 1.000 1.000

가중 평균 점수: 0.977

JOB 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
content_accuracy 0.970 0.700 1.000
korean_quality 0.978 0.880 1.000
search_context 0.858 0.720 0.980
hallucination 0.200 0.000 0.600

가중 평균 점수: 0.846

qwen2.5-7b-instruct

HEX 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
score_accuracy 0.998 0.983 1.000
korean_quality 0.929 0.810 0.980
consistency 0.990 0.900 1.000
hallucination 1.000 1.000 1.000

가중 평균 점수: 0.984

JOB 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
content_accuracy 0.990 0.900 1.000
korean_quality 0.994 0.940 1.000
search_context 0.830 0.720 1.000
hallucination 0.280 0.000 1.000

가중 평균 점수: 0.863

exaone-3.5-7.8b-instruct

HEX 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
score_accuracy 0.937 0.790 1.000
korean_quality 0.961 0.903 1.000
consistency 1.000 1.000 1.000
hallucination 0.933 0.400 1.000

가중 평균 점수: 0.870

JOB 태스크

지표 평균 최소 최대
json_compliance 1.000 1.000 1.000
content_accuracy 1.000 1.000 1.000
korean_quality 1.000 1.000 1.000
search_context 0.978 0.940 1.000
hallucination 0.100 0.000 0.400

가중 평균 점수: 0.862

성능 평가 상세

qwen3-8b

지표
Cold Start 90573ms
평균 Latency 25793ms
P50 Latency 19334ms
P95 Latency 143156ms
P99 Latency 143156ms
Tokens/sec 24.5
성공률 100.0%
타임아웃률 0.00%
JSON 파싱 실패율 0.00%

llama-3.1-8b-instruct

지표
Cold Start 39041ms
평균 Latency 18034ms
P50 Latency 14235ms
P95 Latency 77207ms
P99 Latency 77207ms
Tokens/sec 26.6
성공률 100.0%
타임아웃률 0.00%
JSON 파싱 실패율 0.00%

qwen2.5-7b-instruct

지표
Cold Start 33149ms
평균 Latency 15386ms
P50 Latency 12161ms
P95 Latency 40469ms
P99 Latency 40469ms
Tokens/sec 36.8
성공률 100.0%
타임아웃률 0.00%
JSON 파싱 실패율 0.00%

exaone-3.5-7.8b-instruct

지표
Cold Start 39944ms
평균 Latency 15121ms
P50 Latency 5975ms
P95 Latency 36664ms
P99 Latency 36664ms
Tokens/sec 31.4
성공률 100.0%
타임아웃률 0.00%
JSON 파싱 실패율 0.00%

최종 권장 모델

qwen/qwen2.5-7b-instruct

선정 근거

  1. HEX 품질 점수: 0.98
  2. Job 품질 점수: 0.86
  3. 평균 응답 시간: 15386ms
  4. 처리량: 36.8 tokens/sec
  5. 안정성 (성공률): 100.0%

운영 관점 참고사항

  • Cold Start가 33.1초로 웜업 필요

부록

평가 방법론

  1. 품질 평가: 각 테스트 케이스에 대해 5가지 메트릭 평가 후 가중 평균
  2. 성능 평가: 웜업 후 실제 요청의 latency 측정 (cold start 별도 기록)
  3. 종합 점수: 품질 80% + 성능 20% 가중치 적용

메트릭 가중치

HEX 태스크

메트릭 가중치
JSON 스키마 준수 25%
점수 정확도 25%
한국어 품질 20%
일관성 15%
환각 탐지 15%

Job 태스크

메트릭 가중치
JSON 스키마 준수 20%
내용 정확도 25%
한국어 품질 25%
검색 컨텍스트 활용 15%
환각 탐지 15%

Generated by LLM Evaluation Framework

📌 주요 문서

📖 Wiki 홈

📌 Links

Projects

Docs

Figma

📚 Wiki Quick Jump

🤖 AI

🧩 Backend

☁️ Cloud

🎨 Frontend

Clone this wiki locally