LLM

LLM 모델 평가 리포트

생성일시: 2026-02-03 00:57:09 평가 환경: RunPod Serverless (L40)

평가 개요

평가 대상 모델

lgai-exaone/exaone-3.5-7.8b-instruct
meta-llama/llama-3.1-8b-instruct
qwen/qwen2.5-7b-instruct
qwen/qwen3-8b

테스트 케이스

HEX (6각 차트 분석): 10개
Job (자기소개 생성): 10개

평가 지표

카테고리	지표	설명
품질	JSON 스키마 준수	출력 형식 정확도
품질	점수 정확도	HEX 점수의 참조값 대비 편차
품질	한국어 품질	유창성, 근거 기반 서술, 구조
품질	일관성	점수-서술 정합성
품질	환각 탐지	입력에 없는 정보 날조 여부
성능	응답 시간	평균/P95 latency
성능	처리량	Tokens/sec
성능	안정성	타임아웃/파싱 실패율

모델별 비교

모델	HEX 점수	Job 점수	평균 Latency	Tokens/s	종합
qwen2.5-7b-instruct	0.98	0.86	15386ms	36.8	0.78
llama-3.1-8b-instruct	0.98	0.85	18034ms	26.6	0.76
qwen3-8b	0.97	0.84	25793ms	24.5	0.75
exaone-3.5-7.8b-instruct	0.87	0.86	15121ms	31.4	0.72

굵은 글씨는 종합 점수 최상위 모델

품질 평가 상세

qwen3-8b

HEX 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
score_accuracy	1.000	1.000	1.000
korean_quality	0.971	0.933	1.000
consistency	0.990	0.900	1.000
hallucination	0.840	0.000	1.000

가중 평균 점수: 0.969

JOB 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
content_accuracy	1.000	1.000	1.000
korean_quality	0.996	0.980	1.000
search_context	0.828	0.340	0.980
hallucination	0.140	0.000	0.400

가중 평균 점수: 0.844

llama-3.1-8b-instruct

HEX 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
score_accuracy	0.962	0.897	1.000
korean_quality	0.952	0.887	1.000
consistency	0.973	0.833	1.000
hallucination	1.000	1.000	1.000

가중 평균 점수: 0.977

JOB 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
content_accuracy	0.970	0.700	1.000
korean_quality	0.978	0.880	1.000
search_context	0.858	0.720	0.980
hallucination	0.200	0.000	0.600

가중 평균 점수: 0.846

qwen2.5-7b-instruct

HEX 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
score_accuracy	0.998	0.983	1.000
korean_quality	0.929	0.810	0.980
consistency	0.990	0.900	1.000
hallucination	1.000	1.000	1.000

가중 평균 점수: 0.984

JOB 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
content_accuracy	0.990	0.900	1.000
korean_quality	0.994	0.940	1.000
search_context	0.830	0.720	1.000
hallucination	0.280	0.000	1.000

가중 평균 점수: 0.863

exaone-3.5-7.8b-instruct

HEX 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
score_accuracy	0.937	0.790	1.000
korean_quality	0.961	0.903	1.000
consistency	1.000	1.000	1.000
hallucination	0.933	0.400	1.000

가중 평균 점수: 0.870

JOB 태스크

지표	평균	최소	최대
json_compliance	1.000	1.000	1.000
content_accuracy	1.000	1.000	1.000
korean_quality	1.000	1.000	1.000
search_context	0.978	0.940	1.000
hallucination	0.100	0.000	0.400

가중 평균 점수: 0.862

성능 평가 상세

qwen3-8b

지표	값
Cold Start	90573ms
평균 Latency	25793ms
P50 Latency	19334ms
P95 Latency	143156ms
P99 Latency	143156ms
Tokens/sec	24.5
성공률	100.0%
타임아웃률	0.00%
JSON 파싱 실패율	0.00%

llama-3.1-8b-instruct

지표	값
Cold Start	39041ms
평균 Latency	18034ms
P50 Latency	14235ms
P95 Latency	77207ms
P99 Latency	77207ms
Tokens/sec	26.6
성공률	100.0%
타임아웃률	0.00%
JSON 파싱 실패율	0.00%

qwen2.5-7b-instruct

지표	값
Cold Start	33149ms
평균 Latency	15386ms
P50 Latency	12161ms
P95 Latency	40469ms
P99 Latency	40469ms
Tokens/sec	36.8
성공률	100.0%
타임아웃률	0.00%
JSON 파싱 실패율	0.00%

exaone-3.5-7.8b-instruct

지표	값
Cold Start	39944ms
평균 Latency	15121ms
P50 Latency	5975ms
P95 Latency	36664ms
P99 Latency	36664ms
Tokens/sec	31.4
성공률	100.0%
타임아웃률	0.00%
JSON 파싱 실패율	0.00%

최종 권장 모델

qwen/qwen2.5-7b-instruct

선정 근거

HEX 품질 점수: 0.98
Job 품질 점수: 0.86
평균 응답 시간: 15386ms
처리량: 36.8 tokens/sec
안정성 (성공률): 100.0%

운영 관점 참고사항

Cold Start가 33.1초로 웜업 필요

부록

평가 방법론

품질 평가: 각 테스트 케이스에 대해 5가지 메트릭 평가 후 가중 평균
성능 평가: 웜업 후 실제 요청의 latency 측정 (cold start 별도 기록)
종합 점수: 품질 80% + 성능 20% 가중치 적용

메트릭 가중치

HEX 태스크

메트릭	가중치
JSON 스키마 준수	25%
점수 정확도	25%
한국어 품질	20%
일관성	15%
환각 탐지	15%

Job 태스크

메트릭	가중치
JSON 스키마 준수	20%
내용 정확도	25%
한국어 품질	25%
검색 컨텍스트 활용	15%
환각 탐지	15%

LLM

LLM 모델 평가 리포트

평가 개요

평가 대상 모델

테스트 케이스

평가 지표

모델별 비교

품질 평가 상세

qwen3-8b

HEX 태스크

JOB 태스크

llama-3.1-8b-instruct

HEX 태스크

JOB 태스크

qwen2.5-7b-instruct

HEX 태스크

JOB 태스크

exaone-3.5-7.8b-instruct

HEX 태스크

JOB 태스크

성능 평가 상세

qwen3-8b

llama-3.1-8b-instruct

qwen2.5-7b-instruct

exaone-3.5-7.8b-instruct

최종 권장 모델

선정 근거

운영 관점 참고사항

부록

평가 방법론

메트릭 가중치

HEX 태스크

Job 태스크

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

📌 주요 문서

📖 Wiki 홈

📌 Links

Projects

Docs

Figma

🤖 AI

🧩 Backend

☁️ Cloud

🎨 Frontend

Clone this wiki locally