# LLaMA3 Fine-Tuning

1. 데이터셋 다운로드

In [None]:
import os
from datasets import load_dataset
dataset = load_dataset("heegyu/namuwiki-extracted" , cache_dir="/datasets/")
print(dataset["train"][0])

namuwiki_20210301_v3.parquet:   0%|          | 0.00/2.36G [00:00<?, ?B/s]

2. 모델 다운로드

| 구분         | 모델 (Model)                                          | 토크나이저 (Tokenizer)                                              |
| ---------- | --------------------------------------------------- | -------------------------------------------------------------- |
| **역할**     | 입력된 토큰을 기반으로 예측·생성·분류 등을 수행하는 핵심 AI 엔진              | 텍스트를 모델이 이해할 수 있는 토큰 단위로 변환하고, 반대로 토큰을 텍스트로 복원                 |
| **입력/출력**  | 입력: 토큰 시퀀스<br>출력: 확률 분포, 다음 토큰, 임베딩 등               | 입력: 문자열<br>출력: 토큰 ID 시퀀스 및 주석 정보                               |
| **구성 요소**  | 신경망(Transformer, LSTM, CNN 등), 레이어, 파라미터(가중치)로 이루어짐 | 규칙 기반(BPE, WordPiece, SentencePiece 등) 알고리즘과 단어 사전(Vocabulary) |
| **학습 내용**  | 의미, 문맥, 패턴, 언어 구조 등을 학습                             | 자주 나타나는 텍스트 조각 단위를 효율적으로 분리하는 규칙을 학습                           |
| **학습 대상**  | 대규모 텍스트의 문맥적 의미                                     | 텍스트의 통계적 구성(서브워드 단위 빈도 등)                                      |
| **결과물**    | 문장 생성, 번역, 요약, 추론 등 자연어 처리 기능 수행                    | 토큰 리스트 생성 및 디토크나이징                                             |
| **변경 영향**  | 모델 구조/파라미터 변경 시 성능에 직접적인 큰 변화 발생                    | 토크나이저 변경 시 토큰 분포가 바뀌어 모델 성능에 큰 영향 가능                           |
| **독립성 여부** | 토크나이저가 만들어낸 토큰 단위에 의존해야 함                           | 모델 없이도 사용할 수 있지만 대부분 모델과 쌍으로 설계됨                               |


In [None]:
# transformers 라이브러리를 사용한 모델 다운로드
from transformers import AutoTokenizer, AutoModelForCausalLM
from huggingface_hub import login
import os
from getpass import getpass

model_name = "meta-llama/Llama-4-Scout-17B-16E"

hf_token = os.getenv("HF_TOKEN")  # 먼저 환경변수 확인
if not hf_token:
    print("Hugging Face 토큰을 입력하세요:")
    print("토큰 발급: https://huggingface.co/settings/tokens")
    hf_token = getpass("HF Token: ")

if hf_token:
    login(token=hf_token)
    print("✅ Hugging Face 로그인 성공!")
else:
    print("❌ 경고: 토큰이 입력되지 않았습니다.")

# 모델 다운로드
print(f"모델 다운로드 중: {model_name}")
tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir="/models", token=hf_token)
model = AutoModelForCausalLM.from_pretrained(model_name, cache_dir="/models", token=hf_token)

print("다운로드 완료!")
print(f"Tokenizer: {tokenizer}")
print(f"Model: {type(model)}")
