In [1]:
!pip install datasets transformers torch accelerate ipywidgets

Defaulting to user installation because normal site-packages is not writeable




In [3]:
pip install --upgrade transformers

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [3]:
pip install --upgrade pip

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [1]:
!pip install -U bitsandbytes

Defaulting to user installation because normal site-packages is not writeable


In [4]:
pip install peft

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
import torch
print(torch.__file__)  # 설치 경로 확인

/home/elicer/.local/lib/python3.10/site-packages/torch/__init__.py


In [5]:
import json
from datasets import Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
import torch

# 1. JSON 파일 로드
with open("traindata.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# 2. 데이터 전처리 함수
def preprocess_data(example):
    input_text = f"### 자기소개서\n이름: {example['input']['name']}\n지원 분야: {example['input']['applied_position']}\n지원 동기: {example['input']['reason_for_applying']}\n자기소개: {example['input']['self_introduction']}\n\n### 면접 질문:\n"
    target_text = "\n".join(example["target"])
    return {
        "input_text": input_text,
        "target_text": target_text
    }

# 3. 데이터 전처리
processed_data = [preprocess_data(ex) for ex in data]

# 4. Hugging Face Dataset으로 변환
dataset = Dataset.from_dict({
    "input_text": [ex["input_text"] for ex in processed_data],
    "target_text": [ex["target_text"] for ex in processed_data]
})

# 5. 토크나이저 로드 및 pad_token 설정
tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T")
tokenizer.pad_token = tokenizer.eos_token  # eos_token을 pad_token으로 설정

# 6. 토크나이징 함수 정의
def tokenize_function(examples):
    inputs = tokenizer(examples["input_text"], padding="max_length", truncation=True, max_length=512)
    targets = tokenizer(examples["target_text"], padding="max_length", truncation=True, max_length=512)
    inputs["labels"] = targets["input_ids"]
    return inputs

# 7. 데이터 토크나이징
tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=dataset.column_names)

# 8. 데이터셋 분할 (학습/평가용)
split_dataset = tokenized_dataset.train_test_split(test_size=0.1)
train_dataset = split_dataset['train']
eval_dataset = split_dataset['test']

# 9. 모델 로드
model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-intermediate-step-715k-1.5T")

# 10. GPU 메모리 정리
torch.cuda.empty_cache()

# 11. 학습 설정
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=1,  # 배치 사이즈는 이미 최소로 설정됨
    per_device_eval_batch_size=1,  
    num_train_epochs=5,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    save_steps=500,
    gradient_accumulation_steps=64,  # 기울기 누적 스텝을 더 늘려 메모리 사용 절약
    fp16=True,
    gradient_checkpointing=True,
    torch_compile=False,
    torch_empty_cache_steps=50
)
# 12. 트레이너 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    tokenizer=tokenizer
)

# 13. 모델 학습 시작
trainer.train()

# 14. 학습된 모델 저장
trainer.save_model("./trained_tinyllama")



Map:   0%|          | 0/65 [00:00<?, ? examples/s]

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


RuntimeError: NVML_SUCCESS == r INTERNAL ASSERT FAILED at "../c10/cuda/CUDACachingAllocator.cpp":838, please report a bug to PyTorch. 

In [11]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# 1. 학습된 모델과 토크나이저 로드
model_path = "./trained_tinyllama"
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 2. 테스트용 입력 문장 정의
input_text = "### 자기소개서\n이름: 김민준\n지원 분야: 프론트엔드 개발자\n지원 동기: 사용자 경험을 최우선으로 고려하는 프론트엔드 개발 분야에서 저의 역량을 발휘하고 싶어 지원하게 되었습니다. 최신 웹 기술과 디자인 트렌드에 대한 이해를 바탕으로 귀사의 제품에 가치를 더하고자 합니다\n자기소개: 안녕하세요, 프론트엔드 개발자 김민준입니다. 대학 시절부터 웹 개발에 깊은 관심을 가져왔으며, 컴퓨터공학과에서 웹 기술 관련 과목들을 수강하며 기초를 다졌습니다. 3학년 때는 동아리 활동을 통해 팀 프로젝트로 온라인 쇼핑몰 웹사이트를 구축한 경험이 있습니다. 이 프로젝트에서 저는 React.js를 활용하여 사용자 친화적인 인터페이스를 구현하였으며, Redux를 통해 상태 관리를 효율적으로 처리했습니다. 또한, 백엔드 개발자와의 협업을 통해 RESTful API를 연동하고, Axios를 사용하여 데이터 통신을 구현하였습니다. 졸업 후에는 스타트업에서 2년간 프론트엔드 개발자로 근무하며, 모바일 최적화와 반응형 디자인에 대한 경험을 쌓았습니다. 이 기간 동안 TypeScript를 도입하여 코드의 안정성과 유지보수성을 향상시켰으며, Webpack과 Babel을 활용하여 번들링과 트랜스파일링 과정을 최적화하였습니다. 사용자 경험(UX)에 대한 이해를 바탕으로 A/B 테스트를 진행하여 전환율을 15% 향상시킨 성과도 있습니다. 저는 항상 새로운 기술에 관심을 가지고 있으며, 최근에는 Next.js와 GraphQL을 공부하여 서버 사이드 렌더링과 효율적인 데이터 페칭에 대한 이해를 높였습니다. 귀사에서 이러한 경험과 열정을 바탕으로 더욱 발전된 서비스를 제공하는 데 기여하고 싶습니다.\n\n### 면접 질문:\n"

# 3. 입력 문장 토크나이징
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# 모델을 통해 질문 생성 (파라미터 재설정)
output = model.generate(
    input_ids,
    max_length=2000,           # 최대 길이를 2000으로 제한
    num_return_sequences=1,
    no_repeat_ngram_size=3,   # 3그램 반복 방지
    temperature=0.5,          # 더 보수적인 샘플링
    top_p=0.85,               # top-p 샘플링으로 조금 더 신뢰할 수 있는 단어 선택
    do_sample=True,           # 샘플링 활성화
    repetition_penalty=1.3    # 반복 패턴 방지
)

# 생성된 텍스트 디코딩
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

# 결과 출력
print("Generated Interview Questions:")
print(generated_text)


Generated Interview Questions:
### 자기소개서
이름: 김민준
지원 분야: 프론트엔드 개발자
지원 동기: 사용자 경험을 최우선으로 고려하는 프론트엔드 개발 분야에서 저의 역량을 발휘하고 싶어 지원하게 되었습니다. 최신 웹 기술과 디자인 트렌드에 대한 이해를 바탕으로 귀사의 제품에 가치를 더하고자 합니다
자기소개: 안녕하세요, 프론트엔드 개발자 김민준입니다. 대학 시절부터 웹 개발에 깊은 관심을 가져왔으며, 컴퓨터공학과에서 웹 기술 관련 과목들을 수강하며 기초를 다졌습니다. 3학년 때는 동아리 활동을 통해 팀 프로젝트로 온라인 쇼핑몰 웹사이트를 구축한 경험이 있습니다. 이 프로젝트에서 저는 React.js를 활용하여 사용자 친화적인 인터페이스를 구현하였으며, Redux를 통해 상태 관리를 효율적으로 처리했습니다. 또한, 백엔드 개발자와의 협업을 통해 RESTful API를 연동하고, Axios를 사용하여 데이터 통신을 구현하였습니다. 졸업 후에는 스타트업에서 2년간 프론트엔드 개발자로 근무하며, 모바일 최적화와 반응형 디자인에 대한 경험을 쌓았습니다. 이 기간 동안 TypeScript를 도입하여 코드의 안정성과 유지보수성을 향상시켰으며, Webpack과 Babel을 활용하여 번들링과 트랜스파일링 과정을 최적화하였습니다. 사용자 경험(UX)에 대한 이해를 바탕으로 A/B 테스트를 진행하여 전환율을 15% 향상시킨 성과도 있습니다. 저는 항상 새로운 기술에 관심을 가지고 있으며, 최근에는 Next.js와 GraphQL을 공부하여 서버 사이드 렌더링과 효율적인 데이터 페칭에 대한 이해를 높였습니다. 귀사에서 이러한 경험과 열정을 바탕으로 더욱 발전된 서비스를 제공하는 데 기여하고 싶습니다.

### 면접 질문:
- **What is your biggest challenge?** :
  내가 본 교육단에서는 주장 포스트 중 한 내용만 나오는 것을 위해 마음이 많이 차지하고잔니 그 내容에 빠르겠다. (영국어)
    - **Why did you 

In [35]:
import json
from datasets import Dataset
from transformers import AutoTokenizer, Trainer, TrainingArguments, AutoModelForCausalLM, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, TaskType

# 1. 모델과 토크나이저 설정
model_name = "huggyllama/llama-7b"
token = "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"

# 4비트 양자화를 위한 BitsAndBytesConfig 생성
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

# 명시적인 device_map 설정 (CPU와 GPU 간 모듈 분배)
device_map = {
    "transformer.h": "cuda:0",  # 주요 레이어는 GPU에 할당
    "lm_head": "cpu",           # lm_head는 CPU에 할당
    "transformer.wte": "cuda:0" # 임베딩 레이어는 GPU에 할당
}

# 2. 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,  # 양자화 설정 전달
    device_map=device_map,           # 명시적인 device_map 설정
    use_auth_token=token  # 직접 제공된 토큰 사용
)

# LoRA 설정
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,  # Causal Language Modeling
    inference_mode=False,  # 학습 모드
    r=8,  # 랭크
    lora_alpha=32,  # 로라 알파
    lora_dropout=0.1  # 드롭아웃 비율
)

# LoRA 어댑터 모델 적용
model = get_peft_model(model, lora_config)

# 3. 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(model_name, use_auth_token=token)

# 패딩 토큰 설정 (필요할 경우 eos_token을 사용하거나 새로 정의)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token  # eos_token을 패딩 토큰으로 사용

# 4. 데이터셋 로드
with open("traindata.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# 5. 데이터 전처리 함수
def preprocess_data(example):
    input_text = f"### 자기소개서\n이름: {example['input']['name']}\n지원 분야: {example['input']['applied_position']}\n지원 동기: {example['input']['reason_for_applying']}\n자기소개: {example['input']['self_introduction']}\n\n### 면접 질문:\n"
    target_text = "\n".join(example["target"])
    return {
        "input_text": input_text,
        "target_text": target_text
    }

processed_data = [preprocess_data(ex) for ex in data]

# 6. Hugging Face Dataset으로 변환
dataset = Dataset.from_dict({
    "input_text": [ex["input_text"] for ex in processed_data],
    "target_text": [ex["target_text"] for ex in processed_data]
})

# 7. 토크나이징 함수 정의
def tokenize_function(examples):
    inputs = tokenizer(examples["input_text"], padding="max_length", truncation=True, max_length=512)
    targets = tokenizer(examples["target_text"], padding="max_length", truncation=True, max_length=512)
    inputs["labels"] = targets["input_ids"]
    return inputs

tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=dataset.column_names)

# 8. 데이터셋 분할 (학습/평가)
split_dataset = tokenized_dataset.train_test_split(test_size=0.1)
train_dataset = split_dataset['train']
eval_dataset = split_dataset['test']

# 9. 학습 설정
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=1,  # 배치 사이즈를 작게 설정
    per_device_eval_batch_size=1,
    num_train_epochs=5,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    save_steps=500,
    gradient_accumulation_steps=8,  # 배치 사이즈가 작으므로 그래디언트 누적을 더 많이 함
)

# 10. 트레이너 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# 11. 모델 학습
trainer.train()

# 12. 모델 저장
trainer.save_model("./fine_tuned_kollm_interview_model")



ValueError: Some modules are dispatched on the CPU or the disk. Make sure you have enough GPU RAM to fit the quantized model. If you want to dispatch the model on the CPU or the disk while keeping these modules in 32-bit, you need to set `load_in_8bit_fp32_cpu_offload=True` and pass a custom `device_map` to `from_pretrained`. Check https://huggingface.co/docs/transformers/main/en/main_classes/quantization#offload-between-cpu-and-gpu for more details. 