In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained(
    "yanolja/EEVE-Korean-Instruct-10.8B-v1.0",
    load_in_8bit=True,  # Enable 8-bit quantization
    device_map="auto"  # Automatically distribute across CPU/GPU
)
tokenizer = AutoTokenizer.from_pretrained("yanolja/EEVE-Korean-Instruct-10.8B-v1.0")

prompt_template = "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.\nHuman: {prompt}\nAssistant:\n"
text = '한국의 수도는 어디인가요? 아래 선택지 중 골라주세요.\n\n(A) 경성\n(B) 부산\n(C) 평양\n(D) 서울\n(E) 전주'
model_inputs = tokenizer(prompt_template.format(prompt=text), return_tensors='pt').to('cuda')

outputs = model.generate(**model_inputs, max_new_tokens=256)
output_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
print(output_text)



Welcome to bitsandbytes. For bug reports, please run

python -m bitsandbytes

 and submit this information together with your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
CUDA SETUP: CUDA runtime path found: /opt/conda/lib/libcudart.so.11.0
CUDA SETUP: Highest compute capability among GPUs detected: 8.6
CUDA SETUP: Detected CUDA version 118
CUDA SETUP: Loading binary /opt/conda/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda118.so...


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

Setting `pad_token_id` to `eos_token_id`:32000 for open-end generation.


A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: 한국의 수도는 어디인가요? 아래 선택지 중 골라주세요.

(A) 경성
(B) 부산
(C) 평양
(D) 서울
(E) 전주
Assistant:
(D) 서울이 한국의 수도입니다.

신뢰도: 100%


In [17]:
prompt_template = "다음 대화를 20퍼센트 정도로 요약해 주세요:\n\n{prompt}\n\n요약만 출력:"
text = '''#Person1#: 안녕하세요, 오늘 하루 어떠셨어요? 
#Person2#: 요즘 숨쉬기가 좀 힘들어요.
#Person1#: 최근에 감기 같은 것에 걸리신 적이 있나요?
#Person2#: 아니요, 감기는 아니에요. 그냥 숨을 쉴 때마다 가슴이 무겁게 느껴져요.
#Person1#: 알고 있는 알레르기가 있나요?
#Person2#: 아니요, 알고 있는 알레르기는 없어요.
#Person1#: 이런 증상이 항상 나타나나요, 아니면 활동할 때 주로 나타나나요?
#Person2#: 운동을 할 때 많이 나타나요.
#Person1#: 저는 당신을 폐 전문의에게 보내서 천식에 대한 검사를 받게 할 거예요.
#Person2#: 도와주셔서 감사합니다, 의사 선생님'''
model_inputs = tokenizer(prompt_template.format(prompt=text), return_tensors='pt').to('cuda')

outputs = model.generate(**model_inputs, max_new_tokens=0)
output_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
print(output_text)

Setting `pad_token_id` to `eos_token_id`:32000 for open-end generation.


다음 대화를 20퍼센트 정도로 요약해 주세요:

#Person1#: 안녕하세요, 오늘 하루 어떠셨어요? 
#Person2#: 요즘 숨쉬기가 좀 힘들어요.
#Person1#: 최근에 감기 같은 것에 걸리신 적이 있나요?
#Person2#: 아니요, 감기는 아니에요. 그냥 숨을 쉴 때마다 가슴이 무겁게 느껴져요.
#Person1#: 알고 있는 알레르기가 있나요?
#Person2#: 아니요, 알고 있는 알레르기는 없어요.
#Person1#: 이런 증상이 항상 나타나나요, 아니면 활동할 때 주로 나타나나요?
#Person2#: 운동을 할 때 많이 나타나요.
#Person1#: 저는 당신을 폐 전문의에게 보내서 천식에 대한 검사를 받게 할 거예요.
#Person2#: 도와주셔서 감사합니다, 의사 선생님

요약만 출력:



In [12]:
print(output_text)

다음 대화를 20퍼센트 정도로 요약해 주세요. 아웃풋은 요약만 보여주면되:

#Person1#: 안녕하세요, 오늘 하루 어떠셨어요? 
#Person2#: 요즘 숨쉬기가 좀 힘들어요.
#Person1#: 최근에 감기 같은 것에 걸리신 적이 있나요?
#Person2#: 아니요, 감기는 아니에요. 그냥 숨을 쉴 때마다 가슴이 무겁게 느껴져요.
#Person1#: 알고 있는 알레르기가 있나요?
#Person2#: 아니요, 알고 있는 알레르기는 없어요.
#Person1#: 이런 증상이 항상 나타나나요, 아니면 활동할 때 주로 나타나나요?
#Person2#: 운동을 할 때 많이 나타나요.
#Person1#: 저는 당신을 폐 전문의에게 보내서 천식에 대한 검사를 받게 할 거예요.
#Person2#: 도와주셔서 감사합니다, 의사 선생님

요약:
#Person2#는 숨쉬기 어려움을 겪고 있으며, 최근에 감기에 걸린 적은 없고 알려진 알레르기도 없습니다. 증상은 주로 운동할 때 나타나며, #Person1#은 #Person2#를 폐 전문의에게 보내 천식 검사를 받게 할 계획입니다.


#Person2#는 숨쉬기에 어려움을 겪는다. 의사는 #Person1#에게 이에 대해 묻고, #Person2#를 폐 전문의에게 보낼 예정이다.

#Person2#는 숨쉬기 어려움을 겪고 있으며, 감기나 알려진 알레르기는 없다고 합니다. 증상은 주로 운동할 때 나타나며, #Person1#은 #Person2#를 천식 검사를 위해 폐 전문의에게 소개하기로 결정했습니다.

#Person1#은 UFO를 믿는 #Person2#에게 의문을 제기합니다. #Person2#는 자신이 꿈에서 UFO를 본다고 주장하며, UFO가 외계인들을 지구로 데려오는 임무를 가지고 있다고 말합니다. 그들은 로봇처럼 생겼지만 말할 수 있으며, 인간과 친구가 되기 위해 영어를 배운다고 합니다. #Person1#은 #Person2#가 외계인들과 대화한다는 사실에 흥미를 느낍니다

#Person2#는 UFO를 믿고 꿈에서 그들을 볼 수 있다고 말한다. #Person1#는 #Person2#에게 UFO와 꿈 속의 외계인에 대해 묻고, #Person2#의 꿈을 멋지다고 느낀다.


In [2]:
import pandas as pd
df = pd.read_csv('/dj/data/train.csv')

In [22]:
df

Unnamed: 0,fname,dialogue,summary,topic
0,train_0,"#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나...","스미스씨가 건강검진을 받고 있고, 호킨스 의사는 매년 건강검진을 받는 것을 권장합니...",건강검진 받기
1,train_1,"#Person1#: 안녕하세요, 파커 부인, 어떻게 지내셨나요?\n#Person2#...",파커 부인이 리키를 데리고 백신 접종을 하러 갔다. 피터스 박사는 기록을 확인한 후...,백신
2,train_2,"#Person1#: 실례합니다, 열쇠 한 묶음 보셨나요?\n#Person2#: 어떤...","#Person1#은 열쇠 한 묶음을 찾고 있고, 그것을 찾기 위해 #Person2#...",열쇠 찾기
3,train_3,#Person1#: 왜 너는 여자친구가 있다는 걸 말해주지 않았어?\n#Person...,#Person1#은 #Person2#가 여자친구가 있고 그녀와 결혼할 것이라는 사실...,여자친구가 있다
4,train_4,"#Person1#: 안녕, 숙녀분들! 오늘 밤 당신들은 정말 멋져 보여. 이 춤을 ...",말릭이 니키에게 춤을 요청한다. 말릭이 발을 밟는 것을 신경 쓰지 않는다면 니키는 ...,댄스
...,...,...,...,...
12452,train_12455,#Person1#: 실례합니다. 맨체스터 출신의 그린 씨이신가요?\n#Person2...,탄 링은 흰머리와 수염으로 쉽게 인식되는 그린 씨를 만나 호텔로 데려갈 예정입니다....,누군가를 태우다
12453,train_12456,#Person1#: 이윙 씨가 우리가 컨퍼런스 센터에 오후 4시에 도착해야 한다고 ...,#Person1#과 #Person2#는 이윙 씨가 늦지 않도록 요청했기 때문에 컨퍼...,컨퍼런스 센터
12454,train_12457,#Person1#: 오늘 어떻게 도와드릴까요?\n#Person2#: 차를 빌리고 싶...,#Person2#는 #Person1#의 도움으로 5일 동안 소형 차를 빌립니다.,차 렌트
12455,train_12458,#Person1#: 오늘 좀 행복해 보이지 않아. 무슨 일 있어?\n#Person2...,#Person2#의 엄마가 일자리를 잃었다. #Person2#는 엄마가 우울해하지 ...,실직


In [23]:
tokenizer = AutoTokenizer.from_pretrained("yanolja/EEVE-Korean-Instruct-10.8B-v1.0")

# 프롬프트 템플릿 정의
prompt_template = "다음 대화를 20퍼센트 정도로 요약해 주세요:\n\n{dialogue}\n\n요약:"

# 데이터 전처리 함수 (프롬프트 포함)
def tokenize_function(examples):
    # 프롬프트와 함께 dialogue를 입력으로 사용
    inputs = [prompt_template.format(dialogue=dialogue) for dialogue in examples['dialogue']]
    summaries = examples['summary']
    
    # 입력과 레이블을 각각 토크나이징
    model_inputs = tokenizer(inputs, max_length=1024, truncation=True, padding="max_length")
    labels = tokenizer(summaries, max_length=256, truncation=True, padding="max_length")
    
    # 레이블 설정
    model_inputs['labels'] = labels['input_ids']
    
    return model_inputs

# 데이터프레임에 적용
tokenized_data = df.apply(tokenize_function, axis=1)

# 결과 확인
print(tokenized_data)

: 

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForSeq2Seq
from datasets import Dataset
import torch

# 모델과 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained(
    "yanolja/EEVE-Korean-Instruct-10.8B-v1.0",
    load_in_8bit=True,  # 8-bit quantization으로 메모리 최적화
    device_map="auto"   # GPU와 CPU에 자동으로 분배
)
tokenizer = AutoTokenizer.from_pretrained("yanolja/EEVE-Korean-Instruct-10.8B-v1.0")

# 데이터 전처리 함수
def tokenize_function(examples):
    inputs = examples['dialogue']
    summaries = examples['summary']
    
    # 입력과 레이블을 각각 토크나이징
    model_inputs = tokenizer(inputs, max_length=1024, truncation=True, padding="max_length")
    labels = tokenizer(summaries, max_length=256, truncation=True, padding="max_length")
    
    # 레이블 설정
    model_inputs['labels'] = labels['input_ids']
    
    return model_inputs

# 데이터셋 준비
# df는 미리 준비된 pandas 데이터프레임이라고 가정
dataset = Dataset.from_pandas(df)

# 데이터 토크나이징
tokenized_datasets = dataset.map(tokenize_function, batched=True)

# 데이터 콜레이터 설정: Seq2Seq 작업에 사용
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

# 학습 설정
training_args = TrainingArguments(
    output_dir="./results",           # 체크포인트 저장 경로
    evaluation_strategy="epoch",      # 매 에폭마다 평가
    learning_rate=5e-5,               # 학습률 설정
    per_device_train_batch_size=2,    # 학습 배치 크기
    per_device_eval_batch_size=2,     # 평가 배치 크기
    num_train_epochs=3,               # 에폭 수
    weight_decay=0.01,                # 가중치 감쇠 (정규화)
    save_total_limit=2,               # 저장할 체크포인트 수 제한
    fp16=True,                        # 혼합 정밀도 사용 (GPU 메모리 최적화)
    save_steps=1000,                  # 체크포인트 저장 주기
    logging_dir="./logs",             # 로그 저장 경로
    logging_steps=500,                # 로그 주기
)

# Trainer 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets,
    eval_dataset=tokenized_datasets,  # 평가용 데이터도 동일하게 설정
    data_collator=data_collator,
    tokenizer=tokenizer
)

# 모델 훈련
trainer.train()


In [1]:
import pandas as pd
df = pd.read_csv('/dj/data/train.csv')

In [2]:
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForSeq2Seq
from datasets import Dataset

# 스페셜 토큰 정의
special_tokens_dict = {
    "additional_special_tokens": ['#Person1#', '#Person2#', '#Person3#', '#PhoneNumber#', '#Address#', '#PassportNumber#']
}

# 모델과 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("yanolja/EEVE-Korean-Instruct-10.8B-v1.0")

# 스페셜 토큰 추가
tokenizer.add_special_tokens(special_tokens_dict)

# 모델 로드 후 스페셜 토큰 크기를 모델에 맞게 조정
model = AutoModelForCausalLM.from_pretrained(
    "yanolja/EEVE-Korean-Instruct-10.8B-v1.0",
    load_in_8bit=True,
    device_map="auto"
)
model.resize_token_embeddings(len(tokenizer))  # 모델 토큰 임베딩 사이즈 조정

# 프롬프트 템플릿 정의
prompt_template = "다음 대화를 20퍼센트 정도로 요약해 주세요:\n\n{dialogue}\n\n요약:"

# 데이터 전처리 함수 (프롬프트 및 스페셜 토큰 포함)
def tokenize_function(examples):
    # 프롬프트와 함께 dialogue를 입력으로 사용
    inputs = [prompt_template.format(dialogue=dialogue) for dialogue in examples['dialogue']]
    summaries = examples['summary']
    
    # 입력과 레이블을 각각 토크나이징, special_tokens 적용
    model_inputs = tokenizer(inputs, max_length=1024, truncation=True, padding="max_length")
    labels = tokenizer(summaries, max_length=256, truncation=True, padding="max_length")
    
    # 레이블 설정
    model_inputs['labels'] = labels['input_ids']
    
    return model_inputs

# 데이터셋 준비
dataset = Dataset.from_pandas(df)

# 데이터 토크나이징
tokenized_datasets = dataset.map(tokenize_function, batched=True)

# 데이터 콜레이터 설정
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)






Welcome to bitsandbytes. For bug reports, please run

python -m bitsandbytes

 and submit this information together with your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
CUDA SETUP: CUDA runtime path found: /opt/conda/lib/libcudart.so.11.0
CUDA SETUP: Highest compute capability among GPUs detected: 8.6
CUDA SETUP: Detected CUDA version 118
CUDA SETUP: Loading binary /opt/conda/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda118.so...


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]



Map:   0%|          | 0/12457 [00:00<?, ? examples/s]

In [3]:

# 학습 설정
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    num_train_epochs=1,
    weight_decay=0.01,
    save_total_limit=2,
    fp16=True,
    save_steps=1000,
    logging_dir="./logs",
    logging_steps=500,
)

# Trainer 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets,
    eval_dataset=tokenized_datasets,
    data_collator=data_collator,
    tokenizer=tokenizer
)

# 모델 훈련
trainer.train()

Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


ValueError: You cannot perform fine-tuning on purely quantized models. Please attach trainable adapters on top of the quantized model to correctly perform fine-tuning. Please see: https://huggingface.co/docs/transformers/peft for more details

In [1]:
import pandas as pd
df = pd.read_csv('/dj/data/train.csv')

In [2]:
eval_df = pd.read_csv('/dj/data/dev.csv')

In [3]:
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model
from datasets import Dataset
import pandas as pd

# 1. 프롬프트 템플릿 정의
prompt_template = "다음 대화를 20퍼센트 정도로 요약해 주세요:\n\n{dialogue}\n\n요약:"

# 2. 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("yanolja/EEVE-Korean-Instruct-10.8B-v1.0")

special_tokens_dict = {
    "additional_special_tokens": ['#Person1#', '#Person2#', '#Person3#', '#PhoneNumber#', '#Address#', '#PassportNumber#']
}


# 스페셜 토큰 추가
tokenizer.add_special_tokens(special_tokens_dict)

# 3. 데이터셋을 토크나이징하는 함수
def tokenize_function(examples):
    # 대화와 프롬프트를 결합하여 입력 생성
    inputs = [prompt_template.format(dialogue=dialogue) for dialogue in examples['dialogue']]
    
    # 입력을 토크나이즈할 때 패딩과 길이를 확인
    model_inputs = tokenizer(inputs, max_length=512, truncation=True, padding="max_length", return_tensors="pt")
    
    # 요약 부분도 같은 방식으로 처리
    labels = tokenizer(text_target=examples['summary'], max_length=128, truncation=True, padding="max_length", return_tensors="pt")

    # 모델 입력에 라벨 추가
    model_inputs["labels"] = labels["input_ids"]

    return model_inputs

# 4. LoRA 설정
lora_config = LoraConfig(
    r=8,  # LoRA rank
    lora_alpha=32,  # Scaling factor
    target_modules=["q_proj", "v_proj"],  # 조정할 레이어
    lora_dropout=0.1,  # 드롭아웃 비율
    bias="none",  # Bias 처리
    task_type="CAUSAL_LM"  # 작업 유형
)

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True  # 8비트 양자화 설정
)


# 5. 모델 로드 및 LoRA 적용
model = AutoModelForCausalLM.from_pretrained(
    "yanolja/EEVE-Korean-Instruct-10.8B-v1.0",
    device_map="auto",  # 자동으로 장치에 모델 할당
    quantization_config=quantization_config  # 양자화 설정
)

# LoRA를 모델에 적용
model = get_peft_model(model, lora_config)


Welcome to bitsandbytes. For bug reports, please run

python -m bitsandbytes

 and submit this information together with your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
CUDA SETUP: CUDA runtime path found: /opt/conda/lib/libcudart.so.11.0
CUDA SETUP: Highest compute capability among GPUs detected: 8.6
CUDA SETUP: Detected CUDA version 118
CUDA SETUP: Loading binary /opt/conda/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda118.so...


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

In [4]:
train_dataset_hf = Dataset.from_pandas(df)
eval_dataset_hf = Dataset.from_pandas(eval_df)

# 데이터셋에 토크나이징 적용
train_dataset_tokenized = train_dataset_hf.map(tokenize_function, batched=True)
eval_dataset_tokenized = eval_dataset_hf.map(tokenize_function, batched=True)


# 7. TrainingArguments 설정 (혼합 정밀도 FP16 사용)
training_args = TrainingArguments(
    output_dir="./results",  # 모델 저장 경로
    eval_strategy="epoch",  # 에폭마다 평가
    learning_rate=1e-4,  # 학습률
    per_device_train_batch_size=2,  # 학습 배치 크기
    per_device_eval_batch_size=2,  # 평가 배치 크기
    num_train_epochs=3,  # 에폭 수
    weight_decay=0.01,  # 가중치 감소
    save_total_limit=2,  # 저장할 체크포인트 수
    fp16=True,  # 혼합 정밀도 사용
    save_steps=1000,  # 체크포인트 저장 주기
    logging_dir="./logs",  # 로그 저장 경로
    logging_steps=500,  # 로그 출력 주기
)

# 7. Trainer 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset_tokenized,
    eval_dataset=eval_dataset_tokenized,
)

# 8. 훈련 시작
trainer.train()


Map:   0%|          | 0/12457 [00:00<?, ? examples/s]

Map:   0%|          | 0/499 [00:00<?, ? examples/s]

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)
Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mlindsay-heo[0m ([33mlindsay-heo-upstage[0m). Use [1m`wandb login --relogin`[0m to force relogin


VBox(children=(Label(value='Waiting for wandb.init()...\r'), FloatProgress(value=0.011112350059880151, max=1.0…

../aten/src/ATen/native/cuda/Indexing.cu:1284: indexSelectLargeIndex: block: [40,0,0], thread: [32,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
../aten/src/ATen/native/cuda/Indexing.cu:1284: indexSelectLargeIndex: block: [40,0,0], thread: [33,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
../aten/src/ATen/native/cuda/Indexing.cu:1284: indexSelectLargeIndex: block: [40,0,0], thread: [34,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
../aten/src/ATen/native/cuda/Indexing.cu:1284: indexSelectLargeIndex: block: [40,0,0], thread: [35,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
../aten/src/ATen/native/cuda/Indexing.cu:1284: indexSelectLargeIndex: block: [40,0,0], thread: [36,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
../aten/src/ATen/native/cuda/Indexing.cu:1284: indexSelectLargeIndex: block: [40,0,0], thread: [37,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
../aten/src/ATen/native/cuda/Indexing.cu:1284: indexSelectLargeIndex: block: [40,0,0], t

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.


In [None]:
print(train_dataset_tokenized[0]['input_ids'])
print(train_dataset_tokenized[0]['labels'])


[2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 

In [7]:
import torch
torch.cuda.is_available()

True

In [1]:
# 필요한 라이브러리 임포트
import pandas as pd
from datasets import Dataset
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model
import bitsandbytes as bnb
from evaluate import load

# 데이터 로드
df = pd.read_csv('/dj/data/train.csv')
eval_df = pd.read_csv('/dj/data/dev.csv')

# 데이터셋을 Hugging Face의 Dataset 형식으로 변환
train_dataset = Dataset.from_pandas(df)
eval_dataset = Dataset.from_pandas(eval_df)

# 1. 토크나이저 로드 및 특수 토큰 추가
tokenizer = AutoTokenizer.from_pretrained("yanolja/EEVE-Korean-Instruct-10.8B-v1.0")

special_tokens_dict = {
    "additional_special_tokens": ['#Person1#', '#Person2#', '#Person3#', '#PhoneNumber#', '#Address#', '#PassportNumber#']
}
tokenizer.add_special_tokens(special_tokens_dict)

# 2. 8-bit로 모델 로드 및 토큰 크기 조정
model = AutoModelForCausalLM.from_pretrained(
    "yanolja/EEVE-Korean-Instruct-10.8B-v1.0", 
    load_in_8bit=True, 
    device_map="auto"
)
model.resize_token_embeddings(len(tokenizer))

# 3. LoRA 설정
lora_config = LoraConfig(
    r=8,                # LoRA 차원
    lora_alpha=16,       # LoRA의 alpha
    lora_dropout=0.1,    # 드롭아웃 비율
    bias="none",         # LoRA가 bias를 학습하지 않음
    task_type="CAUSAL_LM"
)

# 4. 모델에 LoRA 적용
model = get_peft_model(model, lora_config)

# 5. 훈련 설정
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    per_device_train_batch_size=1,  # A100에 맞춘 적당한 배치 사이즈
    per_device_eval_batch_size=1,
    num_train_epochs=3,
    logging_dir="./logs",
    learning_rate=1e-4,
    fp16=True,   # 16-bit 훈련으로 메모리 최적화
)


Welcome to bitsandbytes. For bug reports, please run

python -m bitsandbytes

 and submit this information together with your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
CUDA SETUP: CUDA runtime path found: /opt/conda/lib/libcudart.so.11.0
CUDA SETUP: Highest compute capability among GPUs detected: 8.6
CUDA SETUP: Detected CUDA version 118
CUDA SETUP: Loading binary /opt/conda/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda118.so...


  warn(
The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]



In [2]:


# 6. 프롬프트 준비
prompt_template = "다음 대화를 20퍼센트 정도로 요약해 주세요:\n\n{prompt}\n\n요약:"

def preprocess_function(examples):
    inputs = [prompt_template.format(prompt=dialogue) for dialogue in examples['dialogue']]
    model_inputs = tokenizer(inputs, max_length=1024, truncation=True, return_tensors="pt", padding="max_length")
    labels = tokenizer(examples['summary'], max_length=256, truncation=True, return_tensors="pt", padding="max_length").input_ids
    model_inputs['labels'] = labels
    return model_inputs

# 데이터 전처리
train_dataset = train_dataset.map(preprocess_function, batched=True)
eval_dataset = eval_dataset.map(preprocess_function, batched=True)

# 7. Rouge 평가 메트릭 로드
rouge = load("rouge")

def compute_metrics(eval_preds):
    predictions, labels = eval_preds
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    
    # Rouge 평가
    result = rouge.compute(predictions=decoded_preds, references=decoded_labels)
    return result

# 8. Trainer 설정 및 학습
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

# 9. 학습 실행
trainer.train()

# 10. 평가 실행
eval_results = trainer.evaluate()
print(f"Evaluation results: {eval_results}")



Map:   0%|          | 0/12457 [00:00<?, ? examples/s]

Map:   0%|          | 0/499 [00:00<?, ? examples/s]

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)
Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mlindsay-heo[0m ([33mlindsay-heo-upstage[0m). Use [1m`wandb login --relogin`[0m to force relogin


OutOfMemoryError: CUDA out of memory. Tried to allocate 200.00 MiB. GPU 0 has a total capacity of 23.69 GiB of which 4.81 MiB is free. Process 1433308 has 23.68 GiB memory in use. Of the allocated memory 23.18 GiB is allocated by PyTorch, and 191.56 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)