In [None]:
from huggingface_hub import login

# Hugging Face 로그인
login(token="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")

In [None]:
import pandas as pd

# 파일 경로 설정
file_path = r'C:\\Users\\user\\Desktop\\jupyter notebook\\gg-project-main\\image classification\\clip_results.csv'

# 파일 읽기 및 emotion별 데이터 개수 계산
try:
    # 파일 읽기 (인코딩 지정)
    clip_data = pd.read_csv(file_path, encoding='cp949')  # CP949는 한글 Windows에서 일반적으로 사용
    # emotion별 데이터 개수 계산
    emotion_counts = clip_data['emotion'].value_counts()
    
    # 출력
    print("Emotion Counts:")
    print(emotion_counts)
except UnicodeDecodeError:
    print("인코딩 오류가 발생했습니다. 다른 인코딩 형식을 시도해 보세요 (예: 'ISO-8859-1').")
except FileNotFoundError:
    print(f"파일 '{file_path}'이(가) 존재하지 않습니다. 파일 경로를 확인해주세요.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

In [None]:
from sklearn.model_selection import train_test_split

# 1단계: 먼저 Train과 Test를 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 2단계: Train 데이터를 다시 Train과 Validation으로 분리
X_train_final, X_val, y_train_final, y_val = train_test_split(
    X_train, y_train, test_size=0.125, random_state=42, stratify=y_train
)  # 0.125는 전체 데이터의 10%를 Validation으로 사용

# 결과 확인
print("Train set label counts:")
print(y_train_final.value_counts())
print("\nValidation set label counts:")
print(y_val.value_counts())
print("\nTest set label counts:")
print(y_test.value_counts())

In [None]:
from transformers import DistilBertTokenizer

# DistilBERT tokenizer 로드
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')

# 데이터 토크나이즈
train_encodings = tokenizer(list(X_train_final), truncation=True, padding=True, max_length=128)
val_encodings = tokenizer(list(X_val), truncation=True, padding=True, max_length=128)  # 추가된 Validation 데이터
test_encodings = tokenizer(list(X_test), truncation=True, padding=True, max_length=128)



In [None]:
import torch

class EmotionDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

# 레이블 매핑
label_mapping = {'sadness': 0, 'anger': 1, 'happiness': 2}

# 데이터셋 생성
train_dataset = EmotionDataset(train_encodings, list(y_train_final.map(label_mapping)))
val_dataset = EmotionDataset(val_encodings, list(y_val.map(label_mapping)))  # 추가된 Validation 데이터셋
test_dataset = EmotionDataset(test_encodings, list(y_test.map(label_mapping)))


In [None]:
from transformers import DistilBertForSequenceClassification, Trainer, TrainingArguments
from sklearn.metrics import accuracy_score
import numpy as np

# 평가 지표 계산 함수
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=1)
    accuracy = accuracy_score(labels, predictions)
    return {"accuracy": accuracy}

# 모델 로드
model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=3)

# 학습 설정
training_args = TrainingArguments(
    output_dir='./results',          # 결과 저장 경로
    evaluation_strategy="epoch",    # 평가 전략: epoch 단위
    save_strategy="epoch",          # 저장 전략: epoch 단위
    learning_rate=2e-5,             # 학습률
    per_device_train_batch_size=16, # 배치 크기
    per_device_eval_batch_size=16,
    num_train_epochs=20,            # 에포크 수를 20으로 수정
    weight_decay=0.01,              # 가중치 감쇠
    logging_dir='./logs',           # 로깅 경로
    logging_steps=10,
    save_total_limit=2,             # 최대 저장 모델 수
    load_best_model_at_end=True,    # 최적 모델 로드
    metric_for_best_model="accuracy", # 최적 모델 평가 기준
)

# Trainer 생성
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,   # 학습 데이터셋
    eval_dataset=val_dataset,      # 검증 데이터셋 (val_dataset 사용)
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

trainer.train()
