In [33]:
import pandas as pd

# 데이터 로드
file_path = './Data/AI_Hub.csv'  # 사용자의 파일 경로로 변경
data = pd.read_csv(file_path, encoding='utf-8')

# 데이터의 열 이름 확인
print(data.columns)

# 필요한 열 이름 확인 후 수정
# 열 이름이 'Text', 'Label'이라면 아래와 같이 수정
data = data.rename(columns={'Sentence': 'document', 'Emotion': 'label'})  # 필요하면 실제 열 이름으로 수정

# 필요한 열만 선택
data = data[['document', 'label']]

# 데이터 확인
print(data.head())

# 이후 Train/Test 분할 및 저장
from sklearn.model_selection import train_test_split

train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# Train과 Test 데이터 저장
train_path = './Data/Train.csv'
test_path = './Data/Test.csv'

train_data.to_csv(train_path, index=False, encoding='utf-8-sig')
test_data.to_csv(test_path, index=False, encoding='utf-8-sig')

print(f"Train 데이터 저장: {train_path}")
print(f"Test 데이터 저장: {test_path}")


Index(['Sentence', 'Emotion', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', '공포',
       '5468'],
      dtype='object')
                   document label
0  언니 동생으로 부르는게 맞는 일인가요..??    공포
1              그냥 내 느낌일뿐겠지?    공포
2            아직너무초기라서 그런거죠?    공포
3             유치원버스 사고 낫다던데    공포
4               근데 원래이런거맞나요    공포
Train 데이터 저장: ./Data/Train.csv
Test 데이터 저장: ./Data/Test.csv


In [34]:
import pandas as pd

# 데이터 로드
train_data = pd.read_csv('./Data/Train.csv', encoding='utf-8')
test_data = pd.read_csv('./Data/Test.csv', encoding='utf-8')

# Train 데이터 label 분포 출력
print("Train 데이터 label 분포:")
train_label_counts = train_data['label'].value_counts()
print(train_label_counts)

# Test 데이터 label 분포 출력
print("\nTest 데이터 label 분포:")
test_label_counts = test_data['label'].value_counts()
print(test_label_counts)

# 비율 계산 및 출력
print("\nTrain 데이터 label 비율:")
print(train_label_counts / len(train_data) * 100)

print("\nTest 데이터 label 비율:")
print(test_label_counts / len(test_data) * 100)


Train 데이터 label 분포:
label
행복    4865
놀람    4721
분노    4515
공포    4372
혐오    4299
슬픔    4247
중립    3856
Name: count, dtype: int64

Test 데이터 label 분포:
label
놀람    1177
행복    1172
분노    1150
혐오    1130
공포    1096
슬픔    1020
중립     974
Name: count, dtype: int64

Train 데이터 label 비율:
label
행복    15.757085
놀람    15.290688
분노    14.623482
공포    14.160324
혐오    13.923887
슬픔    13.755466
중립    12.489069
Name: count, dtype: float64

Test 데이터 label 비율:
label
놀람    15.248089
행복    15.183314
분노    14.898303
혐오    14.639202
공포    14.198730
슬픔    13.214147
중립    12.618215
Name: count, dtype: float64


In [35]:
import pandas as pd

# 데이터 로드
train_data = pd.read_csv('./Data/Train.csv', encoding='utf-8')
test_data = pd.read_csv('./Data/Test.csv', encoding='utf-8')

# 문자열 label을 정수로 매핑
label_mapping = {
    '행복': 0,
    '놀람': 1,
    '분노': 2,
    '공포': 3,
    '혐오': 4,
    '슬픔': 5,
    '중립': 6
}

# 라벨 매핑 및 결측치 처리
train_data['label'] = train_data['label'].map(label_mapping)
test_data['label'] = test_data['label'].map(label_mapping)

# 결측치 제거 및 인덱스 초기화
train_data = train_data.dropna(subset=['label']).reset_index(drop=True)
test_data = test_data.dropna(subset=['label']).reset_index(drop=True)

# 라벨 타입 변환
train_data['label'] = train_data['label'].astype(int)
test_data['label'] = test_data['label'].astype(int)

# 변환 확인
print("Train 데이터 변환된 label 분포:")
print(train_data['label'].value_counts())

print("\nTest 데이터 변환된 label 분포:")
print(test_data['label'].value_counts())

# 매핑된 데이터를 저장
train_data.to_csv('./Data/Train.csv', index=False, encoding='utf-8-sig')
test_data.to_csv('./Data/Test.csv', index=False, encoding='utf-8-sig')

print("\n변환된 데이터가 저장되었습니다.")


Train 데이터 변환된 label 분포:
label
0    4865
1    4721
2    4515
3    4372
4    4299
5    4247
6    3856
Name: count, dtype: int64

Test 데이터 변환된 label 분포:
label
1    1177
0    1172
2    1150
4    1130
3    1096
5    1020
6     974
Name: count, dtype: int64

변환된 데이터가 저장되었습니다.


In [36]:
import torch

# 1. GPU 사용 가능 여부 확인
if not torch.cuda.is_available():
    print("CUDA가 사용 불가능합니다. GPU 설정을 확인하세요.")
else:
    print("CUDA가 사용 가능합니다.")
    print(f"사용 가능한 GPU 개수: {torch.cuda.device_count()}")
    print(f"현재 사용 중인 GPU: {torch.cuda.current_device()} ({torch.cuda.get_device_name(torch.cuda.current_device())})")

# 2. CUDA 연산 디버깅 활성화
import os
os.environ["CUDA_LAUNCH_BLOCKING"] = "1"  # 디버깅 활성화
print("CUDA 디버깅 모드 활성화됨.")

# 3. 간단한 텐서 연산 테스트
try:
    x = torch.tensor([1.0, 2.0, 3.0], device='cuda')  # GPU로 텐서 생성
    y = torch.tensor([4.0, 5.0, 6.0], device='cuda')  # GPU로 텐서 생성
    z = x + y  # GPU에서 연산
    print(f"GPU 연산 성공: {z}")
except RuntimeError as e:
    print(f"GPU 연산 중 오류 발생: {e}")

# 4. GPU 메모리 상태 확인
if torch.cuda.is_available():
    print(f"현재 GPU 메모리 할당: {torch.cuda.memory_allocated()} bytes")
    print(f"현재 GPU 메모리 캐시: {torch.cuda.memory_reserved()} bytes")


CUDA가 사용 가능합니다.
사용 가능한 GPU 개수: 1
현재 사용 중인 GPU: 0 (NVIDIA GeForce RTX 3090)
CUDA 디버깅 모드 활성화됨.
GPU 연산 성공: tensor([5., 7., 9.], device='cuda:0')
현재 GPU 메모리 할당: 1536 bytes
현재 GPU 메모리 캐시: 2097152 bytes


In [37]:
# 라벨별로 예시를 출력하는 함수
def print_label_examples(data, label_column, text_column, num_examples=5):
    labels = data[label_column].unique()
    for label in labels:
        print(f"\n라벨: {label} ({num_examples}개 예시)")
        examples = data[data[label_column] == label][text_column].head(num_examples)
        for i, example in enumerate(examples, start=1):
            print(f"{i}. {example}")

# Train 데이터 라벨별 예시 출력
print("\nTrain 데이터 라벨별 예시:")
print_label_examples(train_data, label_column='label', text_column='document', num_examples=5)

# Test 데이터 라벨별 예시 출력
print("\nTest 데이터 라벨별 예시:")
print_label_examples(test_data, label_column='label', text_column='document', num_examples=5)



Train 데이터 라벨별 예시:

라벨: 0 (5개 예시)
1. 오오~~바르샤가 좀 더 우승하겠는데~!!ㅋㅋㅋㅋ
2.  인간적인 냄새를 맞게 해 주신 두부부께 제가 배울점이 정말 많아 너무 좋았네요.
3. 백주부님 축복 받으세요~~
4. 백선생님 덕분에 요리에 두려움이 없어지고 있어요 .
5. 작가 감독 배우 모두 완벽 !!

라벨: 6 (5개 예시)
1. 조연도 안되는급인데 이렇게 언플하고도 조연드립치고 쉴드하는 개셈 보면 왜 쓰레기라하는지 알겠어
2. 진야곱,이재학은 어케 되느거요?
3. 소년이 온다는 미래 노벨문학상 수상작이다.
4. 방금 중국 바이두 가서 보니까 중국도 구르미가 평점 7.5로 평점 6.2인 달연 압도중이구만 뭔 소린지?
5. 나도 그날 내가 뭐했는지 상세하게 기억이 난다

라벨: 5 (5개 예시)
1. 남친 유격훈련가서 연락이 안되여ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ
2.  어제전화왔는데 많이힘들어하던데 ...
3. 내가 너를 많이 좋아하긴 했나봐.
4. 그 사람은 제 생각하지 않겠죠
5. 고향이 경상도라서 죄송합니다

라벨: 1 (5개 예시)
1. 아님 그냥 그대로 남자소유가 되는거임??
2.  어 ?????진짜 바쁜거임?
3. 가짜총기는 색깔이 다르도록 규제 안되나? 저상황 대로라면 경찰관 총 쏜게 이해가되는데
4. 빠르네.
5. execution style 을 처형당하듯 이라고 번역하네..

라벨: 3 (5개 예시)
1. 뭔가 확 정신차리고 공부할 방법 없나요?
2.  속이 너무 쓰려서요
3.  최후의수단이고..
4. 집에 아무도 없고 아내도 전화를 안받는다고집 비밀번호를 알려달라는데 좀 찜찜사더군요..
5. 그냥 목감기일까...

라벨: 2 (5개 예시)
1. 오늘 로스쿨 면접인데 내가 만약 검사가된다면 이나라의 정의를 위해 이 한몸 불살르겠다
2. 대통령을 떠나서 그냥 인간으로서도 쓰레기 수준이다..
3. 어차피 기대도 안했다 어쩜 이리 국민들 예측을 한치도 벗어나지 않다니.
4. 짱개랑 쪽빠리 애들 남에 국가 영토를 자기들 꺼라