In [13]:
import koco
import pandas as pd
import os

# 데이터 로드
train_dev = koco.load_dataset('korean-hate-speech', mode='train_dev')

# 데이터 추출
train_data = pd.DataFrame(train_dev['train'])
test_data = pd.DataFrame(train_dev['dev'])

# 저장 경로 설정
output_dir = "Data"
os.makedirs(output_dir, exist_ok=True)

# 파일 저장
train_path = os.path.join(output_dir, "Train.csv")
test_path = os.path.join(output_dir, "Test.csv")

train_data.to_csv(train_path, index=False, encoding='utf-8-sig')
test_data.to_csv(test_path, index=False, encoding='utf-8-sig')

print(f"Train.csv saved to: {train_path}")
print(f"Test.csv saved to: {test_path}")


Train.csv saved to: Data/Train.csv
Test.csv saved to: Data/Test.csv


In [14]:
import pandas as pd

# 파일 경로 설정
train_path = "Data/Train.csv"
test_path = "Data/Test.csv"

# 데이터 로드
train_data = pd.read_csv(train_path)
test_data = pd.read_csv(test_path)

# Train 데이터 shape 및 head 출력
print("Train 데이터 Shape:", train_data.shape)
print("Train 데이터 Head:")
print(train_data.head())

# Test 데이터 shape 및 head 출력
print("\nTest 데이터 Shape:", test_data.shape)
print("Test 데이터 Head:")
print(test_data.head())


Train 데이터 Shape: (7896, 5)
Train 데이터 Head:
                                            comments  contain_gender_bias  \
0  (현재 호텔주인 심정) 아18 난 마른하늘에 날벼락맞고 호텔망하게생겼는데 누군 계속...                False   
1  ....한국적인 미인의 대표적인 분...너무나 곱고아름다운모습...그모습뒤의 슬픔을...                False   
2  ...못된 넘들...남의 고통을 즐겼던 넘들..이젠 마땅한 처벌을 받아야지..,그래...                False   
3                 1,2화 어설펐는데 3,4화 지나서부터는 갈수록 너무 재밌던데                False   
4  1. 사람 얼굴 손톱으로 긁은것은 인격살해이고2. 동영상이 몰카냐? 메걸리안들 생각...                 True   

     bias  hate                                       news_title  
0  others  hate         "밤새 조문 행렬…故 전미선, 동료들이 그리워하는 따뜻한 배우 [종합]"  
1    none  none  "'연중' 故 전미선, 생전 마지막 미공개 인터뷰…환하게 웃는 모습 '먹먹'[종합]"  
2    none  hate  "[단독] 잔나비, 라디오 출연 취소→'한밤' 방송 연기..비판 여론 ing(종합)"  
3    none  none     "'아스달 연대기' 장동건-김옥빈, 들끓는 '욕망커플'→눈물범벅 '칼끝 대립'"  
4  gender  hate  [DA:이슈] ‘구하라 비보’ 최종범 항소심에 영향?…법조계 “‘공소권 없음’ 아냐”  

Test 데이터 Shape: (471, 5)
Test 데이터 Head:
                                            comment

In [1]:
import pandas as pd

# 파일 경로 설정
train_path = "Data/Train.csv"
test_path = "Data/Test.csv"

# 데이터 로드
train_data = pd.read_csv(train_path)

# bias 열 분포
print("Bias 분포:")
print(train_data['bias'].value_counts())

# hate 열 분포
print("\nHate 분포:")
print(train_data['hate'].value_counts())


Bias 분포:
bias
none      5148
others    1516
gender    1232
Name: count, dtype: int64

Hate 분포:
hate
none         3486
offensive    2499
hate         1911
Name: count, dtype: int64


In [3]:
import pandas as pd

# 데이터 로드
train_data = pd.read_csv('./Data/Train.csv', encoding='utf-8')
test_data = pd.read_csv('./Data/Test.csv', encoding='utf-8')

# Train 데이터 label 분포 출력
print("Train 데이터 label 분포:")
train_label_counts = train_data['hate'].value_counts()
print(train_label_counts)

# Test 데이터 label 분포 출력
print("\nTest 데이터 label 분포:")
test_label_counts = test_data['hate'].value_counts()
print(test_label_counts)

# 비율 계산 및 출력
print("\nTrain 데이터 label 비율:")
print(train_label_counts / len(train_data) * 100)

print("\nTest 데이터 label 비율:")
print(test_label_counts / len(test_data) * 100)


Train 데이터 label 분포:
hate
none         3486
offensive    2499
hate         1911
Name: count, dtype: int64

Test 데이터 label 분포:
hate
offensive    189
none         160
hate         122
Name: count, dtype: int64

Train 데이터 label 비율:
hate
none         44.148936
offensive    31.648936
hate         24.202128
Name: count, dtype: float64

Test 데이터 label 비율:
hate
offensive    40.127389
none         33.970276
hate         25.902335
Name: count, dtype: float64


In [5]:
# 라벨별로 예시를 출력하는 함수
def print_label_examples(data, label_column, text_column, num_examples=5):
    labels = data[label_column].unique()
    for label in labels:
        print(f"\n라벨: {label} ({num_examples}개 예시)")
        examples = data[data[label_column] == label][text_column].head(num_examples)
        for i, example in enumerate(examples, start=1):
            print(f"{i}. {example}")

# Train 데이터 라벨별 예시 출력
print("\nTrain 데이터 라벨별 예시:")
print_label_examples(train_data, label_column='hate', text_column='comments', num_examples=5)

# Test 데이터 라벨별 예시 출력
print("\nTest 데이터 라벨별 예시:")
print_label_examples(test_data, label_column='hate', text_column='comments', num_examples=5)



Train 데이터 라벨별 예시:

라벨: hate (5개 예시)
1. (현재 호텔주인 심정) 아18 난 마른하늘에 날벼락맞고 호텔망하게생겼는데 누군 계속 추모받네....
2. ...못된 넘들...남의 고통을 즐겼던 넘들..이젠 마땅한 처벌을 받아야지..,그래야, 공정한 사회지...심은대로 거두거라...
3. 1. 사람 얼굴 손톱으로 긁은것은 인격살해이고2. 동영상이 몰카냐? 메걸리안들 생각이 없노
4. 100년안에 남녀간 성전쟁 한번 크게 치룬 후 일부다처제, 여성의 정치참여 금지, 여성 투표권 삭제가 세계의 공통문화로 자리잡을듯. 암탉이 너무 울어댐.
5. 180이하 호빗 한남들은 결혼 하지마셈 ㅋ 돈없으면 연애도 하지마셈 ㅋ 니들 호빗 유전자 받아서 고통받을 네 후손은 뭔죄임?

라벨: none (5개 예시)
1. ....한국적인 미인의 대표적인 분...너무나 곱고아름다운모습...그모습뒤의 슬픔을 미처 알지못했네요ㅠ
2. 1,2화 어설펐는데 3,4화 지나서부터는 갈수록 너무 재밌던데
3. 10+8 진짜 이승기랑 비교된다
4. 10년뒤 윤서인은 분명히 재평가될것임. 말하나하나가 틀린게없음
5. 10살 차이가 넘을텐데 부부라고? 무슨 내용인지 긍금하네..

라벨: offensive (5개 예시)
1. 10년만에 재미를 느끼는 프로였는데왜 니들때문에 폐지를해야되냐
2. 10년차방탄팬인데 우리방탄처럼 성공은못하겠지만 일단 방탄의 부하가되고싶다는거니 이름기억은해둠ㅇㅇ
3. 1400억 뜯기고 얼마나 억울 했을꼬 뒤질만큼 아플만 하지~~~~ㅋㅋㅋㅋ
4. 15살차이면 어릴때사고쳤으면 딸벌인데 ㅋㅋ 능력좋네 전현무 여자들이 전현무스타일이 좋은가봐
5. 1년연예 ㅋㅋ 2년봅니다....

Test 데이터 라벨별 예시:

라벨: none (5개 예시)
1. 송중기 시대극은 믿고본다. 첫회 신선하고 좋았다.
2. 아이즈원 힘내세요...일본 진출도 했으니 일본서 좋은 모습 보여줘도 팬들은 응원 합니다.
3. 강부자 선생님 전미선 비보에 오열을 하셨다니 눈물이 나네요 힘내세요
4.