In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from datasets import load_dataset


In [2]:
dataset = load_dataset('klue', 'ynat')
dataset

DatasetDict({
    train: Dataset({
        features: ['guid', 'title', 'label', 'url', 'date'],
        num_rows: 45678
    })
    validation: Dataset({
        features: ['guid', 'title', 'label', 'url', 'date'],
        num_rows: 9107
    })
})

In [41]:
train_df = pd.DataFrame(dataset['train'])

In [42]:
train_df

Unnamed: 0,guid,title,label,url,date
0,ynat-v1_train_00000,유튜브 내달 2일까지 크리에이터 지원 공간 운영,3,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.06.30. 오전 10:36
1,ynat-v1_train_00001,어버이날 맑다가 흐려져…남부지방 옅은 황사,3,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.05.08. 오전 5:25
2,ynat-v1_train_00002,내년부터 국가RD 평가 때 논문건수는 반영 않는다,2,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.03.15. 오후 12:00
3,ynat-v1_train_00003,김명자 신임 과총 회장 원로와 젊은 과학자 지혜 모을 것,2,https://news.naver.com/main/read.nhn?mode=LS2D...,2017.02.28. 오전 9:54
4,ynat-v1_train_00004,회색인간 작가 김동식 양심고백 등 새 소설집 2권 출간,3,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.04.03. 오전 7:05
...,...,...,...,...,...
45673,ynat-v1_train_45673,사우디 아람코 주요 석유시설·유전 드론 공격에 화재,4,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.09.14. 오후 4:36
45674,ynat-v1_train_45674,박기원 감독 눈치 보지 말고…비예나 눈치 본 건 아닌데,5,https://sports.news.naver.com/news.nhn?oid=001...,2019.11.03 17:06
45675,ynat-v1_train_45675,아시안게임 첫 경기 앞둔 라건아 인도네시아 팬이라도 ...,5,https://sports.news.naver.com/news.nhn?oid=001...,2018.08.13 17:54
45676,ynat-v1_train_45676,트럼프 미중 무역협상 1단계 합의 서명식 가질 것종합,4,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.12.25. 오후 4:36


In [43]:
# Drop unnecessary columns
train_df.drop(['url', 'date'], axis=1, inplace=True)

In [44]:
# 한글 및 아스키 문자만 남기고 모두 제거 (한자, 특수문자 등)
train_df = train_df[~train_df['title'].str.contains('[^가-힣ㄱ-ㅎㅏ-ㅣ0-9\s\x00-\x7F]', regex=True)]
train_df

In [33]:
# sample 1000 rows for each label
test_df = train_df.groupby('label').apply(lambda x: x.sample(n=1000, random_state=42)).reset_index(drop=True)
test_df

Unnamed: 0,guid,title,label
0,ynat-v1_train_27055,구글 안드로이드 OS 점유율 MS 윈도 첫 추월,0
1,ynat-v1_train_44494,네이버 클로바 샤오미 스마트홈 기기와 연동,0
2,ynat-v1_train_45154,SK 알뜰폰 중국제 ZTE폰 기기값 0원으로 출시,0
3,ynat-v1_train_37005,에어컨 켠 전기차 한번 충전으로 창원서울 주행,0
4,ynat-v1_train_23331,카카오 AI 챗봇 쇼핑 등 단순 고객상담 3040% 대체,0
...,...,...,...
6995,ynat-v1_train_44124,문 대통령과 최영애 신임 국가인권위원장 웃음,6
6996,ynat-v1_train_31092,통일 심포지엄 홍용표 장관 기조연설 요약문,6
6997,ynat-v1_train_41251,북 수소탄실험 지진파 오전 10시 32분 제주서도 관측종합2보,6
6998,ynat-v1_train_06119,북한이주민인권 의원연맹회의 총회 서울서 개막,6


In [46]:
# Drop test data from train data
train_df = train_df[~train_df['guid'].isin(test_df['guid'])]

Unnamed: 0,guid,title,label
0,ynat-v1_train_00000,유튜브 내달 2일까지 크리에이터 지원 공간 운영,3
2,ynat-v1_train_00002,내년부터 국가RD 평가 때 논문건수는 반영 않는다,2
3,ynat-v1_train_00003,김명자 신임 과총 회장 원로와 젊은 과학자 지혜 모을 것,2
4,ynat-v1_train_00004,회색인간 작가 김동식 양심고백 등 새 소설집 2권 출간,3
7,ynat-v1_train_00007,미세먼지 속 출근길,3
...,...,...,...
45643,ynat-v1_train_45643,국내 주식형 펀드 다시 자금 순유입,1
45654,ynat-v1_train_45654,LG 김현수 안우진 상대로 솔로포그랜드슬램,5
45655,ynat-v1_train_45655,필리핀 두테르테 눈엣가시 언론인 마리아 레사 체포돼,4
45656,ynat-v1_train_45656,배구협회 아시아선수권 홍보 책자 선수정보 오류 수정,5


In [53]:
train_df, val_df = train_test_split(train_df, test_size=0.2, random_state=42)

In [54]:
train_df.to_csv('train_full.csv', index=False)
val_df.to_csv('val_full.csv', index=False)
test_df.to_csv('test.csv', index=False)

# Low-resource Setting

In [48]:
# Sample 50 rows for each label
train_low_df = train_df.groupby('label').apply(lambda x: x.sample(n=50, random_state=42)).reset_index(drop=True)
train_low_df

Unnamed: 0,guid,title,label
0,ynat-v1_train_27055,구글 안드로이드 OS 점유율 MS 윈도 첫 추월,0
1,ynat-v1_train_44494,네이버 클로바 샤오미 스마트홈 기기와 연동,0
2,ynat-v1_train_45154,SK 알뜰폰 중국제 ZTE폰 기기값 0원으로 출시,0
3,ynat-v1_train_37005,에어컨 켠 전기차 한번 충전으로 창원서울 주행,0
4,ynat-v1_train_23331,카카오 AI 챗봇 쇼핑 등 단순 고객상담 3040% 대체,0
...,...,...,...
345,ynat-v1_train_11383,회동 참석한 정양석 원내수석,6
346,ynat-v1_train_34609,본회의장에 아기 데려왔다 쫓겨난 케냐 의원 논의 계기 되길,6
347,ynat-v1_train_24512,박지원 새누리당 탄핵 동조 의원 60명 넘었다종합,6
348,ynat-v1_train_15849,그래픽 남북이산가족 상봉행사 대상자 수 및 일정,6


In [49]:
# 80% for train, 20% for validation
train_low_df, val_low_df = train_test_split(train_low_df, test_size=0.2, random_state=42, stratify=train_low_df['label'])

In [58]:
val_low_df['label'].value_counts()

label
3    13
1    13
0    11
6     9
4     8
5     8
2     8
Name: count, dtype: int64

In [52]:
train_low_df.to_csv('train_low.csv', index=False)
val_low_df.to_csv('val_low.csv', index=False)