In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# 1. Load & Prepare

In [None]:
!pip install transformers
!pip install selenium
!apt-get update
!apt install chromium-chromedriver
!pip install pororo

In [None]:
import sys
import numpy as np
import pandas as pd
import random
from tqdm.notebook import tqdm
import os
import re
import time
from collections import Counter

import transformers
from transformers import BertTokenizer,AdamWeightDecay,TFRobertaModel,TFBertModel

import tensorflow as tf
import keras
from keras.callbacks import EarlyStopping,ModelCheckpoint

import sklearn
from sklearn.metrics import confusion_matrix,accuracy_score
from sklearn.model_selection import StratifiedKFold

import pororo
from pororo import Pororo

import selenium
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [None]:
print(tf.__version__)
print(np.__version__)
print(pd.__version__)
print(transformers.__version__)
print(keras.__version__)
print(sklearn.__version__)
print(pororo.__version__)
print(selenium.__version__)

2.5.0
1.19.5
1.1.5
4.9.2
2.5.0
0.22.2.post1
0.4.2
3.141.0


In [None]:
tf.test.gpu_device_name()

'/device:GPU:0'

In [None]:
# Setting results path
data_path='/content/drive/MyDrive/Dacon/뉴스 토픽 분류 AI/data/'
model_path='/content/drive/MyDrive/Dacon/뉴스 토픽 분류 AI/model/'
sub_path='/content/drive/MyDrive/Dacon/뉴스 토픽 분류 AI/sub/'

In [None]:
# Load data
train=pd.read_csv(os.path.join(data_path,'train_data.csv'))
test=pd.read_csv(os.path.join(data_path,'test_data.csv'))
sample_submission=pd.read_csv(os.path.join(data_path,'sample_submission.csv'))

In [None]:
# Main Tokenizer used in RobertaModel
tokenizer = BertTokenizer.from_pretrained('klue/roberta-large')

# 2. Making Back Translation Data(KOR->ENG)

+ Back translation에 관한 아이디어를 차용해 데이터를 증강합니다. 해당과정에서 google translator나 kakao에서 발표한 Pororo를 사용하려고 했으나, 일일 용량제한이 있거나 실행시간이 지나치게 오래걸리거나 번역기의 성능이 papago를 따라가지 못한다고 판단해 네이버 Papago를 크롤링해 사용하였습니다. 또한 Papago를 사용한 이유중 하나는 해당 데이터는 '...'과 같은 특수 문자들이 사용되는 일종의 규칙이 존재한것을 발견했는데, 이러한 문장 스타일에 대한 규칙을 보존하면서 번역하는 모습을 볼 수 있었습니다. 

+ 그래서 최종적으로 papago를 사용하였으며, 번역되지 않는 문장들의 index를 추출해 pororo로 2차 번역을 하는 과정을 거쳤습니다. 진행하면서 느낀점은 그래도 시간이 오래걸리는 것과, 번역중 문장과 관계없는 글자나 특수문자들이 어그러져서 나오는 등의 문제들이 존재했다는 점입니다(한자가 포함되어있는 문장에서 자주나타남 / 동시에 크롤링 과정에서의 오류로 짐작) 이런 부분들과 번역과정에서 원본 문장 길이에 비해 지나치게 짧은 번역을 하는 부분을 이상번역치로 간주해 Pororo로 재번역을 실행했습니다. 특히 한자에 관한 부분은 높은 빈도로 나오는 한자들을 추출해 한글로 변환한뒤, 재번역했습니다.

In [None]:
def chrome_setting():
  chrome_options = webdriver.ChromeOptions()
  chrome_options.add_argument('--headless')
  chrome_options.add_argument('--no-sandbox')
  chrome_options.add_argument('--disable-dev-shm-usage')
  driver = webdriver.Chrome('chromedriver', options=chrome_options)
  return driver

In [None]:
driver=chrome_setting()

In [None]:
# Crawling
def kor_to_trans(text_data, trans_lang,start_index,final_index):

  target_present = EC.presence_of_element_located((By.XPATH, '//*[@id="txtTarget"]'))

  for i in tqdm(range(start_index,final_index)): 
    
    if (i!=0)&(i%99==0):
      time.sleep(2)
      print('{}th : '.format(i), backtrans)
      np.save(data_path+'kor_to_eng_train_{}_{}.npy'.format(start_index,final_index),trans_list)
    
    try:
      driver.get('https://papago.naver.com/?sk=ko&tk='+trans_lang+'&st='+text_data[i])
      time.sleep(1.5)
      element=WebDriverWait(driver, 10).until(target_present)
      time.sleep(0.1)
      backtrans = element.text 

      if (backtrans=='')|(backtrans==' '):
        element=WebDriverWait(driver, 10).until(target_present)
        backtrans = element.text 
        trans_list.append(backtrans)
      else:
        trans_list.append(backtrans)
    
    except:
      trans_list.append('')


In [None]:
trans_list=[]
kor_to_trans(train['title'], 'en',0,10000)
np.save(data_path+'kor_to_eng_train_0_10000.npy',trans_list)

trans_list=[]
kor_to_trans(train['title'], 'en',10000,20000)
np.save(data_path+'kor_to_eng_train_10000_20000.npy',trans_list)

trans_list=[]
kor_to_trans(train['title'], 'en',20000,30000)
np.save(data_path+'kor_to_eng_train_20000_30000.npy',trans_list)

trans_list=[]
kor_to_trans(train['title'], 'en',30000,40000)
np.save(data_path+'kor_to_eng_train_30000_40000.npy',trans_list)

trans_list=[]
kor_to_trans(train['title'], 'en',40000,len(train))
np.save(data_path+'kor_to_eng_train_40000_all.npy',trans_list)

In [None]:
eng_data0=np.load(data_path+'kor_to_eng_train_0_10000.npy')
eng_data1=np.load(data_path+'kor_to_eng_train_10000_20000.npy')
eng_data2=np.load(data_path+'kor_to_eng_train_20000_30000.npy')
eng_data3=np.load(data_path+'kor_to_eng_train_30000_40000.npy')
eng_data4=np.load(data_path+'kor_to_eng_train_40000_all.npy')

eng_data=[*eng_data0,*eng_data1,*eng_data2,*eng_data3,*eng_data4]
eng_data=pd.DataFrame(eng_data,columns=['eng_title'])

In [None]:
back_train=pd.concat([train,eng_data],axis=1)
back_train

## 2.1 Translate Chinese characters into English again

+ We have often identified cases in which translators do not translate sentences containing Chinese characters properly.

+ Therefore, it attempts to re-translate sentences containing Chinese characters with high frequency of appearance.

In [None]:
# Check Chinese characters with high frequency of appearance
k=[]
for i in range(0,len(train)):
  a=re.findall('[一-龥]',back_train['title'][i])
  if len(a)!=0:
    k=[*k,*a]

Counter(k).most_common()[:35]

[('美', 1498),
 ('北', 1329),
 ('中', 795),
 ('朴', 661),
 ('日', 467),
 ('靑', 381),
 ('與', 291),
 ('英', 285),
 ('文', 184),
 ('野', 181),
 ('獨', 138),
 ('伊', 127),
 ('韓', 109),
 ('前', 95),
 ('佛', 92),
 ('檢', 73),
 ('軍', 69),
 ('安', 63),
 ('反', 54),
 ('行', 44),
 ('南', 37),
 ('硏', 27),
 ('故', 25),
 ('外', 24),
 ('亞', 23),
 ('對', 21),
 ('銀', 19),
 ('展', 19),
 ('重', 18),
 ('株', 18),
 ('新', 17),
 ('黃', 16),
 ('企', 14),
 ('詩', 14),
 ('車', 14)]

In [None]:
# Save index containing Chinese characters
hanja_ind=[]
for i in range(0,len(train)):
  a=re.findall('[一-龥]',back_train['title'][i])
  if len(a)!=0:
    hanja_ind.append(i)

# Replace to korean
def replace_all(text, dic):
    for i, j in dic.items():
        text = text.replace(i, j)
    return text

d = { "中": "중국", "美": "미국","北":"북한",'日':"일본",'英':'영국','行':'행','靑':'청와대','朴':'박','銀':'은행','與':'여당',
     '文':'문','野':'야당','獨':'독일','伊':'이탈리아','韓':'한국','佛':'프랑스','前':'전','檢':'검찰','軍':'군','安':'안철수','南':'남한',
     '亞':'아시아','展':'전시회','重':'차','株':'주식','詩':'시'}

In [None]:
kr_title=[]
for i in back_train.iloc[hanja_ind,1]:
  temp=replace_all(i,d)
  kr_title.append(temp)

# Re-translation target (Chinese -> Korean)
print(len(kr_title))

6303


In [None]:
# Reset selenium chrome driver
driver=chrome_setting()

In [None]:
def kor_to_trans_again(text_data, trans_lang,start_index,final_index):

  target_present = EC.presence_of_element_located((By.XPATH, '//*[@id="txtTarget"]'))

  for i in tqdm(range(start_index,final_index)): 
    
    if (i!=0)&(i%99==0):
      time.sleep(2)
      print('{}th : '.format(i), backtrans)
      np.save(data_path+'kr_title.npy',trans_list)
    
    try:
      driver.get('https://papago.naver.com/?sk=ko&tk='+trans_lang+'&st='+text_data[i])
      time.sleep(1.5)
      element=WebDriverWait(driver, 10).until(target_present)
      time.sleep(0.1)
      backtrans = element.text 

      if (backtrans=='')|(backtrans==' '):
        element=WebDriverWait(driver, 10).until(target_present)
        backtrans = element.text 
        trans_list.append(backtrans)
      else:
        trans_list.append(backtrans)
    
    except:
      trans_list.append('')

In [None]:
trans_list=[]
kor_to_trans_again(kr_title, 'en',0,len(kr_title))
np.save(data_path+'kr_title.npy',trans_list)

In [None]:
kr_title=np.load(data_path+'kr_title.npy')
back_train.at[hanja_ind,'eng_title']=kr_title

In [None]:
back_train.iloc[hanja_ind,:]

Unnamed: 0,index,title,topic_idx,eng_title
1,1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4,It's going to be beyond Silicon Valley.Google ...
3,3,NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합,4,Special relationship between South Korean comp...
7,7,美대선 TV토론 음담패설 만회실패 트럼프…사과 대신 빌클린턴 공격해 역효과,4,U.S. presidential election debate failed to ma...
10,10,日 오키나와서 열린 강제징용 노동자 추도식,4,Memorial Ceremony for Forced Workers in Okinaw...
13,13,美올랜도 병원 최악 총기 테러 부상자 치료비 안 받는다,4,Orlando Hospital in the U.S. does not pay for ...
...,...,...,...,...
45603,45603,北 고난의 행군 이어 군자리정신까지…대북제재 효과,6,"Following North Korea's painful march, militar..."
45611,45611,北 연이은 도발에 靑 신속·단호 대응…내부선 수위조절 고민도,6,Cheong Wa Dae's quick and firm response to Nor...
45618,45618,실사판 옥자 나오나…中 돈육대란에 초대형 돼지 사육 붐,4,Is the real-life version of Okja coming out?Bi...
45623,45623,선거 유세 나선 日 입헌민주당 에다노 대표,4,"Edano, chairman of Japan's Constitutional Demo..."


## 2.2 Retry Untranslated Sentences

In [None]:
# Translated sentences containing Korean : 3 case
hangul_ind=[]
for i in range(0,len(back_train)):
  temp=re.findall('[가-힣]',back_train['eng_title'][i])
  if len(temp)!=0:
    hangul_ind.append(i)

hangul_ind

[2341, 9461, 39198]

In [None]:
back_train.iloc[hangul_ind,3]

2341                      정부 북한 단체 수십곳·개인 수십명 독자 금융제재 방침종합
9461     Hong Joon-pyo conservative 궤멸하다 be destroyed t...
39198    기겁하다 be startled tourists and residents of the...
Name: eng_title, dtype: object

In [None]:
# Modify manually
back_train.at[2341,'eng_title']='The governments comprehensive financial sanctions on dozens of North Korean organizations and individuals.'
back_train.at[9461,'eng_title']=back_train['eng_title'][9461].replace('궤멸하다','').replace('  ','')
back_train.at[39198,'eng_title']=back_train['eng_title'][39198].replace('기겁하다','').replace('  ','')

### Using pororo because it is not translated using Papago

In [None]:
back_train[back_train['eng_title']=='']

Unnamed: 0,index,title,topic_idx,eng_title
14,14,日 대기업 올해 평균 2.46% 임금 인상,4,
29,29,미국 산업생산 한달만에 0.1%↑…제조업 회복 기대,4,
42,42,유럽인 59% 난민이 테러 가능성 키운다 인식,4,
59,59,시위대에 실탄 발사 정국 불안 속 홍콩증시 2%대 하락,4,
126,126,아시안게임 경기장 잔디 점검한 김학범 중동팀에 유리한...,5,
...,...,...,...,...
45554,45554,건보공단 고객센터 직원 50% 열 나도 휴식 못해,2,
45559,45559,툴젠 최대주주에 제넥신…790억원에 지분 17% 취득,1,
45583,45583,청년 디지털 일자리 등 3차 추경 사업 민간 채용률 겨우 11%,2,
45584,45584,HMM 해원노조 97% 파업 찬성…31일 2차 조정으로 판가름,1,


In [None]:
# Convert Chinese characters into Korean for sentences that have not been translated.
not_trans_index=back_train[back_train['eng_title']=='']['title'].index

not_transed=[]
for i in back_train.iloc[not_trans_index,1]:
  temp=replace_all(i,d)
  not_transed.append(temp)

In [None]:
# Retranslating using pororo
mt = Pororo(task="translation", lang="multi")

not_trans=[]

for i in tqdm(range(0,len(not_transed))):
  not_trans.append(mt(not_transed[i], src="ko", tgt="en"))
  if i%100==0:
    np.save(data_path+'not_trans.npy',not_trans)
    print('{}th : '.format(i),not_trans[i])

np.save(data_path+'not_trans.npy',not_trans)

In [None]:
not_trans=np.load(data_path+'not_trans.npy')
back_train.at[not_trans_index,'eng_title']=not_trans

In [None]:
back_train.iloc[not_trans_index,:]

Unnamed: 0,index,title,topic_idx,eng_title
14,14,日 대기업 올해 평균 2.46% 임금 인상,4,an average wage hike of 2.46% for large Japane...
29,29,미국 산업생산 한달만에 0.1%↑…제조업 회복 기대,4,Expectations for a recovery in the manufacturi...
42,42,유럽인 59% 난민이 테러 가능성 키운다 인식,4,The perception that 59% of European refugees r...
59,59,시위대에 실탄 발사 정국 불안 속 홍콩증시 2%대 하락,4,a 2% drop in the Hong Kong stock market amid t...
126,126,아시안게임 경기장 잔디 점검한 김학범 중동팀에 유리한...,5,"It's good for Kim Hak-beom's Middle East team,..."
...,...,...,...,...
45554,45554,건보공단 고객센터 직원 50% 열 나도 휴식 못해,2,I can't rest 50% of the staff at the Korea Hea...
45559,45559,툴젠 최대주주에 제넥신…790억원에 지분 17% 취득,1,Toolgen's largest shareholder with KRW 79 bill...
45583,45583,청년 디지털 일자리 등 3차 추경 사업 민간 채용률 겨우 11%,2,only 11% of the private employment rate of the...
45584,45584,HMM 해원노조 97% 파업 찬성…31일 2차 조정으로 판가름,1,approval of the 97% strike by the HMM Maritime...


In [None]:
back_train.to_csv(data_path+'back_train.csv',index=False)

# 3. Making Back Translation Data(ENG->KOR)

In [None]:
# Reset selenium chrome driver
driver=chrome_setting()

In [None]:
def trans_to_kor(transed_list, transed_lang,start_index,final_index): 
  
  target_present = EC.presence_of_element_located((By.XPATH, '//*[@id="txtTarget"]'))

  for i in tqdm(range(start_index,final_index)): 
    
    if (i!=0)&(i%99==0):
      time.sleep(1.5)
      print('{}th : '.format(i), backtrans)
      np.save(data_path+'eng_to_kor_train_{}_{}.npy'.format(start_index,final_index),trans_list)
    
    try:
      driver.get('https://papago.naver.com/?sk=en&tk='+transed_lang+'&st='+transed_list[i])
      time.sleep(2)
      element=WebDriverWait(driver, 10).until(target_present)
      time.sleep(0.2)
      backtrans = element.text 

      if (backtrans=='')|(backtrans==' '):
        element=WebDriverWait(driver, 10).until(target_present)
        backtrans = element.text 
        trans_list.append(backtrans)
      else:
        trans_list.append(backtrans)
    
    except:
      trans_list.append('')

In [None]:
trans_list=[]
trans_to_kor(back_train['eng_title'], 'ko',0,10000)
np.save(data_path+'eng_to_kor_train_0_10000.npy',trans_list)

trans_list=[]
trans_to_kor(back_train['eng_title'], 'ko',10000,20000)
np.save(data_path+'eng_to_kor_train_10000_20000.npy',trans_list)

trans_list=[]
trans_to_kor(back_train['eng_title'], 'ko',20000,30000)
np.save(data_path+'eng_to_kor_train_20000_30000.npy',trans_list)

trans_list=[]
trans_to_kor(back_train['eng_title'], 'ko',30000,40000)
np.save(data_path+'eng_to_kor_train_30000_40000.npy',trans_list)

trans_list=[]
trans_to_kor(back_train['eng_title'], 'ko',40000,len(back_train))
np.save(data_path+'eng_to_kor_train_40000_all.npy',trans_list)

## 3.1 Retry Untranslated Sentences

In [None]:
back0=np.load(data_path+'eng_to_kor_train_0_10000.npy')
back1=np.load(data_path+'eng_to_kor_train_10000_20000.npy')
back2=np.load(data_path+'eng_to_kor_train_20000_30000.npy')
back3=np.load(data_path+'eng_to_kor_train_30000_40000.npy')
back4=np.load(data_path+'eng_to_kor_train_40000_all.npy')
back_train_fin=[*back0,*back1,*back2,*back3,*back4]
back_train_fin=pd.DataFrame(back_train_fin,columns=['back_title'])

In [None]:
back_train_fin=pd.concat([train,back_train_fin],axis=1)
back_train_fin

Unnamed: 0,index,title,topic_idx,back_title
0,0,인천→핀란드 항공기 결항…휴가철 여행객 분통,4,인천→항공편 취소...휴가여행자의 노여움.
1,1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4,실리콘 밸리를 넘어설 거야구글은 15조원을 들여 미국의 허브가 될 것이다.
2,2,이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것,4,이란의 대외 긴장 해법은 미국이 자국의 경제 전쟁을 중단하는 것이다.
3,3,NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합,4,뉴욕주 클린턴과 가까운 한국 기업 간 특수관계.공공 및 민간 업무와 결합
4,4,시진핑 트럼프에 중미 무역협상 조속 타결 희망,4,"시진핑은 중국, 미국과 무역 협상의 조속한 타결을 희망한다."
...,...,...,...,...
45649,45649,KB금융 미국 IB 스티펠과 제휴…선진국 시장 공략,1,미국 IB Stiffell과의 KB금융파트너쉽니다.선진 시장 공략
45650,45650,1보 서울시교육청 신종코로나 확산에 개학 연기·휴업 검토,2,"서울시교육청, 신종 코로나 바이러스 확산에 따른 휴업 및 연기 검토"
45651,45651,게시판 키움증권 2020 키움 영웅전 실전투자대회,1,게시판 키움증권 2020 키움 히어로 전시회 실투자기업
45652,45652,답변하는 배기동 국립중앙박물관장,2,배기동 국립중앙박물관장이 대답한다.


In [None]:
# .?! 뒤 space가 없는 경우 공백추가(숫자사이는 제외) 후 '...' 처리 / 중복공백 제거
for i in range(0,len(back_train_fin)):
  back_train_fin.at[i,'back_title']=back_train_fin['back_title'][i].replace('U.S.','미국')
  back_train_fin.at[i,'back_title']=re.sub(r'([.?!/\\]+)(?![0-9])', r'\1 ', back_train_fin['back_title'][i]).replace('... ','...').replace('  ',' ').replace('.. ','..').strip()

In [None]:
# If the proportion of Hangul in the total sentence length is 0.6 or higher, it is considered an abnormal translation and an attempt to re-translate it.
# -> 전체 문장길이에서 한글가 차지하는 비중이 0.6이상이면 이상번역으로 간주하고 재번역 시도

# Attempt to re-translate a translated sentence if the translated sentence has a ratio of less than 0.5 to the length of an existing sentence
# -> 번역된 문장이 기존 문장의 길이에 대한 비율이 0.5이하이면 재번역 시도
retrans_ind=[]

for i in tqdm(range(0,len(back_train_fin))):
  kor_ratio=len(re.sub('[a-zA-Z]','',back_train_fin['back_title'][i]))/(len(back_train_fin['back_title'][i])+1)
  if kor_ratio<0.6:
    retrans_ind.append(i)
  if len(back_train_fin['back_title'][i])/len(back_train_fin['title'][i])<=0.5:
    retrans_ind.append(i)

retrans_ind=list(set(retrans_ind))

HBox(children=(FloatProgress(value=0.0, max=45654.0), HTML(value='')))




In [None]:
back_train_fin.iloc[retrans_ind,:]

Unnamed: 0,index,title,topic_idx,back_title
40961,40961,한경연 3월 전일제 취업자 7.6% 감소…통계청 0.7%보다 심각,1,
24583,24583,김성태 댓글 조작 최순실 국정농단 사건과 빼다 박아,6,최순실 댓글 조작 사건
14,14,日 대기업 올해 평균 2.46% 임금 인상,4,
32782,32782,중소기업 88.5% 기업경영 위해 공동·협업 사업 필요,1,
32784,32784,LGU 1분기 영업익 3.7%↑…5G 과열로 수익압박 전망종합2보,1,
...,...,...,...,...
16371,16371,트럼프 주장대로 불법이민자 전원 추방시 미국 경제 2% 축소,4,
24564,24564,토니모리 연구개발업체 에이투젠 인수,1,토니몰리
24567,24567,V3 모바일 시큐리티 넉달 만에 100만 다운로드,0,V3 Mobile Security 4개월 만에 100만 다운로드
16381,16381,특징주 코디에스 화장품업체 합병 소식에 오름세,1,CODYS Cosmetics 주식회사 합병 소식에 상승.


In [None]:
# Converting Chinese characters to Korean from re-translation targets
re_transed=[]
for i in back_train.iloc[retrans_ind,1]:
  temp=replace_all(i,d)
  re_transed.append(temp)

### Using pororo because it is not translated using Papago

In [None]:
# Retranslating using pororo
mt = Pororo(task="translation", lang="multi")

retransed=[]

for k,i in tqdm(enumerate(re_transed)):
  eng=mt(i, src="ko", tgt="en")
  ko=mt(ko, src="en", tgt="ko")

  retransed.append(ko)
  if k%100==0:
    np.save(data_path+'re_trans.npy',retransed)
    print('{}th : '.format(k),retransed[k])

np.save(data_path+'re_trans.npy',retransed)

In [None]:
retransed=np.load(data_path+'re_trans.npy')
back_train_fin.at[retrans_ind,'back_title']=retransed

In [None]:
back_train_fin.iloc[retrans_ind,:]

Unnamed: 0,index,title,topic_idx,back_title
40961,40961,한경연 3월 전일제 취업자 7.6% 감소…통계청 0.7%보다 심각,1,한국경제연구원은 3월 정규직이 7.6% 감소한 것으로 나타났다. 통계청이 0.7% ...
24583,24583,김성태 댓글 조작 최순실 국정농단 사건과 빼다 박아,6,국정농단 사건에서는 김성태 의원의 댓글 조작자 최순실 씨가 제외됐다.
14,14,日 대기업 올해 평균 2.46% 임금 인상,4,올해 일본 대기업의 평균 임금 인상률 2.46%
32782,32782,중소기업 88.5% 기업경영 위해 공동·협업 사업 필요,1,중소기업의 88.5% 경영을 위한 공동 및 협업 사업의 필요성
32784,32784,LGU 1분기 영업익 3.7%↑…5G 과열로 수익압박 전망종합2보,1,LGU의 1분기 영업이익은 3.7%인 5G 과열로 총 2대가 수익을 압박할 것으로 ...
...,...,...,...,...
16371,16371,트럼프 주장대로 불법이민자 전원 추방시 미국 경제 2% 축소,4,트럼프 대통령의 주장대로 모든 불법 이민자가 추방되면 미국 경제가 2% 감소한다.
24564,24564,토니모리 연구개발업체 에이투젠 인수,1,토니 모리 연구개발 기업 A2Gen 인수
24567,24567,V3 모바일 시큐리티 넉달 만에 100만 다운로드,0,V3 이동통신 보안 4개월 만에 100만대의 다운로드
16381,16381,특징주 코디에스 화장품업체 합병 소식에 오름세,1,전문 코디스 화장품 업체의 합병 소식을 전해라


In [None]:
for i in range(0,len(back_train_fin)):
  back_train_fin.at[i,'back_title']=back_train_fin['back_title'][i].replace('... ','...').strip()

In [None]:
back_train_fin.to_csv(data_path+'back_train_fin.csv',index=False)

# 4. Refinement of back translated data

+ Correct incorrectly translated parts
+ Calibrate sentence styles to resemble training data
+ Special Character Processing

+ 뉴스 타이틀은 특수 문자와 관련해서 일종의 규칙을 가지거나 문장의 어미가 완전하지 않은 경우가 많았습니다. 생성된 역번역 데이터에서, 이를 완전하게 따라가지는 못하는 특징들이 많이 보이다보니 문장길이가 원본데이터보다 지나치게 길어지는 등의 문제가 존재했습니다.

+ 예를 들면 원본 문장은 '...' 으로 끝나지 않는데 역번역 문장은 '.'으로 끝난다던지, '..했음' 이라는 어미를 가지는데 '했었다' 라는 어미를 가진다던지, 원본데이터에서는 사용하지 않는 특수문자를 사용하는 것 등, 이런 부분에 대해서 좀 주목했습니다. 따라서 해당 파트는 이러한 '문장 스타일'을 최대한 교정하는 부분입니다. 거의 모든 특수 문자와 문장 스타일의 교정을 위해 지속적으로 추가하다보니 코드가 난잡해졌습니다. 단순히 언급한 '문장  스타일' 을 원본 데이터의 분포에 맞게 교정하는 과정이라고 생각하시면 될듯합니다.

In [None]:
back_train=pd.read_csv(data_path+'back_train_fin.csv')

In [None]:
# Replace string
def replace_all(text, dic):
    for i, j in dic.items():
        text = text.replace(i, j)
    return text

# During the translation, I found words that were not related to the original sentence were put in.
d = { "[프로젝트 리포트]": "", "[연구보고]": "","[시론]":"",'[특별기획]':"",'[행사참가기]':'','[학술발표회]':'','[논문초록]':'','[발언]':'','[기술정보]':'','[국제학술발표회]':'',
     '[서평]':'','[학회행사]':'','[행사보고]':'','[학술보고]':'','[세미나]':''}

In [None]:
for i in range(0,len(back_train)):
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('?',' ').replace('!',' ').replace(':',' ').replace(';','').replace('【·】','').replace('】','').replace('=','').replace(' → ','→').replace('→→','')

  back_train.at[i,'back_title']=replace_all(back_train.back_title[i],d)

  back_train.at[i,'back_title']=back_train['back_title'][i].replace('[','').replace(']',' ').replace('(',' ').replace(')',' ').replace('+','＋').replace('\'','').replace("\"","")

  back_train.at[i,'back_title']=re.sub(r'([\/]+)(?![0-9])', r'·', back_train['back_title'][i]).replace('· ','·')

  back_train.at[i,'back_title']=re.sub(r'([#]+[0-9])', r'\1위', back_train['back_title'][i]).replace('#','')
  if (back_train['title'][i].find('·')!=-1) & (back_train['back_title'][i].find('/')!=-1):
    back_train.at[i,'back_title']=back_train['back_title'][i].replace('/','·')

  if (back_train['title'][i].find('·')!=-1) & (back_train['back_title'][i].find('-')!=-1):
    back_train.at[i,'back_title']=back_train['back_title'][i].replace('-','·')
  if (back_train['title'][i].find('∼')!=-1) & (back_train['back_title'][i].find('-')!=-1):
    back_train.at[i,'back_title']=back_train['back_title'][i].replace('-','∼')
  if (back_train['title'][i].find('∼')!=-1) & (back_train['back_title'][i].find('-')!=-1):
    back_train.at[i,'back_title']=back_train['back_title'][i].replace('-','∼')
  if (back_train['title'][i].find('·')!=-1) & (back_train['back_title'][i].find(',')!=-1):
    back_train.at[i,'back_title']=back_train['back_title'][i].replace(',','·')

  back_train.at[i,'back_title']=back_train['back_title'][i].replace('북-미','북미').replace('미-중','미중').replace('원-달러','원달러').replace('미-러','미러').replace('K-리그','K리그').replace('convid-19','코로나19').replace('미-이란','미이란')\
  .replace('한-미','한미').replace('북-중','북중').replace('북-러','북러').replace('북-일','북일').replace('covid-19','코로나19').replace('COVID-19','코로나19').replace('Covid-19','코로나19').replace('페리 세월','세월호').replace('미스터 문','문 대통령')\
  .replace(' ↑','↑').replace('°C','↑').replace('iPhone','아이폰').replace('♬','').replace('ᄌ jeju jeju unique ','').replace('Galaxy Note ','갤노트').replace('Galaxy ','갤럭시').replace('Wi-Fi','와이파이').replace('습니다','다').replace('입니다','이다')\
  .replace('했습니다','했다').replace('나요','나').replace('어요','다').replace('아요','다').replace('까요','까').replace('서요','').replace('해요','')
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('    ',' ').replace('   ',' ').replace('  ',' ').replace('· ','·').strip()

In [None]:
# Make sure have a sentence style that is as similar to the original one as possible
for i in tqdm(range(0,len(back_train))):
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('...','@')
  back_train.at[i,'title']=back_train['title'][i].replace('...','@')

  if (back_train['title'][i].endswith('.')) & ~(back_train['back_title'][i].endswith('.')):
    back_train.at[i,'back_title']=back_train['back_title'][i]+'.'
  if ~(back_train['title'][i].endswith('.')) & (back_train['back_title'][i].endswith('.')):
    back_train.at[i,'back_title']=back_train['back_title'][i][:-1]

  back_train.at[i,'back_title']=back_train['back_title'][i].replace('@','...')
  back_train.at[i,'title']=back_train['title'][i].replace('@','...')

HBox(children=(FloatProgress(value=0.0, max=45654.0), HTML(value='')))




In [None]:
# Define for special cases and correct them directly
for i in range(0,len(back_train)):
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('. ','…').replace('D…C…','DC').replace('· D…A…L…T…',' ').replace('……','…').strip()

a=back_train[back_train['back_title'].str.contains('….….')].index
b=back_train[back_train['back_title'].str.contains('\.\.…')]['back_title'].index
c=back_train[(back_train['back_title'].str.contains('다\.'))&~(back_train['back_title'].str.contains('\.\.\.'))].index
d=back_train[back_train['back_title'].str.contains('.→.→.')]['back_title'].index
e=back_train[(back_train['back_title'].str.contains('뉴'))&(back_train['title'].str.contains('신간'))].index
f=back_train[(back_train['back_title'].str.contains('있어요'))&~(back_train['back_title'].str.endswith('있어요'))&~(back_train['back_title'].str.contains('있어요…'))&~(back_train['back_title'].str.contains('있어요 '))].index
g=back_train[~(back_train['title'].str.contains('합니다'))&(back_train['back_title'].str.contains('합니다'))].index
h=back_train[(back_train['title'].str.contains('종합'))&((back_train['back_title'].str.endswith('…합성'))|(back_train['back_title'].str.endswith('합성')))].index

for i in a:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('…','')
for i in b:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('..…','…')
for i in c:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('다.','다…')
for i in d:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('→','')
for i in e:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('뉴욕','신간').replace('뉴진',' 신간').replace('뉴','신간 ')  
for i in f:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('있어요','있다…')
for i in g:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('합니다','')
for i in h:
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('…합성','종합').replace('합성','종합')

for i in range(0,len(back_train)):
  back_train.at[i,'back_title']=back_train['back_title'][i].replace('    ',' ').replace('   ',' ').replace('  ',' ').replace(' …','…').replace('… ','…').strip()

In [None]:
back_train.sample(30)

Unnamed: 0,index,title,topic_idx,back_title
6931,6931,폭우와 함께 마무리되는 아시안게임,5,폭우로 끝나는 아시안게임
8541,8541,남중국해서 美·中 군사적 충돌 가능성 커져…대화 틀 필요,4,남중국해에서 미국과 중국의 군사적 충돌 가능성이 커지고 있다…대화 프레임 필요
7392,7392,트럼프 김정은 더이상 나가도록 내버려둬선 안돼종합2보,4,"트럼프, 김정은 더는 못 가게 해"
38192,38192,전북 주요 대학들 등록금 동결…학부모 부담 덜겠다,2,전북 주요 대학 등록금 동결…부모들의 부담을 덜어줄 거야
14619,14619,kt 지휘봉 서동철 감독 내년 6강 그다음 시즌 정상 도전,5,"서동철 KT 지휘봉 감독 내년 6라운드, 내년 시즌 최고의 도전"
25197,25197,윤석헌 신임 금감원장 8일 취임…삼성증권·삼바 첫 시험대종합,1,윤석헌 신임 금감원장이 8일 취임했다…삼성증권
2960,2960,여자농구 우리은행 신한은행 꺾고 8연승 선두 질주,5,여자농구 우리은행 신한은행이 8연승을 이끌었다
44952,44952,朴대통령 이러려고 대통령 했나하는 자괴감 들 정도속보,6,박 대통령이 이 일로 자괴감을 느낄 정도의 속보였다
43160,43160,게시판 인터파크 고급양장본 한정판매,2,게시판 인터파크의 고급 하드커버 사본 판매 제한
14683,14683,삼성전자 이미지센서란,0,삼성전자 이미지 센서 칼럼


In [None]:
# Final back translated data used in training
back_train.to_csv(data_path+'back_train_fin2.csv',index=False)

# 5. Processing Confused sentence
- Extract singular sentences based on similarity for frequently confused labels

+ 제공된 데이터를 살펴보던 중, 특이한 점을 발견했는데 문장의 의미가 완전히 동일하거나 단어 하나의 조사 차이임에도 불구하고 라벨이 다른 이상한? 문장들을 다수 발견했습니다. 이부분은 실제 상황이라면 다시 정제를 하거나 라벨을 교정해주어야하는데 대회이다보니 test나 private test 데이터에 이러한 문장이 포함될 수 있다보니 단순한 제거는 불가능했습니다. 

+ '최정명' 님의 로그 위협탐지대회 코드에서 텍스트의 유사도를 기반으로 일정 유사도를 넘지만 라벨이 다른 경우, 학습시 강한 train signal을 주기위해 학습데이터에 포함하는 것을 보고 적용해보았습니다. 다만 전체 데이터에 대해 전부 적용한 것이 아니라, 모델 실험중에 confusion matrix를 보면 유난히 1,2,3 라벨에 대해 오분류율이 높은 것을 보고, 텍스트 유사도가 0.5이상인 해당 라벨을 가지는 문장들만을 대상으로 적용한 것이 전체에 대해 적용한 것보다 점수가 높았습니다. 

In [None]:
# Calculate text simillarity
def return_similarity(a, b): 
    c = a.intersection(b)
    return float(len(c))/(len(a)+len(b)-len(c))

In [None]:
tokenizer_bert=BertTokenizer.from_pretrained('klue/bert-base')

# Label = 1 or 2 or 3 in train data
train_data=train
train_1_2_3=train_data[(train_data['topic_idx']==1)|(train_data['topic_idx']==2)|(train_data['topic_idx']==3)]
train_1_2_3_index=train_data[(train_data['topic_idx']==1)|(train_data['topic_idx']==2)|(train_data['topic_idx']==3)].index

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=248477.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=125.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=289.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=428.0, style=ProgressStyle(description_…




In [None]:
# For calculate text similarity, tokenize all sentencies 
# Make new column 'token_list' to original train data
train_1_2_3['token_list']=''
train['token_list']=''
for i in train_1_2_3_index:
  token=tokenizer_bert.tokenize(train_1_2_3['title'][i])
  train_1_2_3['token_list'][i]=' '.join(token)
  train['token_list'][i]=' '.join(token)

In [None]:
# Data frames for sentences with high text similarity
set_train_log = [set(log.split()) for log in train['token_list']]
sim_idx=[]
sim_i=[]
sim_j=[]
top_i=[]
top_j=[]

# If the similarity is higher than 0.5 with different labels, it is judged as a similar sentence
for i in tqdm(train_1_2_3_index):
    for j in train_1_2_3_index:
        if i==j:
            continue
        if ((return_similarity(set_train_log[i], set_train_log[j]))>=0.5) and (train_1_2_3['topic_idx'][i]!=train_1_2_3['topic_idx'][j]):
            top_i.append(train_1_2_3['topic_idx'][i])
            top_j.append(train_1_2_3['topic_idx'][j])
            sim_i.append(i)
            sim_j.append(j)

HBox(children=(FloatProgress(value=0.0, max=19517.0), HTML(value='')))




In [None]:
# Labels are different despite semantically identical
crazy=pd.DataFrame({'sent1_idx':sim_i,'sent2_idx':sim_j,'sent1':train_1_2_3['title'][sim_i].values,'sent2':train_1_2_3['title'][sim_j].values,'top_1':top_i,'top_2':top_j})
crazy

Unnamed: 0,sent1_idx,sent2_idx,sent1,sent2,top_1,top_2
0,928,9817,인사말 하는 황창규 회장,기조연설 하는 황창규 KT회장,1,2
1,928,13291,인사말 하는 황창규 회장,KT 부스 살펴보는 황창규 회장,1,2
2,1155,7900,네이버 CEO 아름다운 바통 터치,네이버 CEO 아름다운 바통 터치종합,1,2
3,1576,11793,경기도 11개 시 19시 오존주의보 해제,경기도 25개 시·군 오존주의보 모두 해제,3,2
4,1606,8075,삼성 새만금 투자약속 철회 진실 밝혀라 목소리 봇물,삼성 새만금 투자약속 철회 진실 밝혀라 목소리 봇물종합,1,2
...,...,...,...,...,...,...
243,43378,16697,거래소 지엔코 시황변동 조회공시 요구,거래소 대성산업에 시황변동 관련 조회공시 요구,1,2
244,43381,37874,그래픽 경력단절 여성 경제활동 실태,파주시 경력단절 여성 경제활동 촉진 조례 제정,1,2
245,43548,17796,한국작가회의 새 임원 선출… 이경자 이사장과 한창훈 사무총장,한국작가회의 새 이사장으로 선출된 이경자 작가,2,3
246,43559,21728,LH 청년·신혼부부 매입임대 6천850가구 입주자 모집,LH 신혼부부·청년주택 109가구 입주자 모집,2,1


In [None]:
# Save odd data frame
np.save(data_path+'sim_1_2_3_0point5_klue_bert.npy',crazy)

# 6. Modeling & Prediction

+ 마지막으로 모델은 klue_roberta_large를 사용했습니다. Stratified 5-Fold를 이용해 각 80%의 train data로 학습시킨 모델 5개로test셋에 대해 앙상블한 것을 최종 파일로 제출했습니다. 학습데이터는 앞서 생성한 back translated data를 포함하였으며, 검증 데이터에는 해당 데이터를 사용하지않고 원데이터만 사용해 검증했습니다. 동시에 3번에서 언급한 confused sentence는 모든 fold의 학습 데이터에 포함하였습니다.

+ 모델링과정에서 신경쓴 것중 한가지가 optimizer부분입니다. 일반적으로 Adam을 사용해왔어서 초반에는 별생각없이 default값의 Adam을 사용했으나 과적합 양상이 심화되며 깊은 학습을 하지 못하는 것을 보고 transformer에서 제공하는 AdamWeightDecay를 사용해 learning rate를 낮추고 weight decay를 적용한 결과 더 높은 점수로 나아갈수 있었습니다.

In [None]:
def reset_seeds(seed, reset_graph_with_backend=None):
    if reset_graph_with_backend is not None:
        K = reset_graph_with_backend
        K.clear_session()
        tf.compat.v1.reset_default_graph()
        print("KERAS AND TENSORFLOW GRAPHS RESET")  

    np.random.seed(seed)
    random.seed(seed+100)
    tf.compat.v1.set_random_seed(seed+200)
    os.environ['CUDA_VISIBLE_DEVICES'] = ''  
    print("RANDOM SEEDS RESET {}".format(seed))  

SEED = 1514
reset_seeds(SEED)

RANDOM SEEDS RESET 1514


In [None]:
back_train=pd.read_csv(data_path+'back_train_fin2.csv')
back_train=back_train[['index','back_title','topic_idx']]
back_train.columns=train.columns

In [None]:
# Loading indexes from strange data frames extracted earlier
crazy=pd.DataFrame(np.load(data_path+'sim_1_2_3_0point5_klue_bert.npy',allow_pickle=True),columns=['sent1_idx','sent2_idx','sent1','sent2','top_1','top_2'])
sim_idx=list(set([*crazy.sent1_idx.values,*crazy.sent1_idx.values]))

In [None]:
# Cross validation, StratifiedKfold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
folds=[]

# Unusual sentences must be included in the training data
# Seperate train set and validation set in each folds
for train_idx, valid_idx in skf.split(train, train['topic_idx']):
    train_idx = np.array(list(set(list(train_idx)+list(sim_idx))))
    valid_idx = np.array(list(set(set(valid_idx)-set(sim_idx))))
    folds.append((train_idx, valid_idx))

In [None]:
def convert_data(data_df,case,mask_token):
    global tokenizer
    
    tokens, masks, segments, targets = [], [], [], []
    
    for i in tqdm(range(len(data_df))):
        # tokenize
        token = tokenizer.encode(data_df[DATA_COLUMN][i], max_length=SEQ_LEN, padding='max_length',truncation=True)
       
        # making input mask
        num_zeros = token.count(mask_token)
        mask = [1]*(SEQ_LEN-num_zeros) + [0]*num_zeros
        
        # making segment
        segment = [0]*SEQ_LEN
 
        # token, mask, segment
        tokens.append(token)
        masks.append(mask)
        segments.append(segment)
        
        if case=='train':
          # label values
          targets.append(data_df[LABEL_COLUMN][i])
 
    # convert to array format    
    tokens = np.array(tokens)
    masks = np.array(masks)
    segments = np.array(segments)
    if case=='train':
      targets = np.array(targets)

    if case=='train':
       return [tokens, masks, segments], targets
    if case=='test':
       return [tokens, masks, segments]

 
# Load data and convert to bert input format
def load_data(pandas_dataframe,case,mask_token):
    data_df = pandas_dataframe
    data_df[DATA_COLUMN] = data_df[DATA_COLUMN].astype(str)
    if case=='train':
      data_df[LABEL_COLUMN] = data_df[LABEL_COLUMN].astype(int)
      data_x, data_y = convert_data(data_df,'train',mask_token)
      return data_x, data_y
    if case=='test':
      data_x = convert_data(data_df,'test',mask_token)
      return data_x

# Define max_len
SEQ_LEN = 30
DATA_COLUMN = "title"
LABEL_COLUMN = "topic_idx"
 
# train
train_x0, train_y0 = load_data(train.iloc[folds[0][0]].append(back_train.iloc[folds[0][0]]).reset_index(drop=True),'train',1)
train_x1, train_y1 = load_data(train.iloc[folds[1][0]].append(back_train.iloc[folds[1][0]]).reset_index(drop=True),'train',1)
train_x2, train_y2 = load_data(train.iloc[folds[2][0]].append(back_train.iloc[folds[2][0]]).reset_index(drop=True),'train',1)
train_x3, train_y3 = load_data(train.iloc[folds[3][0]].append(back_train.iloc[folds[3][0]]).reset_index(drop=True),'train',1)
train_x4, train_y4 = load_data(train.iloc[folds[4][0]].append(back_train.iloc[folds[4][0]]).reset_index(drop=True),'train',1)

valid_x0, valid_y0 = load_data(train.iloc[folds[0][1]].reset_index(drop=True),'train',1)
valid_x1, valid_y1 = load_data(train.iloc[folds[1][1]].reset_index(drop=True),'train',1)
valid_x2, valid_y2 = load_data(train.iloc[folds[2][1]].reset_index(drop=True),'train',1)
valid_x3, valid_y3 = load_data(train.iloc[folds[3][1]].reset_index(drop=True),'train',1)
valid_x4, valid_y4 = load_data(train.iloc[folds[4][1]].reset_index(drop=True),'train',1)

# test
test_x = load_data(test,'test',1)

HBox(children=(FloatProgress(value=0.0, max=73104.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=73120.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=73144.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=73120.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=73114.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=9102.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=9094.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=9082.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=9094.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=9097.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=9131.0), HTML(value='')))




In [None]:
# Define RobertaModel using pretrained model
class Klue_RobertaClassifier(tf.keras.Model):
    def __init__(self, num_class):
        super(Klue_RobertaClassifier, self).__init__()

        self.bert = TFRobertaModel.from_pretrained("klue/roberta-large", from_pt=True)
        self.dropout = tf.keras.layers.Dropout(self.bert.config.hidden_dropout_prob)
        self.classifier = tf.keras.layers.Dense(num_class, kernel_initializer=tf.keras.initializers.TruncatedNormal(self.bert.config.initializer_range,seed=42), 
                                                name="classifier")
        
    def call(self, inputs, attention_mask=None, token_type_ids=None, training=False):
        
        # outputs value : sequence_output, pooled_output, (hidden_states), (attentions)
        outputs = self.bert(inputs, attention_mask=attention_mask, token_type_ids=token_type_ids)
        pooled_output = outputs[1]
        pooled_output = self.dropout(pooled_output, training=training)
        logits = self.classifier(pooled_output)

        return logits

klue_roberta_model = Klue_RobertaClassifier(num_class=7)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1346854671.0, style=ProgressStyle(descr…




Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFRobertaModel: ['lm_head.dense.bias', 'roberta.embeddings.position_ids', 'lm_head.bias', 'lm_head.layer_norm.weight', 'lm_head.decoder.bias', 'lm_head.layer_norm.bias', 'lm_head.decoder.weight', 'lm_head.dense.weight']
- This IS expected if you are initializing TFRobertaModel from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFRobertaModel from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
Some weights or buffers of the TF 2.0 model TFRobertaModel were not initialized from the PyTorch model and are newly initialized: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
You should probably TRAIN this model on a down-stream 

In [None]:
# Learn about each fold around the for gate and store the best weights.
for i in range(5):
  print('########## Fold {} : \n'.format(i))

  klue_roberta_model = Klue_RobertaClassifier(num_class=7)

  # Defining loss function, optimizer and metric
  optimizer = AdamWeightDecay(1e-5,weight_decay_rate=1e-4)
  loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
  metric = tf.keras.metrics.SparseCategoricalAccuracy('accuracy')
  klue_roberta_model.compile(optimizer=optimizer, loss=loss, metrics=[metric])

  # Adding an ealrystop to prevent overfitting
  earlystop_callback = EarlyStopping(monitor='val_accuracy', min_delta=0.0001,patience=2)

  checkpoint_path = os.path.join(model_path,'weight_klue_roberta_back_skf_fold_v0{}.h5'.format(i))
  cp_callback = ModelCheckpoint(checkpoint_path, monitor='val_accuracy', verbose=1, save_best_only=True, save_weights_only=True)

  # Training
  history = klue_roberta_model.fit(globals()['train_x{}'.format(i)],globals()['train_y{}'.format(i)], epochs=3, batch_size=32,
                             validation_data=(globals()['valid_x{}'.format(i)],globals()['valid_y{}'.format(i)]), callbacks=[earlystop_callback, cp_callback])

  klue_roberta_model.load_weights(model_path+'weight_klue_roberta_back_skf_fold_v0{}.h5'.format(i))

  preds=tf.argmax(klue_roberta_model.predict(globals()['valid_x{}'.format(i)]),axis=1)

  print('Validation set ACC: ',accuracy_score(globals()['valid_y{}'.format(i)],preds))
  print('Validation set Confusion Matrix: \n',confusion_matrix(globals()['valid_y{}'.format(i)],preds))

In [None]:
# Load all weights and predict labels toward test data
for i in range(0,5):
 klue_roberta_model.load_weights(model_path+'weight_klue_roberta_back_skf_fold_v0{}.h5'.format(i))
 globals()['results_{}'.format(i)] = klue_roberta_model.predict(test_x)

# Save forecasts list toward test data
results_test_list=[results_0,results_1,results_2,results_3,results_4]
np.save(data_path+'results_klue_roberta_back_list_v01.npy',results_test_list)

In [None]:
# Calculate forecasts for final test data by averaging all forecasts
test_pred=tf.argmax((results_test_list[0]+results_test_list[1]+results_test_list[2]+results_test_list[3]+results_test_list[4])/5,axis=1)
sample_submission['topic_idx']=test_pred
pd.merge(test,sample_submission).head(30)

Unnamed: 0,index,title,topic_idx
663,46317,美연준 美경제 완만한 성장 지속…단기 낙관론 유지,4
1218,46872,한국당 특검 거론하며 曺 낙마 총공세…구속수사감 檢압박종합,6
7837,53491,北 김정일 5주기 띄우기…사이렌에 묵념도종합,6
8164,53818,소재·부품 기업 오찬 간담회 참석한 성윤모 장관,6
3564,49218,문 대통령 불합리한 보호무역 조치에 당당하고 결연히 대응,6
2115,47769,아시아나 마일리지로 갤럭시S9 싸게 산다…5천대 한정 판매,0
1549,47203,北 러시아에 원산블라디보스토크 여객선 취항 제안,6
2986,48640,LG유플러스 골드번호 5천개 추첨행사,0
7597,53251,특징주 오성엘에스티 무상감자·유상증자 소식에 신저가종합,1
2,45656,내년부터 국가RD 평가 때 논문건수는 반영 않는다,2


In [None]:
# Final submission
sample_submission.to_csv(os.path.join(sub_path,'klue_roberta_back_skf_v01.csv'), index=False)