## This code from [here](https://dacon.io/competitions/official/235747/codeshare/3054?page=1&dtype=recent).

적용 스킬

In [1]:
# load data
import pandas as pd

train = pd.read_csv('../data/train_data.csv')
test = pd.read_csv('../data/test_data.csv')

In [2]:
train.head()

Unnamed: 0,index,title,topic_idx
0,0,인천→핀란드 항공기 결항…휴가철 여행객 분통,4
1,1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4
2,2,이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것,4
3,3,NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합,4
4,4,시진핑 트럼프에 중미 무역협상 조속 타결 희망,4


In [3]:
# Main Tokenizer used in RobertaModel
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('klue/roberta-large')

  from .autonotebook import tqdm as notebook_tqdm


## 데이터 전처리

In [4]:
from collections import Counter

In [5]:
# 한자 빈도수 확인
import re
k = []

for i in range(0, len(train)):
    a = re.findall('[一-龥]', train['title'][i])
    if len(a) !=0:
        k=[*k, *a]
Counter(k).most_common()[:15] # 각 원소의 갯수를 반환

[('美', 1498),
 ('北', 1329),
 ('中', 795),
 ('朴', 661),
 ('日', 467),
 ('靑', 381),
 ('與', 291),
 ('英', 285),
 ('文', 184),
 ('野', 181),
 ('獨', 138),
 ('伊', 127),
 ('韓', 109),
 ('前', 95),
 ('佛', 92)]

In [6]:
len(k)

7648

In [7]:
test = []

for i in range(4):
    a = [x for x in range(i)]
    print(a)
    test = [*test, *a]
    print(test)

Counter(test).most_common()

[]
[]
[0]
[0]
[0, 1]
[0, 0, 1]
[0, 1, 2]
[0, 0, 1, 0, 1, 2]


[(0, 3), (1, 2), (2, 1)]

In [8]:
# 한자를 한글로 치환

# index 저장
# replace할 때 반복문을 줄이기 위해?
hanja_idx = []
for i in range(0, len(train)):
    a = re.findall('[一-龥]', train['title'][i])
    
    if len(a)!=0:
        # print(a, i)
        hanja_idx.append(i)

# 치환
def replace_all(text, dic):
    for i, j in dic.items():
        text = text.replace(i, j)
    return text

d = { "中": "중국", "美": "미국","北":"북한",'日':"일본",'英':'영국','行':'행','靑':'청와대','朴':'박근혜','銀':'은행','與':'여당',
     '文':'문재인','野':'야당','獨':'독일','伊':'이탈리아','韓':'한국','佛':'프랑스','前':'전','檢':'검찰','軍':'군','安':'안철수','南':'남한',
     '亞':'아시아','展':'전시회','重':'차','株':'주식','詩':'시'}

In [9]:
train.iloc[hanja_idx, 1][:10]

1                실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화
3              NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합
7     美대선 TV토론 음담패설 만회실패 트럼프…사과 대신 빌클린턴 공격해 역효과
10                      日 오키나와서 열린 강제징용 노동자 추도식
13               美올랜도 병원 최악 총기 테러 부상자 치료비 안 받는다
14                      日 대기업 올해 평균 2.46% 임금 인상
17                UAE 사우디 이어 美 호르무즈 호위 연합에 참여키로
19              개천에서 용 나와라 美사업가 모교에 1천억원 장학금 기부
20                 EU 브렉시트 합의 전 해야 할 일 많아…英에 경고
22             트럼프 총기난사는 惡의 공격…총기규제 초당적 협력 촉구종합
Name: title, dtype: object

In [10]:
re.sub(r'([一-龥])', r' \1 ', train.iloc[1, 1])

'실리콘밸리 넘어서겠다…구글 15조원 들여  美 전역 거점화'

In [12]:
# 한자 앞뒤로 공백 추가
for idx in hanja_idx:
    train.iloc[idx, 1] = re.sub(r'([一-龥])', r' \1 ', train.iloc[idx, 1])

In [13]:
kr_title = []
for i in train.iloc[hanja_idx, 1]: # hanja_idx에 해당하는 title만 가져옴(1은 column 위치)
    temp = replace_all(i, d)
    kr_title.append(temp)
kr_title[:10]

['실리콘밸리 넘어서겠다…구글 15조원 들여  미국 전역 거점화',
 'NYT 클린턴 측근 한국 기업 특수관계 조명…공과 사 맞물려종합',
 ' 미국 대선 TV토론 음담패설 만회실패 트럼프…사과 대신 빌클린턴 공격해 역효과',
 ' 일본  오키나와서 열린 강제징용 노동자 추도식',
 ' 미국 올랜도 병원 최악 총기 테러 부상자 치료비 안 받는다',
 ' 일본  대기업 올해 평균 2.46% 임금 인상',
 'UAE 사우디 이어  미국  호르무즈 호위 연합에 참여키로',
 '개천에서 용 나와라  미국 사업가 모교에 1천억원 장학금 기부',
 'EU 브렉시트 합의 전 해야 할 일 많아… 영국 에 경고',
 '트럼프 총기난사는  惡 의 공격…총기규제 초당적 협력 촉구종합']

In [14]:
# 한자-> 한글 치환 후 데이터 교체
for idx, kr_t in zip(hanja_idx, kr_title):
    train.iloc[idx, 1] = kr_t

In [15]:
train.iloc[hanja_idx, 1][:10]

1                실리콘밸리 넘어서겠다…구글 15조원 들여  미국 전역 거점화
3              NYT 클린턴 측근 한국 기업 특수관계 조명…공과 사 맞물려종합
7      미국 대선 TV토론 음담패설 만회실패 트럼프…사과 대신 빌클린턴 공격해 역효과
10                       일본  오키나와서 열린 강제징용 노동자 추도식
13                미국 올랜도 병원 최악 총기 테러 부상자 치료비 안 받는다
14                       일본  대기업 올해 평균 2.46% 임금 인상
17                UAE 사우디 이어  미국  호르무즈 호위 연합에 참여키로
19              개천에서 용 나와라  미국 사업가 모교에 1천억원 장학금 기부
20                 EU 브렉시트 합의 전 해야 할 일 많아… 영국 에 경고
22              트럼프 총기난사는  惡 의 공격…총기규제 초당적 협력 촉구종합
Name: title, dtype: object

## Processing Confused sentence

문장 간 유사도가 높지만 레이블이 서로 다른 데이터를 찾아보자.

In [16]:
train_data = train
train_1_2_3 = train_data[(train_data['topic_idx']==1) | (train_data['topic_idx']==2) | (train_data['topic_idx']==3)]
train_1_2_3_index = train_data[(train_data['topic_idx']==1) | (train_data['topic_idx']==2) | (train_data['topic_idx']==3)].index

In [30]:
train_1_2_3

Unnamed: 0,index,title,topic_idx,token_list
761,761,못믿을 아파트 관리비…경기 556곳서 150억 비리 적발종합,1,
765,765,특징주 관리종목 해제 대우조선해양 강세,1,
767,767,특징주 강원랜드 실적 부진에 급락종합,1,
769,769,라면 수출 질주…올해 4억달러 첫 돌파 확실시,1,
774,774,경기지표 부진 골드만삭스 한은 금리인상 예상시기 7→10월로종합,1,
...,...,...,...,...
45649,45649,KB금융 미국 IB 스티펠과 제휴…선진국 시장 공략,1,
45650,45650,1보 서울시교육청 신종코로나 확산에 개학 연기·휴업 검토,2,
45651,45651,게시판 키움증권 2020 키움 영웅전 실전투자대회,1,
45652,45652,답변하는 배기동 국립중앙박물관장,2,답변 ##하 ##는 배기 ##동 국립 ##중 ##앙 ##박 ##물 ##관 ##장


In [38]:
train_1_2_3[train_1_2_3['index']==761]['title'] = '못믿을 아파트 관리비 경기 556곳서 150억 비리 적발종합'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_1_2_3[train_1_2_3['index']==761]['title'] = '못믿을 아파트 관리비 경기 556곳서 150억 비리 적발종합'


In [43]:
train_1_2_3.loc[761, 'title'] = '못믿을 아파트 관리비 경기 556곳서 150억 비리 적발종합'

In [44]:
train_1_2_3.loc[761, 'title'] 

'못믿을 아파트 관리비 경기 556곳서 150억 비리 적발종합'

In [28]:
len(train_1_2_3), len(train)

(19517, 45654)

In [29]:
train_1_2_3_index

Index([  761,   765,   767,   769,   774,   777,   798,   802,   810,   811,
       ...
       45640, 45641, 45642, 45643, 45645, 45649, 45650, 45651, 45652, 45653],
      dtype='int64', length=19517)

In [46]:
train_1_2_3['token_list'] = ''
train['token_list'] = ''
for i in train_1_2_3_index:
    token = tokenizer.tokenize(train_1_2_3.loc[i, 'title'])
    train_1_2_3.loc[i, 'token_list'] = ' '.join(token)
    train.loc[i, 'token_list'] = ' '.join(token)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_1_2_3['token_list'] = ''


In [47]:
train_1_2_3

Unnamed: 0,index,title,topic_idx,token_list
761,761,못믿을 아파트 관리비 경기 556곳서 150억 비리 적발종합,1,못 ##믿 ##을 아파트 관리비 경기 55 ##6 ##곳 ##서 150 ##억 비리...
765,765,특징주 관리종목 해제 대우조선해양 강세,1,특징 ##주 관리 ##종 ##목 해제 대우 ##조선 ##해 ##양 강세
767,767,특징주 강원랜드 실적 부진에 급락종합,1,특징 ##주 강원랜드 실적 부진 ##에 급락 ##종합
769,769,라면 수출 질주…올해 4억달러 첫 돌파 확실시,1,라면 수출 질주 … 올해 4 ##억 ##달 ##러 첫 돌파 확실 ##시
774,774,경기지표 부진 골드만삭스 한은 금리인상 예상시기 7→10월로종합,1,경기 ##지 ##표 부진 골드만 ##삭 ##스 한은 금리 ##인 ##상 예상 ##시...
...,...,...,...,...
45649,45649,KB금융 미국 IB 스티펠과 제휴…선진국 시장 공략,1,KB ##금융 미국 IB 스티 ##펠 ##과 제휴 … 선진국 시장 공략
45650,45650,1보 서울시교육청 신종코로나 확산에 개학 연기·휴업 검토,2,1 ##보 서울시 ##교육 ##청 신종 ##코 ##로나 확산 ##에 개학 연기 · ...
45651,45651,게시판 키움증권 2020 키움 영웅전 실전투자대회,1,게시판 키움증권 2020 키움 영웅 ##전 실전 ##투자 ##대 ##회
45652,45652,답변하는 배기동 국립중앙박물관장,2,답변 ##하 ##는 배기 ##동 국립 ##중 ##앙 ##박 ##물 ##관 ##장


In [48]:
# 유사도 계산
def return_similarity(a, b):
    c = a.intersection(b) # ?
    return float(len(c)) / (len(a) + len(b) - len(c))

#### pandas intersection에 대해서는 아래 링크를 참고하자.
https://herjh0405.tistory.com/85

In [51]:
train.loc[20]

index                                      20
title         EU 브렉시트 합의 전 해야 할 일 많아… 영국 에 경고
topic_idx                                   4
token_list                                   
Name: 20, dtype: object

In [49]:
# index가 1, 2, 3인 데이터의 토큰을 set으로 만들어서 중복 제거
# 이를 사용해 유사도를 구할 생각이다. 
set_train_log = [set(log.split()) for log in train['token_list']]
set_train_log

[set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),
 set(),


In [None]:
from tqdm import tqdm
# 유사도가 높은 문장을 위한 DataFrame


sim_idx = []
sim_i = []
sim_j = []
top_i = []
top_j = []

# 만약 유사도가 0.5으면서 레이블이 다르면, 이것은 유사한 문장이라고 봐야한다.
for i in tqdm(train_1_2_3_index):
    for j in train_1_2_3_index:
        if i == j:
            continue
        if ((return_similarity(set_train_log[i]