In [9]:
import pandas as pd
import re

In [10]:
save_dir = ('./data/dacon_news_data.csv')
df = pd.read_csv(save_dir)
print(df.head())

   index                             title  topic_idx
0      0          인천→핀란드 항공기 결항…휴가철 여행객 분통          4
1      1    실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화          4
2      2    이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것          4
3      3  NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합          4
4      4         시진핑 트럼프에 중미 무역협상 조속 타결 희망          4


In [11]:
len(df)

14991

## 전처리
### 1. 특수기호 제거

In [12]:
# 특수기호 제거
df['clean_title'] = df['title'].map(lambda x : re.sub(pattern='[^\w\s]', repl=' ', string= x))

In [13]:
df['clean_title']

0                  인천 핀란드 항공기 결항 휴가철 여행객 분통
1            실리콘밸리 넘어서겠다 구글 15조원 들여 美전역 거점화
2            이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것
3          NYT 클린턴 측근韓기업 특수관계 조명 공과 사 맞물려종합
4                 시진핑 트럼프에 중미 무역협상 조속 타결 희망
                        ...                
14986        남친과 함께 잔혹하게 동거인 학대 20대 여성 구속영장
14987            일왕 부부 16일 동일본대지진 피해지역 위로방문
14988       1보 서울시교육청 신종코로나 확산에 개학 연기 휴업 검토
14989                     답변하는 배기동 국립중앙박물관장
14990    2020 한국인터넷기자상 시상식 내달 1일 개최 특별상 김성후
Name: clean_title, Length: 14991, dtype: object

### 2. 품사 태깅

In [14]:
from eunjeon import Mecab

mecab = Mecab()

text = "NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합"
print(f"pos: {mecab.pos(text)}")
print(f"nouns: {mecab.nouns(text)}")
print(f"nouns + SL: {mecab.nouns_and_foreign(text)}")

pos: [('NYT', 'SL'), ('클린턴', 'NNP'), ('측근', 'NNG'), ('韓', 'NNG'), ('기업', 'NNG'), ('특수', 'NNG'), ('관계', 'NNG'), ('조명', 'NNG'), ('…', 'SE'), ('공과', 'NNG'), ('사', 'VV+EC'), ('맞물려', 'VV+EC'), ('종합', 'NNG')]
nouns: ['클린턴', '측근', '韓', '기업', '특수', '관계', '조명', '공과', '종합']
nouns + SL: ['NYT', '클린턴', '측근', '韓', '기업', '특수', '관계', '조명', '공과', '종합']


In [15]:
# 전체 title pos tagging
df['tagged_title'] = df['clean_title'].map(lambda x : mecab.pos(x))

In [16]:
df['tagged_title']

0        [(인천, NNP), (핀란드, NNP), (항공기, NNG), (결항, NNG),...
1        [(실리콘밸리, NNP), (넘어서, VV), (겠, EP), (다, EC), (구...
2        [(이란, NNP), (외무, NNG), (긴장, NNG), (완화, NNG), (...
3        [(NYT, SL), (클린턴, NNP), (측근, NNG), (韓, NNG), (...
4        [(시진핑, NNP), (트럼프, NNG), (에, JKB), (중미, NNG), ...
                               ...                        
14986    [(남친, NNG), (과, JKB), (함께, MAG), (잔혹, NNG), (하...
14987    [(일, NR), (왕, NNG), (부부, NNG), (16, SN), (일, N...
14988    [(1, SN), (보, NNBC), (서울시, NNP), (교육청, NNG), (...
14989    [(답변, NNG), (하, XSV), (는, ETM), (배기동, NNP), (국...
14990    [(2020, SN), (한국, NNP), (인터넷, NNG), (기자상, NNG)...
Name: tagged_title, Length: 14991, dtype: object

In [17]:
# 명사와 외국어만 추출
df['NSL_title'] = df['clean_title'].map(lambda x : mecab.nouns_and_foreign(x))

In [18]:
df.head()

Unnamed: 0,index,title,topic_idx,clean_title,tagged_title,NSL_title
0,0,인천→핀란드 항공기 결항…휴가철 여행객 분통,4,인천 핀란드 항공기 결항 휴가철 여행객 분통,"[(인천, NNP), (핀란드, NNP), (항공기, NNG), (결항, NNG),...","[인천, 핀란드, 항공기, 결항, 휴가철, 여행객, 분통]"
1,1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4,실리콘밸리 넘어서겠다 구글 15조원 들여 美전역 거점화,"[(실리콘밸리, NNP), (넘어서, VV), (겠, EP), (다, EC), (구...","[실리콘밸리, 구글, 조, 원, 美, 전역, 거점]"
2,2,이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것,4,이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것,"[(이란, NNP), (외무, NNG), (긴장, NNG), (완화, NNG), (...","[이란, 외무, 긴장, 완화, 해결책, 미국, 경제, 전쟁, 것]"
3,3,NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합,4,NYT 클린턴 측근韓기업 특수관계 조명 공과 사 맞물려종합,"[(NYT, SL), (클린턴, NNP), (측근, NNG), (韓, NNG), (...","[NYT, 클린턴, 측근, 韓, 기업, 특수, 관계, 조명, 공과, 종합]"
4,4,시진핑 트럼프에 중미 무역협상 조속 타결 희망,4,시진핑 트럼프에 중미 무역협상 조속 타결 희망,"[(시진핑, NNP), (트럼프, NNG), (에, JKB), (중미, NNG), ...","[시진핑, 트럼프, 중미, 무역, 협상, 조속, 타결, 희망]"


### 3. 사용자 정의 불용어 제거

In [7]:
import codecs

# 불용어 사전 불러오기
_stopwords = codecs.open("./data/custom_stopwords.txt",  'r', 'utf-8')
lines = _stopwords.readlines()
_stopwords = [line.strip().split()[0] for line in lines]
len(_stopwords)

100

In [19]:
df['tokenized'] = df['NSL_title'].map(lambda x : [word for word in x if not word in _stopwords])

In [20]:
df['tokenized']

0                 [인천, 핀란드, 항공기, 결항, 휴가철, 여행객, 분통]
1                        [실리콘밸리, 구글, 조, 美, 전역, 거점]
2                [이란, 외무, 긴장, 완화, 해결책, 미국, 경제, 전쟁]
3        [NYT, 클린턴, 측근, 韓, 기업, 특수, 관계, 조명, 공과, 종합]
4               [시진핑, 트럼프, 중미, 무역, 협상, 조속, 타결, 희망]
                           ...                    
14986             [남친, 잔혹, 동거인, 학대, 대, 여성, 구속, 영장]
14987             [왕, 부부, 동일본, 대지진, 피해, 지역, 위, 방문]
14988      [서울시, 교육청, 신종, 코로나, 확산, 개학, 연기, 휴업, 검토]
14989                    [답변, 배기동, 국립, 중앙, 박물, 관장]
14990        [한국, 인터넷, 기자상, 시상식, 내달, 개최, 특별상, 김성후]
Name: tokenized, Length: 14991, dtype: object