# LOAD Konlpy

In [1]:
import pandas as pd
import os
from tqdm import tqdm_notebook, tqdm


Data_dir="../KB_NLP/raw_data"
train_df = pd.read_csv(os.path.join(Data_dir,"train.csv"))
train_df['text'] = train_df['text'].astype(str) 

---
### Hannanum

In [2]:
from konlpy.tag import Hannanum
hanna = Hannanum()

In [3]:
a0 = train_df['text'][0]
a0 = hanna.pos(a0, ntags=9, flatten=True, join=True)
print(a0)

['XXX은행성산XXX팀장입니/N', '이/J', '다/E', './S', '행복한주말되/N', '이/J', '세요/E']


In [7]:
a0 = train_df['text'][0]
a0 = hanna.pos(a0, ntags=22, flatten=True, join=True)
print(a0)

['XXX은행성산XXX팀장입니/NC', '이/JP', '다/EF', './SF', '행복한주말되/NC', '이/JP', '세요/EF']


In [8]:
a0 = train_df['text'][0]
a0 = hanna.morphs(a0)
print(a0)

['XXX은행성산XXX팀장입니', '이', '다', '.', '행복한주말되', '이', '세요']


---
### Kkma

In [9]:
from konlpy.tag import Kkma
kk = Kkma()

In [10]:
a0 = train_df['text'][0]
a0 = kk.pos(a0, flatten=True, join=True)
print(a0)

['XXX/OL', '은행/NNG', '성산/NNG', 'XXX/OL', '팀장/NNG', '이/VCP', 'ㅂ니다/EFN', './SF', '행복/NNG', '하/XSV', 'ㄴ/ETD', '주말/NNG', '되/XSV', '세요/EFN']


In [12]:
a0 = train_df['text'][0]
a0 = kk.morphs(a0)
print(a0)

['XXX', '은행', '성산', 'XXX', '팀장', '이', 'ㅂ니다', '.', '행복', '하', 'ㄴ', '주말', '되', '세요']


In [18]:
train_df['text'].head()

0                             XXX은행성산XXX팀장입니다.행복한주말되세요
1                오늘도많이웃으시는하루시작하세요XXX은행 진월동VIP라운지 XXX올림
2    안녕하십니까 고객님. XXX은행입니다.금일 납부하셔야 할 금액은 153600원 입니...
3    XXX 고객님안녕하세요XXX은행 XXX지점입니다지난 한 해 동안 저희 XXX지점에 ...
4             1월은 새로움이 가득XXX입니다.올 한해 더 많이행복한 한해되시길바랍니다
Name: text, dtype: object

In [5]:
a0 = train_df['text'][0]
a0 = hanna.pos(a0, ntags=9, flatten=False, join=True)
print(a0)

[[['XXX은행성산XXX팀장입니/N', '이/J', '다/E']], [['./S']], [], [['행복한주말되/N', '이/J', '세요/E']]]


In [4]:
a0 = train_df['text'][0]
a0 = hanna.pos(a0, ntags=9, flatten=True, join=False)
print(a0)

[('XXX은행성산XXX팀장입니', 'N'), ('이', 'J'), ('다', 'E'), ('.', 'S'), ('행복한주말되', 'N'), ('이', 'J'), ('세요', 'E')]


In [None]:
from konlpy.tag import Okt

okt = Okt()


In [2]:
train_morphs = []
for i in tqdm(range(len(train_df))):
    morph = okt.morphs(train_df['text'][i])
    train_morphs.append(morph)    

100%|█████████████████████████████████████████████████████████████████████████| 295945/295945 [31:02<00:00, 158.90it/s]


In [4]:
test_df = pd.read_csv(os.path.join(Data_dir,"public_test.csv"))
test_df['text'] = test_df['text'].astype(str) 

In [5]:
%%time
test_morphs = []
for i in tqdm(range(len(test_df))):
    morph = okt.morphs(test_df['text'][i])
    test_morphs.append(morph)    

100%|█████████████████████████████████████████████████████████████████████████████| 1626/1626 [00:14<00:00, 110.48it/s]

Wall time: 14.7 s





In [6]:
train_df['morphs'] = train_morphs
test_df['morphs'] = test_morphs

In [8]:
train_df['morphs'] = train_df['morphs'].astype(str)
test_df['morphs'] = test_df['morphs'].astype(str)

In [9]:
for i in tqdm(range(len(train_df))):
    train_df['morphs'][i] = train_df['morphs'][i].replace("'","").replace("[","").replace("]","").replace(",","").replace(".","[SEP]")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
100%|█████████████████████████████████████████████████████████████████████████| 295945/295945 [22:04<00:00, 223.38it/s]


In [10]:
for i in tqdm(range(len(test_df))):
    test_df['morphs'][i] = test_df['morphs'][i].replace("'","").replace("[","").replace("]","").replace(",","").replace(".","[SEP]")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
100%|███████████████████████████████████████████████████████████████████████████| 1626/1626 [00:00<00:00, 11809.85it/s]


In [3]:
len(train_morphs)

295945

In [11]:
train_df.head()

Unnamed: 0,id,year_month,text,smishing,morphs
0,0,2017-01,XXX은행성산XXX팀장입니다.행복한주말되세요,0,XXX 은행 성산 XXX 팀 장 입니다 [SEP] 행복한주말 되세요
1,1,2017-01,오늘도많이웃으시는하루시작하세요XXX은행 진월동VIP라운지 XXX올림,0,오늘 도 많이 웃으시는 하루 시작 하세요 XXX 은행 진 월동 VIP 라운지 XXX 올림
2,2,2017-01,안녕하십니까 고객님. XXX은행입니다.금일 납부하셔야 할 금액은 153600원 입니...,0,안녕하십니까 고객 님 [SEP] XXX 은행 입니다 [SEP] 금일 납부 하셔야 할...
3,4,2017-01,XXX 고객님안녕하세요XXX은행 XXX지점입니다지난 한 해 동안 저희 XXX지점에 ...,0,XXX 고객 님 안녕하세요 XXX 은행 XXX 지점 입니다지난 한 해 동안 저희 X...
4,5,2017-01,1월은 새로움이 가득XXX입니다.올 한해 더 많이행복한 한해되시길바랍니다,0,1월 은 새 로움 이 가득 XXX 입니다 [SEP] 올 한해 더 많이 행복 한 한해...


In [12]:
test_df.head()

Unnamed: 0,id,year_month,text,morphs
0,340000,2019-01,XXX고객님! 안녕하세요? 새롭게 시작하는 한 주 행복 가득하시길 기원합니다. 지난...,XXX 고객 님 ! 안녕하세요 ? 새롭게 시작 하는 한 주 행복 가득하시길 기원 합...
1,340001,2019-01,긴급 안내 XXX은행 가락동 지점 - 헬리오XXX 기본XXX 대출이자를 ...,긴급 안내 XXX 은행 가락동 지점 - 헬리 오 XXX 기본 XXX 대출 이자 를 ...
2,340002,2019-01,XXX 고객님 안녕하세요올해는 미세먼지가 유난인거 같습니다.엊그제 새해가 시작된거같...,XXX 고객 님 안녕하세요 올해 는 미세먼지 가 유난 인거 같습니다 [SEP] 엊그...
3,340003,2019-01,XXX 고객님찾아온 행운을 잡으셨나요? 못잡으셨다면 이번에 다시 잡으시길 기원합니다...,XXX 고객 님 찾아온 행운 을 잡으셨나요 ? 못잡으셨다면 이번 에 다시 잡으시길 ...
4,340004,2019-01,XXX 고객님새해 복 많이 받으세요 XXX은행 코스트코 퇴직연금 담당자입니다. 고...,XXX 고객 님 새해 복 많이 받으세요 XXX 은행 코스트코 퇴직 연금 담당자 입니...


In [13]:
%%time
train_df.to_csv("../KB_NLP/konlpy_otk_morphs/morphs_train.csv", index=False)
test_df.to_csv("../KB_NLP/konlpy_otk_morphs/morphs_test.csv", index=False)

Wall time: 3.6 s
