## 일상 대화 데이터 전처리 작업

데이터 출처
https://aihub.or.kr/aidata/85

### 대화 발생 장소별 구분

In [1]:
!pwd

/tf/notebooks/NLP


In [2]:
trainDataPath = './train_data'

dataFileList = !(ls $trainDataPath | grep .xlsx)
dataFileList

['A 음식점(15,726)_new.xlsx',
 'B 의류(15,826)_new.xlsx',
 'C 학원(4,773)_new.xlsx',
 'D 소매점(14,949)_new.xlsx',
 'E 생활서비스(11,087)_new.xlsx',
 'F 카페(7,859)_new.xlsx',
 'G 숙박업(7,113)_new.xlsx',
 'H 관광여가오락(4,949)_new.xlsx',
 'I 부동산(8,131)_new.xlsx']

In [3]:
import pandas as pd 
import os
from hanspell import spell_checker
import requests
from urllib import parse
import json
from multiprocessing import Process, Queue
import math
import re
from time import process_time
from ckonlpy.tag import Twitter
from nltk import ngrams

In [4]:
df = pd.read_excel("./train_data/A 음식점(15,726)_new.xlsx", engine = "openpyxl")

In [5]:
df.head(3)

Unnamed: 0,SPEAKER,SENTENCE,DOMAINID,DOMAIN,CATEGORY,SPEAKERID,SENTENCEID,MAIN,SUB,QA,QACNCT,MQ,SQ,UA,SA,개체명,용어사전,지식베이스,Unnamed: 18
0,고객,지금 배달되나요?,A,음식점,배달음식점,1,1,배달가능문의,,Q,,지금 배달되나요?,,,,"수고, 지금, 배달",,,
1,점원,아 네 배달됩니다,A,음식점,배달음식점,0,2,배달가능문의,,A,,,,,아 네 배달됩니다,배달,,,
2,고객,짬뽕류는 어떤 게 있나요? 잘 나가는 짬뽕 있나요?,A,음식점,배달음식점,1,3,베스트메뉴문의추천요청,,Q,,짬뽕류는 어떤 게 있나요? 잘 나가는 짬뽕 있나요?,,,,짬뽕,,짬뽕/메뉴,


In [6]:
dataFrames = []
for dataFileName in dataFileList:
    dataFrames.append(pd.read_excel(os.path.join(trainDataPath, dataFileName), engine = "openpyxl"))

In [7]:
dataFrames[0].head(2)

Unnamed: 0,SPEAKER,SENTENCE,DOMAINID,DOMAIN,CATEGORY,SPEAKERID,SENTENCEID,MAIN,SUB,QA,QACNCT,MQ,SQ,UA,SA,개체명,용어사전,지식베이스,Unnamed: 18
0,고객,지금 배달되나요?,A,음식점,배달음식점,1,1,배달가능문의,,Q,,지금 배달되나요?,,,,"수고, 지금, 배달",,,
1,점원,아 네 배달됩니다,A,음식점,배달음식점,0,2,배달가능문의,,A,,,,,아 네 배달됩니다,배달,,,


In [8]:
dataFrames[-1].head(2)

Unnamed: 0,SPEAKER,SENTENCE,DOMAINID,DOMAIN,CATEGORY,SPEAKERID,SENTENCEID,MAIN,SUB,QA,QACNCT,MQ,SQ,UA,SA,개체명,용어사전,지식베이스
0,고객,감귤밭 팔려고 하는데 어느정도에 팔 수 있을까요?,I,부동산,토지,1,1,시세문의,,Q,,감귤밭 팔려고 하는데 어느 정도에 팔 수 있을까요?,,,,감귤밭,,감귤밭/매물
1,점원,그쪽 지역은 아직 땅값이 별로 안나가서 많이는 못받을 것 같습니다.,I,부동산,토지,0,2,시세문의,,A,,,,,그쪽 지역은 아직 땅값이 별로 안 나가서 많이는 못 받을 것 같습니다.,"그쪽 지역, 땅값",,그쪽 지역/위치


In [9]:
dataFrames[0]['SENTENCE'][0]

'지금 배달되나요?'

In [10]:
fullDataFrames = pd.DataFrame(columns=dataFrames[0].columns)

In [11]:
for dfIdx in range(len(dataFrames)):
    fullDataFrames = fullDataFrames.append(dataFrames[dfIdx][dataFrames[dfIdx].columns], ignore_index=True)
fullDataFrames.head(2)
print(fullDataFrames['SENTENCE'].size)

90413


In [12]:
fullDataFrames.dtypes

SPEAKER         object
SENTENCE        object
DOMAINID        object
DOMAIN          object
CATEGORY        object
SPEAKERID       object
SENTENCEID      object
MAIN            object
SUB             object
QA              object
QACNCT          object
MQ              object
SQ              object
UA              object
SA              object
개체명             object
용어사전            object
지식베이스           object
Unnamed: 18    float64
Unnamed: 19    float64
dtype: object

- 틀린 라벨 수정작업

In [13]:
fullDataFrames['DOMAINID'].value_counts()

B     15826
A     15726
D     14949
E     11087
I      8131
G      7113
 F     6454
H      4949
C      4773
F      1405
Name: DOMAINID, dtype: int64

In [14]:
fullDataFrames['DOMAINID'].drop_duplicates().values

array(['A', 'B', 'C', 'D', 'E', 'F', ' F', 'G', 'H', 'I'], dtype=object)

In [15]:
fullDataFrames['DOMAINID'] = fullDataFrames['DOMAINID'].replace(
    fullDataFrames['DOMAINID'].drop_duplicates().values[6], 
    fullDataFrames['DOMAINID'].drop_duplicates().values[5])

In [16]:
fullDataFrames['DOMAINID'].value_counts()

B    15826
A    15726
D    14949
E    11087
I     8131
F     7859
G     7113
H     4949
C     4773
Name: DOMAINID, dtype: int64

In [17]:
splitedDataFrame = pd.DataFrame(columns=['SENTENCE', 'DOMAINID'])
splitedDataFrame

Unnamed: 0,SENTENCE,DOMAINID


In [18]:
splitedDataFrame = fullDataFrames[['SENTENCE', 'DOMAINID']]
splitedDataFrame.head(2)

Unnamed: 0,SENTENCE,DOMAINID
0,지금 배달되나요?,A
1,아 네 배달됩니다,A


In [19]:
splitedDataFrame['SENTENCE'].size

90413

In [20]:
splitedDataFrame.tail(2)

Unnamed: 0,SENTENCE,DOMAINID
90411,지금 가장 싼 토지 매물 한 번 보여주실래요?,I
90412,평당 90만으로 괜찮은 곳 있어요?,I


In [21]:
splitedDataFrame.dtypes

SENTENCE    object
DOMAINID    object
dtype: object

- 라벨 one hot encoding 작업

In [22]:
splitedDataFrame = pd.get_dummies(splitedDataFrame, columns=["DOMAINID"])
splitedDataFrame.head(2)

Unnamed: 0,SENTENCE,DOMAINID_A,DOMAINID_B,DOMAINID_C,DOMAINID_D,DOMAINID_E,DOMAINID_F,DOMAINID_G,DOMAINID_H,DOMAINID_I
0,지금 배달되나요?,1,0,0,0,0,0,0,0,0
1,아 네 배달됩니다,1,0,0,0,0,0,0,0,0


In [23]:
splitedDataFrame.tail(2)

Unnamed: 0,SENTENCE,DOMAINID_A,DOMAINID_B,DOMAINID_C,DOMAINID_D,DOMAINID_E,DOMAINID_F,DOMAINID_G,DOMAINID_H,DOMAINID_I
90411,지금 가장 싼 토지 매물 한 번 보여주실래요?,0,0,0,0,0,0,0,0,1
90412,평당 90만으로 괜찮은 곳 있어요?,0,0,0,0,0,0,0,0,1


In [24]:
splitedDataFrame[35000:35003]

Unnamed: 0,SENTENCE,DOMAINID_A,DOMAINID_B,DOMAINID_C,DOMAINID_D,DOMAINID_E,DOMAINID_F,DOMAINID_G,DOMAINID_H,DOMAINID_I
35000,성인도 수강 되는건가요?,0,0,1,0,0,0,0,0,0
35001,네 들어오세요,0,0,1,0,0,0,0,0,0
35002,일주일에 며칠 수강하나요?,0,0,1,0,0,0,0,0,0


- 입력 문장 오타 수정 작업

맞춤법에 맞게 수정함으로서 정확도를 높일 수 있지 않을까 하는 생각에 진행

In [25]:
spell_checker.check('안녕하세요.저는한국인입니다.이문장은한글로작성됬습니다.')

Checked(result=True, original='안녕하세요.저는한국인입니다.이문장은한글로작성됬습니다.', checked='안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.', errors=1, words=OrderedDict([('안녕하세요.', 1), ('저는', 1), ('한국인입니다.', 1), ('이', 1), ('문장은', 1), ('한글로', 1), ('작성됐습니다.', 1)]), time=0.12406539916992188)

In [26]:
spell_checker.check('안녕하세요.저는한국인입니다.이문장은한글로작성됬습니다.').checked

'안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.'

In [27]:
# spellCheckedList = spell_checker.check(list(splitedDataFrame['SENTENCE']))

너무 오래 걸림

## 네이버 맞춤법 검사기 이용 로직을 직접 짜기

In [28]:
test_sentence = '안녕하세요.저는한국인입니다.이문장은한글로작성됬습니다.'
URL = f'https://m.search.naver.com/p/csearch/ocontent/util/SpellerProxy?q={test_sentence}&where=nexearch&color_blindness=1'
reqQuery = parse.urlencode(parse.parse_qs(parse.urlparse(URL).query))

In [29]:
#f'https://m.search.naver.com/p/csearch/ocontent/util/SpellerProxy?{reqQuery}'
response = requests.get(URL)
response.status_code,response.text

(200,
 '{"message":{"result":{"errata_count":1,"origin_html":"<span class=\'result_underline\'>안녕하세요.저는한국인입니다.이문장은한글로작성됬습니다.</span>","html":"<em class=\'grammar\'>안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.</em>","notag_html":"안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다."}}}')

In [30]:
processQueue = Queue()
processQueue.qsize()

0

In [31]:
def clean_text(inputString):
    text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·\s]', '', inputString)
    return text_rmv

In [32]:
def naver_spell_checker(idx, sentence, use_clean_sentence = True, queue = None):
    URL = f'https://m.search.naver.com/p/csearch/ocontent/util/SpellerProxy?q={clean_text(sentence) if use_clean_sentence else sentence}&where=nexearch&color_blindness=1'
    response = requests.get(URL)
    if response.status_code == 200:
        data = json.loads(response.text)
        if 'message' in data and \
            'result' in data['message'] and \
            'notag_html' in data['message']['result'] and \
            data['message']['result']['notag_html'] is not None:
            if queue:
                queue.put((idx, sentence, data['message']['result']['notag_html']))
            return data['message']['result']['notag_html']
        else:
            print(f'Response error detected. #{idx} sentence: {sentence}')
            print(f'#{idx} response text:', response.text)
            if queue:
                queue.put((idx, sentence, None))
            return None
    else:
        print(f'HTTP Code {response.status_code} != 200, #{idx} sentence: {sentence}')
        if queue:
            queue.put((idx, sentence, None))
        return None

In [33]:
naver_spell_checker(0, '안녕하세요.저는한국인입니다.이문장은한글로작성됬습니다.')

'안녕하세요 저는 한국인입니다 이 문장은 한글로 작성됐습니다'

In [34]:
reqNum = 10
dataSize = 101 #splitedDataFrame['SENTENCE'].size

for pid in range(math.ceil(dataSize / reqNum)):
    start = pid * reqNum + 1
    if start + reqNum > dataSize:
        end = dataSize + 1
    else:
        end = start + reqNum
    processList = []
    for idx in range(start, end):
        print(f'{idx:>4d}', end=' ')
    print()
#     proc = Process(target=naver_spell_checker, args=(splitedDataFrame['SENTENCE'][pid]))
#     proc.start()
#     processList.append(proc)

   1    2    3    4    5    6    7    8    9   10 
  11   12   13   14   15   16   17   18   19   20 
  21   22   23   24   25   26   27   28   29   30 
  31   32   33   34   35   36   37   38   39   40 
  41   42   43   44   45   46   47   48   49   50 
  51   52   53   54   55   56   57   58   59   60 
  61   62   63   64   65   66   67   68   69   70 
  71   72   73   74   75   76   77   78   79   80 
  81   82   83   84   85   86   87   88   89   90 
  91   92   93   94   95   96   97   98   99  100 
 101 


## Process 사용하여 멀티프로세싱 작업

HTTP 통신이 필요한 작업이므로 좀 더 빠른 처리를 위해 동시 요청을 보내 교정작업이 이루어질 수 있도록 구현

### 만약 싱글 프로세싱 방식이었다면?

In [35]:
t1_start = process_time()
for idx in range(21):
    print(naver_spell_checker(idx, splitedDataFrame['SENTENCE'][idx]))
t1_stop = process_time()
print("Elapsed time during the whole program in seconds:", t1_stop - t1_start)

지금 배달되나요
아 네 배달됩니다
짬뽕류는 어떤 게 있나요 잘나가는 짬뽕 있나요
특해물짬뽕도있고전복새우짬뽕도있고해물종류도새우홍합전복없는게없습니다
전복들어가는거는특해물짬뽕시켜야돼요
전복 짬뽕 시키면 전복이 들어가죠
전복 들어가고 여러 가지 또 딴 것도 들어가죠
네네
마찰이 짬뽕밥은 돼지고기 들어가나요
짬뽕은 돼지고기 약간씩 들어갑니다
여기 주소인데 배달되나요
주소는 안됩니다
중국집 명성리죠 배달 지금 가능한가요
예 배달 가능합니다
주로 어떤 게 잘나가요
탕수육에 짜장이나 짬뽕 세트가 잘나가죠
4인이 먹을 수 있을까요
네 명 드시기엔 세트가 양이 적어요 네 명 드시려면 탕수육 중자는 가야죠
중자는 얼마예요
중자는 2만 2천 원요
탕수육에 들어가는 고기가 돼지고기죠
Elapsed time during the whole program in seconds: 0.2618252820000002


### 만약 멀티 프로세싱 방식이라면?

In [36]:
while not processQueue.empty():
    try:
        processQueue.get(False)
    except Empty:
        continue
#     processQueue.task_done()
processQueue.qsize()

0

In [37]:
reqNum = 10
dataSize = 21 #splitedDataFrame['SENTENCE'].size
t1_start = process_time()

for pid in range(math.ceil(dataSize / reqNum)):
    start = pid * reqNum + 1
    if start + reqNum > dataSize:
        end = dataSize + 1
    else:
        end = start + reqNum
    processList = []
    for idx in range(start, end):
        proc = Process(target=naver_spell_checker, args=(idx, splitedDataFrame['SENTENCE'][idx], False, processQueue))
        proc.start()
        processList.append(proc)
    for proc in processList:
        proc.join()
t1_stop = process_time()

In [38]:
while not processQueue.empty():
    print(processQueue.get(0))

(1, '아 네 배달됩니다', '아 네 배달됩니다')
(2, '짬뽕류는 어떤 게 있나요? 잘 나가는 짬뽕 있나요?', '짬뽕류는 어떤 게 있나요? 잘나가는 짬뽕 있나요?')
(5, '전복 짬뽕 시키면 전복이 들어가죠', '전복 짬뽕 시키면 전복이 들어가죠')
(4, '전복 들어가는 거는 특해물 짬뽕 시켜야 돼요?', '전복 들어가는 거는 특해물 짬뽕 시켜야 돼요?')
(3, '특해물 짬뽕도 있고 전복 새우 짬뽕도 있고 해물 종류도 새우 홍합 전복 없는 게 없습니다', '특해물 짬뽕도 있고 전복 새우 짬뽕도 있고 해물 종류도 새우 홍합 전복 없는 게 없습니다')
(6, '전복 들어가고 여러 가지 또 딴 것도 들어가죠?', '전복 들어가고 여러 가지 또 딴 것도 들어가죠?')
(7, '네네', '네네')
(10, '여기 #주소#인데 배달되나요?', '여기 ')
(9, '짬뽕은 돼지고기 약간씩 들어갑니다', '짬뽕은 돼지고기 약간씩 들어갑니다')
(8, '마차이 짬뽕밥은 돼지고기 들어가나요?', '마찰이 짬뽕밥은 돼지고기 들어가나요?')
(11, '#주소#는 안됩니다', '')
(13, '예 배달 가능합니다', '예 배달 가능합니다')
(14, '주로 어떤 게 잘 나가요?', '주로 어떤 게 잘나가요?')
(12, '중국집 명성루죠? 배달 지금 가능한가요?', '중국집 명성 누죠? 배달 지금 가능한가요?')
(15, '탕수육에 짜장이나 짬뽕 세트가 잘 나가죠 ', '탕수육에 짜장이나 짬뽕 세트가 잘나가죠 ')
(16, '4인이 먹을 수 있을까요?', '4인이 먹을 수 있을까요?')
(17, '네 명 드시기엔 세트가 양이 적어요 네 명 드시려면 탕수육 중자는 가야죠', '네 명 드시기엔 세트가 양이 적어요 네 명 드시려면 탕수육 중자는 가야죠')
(18, '중자는 얼마에요?', '중자는 얼마예요?')
(19, '중자는 2만 2천 원요', '중자는 2만 2천 원요')
(20, '탕수육에 들어가는 고기가 돼지고기죠?', '탕수육에 들어가는 고기가 돼지고기죠?')
(21,

In [39]:
print("Elapsed time during the whole program in seconds:", t1_stop - t1_start)

Elapsed time during the whole program in seconds: 0.18441167099999944


- 싱글 프로세싱 시간: `0.27`s
- 멀티 프로세싱 시간: `0.15`s

해당 시간은 `21`건을 기준으로 하였으므로 현재 가지고 있는 데이터 `90413`건으로 예측한다면

- 싱글 프로세싱 시간: `1162.45`s 약 19분
- 멀티 프로세싱 시간: `645.80`s 약 10분

으로 차이가 극명히 나기 시작함

대신 정렬이 되어지지 않기 때문에 정렬 후처리가 필요하다는 단점 존재

__위 내용에서 보면 `#주소#` 와 같이 특수문자가 들어간 내용의 맞춤법 검사 결과는 기존 문장을 삭제한 결과가 나오는 것을 확인 할 수 있음__

특수문자에 대한 추가적인 전처리가 필요

In [40]:
while not processQueue.empty():
    try:
        processQueue.get(False)
    except Empty:
        continue
#     processQueue.task_done()
processQueue.qsize()

0

In [41]:
reqNum = 10
dataSize = 40 #splitedDataFrame['SENTENCE'].size

for pid in range(math.ceil(dataSize / reqNum)):
    start = pid * reqNum + 1
    if start + reqNum > dataSize:
        end = dataSize + 1
    else:
        end = start + reqNum
    processList = []
    for idx in range(start, end):
        proc = Process(target=naver_spell_checker, args=(idx, splitedDataFrame['SENTENCE'][idx], True, processQueue))
        proc.start()
        processList.append(proc)
    for proc in processList:
        proc.join()

In [42]:
while not processQueue.empty():
    print(processQueue.get(0))

(1, '아 네 배달됩니다', '아 네 배달됩니다')
(2, '짬뽕류는 어떤 게 있나요? 잘 나가는 짬뽕 있나요?', '짬뽕류는 어떤 게 있나요 잘나가는 짬뽕 있나요')
(5, '전복 짬뽕 시키면 전복이 들어가죠', '전복 짬뽕 시키면 전복이 들어가죠')
(7, '네네', '네네')
(6, '전복 들어가고 여러 가지 또 딴 것도 들어가죠?', '전복 들어가고 여러 가지 또 딴 것도 들어가죠')
(4, '전복 들어가는 거는 특해물 짬뽕 시켜야 돼요?', '전복들어가는거는특해물짬뽕시켜야돼요')
(9, '짬뽕은 돼지고기 약간씩 들어갑니다', '짬뽕은 돼지고기 약간씩 들어갑니다')
(10, '여기 #주소#인데 배달되나요?', '여기 주소인데 배달되나요')
(3, '특해물 짬뽕도 있고 전복 새우 짬뽕도 있고 해물 종류도 새우 홍합 전복 없는 게 없습니다', '특해물짬뽕도있고전복새우짬뽕도있고해물종류도새우홍합전복없는게없습니다')
(8, '마차이 짬뽕밥은 돼지고기 들어가나요?', '마찰이 짬뽕밥은 돼지고기 들어가나요')
(11, '#주소#는 안됩니다', '주소는 안됩니다')
(13, '예 배달 가능합니다', '예 배달 가능합니다')
(14, '주로 어떤 게 잘 나가요?', '주로 어떤 게 잘나가요')
(15, '탕수육에 짜장이나 짬뽕 세트가 잘 나가죠 ', '탕수육에 짜장이나 짬뽕 세트가 잘나가죠')
(16, '4인이 먹을 수 있을까요?', '4인이 먹을 수 있을까요')
(18, '중자는 얼마에요?', '중자는 얼마예요')
(17, '네 명 드시기엔 세트가 양이 적어요 네 명 드시려면 탕수육 중자는 가야죠', '네 명 드시기엔 세트가 양이 적어요 네 명 드시려면 탕수육 중자는 가야죠')
(19, '중자는 2만 2천 원요', '중자는 2만 2천 원요')
(20, '탕수육에 들어가는 고기가 돼지고기죠?', '탕수육에 들어가는 고기가 돼지고기죠')
(12, '중국집 명성루죠? 배달 지금 가능한가요?', '중국집 명성리죠 배달 지금 가능한가요')
(21, '어느 집이든지 다 돼지고

이상하게도 `잘 나가는` 용어가 맞춤법 검사를 하면 `잘나가는` 으로 수정하는 문제가 존재

https://www.korean.go.kr/front/onlineQna/onlineQnaView.do?mn_id=216&qna_seq=112284

국립국어원에선 `잘 나가는`을 적절한 용어라고 말하고 있음

또한 특문 제거 로직에서 스페이스도 삭제하도록 하였더니 일부 문장에선 아예 맞춤법 검사가 실패한 모습을 볼 수 있음

`특해물짬뽕도있고전복새우짬뽕도있고해물종류도새우홍합전복없는게없습니다`

한국어 토큰 분리를 이용하여 해당 부분을 개선해보자!

## 한국어 토큰 분리 모듈 사용

https://github.com/lovit/customized_konlpy

In [43]:
twitter = Twitter()

In [44]:
twitter.pos('전복들어가는거는특해물짬뽕시켜야돼요')

[('전복', 'Noun'),
 ('들', 'Verb'),
 ('어가', 'Noun'),
 ('는', 'Josa'),
 ('거는특', 'Noun'),
 ('해물짬뽕', 'Noun'),
 ('시켜야', 'Verb'),
 ('돼요', 'Verb')]

In [45]:
twitter.pos('특해물짬뽕도있고전복새우짬뽕도있고해물종류도새우홍합전복없는게없습니다')

[('특', 'Noun'),
 ('해물짬뽕', 'Noun'),
 ('도', 'Josa'),
 ('있', 'Adjective'),
 ('고전', 'Noun'),
 ('복', 'Noun'),
 ('새우', 'Noun'),
 ('짬뽕', 'Noun'),
 ('도', 'Josa'),
 ('있고', 'Adjective'),
 ('해물', 'Noun'),
 ('종류', 'Noun'),
 ('도', 'Josa'),
 ('새우', 'Noun'),
 ('홍합', 'Noun'),
 ('전복', 'Noun'),
 ('없는게', 'Adjective'),
 ('없습니다', 'Adjective')]

In [46]:
twitter.pos('짜장면짬뽕해물짬뽕사람마다좋아하시는게다달라요')

[('짜장면', 'Noun'),
 ('짬뽕', 'Noun'),
 ('해물짬뽕', 'Noun'),
 ('사람', 'Noun'),
 ('마다', 'Josa'),
 ('좋', 'Adjective'),
 ('아하', 'Noun'),
 ('시', 'Noun'),
 ('는', 'Josa'),
 ('게다', 'Noun'),
 ('달라', 'Noun'),
 ('요', 'Josa')]

기본적인 토큰 분리로도 어느정도 잘 분리하는 모습을 확인 할 수 있음

하지만 `전복들어가는거는특해물짬뽕시켜야돼요` 에서는 `전복`을 잘 분리한데 반해 

`특해물짬뽕도있고전복새우짬뽕도있고해물종류도새우홍합전복없는게없습니다` 에선 `고전`, `복` 으로 각각의 단어로 분리한 모습을 확인 할 수 있음


본 프로젝트에서 사용된 `customized KoNLPy` 는 임의의 사용자 사전을 추가할 수 있음

### 사용자 사전 추가하기

In [47]:
custom_word_dict = fullDataFrames[['개체명', '용어사전', '지식베이스']]
custom_word_dict[46035:46042]

Unnamed: 0,개체명,용어사전,지식베이스
46035,"파프리카,브로콜리",,"파프리카/채소 종류,브로콜리/채소 종류"
46036,"파프리카,브로콜리,주부님,인기",,"파프리카/채소 종류,브로콜리/채소 종류,주부님/호칭"
46037,"귤,소쿠리",소쿠리/바구니,"귤/과일 종류,바구니/그릇 종류"
46038,5천원,,5천원/가격
46039,"천혜향,박스",,천혜향/귤 종류
46040,"2만3천원,2만5천원,2만원",,"2만3천원/가격,2만5천원/가격,2만원/가격"
46041,"한라봉,2만3천원",,"한라봉/귤 종류,2만3천원/가격"


내용을 보면 `,`, `/` 를 이용하여 구분하고 있음

In [48]:
custom_word_dict['지식베이스'] = custom_word_dict['지식베이스'].replace(to_replace=r'/', value=',', regex=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [49]:
custom_word_dict['지식베이스'][46035].split(',')

['파프리카', '채소 종류', '브로콜리', '채소 종류']

In [50]:
custom_word_dict['개체명'][46038].split(',')

['5천원']

In [51]:
custom_columns = ['개체명', '용어사전', '지식베이스']

In [52]:
type(custom_word_dict['개체명'][0])

str

In [53]:
addedWordList = []

In [54]:
for row in range(custom_word_dict['개체명'].size):
    for col in custom_columns:
#         print(row, col, custom_word_dict[col][row])
        if custom_word_dict[col][row] is not None and \
            type(custom_word_dict[col][row]) == str:
            
            words = custom_word_dict[col][row].split(',')
#             print(words)
            for word in words:
                twitter.add_dictionary(word, 'Noun')
                addedWordList.append(word)
        break

In [55]:
len(addedWordList)

140089

In [56]:
twitter.pos('전복들어가는거는특해물짬뽕시켜야돼요')

[('전복', 'Noun'),
 ('들', 'Verb'),
 ('어가', 'Noun'),
 ('는', 'Josa'),
 ('거는특', 'Noun'),
 ('해물짬뽕', 'Noun'),
 ('시', 'Noun'),
 ('켜야', 'Verb'),
 ('돼요', 'Verb')]

In [57]:
twitter.pos('특해물짬뽕도있고전복새우짬뽕도있고해물종류도새우홍합전복없는게없습니다')

[('특', 'Noun'),
 ('해물짬뽕', 'Noun'),
 ('도', 'Josa'),
 ('있', 'Adjective'),
 ('고전', 'Noun'),
 ('복', 'Noun'),
 ('새우', 'Noun'),
 ('짬뽕', 'Noun'),
 ('도', 'Josa'),
 ('있고', 'Adjective'),
 ('해물', 'Noun'),
 ('종류', 'Noun'),
 ('도', 'Josa'),
 ('새우', 'Noun'),
 ('홍합', 'Noun'),
 ('전복', 'Noun'),
 ('없는게', 'Adjective'),
 ('없습니다', 'Adjective')]

In [58]:
twitter.pos('짜장면짬뽕해물짬뽕사람마다좋아하시는게다달라요')

[('짜장면', 'Noun'),
 ('짬뽕', 'Noun'),
 ('해물짬뽕', 'Noun'),
 ('사람', 'Noun'),
 ('마다', 'Josa'),
 ('좋', 'Adjective'),
 ('아하', 'Noun'),
 ('시', 'Noun'),
 ('는', 'Josa'),
 ('게다', 'Noun'),
 ('달라', 'Noun'),
 ('요', 'Josa')]

그리 차이가 나진 않는데 이미 있는 단어 사전이 들어갔기 때문으로 추측됨

실 예로 `뇌피셜`이란 단어는 존재하지 않아 해당 단어가 포함된 문장은 토큰 분리가 제데로 되어지지 않아

단어를 임의로 추가 시켜주었더니 그 결과가 다르게 나오는 것을 확인 할 수 있음

In [59]:
twitter.pos('이건 내 뇌피셜이긴 한데')

[('이건', 'Noun'),
 ('내', 'Noun'),
 ('뇌', 'Noun'),
 ('피', 'Noun'),
 ('셜', 'Noun'),
 ('이', 'Noun'),
 ('긴', 'Noun'),
 ('한데', 'Eomi')]

In [60]:
twitter.add_dictionary('뇌피셜', 'Noun')

In [61]:
twitter.pos('이건 내 뇌피셜이긴 한데')

[('이건', 'Noun'),
 ('내', 'Noun'),
 ('뇌피셜', 'Noun'),
 ('이', 'Noun'),
 ('긴', 'Verb'),
 ('한데', 'Eomi')]

## N-Gram

- bag of word가 단순 출현 수 만 보기 때문에 단어의 순서를 고려하지 않는 부분을 개선

### 문자 단위 N-Gram

In [62]:
ngram_sentence = '짜장면짬뽕해물짬뽕사람마다좋아하시는게다달라요'
[word[:3] for word in ([ngram_sentence[i:] for i in range(len(ngram_sentence))])]

['짜장면',
 '장면짬',
 '면짬뽕',
 '짬뽕해',
 '뽕해물',
 '해물짬',
 '물짬뽕',
 '짬뽕사',
 '뽕사람',
 '사람마',
 '람마다',
 '마다좋',
 '다좋아',
 '좋아하',
 '아하시',
 '하시는',
 '시는게',
 '는게다',
 '게다달',
 '다달라',
 '달라요',
 '라요',
 '요']

In [66]:
parsedSentenceArray = [word[0] for word in twitter.pos('짜장면짬뽕해물짬뽕사람마다좋아하시는게다달라요')]
print(parsedSentenceArray, '\n=======================')
for grams in ngrams(parsedSentenceArray, 2):
    print(grams, end=' ')

['짜장면', '짬뽕', '해물짬뽕', '사람', '마다', '좋', '아하', '시', '는', '게다', '달라', '요'] 
('짜장면', '짬뽕') ('짬뽕', '해물짬뽕') ('해물짬뽕', '사람') ('사람', '마다') ('마다', '좋') ('좋', '아하') ('아하', '시') ('시', '는') ('는', '게다') ('게다', '달라') ('달라', '요') 