## 01. 자연어 전처리 이해하기


### 1. 토큰화 (Tokenization)

주어진 텍스트를 단어 또는 문자 단위로 자르는 것.
영어에서 Tokenization을 지원하는 대표적인 도구로 spaCy와 NLTK가 있음.
물론, 파이썬 기본함수인 split을 사용해도 좋음.

우선 영어로 먼저 토큰화 실습을 해보자.

en_text = "A Dog Run back corner near spare bedrooms"

### 1) spaCy 사용하기

In [33]:
# !pip install -U spacy
#!python download en_core_web_lg
#!python download en_core_web_sm

import spacy

en_text = "A Dog Run back corner near spare bedrooms"
spacy_en = spacy.load("en_core_web_sm")

def tokenize(en_text):
    return [tok.text for tok in spacy_en.tokenizer(en_text)]

print(tokenize(en_text))

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


### 2) NLTK 사용하기 

In [35]:
!pip install nltk



In [36]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ImedisynRnD2\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [37]:
from nltk.tokenize import word_tokenize
print(word_tokenize(en_text))

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


### 3. 띄어쓰기로 토큰화

In [38]:
print(en_text.split())

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


### 4. 한국어 띄어쓰기 토큰화

영어는 띄어쓰기 단위로 토큰화를 해도 꽤 명확한 구분이 되지만, 한국어의 경우 조사, 접사 등으로 인해 단순 띄어쓰기로 나누면 같은 단어가 다른 단어로 인식되면서 단어 집합(Vocabulary)의 크기가 불필요하게 커진다.

- 단어 집합(Vocabulary)란 중복을 제거한 텍스트의 총 단어의 집합(set)을 의미한다. 

예를 들어, 단어 '사과'가 많이 들어간 어떤 문장에 띄어쓰기 토큰화를 한다면 '사과가', '사과를', '사과의'과 같은 식으로 같은 단어지만 조사에 의해 다른 단어로 인식되는 경우가 생긴다.

예제를 보면서 이해해보자.

In [40]:
kor_text = "사과의 놀라운 효능이라는 글을 봤어. 그래서 오늘 사과를 먹으려고 했는데 사과가 썩어서 슈퍼에 가서 사과랑 오렌지 사왔어"
print(kor_text.split())

['사과의', '놀라운', '효능이라는', '글을', '봤어.', '그래서', '오늘', '사과를', '먹으려고', '했는데', '사과가', '썩어서', '슈퍼에', '가서', '사과랑', '오렌지', '사왔어']


여기서 사과의, 사과를, 사과가, 사과랑은 모두 다른 단어로 인식된다.

## 2. 단어 집합(Vocabulary) 생성

단어 집합(vocabulary)란 중복을 제거한 텍스트의 총 단어의 집합(set)을 의미한다. 우선, 실습을 위해서 깃허브에서 '네이버 영화 리뷰 분류하기' 데이터를 다운로드 해보자. 네이버 영화 리뷰 데이터는 총 20만개의 영화 리뷰를 긍정 1, 부정 0 으로 레이블링한 데이터이다.

In [51]:
# !pip install konlpy

import urllib.request
import pandas as pd
from konlpy.tag import Mecab
from nltk import FreqDist
import numpy as np
import matplotlib.pyplot as plt

In [52]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")
data = pd.read_table('ratings.txt') # 데이터프레임에 저장
data[:10]

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
5,2190435,사랑을 해본사람이라면 처음부터 끝까지 웃을수 있는영화,1
6,9279041,완전 감동입니다 다시봐도 감동,1
7,7865729,개들의 전쟁2 나오나요? 나오면 1빠로 보고 싶음,1
8,7477618,굿,1
9,9250537,바보가 아니라 병 쉰 인듯,1


In [59]:
print('전체 샘플의 수 : {}'.format(len(data)))
sample_data = data[:100] # 임의로 100개만 저장

sample_data['document'] = sample_data['document'].str.replace("[^ㄱ-ㅎ ㅏ-ㅣ 가-힣 ]","")
#한글과 공백을 제외하고 모두 제거 
sample_data[:10]

전체 샘플의 수 : 200000


  sample_data['document'] = sample_data['document'].str.replace("[^ㄱ-ㅎ ㅏ-ㅣ 가-힣 ]","")
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sample_data['document'] = sample_data['document'].str.replace("[^ㄱ-ㅎ ㅏ-ㅣ 가-힣 ]","")


Unnamed: 0,id,document,label
0,8112052,어릴때보고지금다시봐도재밌어요ㅋㅋ,1
1,8132799,디자인을배우는학생으로외국디자이너와그들이일군전통을통해발전해가는문화산업이부러웠는데사실우...,1
2,4655635,폴리스스토리시리즈는부터뉴까지버릴께하나도없음최고,1
3,9251303,와연기가진짜개쩔구나지루할거라고생각했는데몰입해서봤다그래이런게진짜영화지,1
4,10067386,안개자욱한밤하늘에떠있는초승달같은영화,1
5,2190435,사랑을해본사람이라면처음부터끝까지웃을수있는영화,1
6,9279041,완전감동입니다다시봐도감동,1
7,7865729,개들의전쟁나오나요나오면빠로보고싶음,1
8,7477618,굿,1
9,9250537,바보가아니라병쉰인듯,1
