# 텍스트 전처리(Preprocessing)

### 1. 토큰화(Tokenization)

In [2]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

#### 1) 단어 토큰화

In [3]:
sample = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [4]:
from nltk.tokenize import word_tokenize
print(word_tokenize(sample))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [5]:
from nltk.tokenize import WordPunctTokenizer
wpt = WordPunctTokenizer()    # 객체 생성해서 사용해야 함
print(wpt.tokenize(sample))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [6]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence(sample))
# 기본적으로 모든 알파벳을 소문자로 바꾸고 마침표나 컴마, 느낌표 등의 구두점을 제거

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [7]:
from nltk.tokenize import TreebankWordTokenizer
tok = TreebankWordTokenizer()
print(tok.tokenize(sample))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### 2) 문장 토큰화

In [8]:
from nltk.tokenize import sent_tokenize # 문장 구별
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))  # 문장 단위로 구성된 리스트 생성됨

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [9]:
for sentence in sent_tokenize(text):
    print(word_tokenize(sentence))

['His', 'barber', 'kept', 'his', 'word', '.']
['But', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', '.']
['Finally', ',', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', '.']
['He', 'dug', 'a', 'hole', 'in', 'the', 'midst', 'of', 'some', 'reeds', '.']
['He', 'looked', 'about', ',', 'to', 'make', 'sure', 'no', 'one', 'was', 'near', '.']


In [10]:
text1 = "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."
print(sent_tokenize(text1))

["Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."]


- 한글 문장 토큰화

In [11]:
# KSS(Korean Sentence Splitter) 설치
# !pip install kss

In [12]:
# KSS(Korean Sentence Splitter) 설치 시 메세지를 보고싶지 않을 때
!pip install kss > /dev/null

In [13]:
import kss 
text2 = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print(kss.split_sentences(text2))

[Korean Sentence Splitter]: Initializing Pynori...


['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


한국어 토큰화에서는 **형태소(morpheme)** 개념을 반드시 이해해야 한다. 
- 형태소(morpheme)란? **뜻을 가진 가장 작은 말의 단위**

- 형태소 종류
    - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 
        - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
    - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 
        - 접사, 어미, 조사, 어간를 말한다.

- ex) 문장 : `에디가 책을 읽었다`
    - 띄어쓰기 단위 토큰화

    `['에디가', '책을', '읽었다']`

    - 형태소 단위 분해
        - 자립 형태소 : `에디, 책`
        - 의존 형태소 : `-가, -을, 읽-, -었, -다`

#### 3) 품사 (POS : Part-of-speech) 태깅

In [14]:
text3 = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text3))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [16]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

- Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사

In [17]:
from nltk.tag import pos_tag
pos_tag(word_tokenize(text3))

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- 한글 (KoNLPy: 코엔엘파이)

In [18]:
# KoNLPy 설치
!pip install Konlpy

Collecting Konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 5.6 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 58.4 MB/s 
Installing collected packages: JPype1, Konlpy
Successfully installed JPype1-1.3.0 Konlpy-0.6.0


- 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기
    - Okt(Open Korea Text)
    - 메캅(Mecab) _ 빠르나 리눅스에서만 사용 가능
    - 코모란(Komoran)
    - 한나눔(Hannanum)
    - 꼬꼬마(Kkma)

##### Okt (Open Korean Text)

In [19]:
# 형태소 분석
from konlpy.tag import Okt
okt = Okt()
text4 = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
okt.morphs(text4)   # 벡터화 과정을 거쳐 숫자로 인코딩 해야할 대상

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

In [20]:
okt.morphs(text4, stem=True)    # 동사 & 형용사 원형 도출

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가보다']

In [22]:
# 품사 부착
okt.pos(text4)

[('열심히', 'Adverb'),
 ('코딩', 'Noun'),
 ('한', 'Josa'),
 ('당신', 'Noun'),
 (',', 'Punctuation'),
 ('연휴', 'Noun'),
 ('에는', 'Josa'),
 ('여행', 'Noun'),
 ('을', 'Josa'),
 ('가봐요', 'Verb')]

In [23]:
# 명사 추출
okt.nouns(text4)    # word cloud 생성 시 필요한 과정

['코딩', '당신', '연휴', '여행']

##### Kklma(꼬꼬마)

In [24]:
from konlpy.tag import Kkma
kkma = Kkma()
kkma.morphs(text4)

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

In [25]:
kkma.pos(text4)

[('열심히', 'MAG'),
 ('코딩', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('당신', 'NP'),
 (',', 'SP'),
 ('연휴', 'NNG'),
 ('에', 'JKM'),
 ('는', 'JX'),
 ('여행', 'NNG'),
 ('을', 'JKO'),
 ('가보', 'VV'),
 ('아요', 'EFN')]

In [26]:
kkma.nouns(text4)

['코딩', '당신', '연휴', '여행']

### 2. 정제(Cleaning)와 정규화(Normalization)

- 정제(cleaning) : 갖고 있는 코퍼스(corpus)로부터 노이즈 데이터를 제거한다.
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

#### < 과정 >
1. 규칙에 기반한 표기가 다른 단어들의 통합
    - 어간 추출(stemming)
    - 표제어 추출(lemmatization)
2. 대, 소문자 통합
3. 불필요한 단어 제거
    - 등장 빈도가 적은 단어
    - 길이가 짧은 단어
        - 영어 단어의 평균 길이는 6-7 정도이며, 한국어 단어의 평균 길이는 2-3 정도로 추정
4. 정규 표현식(Regular Expression)

In [35]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

In [36]:
# 단어 토큰화 한 후 길이가 2보다 큰 단어만 추출
[word for word in word_tokenize(text) if len(word) > 2]

['was',
 'wondering',
 'anyone',
 'out',
 'there',
 'could',
 'enlighten',
 'this',
 'car']

In [37]:
clean_text = ' '.join([word for word in word_tokenize(text) if len(word) > 2])
clean_text

'was wondering anyone out there could enlighten this car'

### 3. 어간 추출(Stemming) 및 표제어 추출(Lemmatization)

#### 1) 표제어 추출(Lemmatization)

- 표제어(Lemma)는 한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미를 갖는다. 표제어 추출은 단어들로부터 표제어를 찾아가는 과정이다. 
- 표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단한다.

In [38]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [39]:
from nltk.stem import WordNetLemmatizer # 클래스
lemma = WordNetLemmatizer()             # 객체 생성

In [41]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([lemma.lemmatize(word) for word in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [42]:
# ('단어', '품사')
lemma.lemmatize('lives', 'v'), lemma.lemmatize('dies', 'v'), lemma.lemmatize('watched', 'v'), lemma.lemmatize('has', 'v')

('live', 'die', 'watch', 'have')

In [43]:
lemma.lemmatize('lives', 'v'), lemma.lemmatize('lives', 'n')

('live', 'life')

#### 2) 어간 추출(Stemming)

In [44]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()

text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

In [46]:
# 어간 추출 전
print(word_tokenize(text)) # 단어 단위로 분리

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [48]:
# 어간 추출 후 
print([ps.stem(word) for word in word_tokenize(text)])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


- ~ALIZE → AL
- ~ANCE → 제거
- ~ICAL → IC

In [50]:
words = ['formalize', 'allowance', 'electricical']
print([ps.stem(word) for word in words])

['formal', 'allow', 'electric']


In [51]:
# Poter Stemmer
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([ps.stem(word) for word in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [52]:
# Lancaster Stemmer
from nltk.stem import LancasterStemmer
ls = LancasterStemmer()
print([ls.stem(word) for word in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


- 한국어

한국어는 아래의 표와 같이 5언 9품사의 구조를 가지고 있다.

```
언	    품사
체언	  명사, 대명사, 수사
수식언	관형사, 부사
관계언	조사
독립언	감탄사
용언	  동사, 형용사
```

**이 중 용언에 해당되는 '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성된다.**