# NLP Preprocessing : 자연어 전처리



# 1. Tokenization

> ## 1) 영어 : NLTK(Natural Language Toolkit)

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

> ### (1) 문자 토큰화 : sent_tokenize( )

In [None]:
from nltk import sent_tokenize

sentences = 'The X-Files is an American science fiction dram television series \
created by Chris Carter. \
The original television series aired from September 10, 1993 \
to May 19, 2002 on Fox. \
The program spanned nine seasons, with 202 episodes.'

sent_tokenize(sentences)

['The X-Files is an American science fiction dram television series created by Chris Carter.',
 'The original television series aired from September 10, 1993 to May 19, 2002 on Fox.',
 'The program spanned nine seasons, with 202 episodes.']

> ### (2) 단어 토큰화 : word_tokenize( )

In [None]:
from nltk.tokenize import word_tokenize

In [None]:
text = 'The truth is out there.'
word_tokenize(text)

['The', 'truth', 'is', 'out', 'there', '.']

> ### (3) 단어 품사(Part Of Speech) 태깅 : pos_tag( )

In [None]:
from nltk.tag import pos_tag

In [None]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [None]:
x = word_tokenize(text)

pos_tag(x)

[('The', 'DT'),
 ('truth', 'NN'),
 ('is', 'VBZ'),
 ('out', 'RP'),
 ('there', 'RB'),
 ('.', '.')]

> ### (4) Stop Words : 불용어(자주 등장하지만 큰 의미가 없는 단어들)
ex) 조사, 접미사, I, my, me, over,...

- Import Package and Download 'stopwords'

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

- 'English' Stop Words

In [None]:
print('English stop words : ', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

English stop words :  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


- tokenize_text( ) 정의
   - 여러 개의 문장별로 단어 토큰 생성 함수 정의

In [None]:
from nltk import word_tokenize, sent_tokenize

def tokenize_text(doc):
    sentences = sent_tokenize(doc)  # doc(문장)를 문장별로 토큰화한 것이 sentences
    word_tokens = [word_tokenize(sentence) for sentence in sentences] # sentences의 모든 문장들에 있는 단어를 토큰화 한 것이 word_tokens 
    return word_tokens

- 문장별 단어 토큰화 수행

In [None]:
word_tokens = tokenize_text(sentences)
print(type(word_tokens), len(word_tokens))  # 문장 3개

<class 'list'> 3


- 문장별 단어 토큰화 결과 확인

In [None]:
print(word_tokens) # 모든 문장의 모든 단어들

[['The', 'X-Files', 'is', 'an', 'American', 'science', 'fiction', 'dram', 'television', 'series', 'created', 'by', 'Chris', 'Carter', '.'], ['The', 'original', 'television', 'series', 'aired', 'from', 'September', '10', ',', '1993', 'to', 'May', '19', ',', '2002', 'on', 'Fox', '.'], ['The', 'program', 'spanned', 'nine', 'seasons', ',', 'with', '202', 'episodes', '.']]


- Stop Words 제거

In [None]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered_words = []

    for word in sentence:
        word = word.lower()
        if word not in stopwords:
           filtered_words.append(word)   # 단어가 불용어가 아니면, filtered_words에 추가
    all_tokens.append(filtered_words)    # 걸러진 filtered_words는 all_tokens에 추가

- Stop Words 처리 결과

In [None]:
print(all_tokens)  # 불용어가 아닌 단어들

[['x-files', 'american', 'science', 'fiction', 'dram', 'television', 'series', 'created', 'chris', 'carter', '.'], ['original', 'television', 'series', 'aired', 'september', '10', ',', '1993', 'may', '19', ',', '2002', 'fox', '.'], ['program', 'spanned', 'nine', 'seasons', ',', '202', 'episodes', '.']]


> ### (5) Stemming(어간 추출) : 접사 제거, 색인 크기를 줄이며, 검색 정확성을 높인다.

- Stemming Algorithm : PorterStemmer, LancasterStemmer

- 변화된 단어의 원형으로 처리
   - work
   - amuse
   - happy
   - fancy

In [None]:
from nltk.stem import LancasterStemmer

stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

# stemmer.stem('단어') : 괄호 안 단어의 원형을 추출

work work work
amus amus amus
happy happiest
fant fanciest


> ### (6) Lemmatization(표제어 추출)

- 변화된 단어의 원형을 처리
   - Stemming 보다 정확한 처리 가능
   - '품사'를 지정하여 사용
   - ex) am, are, is의 표제어는 be

In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

- 'v' = 동사, 'a' = 형용사

In [None]:
from nltk.stem import WordNetLemmatizer
lemma = WordNetLemmatizer()

print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), \
      lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

# lemma.lemmatize('단어', '품사') : 단어의 뿌리(원형)으로 출력

amuse amuse amuse
happy happy
fancy fancy


> ## 2) 한국어 : KoNLPy (코엔엘파이)

> ### (1) KoNLPy 패키지 설치

In [None]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.4MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 9.9MB/s 
Collecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/cd/a5/9781e2ef4ca92d09912c4794642c1653aea7607f473e156cf4d423a881a1/JPype1-1.2.1-cp37-cp37m-manylinux2010_x86_64.whl (457kB)
[K     |████████████████████████████████| 460kB 45.4MB/s 
Installing collected packages: beautiful

> ### (2) Okt 형태소 분석기(Open Korea Text, Twitter)

- 형태소(Morpheme)

In [None]:
from konlpy.tag import Okt

- 토큰화 : okt.morphs( ) 

In [None]:
okt = Okt()

print(okt.morphs('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

['지난', '몇', '달', '간', '전', '세계', '모든', '사람', '은', '코로나', '19', '로', '인해', '전례', '없는', '고통', '을', '겪으며', '다양한', '방식', '으로', '심각하게', '피해', '를', '겪었습니다', '.']


- 품사 태깅 : okt.pos( )

In [None]:
print(okt.pos('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

[('지난', 'Noun'), ('몇', 'Noun'), ('달', 'Noun'), ('간', 'Suffix'), ('전', 'Noun'), ('세계', 'Noun'), ('모든', 'Noun'), ('사람', 'Noun'), ('은', 'Josa'), ('코로나', 'Noun'), ('19', 'Number'), ('로', 'Noun'), ('인해', 'Adjective'), ('전례', 'Noun'), ('없는', 'Adjective'), ('고통', 'Noun'), ('을', 'Josa'), ('겪으며', 'Verb'), ('다양한', 'Adjective'), ('방식', 'Noun'), ('으로', 'Josa'), ('심각하게', 'Adjective'), ('피해', 'Noun'), ('를', 'Josa'), ('겪었습니다', 'Verb'), ('.', 'Punctuation')]


- 명사만 추출 : okt.nouns( ) 
   

In [None]:
print(okt.nouns('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

['지난', '몇', '달', '전', '세계', '모든', '사람', '코로나', '로', '전례', '고통', '방식', '피해']


> ### (3) Kkma(꼬꼬마) 형태소 분석기 

- 형태소(Morpheme)

In [None]:
from konlpy.tag import Kkma

- 토큰화 : kkma.morphs( )

In [None]:
kkma = Kkma()

print(kkma.pos('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

# VV = 동사, ETD = 관형형 전성 어미, ...

[('지나', 'VV'), ('ㄴ', 'ETD'), ('몇', 'MDT'), ('달', 'NNG'), ('간', 'NNB'), ('전', 'NNG'), ('세계', 'NNG'), ('모든', 'MDT'), ('사람', 'NNG'), ('은', 'JX'), ('코로나', 'NNG'), ('19', 'NR'), ('로', 'JKM'), ('인하', 'VV'), ('어', 'ECS'), ('전례', 'NNG'), ('없', 'VA'), ('는', 'ETD'), ('고통', 'NNG'), ('을', 'JKO'), ('겪', 'VV'), ('으며', 'ECE'), ('다양', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('방식', 'NNG'), ('으로', 'JKM'), ('심각', 'XR'), ('하', 'XSA'), ('게', 'ECD'), ('피해', 'NNG'), ('를', 'JKO'), ('겪', 'VV'), ('었', 'EPT'), ('습니다', 'EFN'), ('.', 'SF')]


- 품사 태깅 : kkma.pos( )

In [None]:
print(kkma.nouns('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

['달', '달간', '간', '전', '세계', '사람', '코로나', '코로나19', '19', '전례', '고통', '다양', '방식', '피해']


# 2. Encoding

> ## 1) Encoding with Keras

> ### (1) Import Package

In [None]:
from keras.preprocessing.text import Tokenizer
from keras.utils import to_categorical

> ### (2) 실습 문장

In [None]:
sentence = '가지마라 가지마라 그녀는 위험해 매력이 너무 넘치는 Girl \
하지마라 하지마라 사랑은 위험해 \
내가 내가 내가 먼저 네게 네게 네게 빠져 빠져 빠져 버려 baby'

> ### (2) 정수 인코딩(Integer Encoding)

> ### (1) Tokenizer.fit_on_texts( )

- Tokenization & Integer Indexing

In [None]:
from keras.preprocessing.text import Tokenizer

tknz = Tokenizer()
tknz.fit_on_texts([sentence])

In [None]:
print(tknz.word_index)

{'the': 1, 'program': 2, 'spanned': 3, 'nine': 4, 'seasons': 5, ',': 6, 'with': 7, '202': 8, 'episodes': 9, '.': 10}


> ### (2) Tokenizer.texts_to_sequences( )

- Integer Encoding

In [None]:
lbe = tknz.texts_to_sequences([sentence])


In [None]:
print(lbe)

[[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]]


> ## 3) 원-핫 인코딩(One-Hot Encoding)

> ### (1) to_categorical( )

- One-Hot Encoding

In [None]:
from keras.utils import to_categorical

ohe = to_categorical(lbe) # 1 ~ 10까지 표현

In [None]:
print(ohe)

[[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]]


###
#The End
###