# NLP Preprocessing

In [1]:
import warnings
warnings.filterwarnings('ignore')

# I. Tokenization

> ## 1) 영어 : NLTK(Natural Language ToolKit)

In [2]:
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

> ### (1) 문장 토큰화 : sent_tokenize( )

In [3]:
from nltk import sent_tokenize

sentences = 'The X-Files is an American science fiction drama television series \
created by Chris Carter. \
             The original television series aired from September 10, 1993 \
to May 19, 2002 on Fox. \
             The program spanned nine seasons, with 202 episodes.'

sent_tokenize(sentences)

['The X-Files is an American science fiction drama television series created by Chris Carter.',
 'The original television series aired from September 10, 1993 to May 19, 2002 on Fox.',
 'The program spanned nine seasons, with 202 episodes.']

> ### (2) 단어 토큰화 : word_tokenize( )

In [4]:
from nltk.tokenize import word_tokenize

In [5]:
text = 'The truth is out there.'

word_tokenize(text)

['The', 'truth', 'is', 'out', 'there', '.']

> ### (3) 단어 품사(Part Of Speech) 태깅 : pos_tag( )

In [6]:
from nltk.tag import pos_tag

In [7]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [8]:
x = word_tokenize(text)

pos_tag(x)

[('The', 'DT'),
 ('truth', 'NN'),
 ('is', 'VBZ'),
 ('out', 'RP'),
 ('there', 'RB'),
 ('.', '.')]

> ### (4) Stop Words

* Import Package and Download 'stopwords'

In [9]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

* 'English' Stop Words

In [10]:
print('English stop words :',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

English stop words : 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


* tokenize_text( ) 정의
 - 여러개의 문장별로 단어 토큰 생성 함수 정의

In [11]:
from nltk import word_tokenize, sent_tokenize

def tokenize_text(doc):
    sentences = sent_tokenize(doc)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

* 문장별 단어 토큰화 수행

In [12]:
word_tokens = tokenize_text(sentences)

print(type(word_tokens),len(word_tokens))

<class 'list'> 3


* 문장별 단어 토큰화 결과 확인

In [13]:
print(word_tokens)

[['The', 'X-Files', 'is', 'an', 'American', 'science', 'fiction', 'drama', 'television', 'series', 'created', 'by', 'Chris', 'Carter', '.'], ['The', 'original', 'television', 'series', 'aired', 'from', 'September', '10', ',', '1993', 'to', 'May', '19', ',', '2002', 'on', 'Fox', '.'], ['The', 'program', 'spanned', 'nine', 'seasons', ',', 'with', '202', 'episodes', '.']]


* Stop Words 제거

In [14]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered_words = []

    for word in sentence:
        word = word.lower()
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

* Stop Words 처리 결과

In [15]:
print(all_tokens)

[['x-files', 'american', 'science', 'fiction', 'drama', 'television', 'series', 'created', 'chris', 'carter', '.'], ['original', 'television', 'series', 'aired', 'september', '10', ',', '1993', 'may', '19', ',', '2002', 'fox', '.'], ['program', 'spanned', 'nine', 'seasons', ',', '202', 'episodes', '.']]


> ### (5) Stemming(어간 추출)

* 변화된 단어의 원형으로 처리
 - work
 - amuse
 - happy
 - fancy

In [16]:
from nltk.stem import LancasterStemmer

stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


> ### (6) Lemmatization(표제어 추출)

* 변화된 단어의 원형을 처리
 - Stemming 보다 정확한 처리 가능
 - '품사'를 지정하여 사용

In [17]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

* 'v' 동사, 'a' 형용사

In [18]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()

print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), \
      lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

amuse amuse amuse
happy happy
fancy fancy


> ## 2) 한국어 : KoNLPy

> ### (1) KoNLPy 패키지 설치

In [25]:
!pip install konlpy



> ### (2) Okt 형태소 분석기(Open Korea Text, Twitter)

* 형태소(Morpheme)

In [26]:
from konlpy.tag import Okt

AttributeError: module 'tweepy' has no attribute 'StreamListener'

* 토큰화 : okt.morphs( )

In [21]:
okt = Okt()

print(okt.morphs('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

NameError: name 'Okt' is not defined

* 품사 태깅 : okt.pos( )

In [None]:
print(okt.pos('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

* 명사 추출 : okt.nouns( )

In [None]:
print(okt.nouns('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

> ### (3) Kkma 형태소 분석기

* 형태소(Morpheme)

In [None]:
from konlpy.tag import Kkma

* 토큰화 : kkma.morphs( )

In [None]:
kkma = Kkma()  

print(kkma.morphs('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

* 품사 태깅 : kkma.pos( )

In [None]:
print(kkma.pos('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

* 명사 추출 : kkma.nouns( )

In [None]:
print(kkma.nouns('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

# II. Encoding

> ## 1) Encoding with Keras

> ### (1) Import Package

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

> ### (2) 실습 문장

In [None]:
sentence = '가지마라 가지마라 그녀는 위험해 매력이 너무 넘치는 Girl \
하지마라 하지마라 사랑은 위험해 \
내가 내가 내가 먼저 네게 네게 네게 빠져 빠져 빠져 버려 baby'

> ## 2) 정수 인코딩(Integer Encoding)

> ### (1) Tokenizer.fit_on_texts( )

* Tokenization & Integer Indexing

In [None]:
from keras.preprocessing.text import Tokenizer

tknz = Tokenizer()
tknz.fit_on_texts([sentence])

In [None]:
print(tknz.word_index)

> ### (2) Tokenizer.texts_to_sequences( )

* Integer Encoding

In [None]:
LBE = tknz.texts_to_sequences([sentence])

In [None]:
print(LBE)

> ## 3) 원-핫 인코딩(One-Hot Encoding)

> ### (1) to_categorical( )

* One-Hot Encoding

In [None]:
from tensorflow.keras.utils import to_categorical

OHE = to_categorical(LBE)

In [None]:
print(OHE)

# 
# 
# 
# The End
# 
# 
# 