# NLP Preprocessing

In [1]:
import warnings
warnings.filterwarnings('ignore')

# I. Tokenization

> ## 1) 영어: NLTK(Natural Language ToolKit)

- 전처리에 필요한 데이터를 다운로드하여 사용
  - nltk.download('punkt') -> 마침표(.), 개행문자(\n) 등의 정보 다운로드

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

> ## (1) 문장 토큰화: sent_tokenize( )

- 'sentences' String 정의

In [3]:
sentences = 'The X-Files is an American science fiction drama television series \
created by Chris Carter. \
The original television series aired from September 10, 1993 \
to May 19, 2002 on Fox. \
The program spanned nine seasons, with 202 episodes.'

In [4]:
sentences

'The X-Files is an American science fiction drama television series created by Chris Carter. The original television series aired from September 10, 1993 to May 19, 2002 on Fox. The program spanned nine seasons, with 202 episodes.'

- 결과 확인

In [5]:
from nltk import sent_tokenize

sent_tokenize(sentences)

['The X-Files is an American science fiction drama television series created by Chris Carter.',
 'The original television series aired from September 10, 1993 to May 19, 2002 on Fox.',
 'The program spanned nine seasons, with 202 episodes.']

> ## (2) 단어 토큰화: word_tokenize( )

- 'text' String 정의


In [6]:
text = 'The truth is out there'

In [7]:
text

'The truth is out there'

- 결과 확인

In [8]:
from nltk.tokenize import word_tokenize

word_tokenize(text)

['The', 'truth', 'is', 'out', 'there']

> ## (3) 단어 품사(Part Of Speech) 태깅: pos_tag( )

- 품사 태깅 정보 다운로드

In [9]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

- 결과 확인

In [10]:
from nltk.tag import pos_tag

x = word_tokenize(text)
pos_tag(x)

[('The', 'DT'), ('truth', 'NN'), ('is', 'VBZ'), ('out', 'RP'), ('there', 'RB')]

# POS
CC coordinating conjunction (등위 접속사)

CD cardinal digit (기수)

DT determiner (한정사)

POS tag list:

EX existential there (존재 구문) (like: "there is" ... think of it like "there exists")

FW foreign word (외래어)

IN preposition/subordinating conjunction (접속사/종속 접속사)

JJ adjective 'big' (형용사)

JJR adjective, comparative 'bigger' (형용사, 비교급)

JJS adjective, superlative 'biggest' (형용사, 최상급)

LS list marker (목록 표시, 1), 2), i, ii 등)

MD modal could, will (조동사)

NN noun, singular 'desk' (명사 단수)

NNS noun plural 'desks' (명사 복수)

NNP proper noun, singular 'Harrison' (고유명사, 단수)

NNPS proper noun, plural 'Americans' (고유명사, 복수)

PDT predeterminer 'all the kids' (전치 한정사)

POS possessive ending parent's (소유격 말어미)

PRP personal pronoun I, he, she (인칭대명사)

PRP$ possessive pronoun my, his, hers (소유격대명사)

RB adverb very, silently (부사)

RBR adverb, comparative better (부사, 비교급)

RBS adverb, superlative best (부사, 최상급)

RP particle give up (소사)

TO to go 'to' the store. (전치사 to)

UH interjection errrrrrrrm (감탄사)

VB verb, base form take (동사)

VBD verb, past tense took (동사, 과거시제)

VBG verb, gerund/present participle taking (현재분사)

VBN verb, past participle taken (과거분사)

VBP verb, sing. present, non-3d take (동사, 단수, 현재, 비3인칭)

VBZ verb, 3rd person sing. present takes (동사, 3인칭 단수, 현재)

WDT wh-determiner which (관계한정사)

WP wh-pronoun who, what (관계대명사)

WP$ possessive wh-pronoun whose (소유격 관계대명사)

WRB wh-abverb where, when (관계부사)



> ## (4) Stop Words

- 문법의 특성으로 존재하지만 문맥적으로 의미가 없는 단어
  - 'stopwords' 정보 다운로드

In [11]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

- 'English' Stop Words 정보 확인
  - 개수 및 내용 확인

In [14]:
print('English stop words : ', len(nltk.corpus.stopwords.words('english')))

print(nltk.corpus.stopwords.words('english'))

English stop words :  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own

- tokenize_text( ) 정의
  - 여러개의 문장별로 단어 토큰을 생성하는 함수 정의

In [18]:
from nltk import word_tokenize, sent_tokenize
def tokenize_text(doc):
    sentences = sent_tokenize(doc)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

- 문장별 단어 토큰화 수행

In [19]:
word_tokens = tokenize_text(sentences)

- 문장별 단어 토큰화 결과 확인

In [20]:
for sent in word_tokens:
    print(sent)

['The', 'X-Files', 'is', 'an', 'American', 'science', 'fiction', 'drama', 'television', 'series', 'created', 'by', 'Chris', 'Carter', '.']
['The', 'original', 'television', 'series', 'aired', 'from', 'September', '10', ',', '1993', 'to', 'May', '19', ',', '2002', 'on', 'Fox', '.']
['The', 'program', 'spanned', 'nine', 'seasons', ',', 'with', '202', 'episodes', '.']


- Stop Words 제거

In [23]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered_words = []

    for word in sentence:
        word = word.lower()
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

- Stop Words 처리 결과

In [24]:
for sent in all_tokens:
    print(sent)

['x-files', 'american', 'science', 'fiction', 'drama', 'television', 'series', 'created', 'chris', 'carter', '.']
['original', 'television', 'series', 'aired', 'september', '10', ',', '1993', 'may', '19', ',', '2002', 'fox', '.']
['program', 'spanned', 'nine', 'seasons', ',', '202', 'episodes', '.']


> ## (5) Stemming(어간 추출)

- 변화된 단어의 원형화 처리
  - work
  - amuse
  - happy
  - fancy

In [26]:
from nltk.stem import LancasterStemmer

stemmer = LancasterStemmer()

- 결과 확인

In [27]:
print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


> ## (6) Lemmatization(표제어 추출)

- 변화된 단어의 원형화 처리
  - Stemming 보다 정확한 처리 가능
  - '품사'를 지정하여 사용

In [28]:
import nltk

nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

- 'v' 동사, 'a' 형용사

In [29]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()

> ## 2) 한국어: KoNLPy

> ## (1) KoNLPy 패키지 설치

In [30]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m55.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp39-cp39-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m33.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


> ## (2) Okt 형태소 분석기(Open Korea Text, Twitter)

- 형태소(Morpheme)

In [31]:
from konlpy.tag import Okt

- 토큰화 : okt.morphs( )

In [33]:
okt = Okt()
print(okt.morphs('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

['지난', '몇', '달', '간', '전', '세계', '모든', '사람', '은', '코로나', '19', '로', '인해', '전례', '없는', '고통', '을', '겪으며', '다양한', '방식', '으로', '심각하게', '피해', '를', '겪었습니다', '.']


- 품사 태깅 : okt.pos( )

In [34]:
print(okt.pos('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

[('지난', 'Noun'), ('몇', 'Noun'), ('달', 'Noun'), ('간', 'Suffix'), ('전', 'Noun'), ('세계', 'Noun'), ('모든', 'Noun'), ('사람', 'Noun'), ('은', 'Josa'), ('코로나', 'Noun'), ('19', 'Number'), ('로', 'Noun'), ('인해', 'Adjective'), ('전례', 'Noun'), ('없는', 'Adjective'), ('고통', 'Noun'), ('을', 'Josa'), ('겪으며', 'Verb'), ('다양한', 'Adjective'), ('방식', 'Noun'), ('으로', 'Josa'), ('심각하게', 'Adjective'), ('피해', 'Noun'), ('를', 'Josa'), ('겪었습니다', 'Verb'), ('.', 'Punctuation')]


- 명사 추출 : okt.nouns( )

In [35]:
print(okt.nouns('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

['지난', '몇', '달', '전', '세계', '모든', '사람', '코로나', '로', '전례', '고통', '방식', '피해']


> ## (3) Kkma 형태소 분석기

- 형태소(Morpheme)

In [36]:
from konlpy.tag import Kkma

- 토큰화 : kkma.morphs( )

In [37]:
kkma = Kkma()

print(kkma.morphs('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

['지나', 'ㄴ', '몇', '달', '간', '전', '세계', '모든', '사람', '은', '코로나', '19', '로', '인하', '어', '전례', '없', '는', '고통', '을', '겪', '으며', '다양', '하', 'ㄴ', '방식', '으로', '심각', '하', '게', '피해', '를', '겪', '었', '습니다', '.']


- 품사 태깅 : kkma.pos( )

In [38]:
print(kkma.pos('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

[('지나', 'VV'), ('ㄴ', 'ETD'), ('몇', 'MDT'), ('달', 'NNG'), ('간', 'NNB'), ('전', 'NNG'), ('세계', 'NNG'), ('모든', 'MDT'), ('사람', 'NNG'), ('은', 'JX'), ('코로나', 'NNG'), ('19', 'NR'), ('로', 'JKM'), ('인하', 'VV'), ('어', 'ECS'), ('전례', 'NNG'), ('없', 'VA'), ('는', 'ETD'), ('고통', 'NNG'), ('을', 'JKO'), ('겪', 'VV'), ('으며', 'ECE'), ('다양', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('방식', 'NNG'), ('으로', 'JKM'), ('심각', 'XR'), ('하', 'XSA'), ('게', 'ECD'), ('피해', 'NNG'), ('를', 'JKO'), ('겪', 'VV'), ('었', 'EPT'), ('습니다', 'EFN'), ('.', 'SF')]


- 명사 추출 : kkma.nouns( )

In [39]:
print(kkma.nouns('지난 몇 달간 전 세계 모든 사람은 코로나19로 인해 \
전례 없는 고통을 겪으며 다양한 방식으로 심각하게 피해를 겪었습니다.'))

['달', '달간', '간', '전', '세계', '사람', '코로나', '코로나19', '19', '전례', '고통', '다양', '방식', '피해']


# II. Encoding(Vectorization)

>## 1) Encoding with TensorFlow

> ## (1) Import Package

In [40]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

> ##  (2) 실습 문장

In [41]:
sentence = '가지마라 가지마라 그녀는 위험해 매력이 너무 넘치는 Girl \
하지마라 하지마라 사랑은 위험해 \
내가 내가 내가 먼저 네게 네게 네게 빠져 빠져 빠져 버려 baby'

- 결과 확인

In [42]:
sentence

'가지마라 가지마라 그녀는 위험해 매력이 너무 넘치는 Girl 하지마라 하지마라 사랑은 위험해 내가 내가 내가 먼저 네게 네게 네게 빠져 빠져 빠져 버려 baby'

> ## 2) 정수 인코딩(Integer Encoding)

> ## (1) Tokenizer.fit_on_texts( )

- Tokenization & Integer Indexing

In [43]:
from tensorflow.keras.preprocessing.text import Tokenizer

tknz = Tokenizer()
tknz.fit_on_texts([sentence])

- 결과 확인

In [44]:
tknz.word_index

{'내가': 1,
 '네게': 2,
 '빠져': 3,
 '가지마라': 4,
 '위험해': 5,
 '하지마라': 6,
 '그녀는': 7,
 '매력이': 8,
 '너무': 9,
 '넘치는': 10,
 'girl': 11,
 '사랑은': 12,
 '먼저': 13,
 '버려': 14,
 'baby': 15}

> ## (2) Tokenizer.texts_to_sequences( )

- Integer Encoding

In [45]:
LBE = tknz.texts_to_sequences([sentence])

- 결과 확인

In [46]:
print(LBE)

[[4, 4, 7, 5, 8, 9, 10, 11, 6, 6, 12, 5, 1, 1, 1, 13, 2, 2, 2, 3, 3, 3, 14, 15]]


> ## 3) 원-핫 인코딩(One-Hot Encoding)

> ## (1) to_categorical( )

- One-Hot Encoding

In [47]:
from tensorflow.keras.utils import to_categorical

OHE = to_categorical(LBE)

- 결과 확인

In [48]:
print(OHE)

[[[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 