
# 텍스트 전처리 

## 1. 토큰화 (Tokenization)


In [3]:
# 라이브러리 
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [7]:
sample = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [4]:
from nltk.tokenize import word_tokenize  
print(word_tokenize(sample))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
# # local에서 할 때 

# import nltk 
# nltk.dowload()

# # all packages에서 다운 
# - punkt 
# - stopwords

In [5]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize(sample))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [8]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence(sample))
# 얘는 name 뒤에 구두점이 없음, 소문자처리 

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 2) 문장 토큰화 

In [9]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [10]:
# Ph.D 같이 구두점이 있는 경우는 어떨까?

from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))


['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- 한글 문장 토큰화 


In [11]:
# KSS (KOREAN sentence splitter)
! pip install kss

Collecting kss
  Downloading kss-3.1.0.4.tar.gz (42.3 MB)
[K     |████████████████████████████████| 42.3 MB 46 kB/s 
[?25hCollecting emoji
  Downloading emoji-1.4.2.tar.gz (184 kB)
[K     |████████████████████████████████| 184 kB 67.1 MB/s 
[?25hBuilding wheels for collected packages: kss, emoji
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-3.1.0.4-py3-none-any.whl size=42336591 sha256=171b25018018952d6aaa4f8850eaceb967aef627b87d6bc1007b340d9bc7e631
  Stored in directory: /root/.cache/pip/wheels/94/d8/3c/b5f02f814e08c3e2f35e32ae2ac92a34c8412ed6f92ff470ce
  Building wheel for emoji (setup.py) ... [?25l[?25hdone
  Created wheel for emoji: filename=emoji-1.4.2-py3-none-any.whl size=186469 sha256=0fafbde46ff9ea0bfe4345e791b4880a13cf15d41c4007e152c17c8fecc24c75
  Stored in directory: /root/.cache/pip/wheels/e4/61/e7/2fc1ac8f306848fc66c6c013ab511f0a39ef4b1825b11363b2
Successfully built kss emoji
Installing collected packages: emoji, kss


In [12]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Kss...


['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요.', '이제 해보면 알걸요?']


## 3) 품사 태깅

In [13]:
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [15]:
 nltk.download('averaged_perceptron_tagger')
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- 한글 (KoNLPy) 

In [16]:
! pip install konlpy > /dev/null

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.3 MB/s 
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 4.8 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 61.8 MB/s 
Collecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2


In [17]:
from konlpy.tag import Okt  
okt=Okt()  
# 형태소 분석 
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [18]:
# 명사 추출 
okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

['코딩', '당신', '연휴', '여행']

In [19]:
# 품사 부착 
text = '열심히 코딩한 당신, 연휴에는 여행을 가봐요'
okt.pos(text)

[('열심히', 'Adverb'),
 ('코딩', 'Noun'),
 ('한', 'Josa'),
 ('당신', 'Noun'),
 (',', 'Punctuation'),
 ('연휴', 'Noun'),
 ('에는', 'Josa'),
 ('여행', 'Noun'),
 ('을', 'Josa'),
 ('가봐요', 'Verb')]

### 꼬꼬마 형태소 분석기

In [21]:
from konlpy.tag import Kkma 
kkma = Kkma()
kkma.morphs(text)

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

In [22]:
kkma.nouns(text)

['코딩', '당신', '연휴', '여행']

## 2. 정제 및 정규화 

- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

In [23]:
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


# 3. 어간추출 및 표제어 추출 

## 1) 표제어 추출

In [25]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [27]:
n.lemmatize('dies', 'v'), n.lemmatize('watched', 'v')

('die', 'watch')

## 2) 어간 추출

In [28]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [29]:
print([s.stem(w) for w in words]) # 

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [30]:
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [31]:
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


# 4. 불용어

In [33]:
nltk.download('stopwords')
from nltk.corpus import stopwords  
stopwords.words('english')[:10] 

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [34]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

In [37]:
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 명사가 아닌 단어 중에서 저자가 임의로 선정한 것으로 실제 의미있는 선정 기준이 아님
stop_words=stop_words.split(' ')
word_tokens = word_tokenize(example)
result = [] 
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 
# 위의 4줄은 아래의 한 줄로 대체 가능
# result=[word for word in word_tokens if not word in stop_words]

print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


In [5]:
# posix 정규표현식 
import re
re.search('[:alpha:]', '1 b C')

# 정수 인코딩 

In [6]:
# 보통 텍스트 처리하는 곳에서는 시작 번호를 1번부터 시작하는 경우가 많다. 
# 0 은 padding 같은 것 처리하기 위해서 비워두는 경우가 많음 

top5 = [('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

word_to_index = {}

i = 0 
for word, freq in top5 : 
  i += 1 
  word_to_index[word] = i 
word_to_index 

{'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

## 2) NLTK의 FreqDist 사용하기 

In [7]:
from nltk import FreqDist 
import numpy as np

In [8]:
words = ['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']

In [9]:
vocab = FreqDist(words)
vocab

FreqDist({'barber': 8,
          'crazy': 1,
          'driving': 1,
          'good': 1,
          'huge': 5,
          'keeping': 2,
          'kept': 4,
          'knew': 1,
          'mountain': 1,
          'person': 3,
          'secret': 6,
          'went': 1,
          'word': 2})

In [10]:
top5 = vocab.most_common(5)

In [11]:
top5

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [12]:
word_to_index = {word[0] : i+1 for i, word in enumerate(top5)}
word_to_index

{'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

## 2) keras의 텍스트 전처리 

In [13]:
from tensorflow.keras.preprocessing.text import Tokenizer 
tokenizer = Tokenizer()

In [16]:
sentence = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
tokenizer.fit_on_texts(sentence)
tokenizer.word_index

{'barber': 1,
 'crazy': 11,
 'driving': 10,
 'e': 15,
 'good': 8,
 'huge': 3,
 'keeping': 7,
 'kept': 4,
 'knew': 9,
 'mountain': 13,
 'n': 19,
 'o': 18,
 'p': 14,
 'person': 5,
 'r': 16,
 's': 17,
 'secret': 2,
 'went': 12,
 'word': 6}

In [17]:
tokenizer.word_counts

OrderedDict([('p', 1),
             ('e', 1),
             ('r', 1),
             ('s', 1),
             ('o', 1),
             ('n', 1),
             ('barber', 16),
             ('person', 6),
             ('good', 2),
             ('huge', 10),
             ('knew', 2),
             ('secret', 12),
             ('kept', 8),
             ('word', 4),
             ('keeping', 4),
             ('driving', 2),
             ('crazy', 2),
             ('went', 2),
             ('mountain', 2)])

In [18]:
tokenizer.texts_to_sequences(sentence)

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

# 7. 패딩

In [19]:
tokenizer.fit_on_texts(sentence) # 학습
encoded = tokenizer.texts_to_sequences(sentence)
encoded

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

In [20]:
# numpy로는 패딩을 하지 않으니 넘어가자 

from tensorflow.keras.preprocessing.sequence import pad_sequences
pad_sequences(encoded) # 결과값이 길이가 맞춰져서 나옴 이게 바로 패딩 

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [21]:
pad_sequences(encoded, padding = 'post')

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)

In [22]:
# 실전에서 많이 사용하는 방법
pad_sequences(encoded, padding = 'post', maxlen =5)

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)

# 8. one - hot encoding 

문자를 숫자로 바꿔주는 것

사과 [1,0,0,0]

배 [0,1,0,0]

복숭아 [0,0,1,0]

In [None]:
! pip install konlpy > /dev/null
from konlpy.tag import Okt
okt = Okt()
token = okt.morphs("나는 자연어 처리를 배운다")  

In [25]:
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [26]:
word_to_index = {word[0] : i for i, word in enumerate(token)}
word_to_index

{'나': 0, '는': 1, '를': 4, '배': 5, '자': 2, '처': 3}

In [31]:
from tensorflow.keras.utils import to_categorical
to_categorical(list(word_to_index.values()))

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]], dtype=float32)

In [34]:
text = "나랑 점심 먹으러 갈래 메뉴는 떡복이야 메뉴는 갈래 갈래 점심 나랑 먹으러 먹으러 먹으러"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)

{'먹으러': 1, '갈래': 2, '나랑': 3, '점심': 4, '메뉴는': 5, '떡복이야': 6}


In [35]:
encoded = t.texts_to_sequences([text])[0]
encoded

[3, 4, 1, 2, 5, 6, 5, 2, 2, 4, 3, 1, 1, 1]

In [36]:
to_categorical(encoded)

array([[0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.]], dtype=float32)

In [37]:
# 위의 방법은 array로 사용해서 기억 장소를 낭비하게 됨 
# 그래서 실제로, scikitlearn에 있는 희소행렬 Sparse Matrix 을 사용하면 좀 더 효율적이게 됨 

# 또 위의 방법은 단어끼리의 유사도를 알 수 없음 
# ex) 제주도 숙소, 제주도 게스트 하우스, 제주도 호텔과 같은 유사 단어에 대한 결과도 함께 보여줄 수 있어야 한다. 



# 09. 데이터의 분리