# 1. 자연어처리 토큰화 라이브러리 활용
---
* 자연어처리 분야에서 전처리 과정에 활용할 수 있는 다양한 라이브러리가 존재합니다.
* 필요에 따라 활용할 수 있는 활용도를 연습해봅니다.
> `don't`와 `Mr.`, `Jone's` 등의 단어 토큰화 결과를 보고 사용한 라이브러리를 예측해주세요.  
`word_tokenize`, `WordPunctTokenizer`, `text_to_word_sequence` 중 골라주세요.  
>`*None*`을 채워주세요.

In [2]:
# 라이브러리 import
from tensorflow.keras.preprocessing.text import text_to_word_sequence

print('단어 토큰화를 거친 결과1 :',text_to_word_sequence("Particularly on prisoner swaps, we’ve listened to Ukraine. We are also listening to Russia. I spoke to Mr. Putin."))

2023-07-09 17:57:07.819182: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE4.1 SSE4.2
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


단어 토큰화를 거친 결과1 : ['particularly', 'on', 'prisoner', 'swaps', 'we’ve', 'listened', 'to', 'ukraine', 'we', 'are', 'also', 'listening', 'to', 'russia', 'i', 'spoke', 'to', 'mr', 'putin']


In [8]:
# 라이브러리 import
from nltk.tokenize import word_tokenize

print('단어 토큰화를 거친 결과2 :', word_tokenize("It’s a real problem for society when a few dozen people and companies own every single thing so that no alternative paradigms can exist that they don’t co-opt from the cradle."))

단어 토큰화를 거친 결과2 : ['It', '’', 's', 'a', 'real', 'problem', 'for', 'society', 'when', 'a', 'few', 'dozen', 'people', 'and', 'companies', 'own', 'every', 'single', 'thing', 'so', 'that', 'no', 'alternative', 'paradigms', 'can', 'exist', 'that', 'they', 'don', '’', 't', 'co-opt', 'from', 'the', 'cradle', '.']


In [10]:
# 라이브러리 import
from nltk.tokenize import WordPunctTokenizer


print("단어 토큰화를 거친 결과3 :", WordPunctTokenizer().tokenize("Mr. Mikleborough [sic] regularly texted me, and many of the messages were informal."))

단어 토큰화를 거친 결과3 : ['Mr', '.', 'Mikleborough', '[', 'sic', ']', 'regularly', 'texted', 'me', ',', 'and', 'many', 'of', 'the', 'messages', 'were', 'informal', '.']


# 2. 표준 토큰화 예제
---
> `Penn Treebank Tokenization`의 규칙
* 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
* 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [12]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

# 규칙을 참고하여 문장을 작성해보고, 실행해주세요.
text = "My dream car is Porsche-911. But I don't know if I can buy"
print('표준 토큰화 :',tokenizer.tokenize(text))

표준 토큰화 : ['My', 'dream', 'car', 'is', 'Porsche-911.', 'But', 'I', 'do', "n't", 'know', 'if', 'I', 'can', 'buy']


# 3. 한국어에서 불용어(stopwords) 제거하기
---
> 생각해볼 것
> * 불용어란 무엇인가요?
> * 자연어처리를 할 때 왜 불용어를 제거해야하나요?

In [15]:
from konlpy.tag import Okt

okt = Okt()

example = """블로그 챌린지 참여를 하고자 오늘은 주간일기를 씁니다 ㅎ 잇님들 포스팅 중 에 주간일기나 월간일기 작성하시는 분들 보면 우아 맛있는거 많이 드시고 이렇게 지내고 계셨구나~ 
하면서 재미있게 봤던 기억이 있는데 이번엔 저도 참여를 합니다 +_+"""

stop_words = "챌 린지 참여 를 하고자 은 를 ㅎ 잇님들 나 하시는 분들 우아 드시고 이렇게 지내고 계셨구나 ~ 이 하면서 봤던 있는데 엔 저 도 참여 를 합니다 +_+"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 :', word_tokens) 
print('불용어 제거 후 :', result)

불용어 제거 전 : ['블로그', '챌', '린지', '참여', '를', '하고자', '오늘', '은', '주간', '일기', '를', '씁니다', 'ㅎ', '잇님들', '포스팅', '중', '에', '주간', '일기', '나', '월간', '일기', '작성', '하시는', '분들', '보면', '우아', '맛있는거', '많이', '드시고', '이렇게', '지내고', '계셨구나', '~', '하면서', '재미있게', '봤던', '기억', '이', '있는데', '이번', '엔', '저', '도', '참여', '를', '합니다', '+_+']
불용어 제거 후 : ['블로그', '오늘', '주간', '일기', '씁니다', '포스팅', '중', '에', '주간', '일기', '월간', '일기', '작성', '보면', '맛있는거', '많이', '재미있게', '기억', '이번']


# 4. Keras 전처리 도구로 패딩(Padding)하기
---
> * 자연어처리에서 padding 처리가 왜 필요한가요?
> * 기억나지 않는다면 다시 공부하세요.
> * Numpy로도 가능하지만, Keras에서 제공하는 전처리 도구로 실습해보겠습니다.

In [18]:
# 라이브러리 Import
import numpy as np
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 단어 집합을 만든다.
preprocessed_sentences = [['고기', '맛있다'], ['고기', '좋은', '고기'], 
                          ['돼지', '오늘', '맛집'], ['밑반찬', '맛집'], 
                          ['맛집', '행복', '고기', '맛집'], ['맛있다', '소', '고기'], 
                          ['고기', '시간', '행복'], ['고기', '맛집', '좋은'], 
                          ['고기', '육즙', '좋다'], ['돼지', '고기', '맛집', '영업비밀', '행복', '육즙', '꿀맛','소'], 
                          ['고기', '지난주', '소','고기', '다녀왔다']]

# 정수인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 6, 1], [7, 9, 2], [10, 2], [2, 3, 1, 2], [5, 4, 1], [1, 11, 3], [1, 2, 6], [1, 8, 12], [7, 1, 2, 13, 3, 8, 14, 4], [1, 15, 4, 1, 16]]


In [19]:
# 패딩처리
padded = pad_sequences(encoded)
print(padded)

[[ 0  0  0  0  0  0  1  5]
 [ 0  0  0  0  0  1  6  1]
 [ 0  0  0  0  0  7  9  2]
 [ 0  0  0  0  0  0 10  2]
 [ 0  0  0  0  2  3  1  2]
 [ 0  0  0  0  0  5  4  1]
 [ 0  0  0  0  0  1 11  3]
 [ 0  0  0  0  0  1  2  6]
 [ 0  0  0  0  0  1  8 12]
 [ 7  1  2 13  3  8 14  4]
 [ 0  0  0  1 15  4  1 16]]


* 왜 `column` 이 `8`인가요?
> 가장 긴 문자열에 자동으로 맞추어 `0`으로 채우기 때문입니다.
* 데이터 전처리 시간 단축을 위해 `8`이 아닌 `5`로 지정하여봅시다.


In [21]:
padded = pad_sequences(encoded, maxlen=5)
padded

array([[ 0,  0,  0,  1,  5],
       [ 0,  0,  1,  6,  1],
       [ 0,  0,  7,  9,  2],
       [ 0,  0,  0, 10,  2],
       [ 0,  2,  3,  1,  2],
       [ 0,  0,  5,  4,  1],
       [ 0,  0,  1, 11,  3],
       [ 0,  0,  1,  2,  6],
       [ 0,  0,  1,  8, 12],
       [13,  3,  8, 14,  4],
       [ 1, 15,  4,  1, 16]], dtype=int32)

기본적으로 문서 뒤가 아니라, `앞`에서 0으로 채운다.  

In [22]:
#  뒤에서부터 0으로 채우도록 해보자.
padded = pad_sequences(encoded, padding="post", maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  6,  1,  0,  0],
       [ 7,  9,  2,  0,  0],
       [10,  2,  0,  0,  0],
       [ 2,  3,  1,  2,  0],
       [ 5,  4,  1,  0,  0],
       [ 1, 11,  3,  0,  0],
       [ 1,  2,  6,  0,  0],
       [ 1,  8, 12,  0,  0],
       [13,  3,  8, 14,  4],
       [ 1, 15,  4,  1, 16]], dtype=int32)

In [23]:
# 데이터 손실이 걱정된다.
# 앞이 아니라 뒷 단어를 삭제하고싶다면? 
padded = pad_sequences(encoded, padding='post', truncating='post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  6,  1,  0,  0],
       [ 7,  9,  2,  0,  0],
       [10,  2,  0,  0,  0],
       [ 2,  3,  1,  2,  0],
       [ 5,  4,  1,  0,  0],
       [ 1, 11,  3,  0,  0],
       [ 1,  2,  6,  0,  0],
       [ 1,  8, 12,  0,  0],
       [ 7,  1,  2, 13,  3],
       [ 1, 15,  4,  1, 16]], dtype=int32)

# 5. Keras를 이용한 원-핫 인코딩
> 단어 집합(vocabulary)에 있는 단어들로만 구성된 텍스트

In [24]:
# keras tokenizer를 이용한 정수 인코딩
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 영화 보러 갈래 영화 제목 고릴라 볼래 영화 고릴라 재밌대"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print("단어 집합 :", tokenizer.word_index)

단어 집합 : {'영화': 1, '고릴라': 2, '나랑': 3, '보러': 4, '갈래': 5, '제목': 6, '볼래': 7, '재밌대': 8}


`texts_to_sequences()`를 통해 정수 시퀀스로 변환

In [25]:
sub_text = "영화 보러 갈래 제목 고릴라 재밌대"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[1, 4, 5, 6, 2, 8]


원-핫 인코딩을 수행하는 `to_categorical()`

In [26]:
one_hot = to_categorical(encoded)
one_hot

array([[0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

# 6. 한국어 전처리 (사전 등록)
> 고유명사를 형태소 단위로 나누는 경우, 나누지 말라고 사전에 등록해보자.

In [27]:
! pip install customized_konlpy

Collecting customized_konlpy
  Downloading customized_konlpy-0.0.64-py3-none-any.whl (881 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m881.5/881.5 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: customized_konlpy
Successfully installed customized_konlpy-0.0.64

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m23.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [28]:
# customized_konlpy에서 제공하는 형태소 분석기 twitter를 사용하여 앞서 소개한 예문을 단어 토큰화
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('민혁이가 스타벅스에서 자몽허니블랙티를 마셨다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['민혁', '이', '가', '스타벅스', '에서', '자몽', '허니', '블랙', '티', '를', '마셨다', '.']

In [29]:
# 사전에 추가
twitter.add_dictionary("자몽허니블랙티", 'Noun')

In [30]:
# 사전에 추가한 뒤 결과 확인하기
twitter.morphs('민혁이가 스타벅스에서 자몽허니블랙티를 마셨다.')

['민혁', '이', '가', '스타벅스', '에서', '자몽허니블랙티', '를', '마셨다', '.']

# 7. 반복되는 문자 정제하기
> 한국어의 경우 `ㅋㅋㅋㅋㅋㅋㅋ` `ㅠㅠㅠ` `ㅎㅎㅎㅎㅎ` 반복되는 불필요한 문자열이 많다.


In [32]:
from soynlp.normalizer import *

In [33]:
# 반복되는 문자는 두번씩만 print 한다.
text = "앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ넘웃겨ㅠㅠㅠㅠㅠㅠㅠㅠ"
print(repeat_normalize(text, num_repeats = 2))

앜ㅋㅋ넘웃겨ㅠㅠ


In [34]:
# 반복되는 문자는 두번씩만 print 한다.
print(repeat_normalize('와하하하하하하하하하핫', num_repeats = 2))

와하하핫
