## 토큰화(Tokenization)

In [104]:
# plt.rcParams['font.family'] = 'Malgun Gothic'

#### 단어

In [2]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("우리는 빅데이터. 인공지능 반이자 학생이다"))  

['우리는', '빅데이터', '.', '인공지능', '반이자', '학생이다']


In [4]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [5]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [6]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


#### 문장 

In [9]:
from nltk.tokenize import sent_tokenize
text = """His barber kept his word. 
But keeping such a huge secret to himself was driving him crazy. 
Finally, the barber went up a mountain and almost to the edge of a cliff. 
He dug a hole in the midst of some reeds. 
He looked about, to make sure no one was near."""
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [11]:
from nltk.tokenize import sent_tokenize
text = """앞서 사용한 Okt 형태소 분석기와 결과가 다른 것을 볼 수 있습니다. 
각 형태소 분석기는 성능과 결과가 다르게 나오기 MR. 때문에, 형태소 분석기의 선택은 사용하고자. 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됩니다. 
예를 들어서 속도를 중시한다면 메캅을 사용할 수 있습니다."""
print(sent_tokenize(text))

['앞서 사용한 Okt 형태소 분석기와 결과가 다른 것을 볼 수 있습니다.', '각 형태소 분석기는 성능과 결과가 다르게 나오기 MR. 때문에, 형태소 분석기의 선택은 사용하고자.', '하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됩니다.', '예를 들어서 속도를 중시한다면 메캅을 사용할 수 있습니다.']


In [13]:
# import kss
# text = """앞서 사용한 Okt 형태소 분석기와 결과가 다른 것을 볼 수 있습니다. 
# 각 형태소 분석기는 성능과 결과가 다르게 나오기 MR. 때문에, 형태소 분석기의 선택은 사용하고자. 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됩니다. 
# 예를 들어서 속도를 중시한다면 메캅을 사용할 수 있습니다. 해보면 아실걸요?"""
# print(kss.split_sentences(text))

### 품사 태깅
* Konlpy
* 1) morphs() : 형태소 추출
* 2) pos() : 품사 태깅(Part-of-speech tagging)
* 3) nouns() : 명사 추출

In [17]:
# #  averaged_perceptron_tagger download
# from nltk.tag import pos_tag
# text = """His barber kept his word."""
# tokenized_sentence = word_tokenize(text)
# print(pos_tag(tokenized_sentence))

In [1]:
from konlpy.tag import Okt
okt = Okt()

print(okt.pos('아버지가 방에 들어가신다'))
print(okt.pos('아버지가방에들어가신다'))

[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]
[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]


In [20]:
from konlpy.tag import Kkma
okt = Kkma()

print(okt.pos('아버지가 방에 들어가신다'))
print(okt.pos('아버지가방에들어가신다'))

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
[('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]


In [21]:
# 형태소 : morphs
from konlpy.tag import Kkma  
kkma = Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [22]:
# 품사 : pos
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [23]:
# 명사 : nouns
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


#### [실습] 워드카운트

In [56]:
import pandas as pd
import numpy as np
import re
from tensorflow.keras.preprocessing.text import text_to_word_sequence
df = pd.read_csv("../pkg/kaggle/DACON_식수/datasets/train.csv")
df = df[['중식메뉴','석식메뉴']][:5].copy()

In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   중식메뉴    5 non-null      object
 1   석식메뉴    5 non-null      object
dtypes: object(2)
memory usage: 208.0+ bytes


Unnamed: 0,중식메뉴,석식메뉴
0,"쌀밥/잡곡밥 (쌀,현미흑미:국내산) 오징어찌개 쇠불고기 (쇠고기:호주산) 계란찜 ...","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 육개장 자반고등어구이 두부조림 건파래무침 ..."
1,"쌀밥/잡곡밥 (쌀,현미흑미:국내산) 김치찌개 가자미튀김 모둠소세지구이 마늘쫑무...","콩나물밥*양념장 (쌀,현미흑미:국내산) 어묵국 유산슬 (쇠고기:호주산) 아삭고추무..."
2,"카레덮밥 (쌀,현미흑미:국내산) 팽이장국 치킨핑거 (닭고기:국내산) 쫄면야채무침 ...","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 청국장찌개 황태양념구이 (황태:러시아산) 고기..."
3,"쌀밥/잡곡밥 (쌀,현미흑미:국내산) 쇠고기무국 주꾸미볶음 부추전 시금치나물 ...","미니김밥*겨자장 (쌀,현미흑미:국내산) 우동 멕시칸샐러드 군고구마 무피클 포..."
4,"쌀밥/잡곡밥 (쌀,현미흑미:국내산) 떡국 돈육씨앗강정 (돼지고기:국내산) 우엉잡채...","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 차돌박이찌개 (쇠고기:호주산) 닭갈비 (닭고기:..."


In [69]:
sen_list = []
for sen in df['중식메뉴']:
    sen = re.sub(r'\([^)]*\)', '', sen.strip())  #(s) 제거
    sen = re.sub(r'[^)]*\)', '', sen.strip())    #s) 제거
    sen = re.sub(r'\([^)]*', '', sen.strip())    #(s 제거
    sen = re.sub(' +', ' ', sen.strip())       #공백,탭 제거
    print(sen)
    #nous = kkma.nouns(sen)
    nous = text_to_word_sequence(sen)
    sen_list.append(nous)  
sen_list = sum(sen_list, [])  #2차원-->1차원으로 변환
pd.DataFrame(sen_list).value_counts().sort_values(ascending=False).head()    

쌀밥/잡곡밥 오징어찌개 쇠불고기 계란찜 청포묵무침 요구르트 포기김치
쌀밥/잡곡밥 김치찌개 가자미튀김 모둠소세지구이 마늘쫑무침 요구르트 배추겉절이
카레덮밥 팽이장국 치킨핑거 쫄면야채무침 견과류조림 요구르트 포기김치
쌀밥/잡곡밥 쇠고기무국 주꾸미볶음 부추전 시금치나물 요구르트 포기김치
쌀밥/잡곡밥 떡국 돈육씨앗강정 우엉잡채 청경채무침 요구르트 포기김치


요구르트    5
잡곡밥     4
포기김치    4
쌀밥      4
김치찌개    1
dtype: int64

## 어간 추출(Stemming) and 표제어 추출(Lemmatization)
* Lemmatization : 품사 태깅과 같이 써야 정확하다.

In [74]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([lemmatizer.lemmatize(w) for w in words])
print("ha-->", lemmatizer.lemmatize('has', 'v'))

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']
ha--> have


### 불용언 처리(영어)
* nltk에서 제공하느 stopwords 사용

In [75]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

text = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(text)
result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [80]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords 
text = ["Family is not an important thing. It's everything."]
sw = set(stopwords.words('english')) 

# CountVectorizer(stop_words=["not", "an"])
cvect = CountVectorizer(stop_words=sw)
res = cvect.fit_transform(text)
print(res)  # COO vs. CSR
print(res.toarray())
print(cvect.vocabulary_)

  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 0)	1
[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


In [None]:
 # COO(밀집행렬) vs. CSR(희소행렬)

### 불용언 처리(한글)
* ref : https://github.com/stopwords-iso/stopwords-ko

In [88]:
f = open("stopword_ko.txt", mode='r', encoding="UTF-8")
stopword_ko_list = []
for word in f:
    stopword_ko_list.append(word.rstrip("\n"))
    
print(stopword_ko_list[:10])

['!', '"', '$', '%', '&', "'", '(', ')', '*', '+']


In [90]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords 
text = ["나는 개의치않고 언젠가 훌륭한 사업가가되서 쿵쿵 거리며 살겠다."]
# sw = set(stopwords.words('english'))   XXXXXX

cvect = CountVectorizer(stop_words=stopword_ko_list)
res = cvect.fit_transform(text)
print(res)  # COO vs. CSR
print(res.toarray())
print(cvect.vocabulary_)

# key = [(빅분기, 4) , (파이썬, 5)]
# for x in key:
#     x = (빅분기, 4)
    
vocab_sorted = sorted(cvect.vocabulary_.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

  (0, 1)	1
  (0, 5)	1
  (0, 2)	1
  (0, 4)	1
  (0, 0)	1
  (0, 3)	1
[[1 1 1 1 1 1]]
{'나는': 1, '훌륭한': 5, '사업가가되서': 2, '쿵쿵': 4, '거리며': 0, '살겠다': 3}
[('훌륭한', 5), ('쿵쿵', 4), ('살겠다', 3), ('사업가가되서', 2), ('나는', 1), ('거리며', 0)]


* Keras 사용한 빈도수 보캐 생성

In [92]:
from tensorflow.keras.preprocessing.text import Tokenizer
text = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
tokenizer = Tokenizer()
# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성.
tokenizer.fit_on_texts(text) 
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


## 패딩(padding)
* Tokenizer.fit_on_texts()  - texts_to_sequences() - pad_sequences

In [98]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)                  #단어 빈도수 보캐 생성
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)  #정수변환
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)  #pre or post
print(padded)

[[ 1  5  0  0  0]
 [ 1  8  5  0  0]
 [ 1  3  5  0  0]
 [ 9  2  0  0  0]
 [ 2  4  3  2  0]
 [ 3  2  0  0  0]
 [ 1  4  6  0  0]
 [ 1  4  6  0  0]
 [ 1  4  2  0  0]
 [ 3  2 10  1 11]
 [ 1 12  3 13  0]]


* keras 원핫인코딩

In [99]:
from tensorflow.keras.utils import to_categorical
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])   # 빈도 기반 보캐 생성 시 데이터는 반드시 !!! 리스트 타입
print(tokenizer.word_index)      # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [102]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])   # 빈도 기반 보캐 생성 시 데이터는 반드시 !!! 리스트 타입
print(tokenizer.word_index)      # 각 단어에 대한 인코딩 결과 출력.
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)
one_hot = to_categorical(encoded)
print(one_hot)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}
[2, 5, 1, 6, 3, 7]
[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]
