## 1. 표준 토근화

표준 토큰화 중 하나인 Treebank 표준 토큰화를 사용

In [1]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Model-based RL don't need a value cuntion for the policy."
print(tokenizer.tokenize(text))

['Model-based', 'RL', 'do', "n't", 'need', 'a', 'value', 'cuntion', 'for', 'the', 'policy', '.']


> don't 단어가 do 와 n't(not)으로 분리되는 것이 확인이 가능.
또한 period 도 하나의 토큰으로 분리됨

### 1-2. 토큰화 라이브러리
Treebank 토큰화 이외에도 NLTK 패키지에는 여러종류의 토큰화 패키지가 존재함

In [2]:
from nltk.tokenize import word_tokenize
print(word_tokenize(text))

['Model-based', 'RL', 'do', "n't", 'need', 'a', 'value', 'cuntion', 'for', 'the', 'policy', '.']


> 이 예제에서는 결과가 같지만 향후 사용에서는 좀 더 맞는 토큰화 패키지를 사용하면 됨

## 2. 어간 추출 및 표제어 추출
2-1. 어간추출 (stemmer) vs. 표제어 추출(Lemmatizer)

In [3]:
from nltk.stem import PorterStemmer, LancasterStemmer
stem1 = PorterStemmer()
stem2 = LancasterStemmer()
words = ["eat", "ate", "eaten", "eating"]
print("Porter Stemmer : ", [stem1.stem(w) for w in words])
print("Lancaster Stemmer : ", [stem2.stem(w) for w in words])

Porter Stemmer :  ['eat', 'ate', 'eaten', 'eat']
Lancaster Stemmer :  ['eat', 'at', 'eat', 'eat']


> 대표적 어간 추출인 Porter 및 Lancaster 추출 패키지를 불러오고 활용 </br>
예제로는 "먹다(eat) 단어를 사용 </br>
문제점? stemmer의 특징마다 결과가 다르게 나옴 lancaster경우 at으로,,?</br>

In [4]:
import nltk
from nltk import WordNetLemmatizer
nltk.download('wordnet')
lemm = WordNetLemmatizer()
print("WordNet Lemmatizer: ", [lemm.lemmatize(w, pos="v") for w in words])

[nltk_data] Downloading package wordnet to /Users/chy/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


WordNet Lemmatizer:  ['eat', 'eat', 'eat', 'eat']


> lemmatize 할 때 "동사"라고 지정을 해줘서 시제를 동사원형으로 시켜주는 기능. </br>
품사를 알고있다면 Lemmatize 가 더 유용하게 사용됨

## 3. 불용어 (stopword) 제거
3-1. 예시 확인

In [5]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
print(stopwords.words('english')[:5]) #예시 5개만 확인

['i', 'me', 'my', 'myself', 'we']


[nltk_data] Downloading package stopwords to /Users/chy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [6]:
import nltk
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

input_sentence = "We should all study hard for the exam."
stop_words = set(stopwords.words('english')) #불용어 목록
word_tokens = word_tokenize(input_sentence) #토큰화
result = []
for w in word_tokens:
    if w not in stop_words: #불용어 목록에 없는 경우
        result.append(w)
print(word_tokens)
print(result)


['We', 'should', 'all', 'study', 'hard', 'for', 'the', 'exam', '.']
['We', 'study', 'hard', 'exam', '.']


[nltk_data] Downloading package punkt to /Users/chy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 4. 정수 Encoding 및 Sorting

In [7]:
vocab = {'apple':2, 'July': 6, 'piano': 4, 'cup': 8, 'orange': 1}
vocab_sort = sorted(vocab.items(), key = lambda x: x[1], reverse = True) #내림차순정렬
print(vocab_sort)
word2inx = {word[0] : index + 1 for index, word in enumerate(vocab_sort)} #정수 인코딩 결과
print(word2inx)

[('cup', 8), ('July', 6), ('piano', 4), ('apple', 2), ('orange', 1)]
{'cup': 1, 'July': 2, 'piano': 3, 'apple': 4, 'orange': 5}


> **Bag of words (Bow)**: 단어마다 등장 빈도수를 나타냄 </br>
cf) lambda: 임시함수로 위 예제에서는 key 값을 vocab에서 value 값으로 사용하기 위해 임시로 설정함 </br>
*word2inx* 에 빈도수가 많은 단어 순으로 index를 설정하고 저장

In [8]:
from nltk.tokenize import TreebankWordTokenizer
tokenize = TreebankWordTokenizer()

text = "Model-based RL don't need a value function for the policy, "\
        "but some of Model-based RL algorithms do have a value function."

token_text = tokenizer.tokenize(text) #토큰화
word2inx = {}
Bow = []

for word in token_text:
    if word not in word2inx.keys():
        word2inx[word] = len(word2inx) #토큰화된 단어마다 index를 설정
        Bow.insert(len(word2inx)-1, 1)
    else:
        inx = word2inx.get(word)
        Bow[inx] += 1
print(word2inx)
print(Bow) #각 토큰의 빈도수로 이루어진 리스트 

{'Model-based': 0, 'RL': 1, 'do': 2, "n't": 3, 'need': 4, 'a': 5, 'value': 6, 'function': 7, 'for': 8, 'the': 9, 'policy': 10, ',': 11, 'but': 12, 'some': 13, 'of': 14, 'algorithms': 15, 'have': 16, '.': 17}
[2, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


## 5. 유사도 분석
5-1. 코사인 유사도

In [9]:
import numpy as np

def cos_sim(A, B):
    return np.dot(A,B) / (np.linalg.norm(A) * np.linalg.norm(B))

a = [1, 0, 0, 1]
b = [0, 1, 1, 0]
c = [1, 1, 1, 1]
print(cos_sim(a,b), cos_sim(b,c), cos_sim(c,a))

0.0 0.7071067811865475 0.7071067811865475


> 1에 가까울 수록 유사도가 높음을 의미함

5-2. 레반슈타인 거리 

In [10]:
def leven(text1, text2):
    len1 = len(text1) + 1
    len2 = len(text2) + 1
    sim_array = np.zeros((len1, len2)) #0으로 이루어진 행렬생성
    sim_array[:, 0] = np.linspace(0, len1-1, len1) #첫번째 column에 0부터 1간격으로 숫자채움
    sim_array[0, :] = np.linspace(0, len2-1, len2) #row에 0부터 1간격으로 숫자채움
    for i in range(1, len1):
        for j in range(1, len2):
            add_char = sim_array[i-1, j] + 1 #추가
            sub_char = sim_array[i, j-1] + 1 #삭제
            if text1[i-1] == text2[j-1]:
                mod_char = sim_array[i-1, j-1] #수정
            else:
                mod_char = sim_array[i-1, j-1] + 1
            sim_array[i, j] = min([add_char, sub_char, mod_char]) #값 비교해서 최소값으로 저장
    return sim_array
#     return sim_array[-1, -1] #가장오른쪽 끝값을 가져오므로 레반슈타인의 거리를 구할 수 있음
print(leven('데이터마이닝', '데이타마닝'))

[[0. 1. 2. 3. 4. 5.]
 [1. 0. 1. 2. 3. 4.]
 [2. 1. 0. 1. 2. 3.]
 [3. 2. 1. 1. 2. 3.]
 [4. 3. 2. 2. 1. 2.]
 [5. 4. 3. 3. 2. 2.]
 [6. 5. 4. 4. 3. 2.]]
