In [2]:
#!pip install nltk

## 1. 표준 토큰화

자연어 처리에 사용되는 nltk를 사용하면 말뭉치, 토큰 생성, 형태소 분석, 품사 태깅을 할 수 있다.

In [4]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "Model-based RL don't need a value function for the policy."
print(tokenizer.tokenize(text))

['Model-based', 'RL', 'do', "n't", 'need', 'a', 'value', 'function', 'for', 'the', 'policy', '.']


In [11]:
from nltk.tokenize import word_tokenize

print(word_tokenize(text))

['Model-based', 'RL', 'do', "n't", 'need', 'a', 'value', 'function', 'for', 'the', 'policy', '.']


## 2. 어간 추출 및 표제어 추출

토큰화한 단계에서 분석을 하게 되면 품사의 다양한 형태나 다양한 시제에 따라 같은 단어가 다르게 토큰화될 수 있어서 불리하다. 여러 어간 추출 패키지가 존재하니 사용하면 된다.

### 2.1 어간 추출 (PorterStemmer) vs 표제어 추출 (LancasterStemmer)

* 어간 추출: 품사 태깅 (x) 동사, 명사 구분 불가
* 표제어 추출: 품사 태깅 (o)

In [14]:
from nltk.stem import PorterStemmer, LancasterStemmer

stem1 = PorterStemmer()
stem2 = LancasterStemmer() # 품사 맞춤
words = ["eat","ate","eaten","eating"]
print("PorterStemmer,어간 추출:",[stem1.stem(w) for w in words])
print("LancasterStemmer,표제어 추출:",[stem2.stem(w) for w in words])

PorterStemmer,어간 추출: ['eat', 'ate', 'eaten', 'eat']
LancasterStemmer,표제어 추출: ['eat', 'at', 'eat', 'eat']


In [18]:
import nltk
from nltk import WordNetLemmatizer # 시제 맞춤
nltk.download("wordnet")
lemm = WordNetLemmatizer()
words = ["eat","ate","eaten","eating"]
print("WordNet Lemmatizer:",[lemm.lemmatize(w,pos="v") for w in words])

[nltk_data] Downloading package wordnet to /Users/yang-
[nltk_data]     eunseo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


WordNet Lemmatizer: ['eat', 'eat', 'eat', 'eat']


## 3. 불용어 제거

전체적인 의미에 방해되지 않는 선에서 불필요한 단어, 잘 쓰이지 않는 단어는 제외한다.

In [21]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
print(stopwords.words('english')[:5])

['i', 'me', 'my', 'myself', 'we']


[nltk_data] Downloading package stopwords to /Users/yang-
[nltk_data]     eunseo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [24]:
import nltk
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

input_sentence = "We should all study hard for the exam."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(input_sentence)
result = []

for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
print("Before:",word_tokens)
print("After:",result)

Before: ['We', 'should', 'all', 'study', 'hard', 'for', 'the', 'exam', '.']
After: ['We', 'study', 'hard', 'exam', '.']


[nltk_data] Downloading package punkt to /Users/yang-
[nltk_data]     eunseo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 4. 정수 인코딩 및 Sorting

In [25]:
mylist = ["English","Math","Science"]
for n, name in enumerate(mylist):
    print("Course:{}, Number:{}".format(name,n))

Course:English, Number:0
Course:Math, Number:1
Course:Science, Number:2


In [26]:
# 단어마다의 등장 빈도 수
vocab = {'apple':2,'July':6,'piano':4,'cup':8,'orange':1}
vocab_sort = sorted(vocab.items(),key=lambda x:x[1], reverse=True)
print(vocab_sort)

word2inx = {word[0]:index + 1 for index,word in enumerate(vocab_sort)}
print(word2inx)

[('cup', 8), ('July', 6), ('piano', 4), ('apple', 2), ('orange', 1)]
{'cup': 1, 'July': 2, 'piano': 3, 'apple': 4, 'orange': 5}


In [28]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Model-based RL don't need a value function for the policy, but some of Model-based RL algorithms do have a value function."

token_text = tokenizer.tokenize(text)
word2inx = {}
Bow = []
for word in token_text:
    if word not in word2inx.keys():
        word2inx[word] = len(word2inx)
        Bow.insert(len(word2inx)-1,1)
    else:
        inx = word2inx.get(word)
        Bow[inx] += 1
print(word2inx,"\n")
print(Bow)

{'Model-based': 0, 'RL': 1, 'do': 2, "n't": 3, 'need': 4, 'a': 5, 'value': 6, 'function': 7, 'for': 8, 'the': 9, 'policy': 10, ',': 11, 'but': 12, 'some': 13, 'of': 14, 'algorithms': 15, 'have': 16, '.': 17} 

[2, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


## 문장 인코딩까지 마무리

문장 → 토큰화 → 정제 → 추출 → 인코딩 (정수 인코딩, high freq 위주로 실습)

## 5. 유사도 분석

In [30]:
import numpy as np

def cos_sim(A,B):
    return np.dot(A,B) / (np.linalg.norm(A)*np.linalg.norm(B))

a = [1,0,0,1]
b = [0,1,1,0]
c = [1,1,1,1]
print(cos_sim(a,b), cos_sim(b,c), cos_sim(c,a))

0.0 0.7071067811865475 0.7071067811865475


In [46]:
def leven(text1, text2):
    len1 = len(text1) + 1
    len2 = len(text2) + 1
    
    # 2차원 표를 채우는 것 (세로열, 가로열)
    sim_array = np.zeros((len1, len2))
    sim_array[:,0] = np.linspace(0,len1-1,len1)
    sim_array[0,:] = np.linspace(0,len2-1,len2)    
    
    for i in range(1, len1):
        for j in range(1, len2):
            add_char = sim_array[i-1,j] + 1
            sub_char = sim_array[i,j-1] + 1
            if text1[i-1] == text2[j-1]:
                mod_char = sim_array[i-1,j-1]
            else:
                mod_char = sim_array[i-1,j-1] + 1
            sim_array[i,j] = min([add_char,sub_char,mod_char])
    return sim_array[-1,-1] #가장 오른쪽 끝
    
print(leven('데이터마이닝','데이타마닝'))

2.0


## 6. Word2Vec: CBoW, SkipGram

In [None]:
3:10:00