# 1. 표준 토큰화

자연어 처리에 사용되는 대표적인 파이썬 패키지는 NLTK
해당 패키지는 말물치, 토큰 생성, 형태소 분석, 품사 태킹 등을 제공

1.1 표준 토큰화

표준 토큰화 중 하나인 Treebank 표준 토큰화를 사용하는 방법

In [1]:
import nltk
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Mode-based RL don't need a value function for the policy"
print(tokenizer.tokenize(text))

['Mode-based', 'RL', 'do', "n't", 'need', 'a', 'value', 'function', 'for', 'the', 'policy']


1.2 토큰화 라이브러리

Treebank 토큰화 이외에도 NLTK 패키지에는 여러 종류의 토큰화 패키지가 있다.
예를 들면 아래와 같은 word_tokenizer

In [2]:
from nltk.tokenize import word_tokenize
print(word_tokenize(text))

['Mode-based', 'RL', 'do', "n't", 'need', 'a', 'value', 'function', 'for', 'the', 'policy']


# 2. 어간 추출 및 표제어 추출
단어의 형태소 level에서 분석을 하게 되면 다른 품사 또는 다른 시제의 단어라고 해도 같은 형태로 토큰화 가능.
두 가지 대표적인 어간 추출 패키지를 알아보자.

2.1 어간 추출(Stemmer) vs 표제어 추출 (Lemmatizer)

대표적인 어간 추출(stemming) 기법인 Porter및 Lancaster 추출 패키지를 불러오고, 이를 활용하는 방법.
결과를 확인하고, 어간 추출 기반 분석의 문제점을 확인해보자.

In [3]:
from nltk.stem import PorterStemmer, LancasterStemmer
stem1 = PorterStemmer()
stem2 = LancasterStemmer()
words = ["eat", "ate", "eaten", "eating"]
print("Porter Stemmer    :", [stem1.stem(w) for w in words])
print("Lancaster Stemmer :", [stem2.stem(w) for w in words])

Porter Stemmer    : ['eat', 'ate', 'eaten', 'eat']
Lancaster Stemmer : ['eat', 'at', 'eat', 'eat']


In [4]:
from nltk import WordNetLemmatizer
nltk.download('wordnet')
lemm = WordNetLemmatizer()
words = ["eat", "ate", "eaten", "eating"]
print("WordNet Lemmatizer :", [lemm.lemmatize(w, pos='v') for w in words])

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\twony\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


WordNet Lemmatizer : ['eat', 'eat', 'eat', 'eat']


# 3. 불용어 제거
3.1 불용어 예시 확인

영어에서 불용어 중 예시 몇 가지를 확인할 수 있는 방법.
마지막 줄의 숫자를 증가시키면 볼 수 있는 단어의 수가 증가.
마찬가지로 stopword단어 데이터를 받기 위한 작업이 필요.

In [5]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
print(stopwords.words('english')[:5])

['i', 'me', 'my', 'myself', 'we']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\twony\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [6]:
import nltk
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

input_sentence = "We should all study hard for the exam"
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(input_sentence)
result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)

print(word_tokens)
print(result)

['We', 'should', 'all', 'study', 'hard', 'for', 'the', 'exam']
['We', 'study', 'hard', 'exam']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\twony\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


불용어 목록을 다운받은 다음 문장의 토큰화 결과에 적용시키는 과정을 담은 알고리즘.
우선 word_tokenize함수를 사용해 input_sentence를 토큰화함.
그리고 토큰화한 문장의 각 단어가 불용어 목록에 있는지 여부를 확인하고,
없는 경우에만 result에 포함.

# 4. 정수 인코딩 및 Sorting
4.1 Enumerate 사용 복습

In [7]:
mylist = ['English','Math','Science']
for n, name in enumerate(mylist):
    print("Course : {}, Number : {}".format(name, n))

Course : English, Number : 0
Course : Math, Number : 1
Course : Science, Number : 2


4.2 정수 인코딩 및 High-frequency Sorting

In [8]:
vocab = {'apple':2, 'July':6, 'piano':4, 'cup':8, 'orange':1}
vocab_sort = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sort)
word2inx = {word[0] : index +1 for index, word in enumerate(vocab_sort)}
print(word2inx)

[('cup', 8), ('July', 6), ('piano', 4), ('apple', 2), ('orange', 1)]
{'cup': 1, 'July': 2, 'piano': 3, 'apple': 4, 'orange': 5}


BoW로 만들어진 토큰화 결과를 가장 높은 빈도수부터 재정렬하고,
이를 통해 정수 인코딩을 하는 과정

In [13]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Model-based RL don't need a value function for the policy." \
        "but some of Model-based RL algorithms do have a value function"
token_text = tokenizer.tokenize(text)
word2inx = {}
Bow = []
for word in token_text:
    if word not in word2inx.keys():
        word2inx[word] = len(word2inx)
        Bow.insert(len(word2inx)-1,1)
    else:
        inx = word2inx.get(word)
        Bow[inx]+= 1
        
print(word2inx)
print(Bow)

{'Model-based': 0, 'RL': 1, 'do': 2, "n't": 3, 'need': 4, 'a': 5, 'value': 6, 'function': 7, 'for': 8, 'the': 9, 'policy.but': 10, 'some': 11, 'of': 12, 'algorithms': 13, 'have': 14}
[2, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1]


문장으로부터 토큰화를 통해 토큰 리스트를 만들고,
이를 이용해 BoW를 생성하는 전체 알고리즘
리스트 word2={}를 만들고,
리스트에 없는 단어의 경우 새로 리스트와 BoW에 단어를 추가하고, 리스트에 나타냄.

# 5. 유사도 분석
5.1 코사인 유사도

In [15]:
import numpy as np

def cos_sim(A, B):
    return np.dot(A, B)/ (np.linalg.norm(A)*np.linalg.norm(B))

a = [1,0,0,1]
b = [0,1,1,0]
c = [1,1,1,1]

print(cos_sim(a,b), cos_sim(b,c), cos_sim(c,a))

0.0 0.7071067811865475 0.7071067811865475


5.2 레반슈타인 거리


In [18]:
import numpy as np

def leven(text1, text2):
    len1 = len(text1) + 1
    len2 = len(text2) + 1
    sim_array = np.zeros((len1, len2))
    sim_array[:,0] = np.linspace(0, len1-1, len1)
    sim_array[0,:] = np.linspace(0, len2-1, len2)
    for i in range(1, len1):
        for j in range(1, len2):
            add_char = sim_array[i-1, j] + 1
            sub_char = sim_array[i, j-1] + 1
            if text1[i-1] == text2[j-1]:
                mod_char = sim_array[i-1,j-1]
            else:
                mod_char = sim_array[i-1,j-1] + 1
            sim_array[i,j] = min([add_char, sub_char, mod_char])
    return sim_array[-1, -1]
print(leven('데이터마이닝','데이타마닝'))

2.0


# 6. Word2Vec - CBoW, SkipGram
6.1 CBow와 SkipGram을 위한 전처리 복습 및 Overview

In [19]:
import pandas as pd
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
data = pd.read_csv('transcripts.csv')
print('Missing Values: ', data.isnull().sum())
data = data.dropna().reset_index(drop=True)
merge_data = ''.join(str(data.iloc[i,0]) for i in range(100))
print('Total word count: ', len(merge_data))

FileNotFoundError: [Errno 2] No such file or directory: 'transcripts.csv'

In [20]:
tokenizer = RegexpTokenizer("[\w]+")
token_text = tokenizer.tokenize(merge_data)

stop_words = set(stopwords.words('english'))
token_stop_text = []
for w in token_text:
    if w not in stop_words:
        token_stop_text.append(w)
print('After cleaning: ', len(token_stop_text))

NameError: name 'merge_data' is not defined

In [21]:
word2inx = {}
Bow = []
for word in token_stop_text:
    if word not in word2inx.keys():
        word2inx[word] = len(word2inx)
        Bow.insert(len(word2inx)-1,1)
    else:
        inx = word2inx.get(word)
        Bow[inx] += 1
print('Unique Words Count :', len(Bow))

NameError: name 'token_stop_text' is not defined

6.2 nltk 내장함수를 이용한 CBoW 학습

In [22]:
import numpy as np
token_stop_text = np.reshape(np.array(token_stop_text),[-1,1])
from genism.models import Word2Vec
model = Word2Vec(vector_size = 100, window = 5, min_count = 2, sg = 0)
model.build_vocab(token_stop_text)
model.train(token_stop_text, total_examples = model.corpus_count, epochs=30, report_delay = 1)
vocabs = model.wv.key_to_index.keys()
word_vec_list = [model.wv[i] for i in vocabs]

NameError: name 'token_stop_text' is not defined

6.3 PCA를 통한 학습 모델 시각화

In [24]:
from sklearn.decomposition import PCA
pca = PCA(n_components = 2)
pcafit = pca.fit_transform(word_vec_list)
x = pcafit[0:50,0]
y = pcafit[0:50,1]
import matplotlib.pyplot as plt
plt.scatter(x, y, marker = 'o')
for i, v in enumerate(vocabs):
    if i <= 49:
        plt.annotate(v, xy = (x[i], y[i]))
plt.show()

NameError: name 'word_vec_list' is not defined

# 7. SGNS: SkipGram with Negative Sampling
7.1 SkipGram 전용 DataSet 구성

토큰화 결과만 필요했던 CBow 및 SkipGram과는 달리, SGNS는 두 단어의 인접 여부가 labeling

In [25]:
import pandas as pd
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
import numpy as np
data = pd.read_csv('transcripts.csv')
print('Missing Values: ', data.isnull().sum())
data = data.dropna().reset_index(drop=True)
merge_data = ''.join(str(data.iloc[i,0]) for i in range(30))
print('Total word count:', len(merge_data))

tokenizer = RegexpTokenizer("[\w]+")
token_text = tokenizer.tokenize(merge_data)

stop_words = set(stopwords.words('english'))
token_stop_text = []
for w in token_text:
    if w not in stop_words:
        token_stop_text.append(w)
print('After cleaning: ', len(token_stop_text))

FileNotFoundError: [Errno 2] No such file or directory: 'transcripts.csv'

In [28]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(token_stop_text)
word2idx = tokenizer.word_index
encoded = tokenizer.texts_to_sequences(token_stop_text)
encoded = np.array(encoded).T
from tensorflow.keras.preprocessing.sequence import skipgrams
skip_gram = [skipgrams(sample, vocabulary_size = len(word2idx)+1, window_size = 10) for sample in encoded]

ModuleNotFoundError: No module named 'tensorflow'