## 불용어 처리

갖고 있는 데이터에서 큰 의미가 없는 단어 토큰을 제거하는 작업 

In [None]:
# 실습
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example = "Family is not an important thing. It's everything."
stop_words=list(stopwords.words('english'))
word_tokens = word_tokenize(example)

In [11]:
result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)

In [13]:
print(result)

['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 데이터의 분리 

머신 러닝 모델에 데이터를 사용하기 위해서 데이터를 적절히 분리해놓는 작업

1) ZIP 이용 -> X, y data 분리

In [20]:
X,y = zip(['a',1],['b',2],['c',3])
print(X)

('a', 'b', 'c')


In [21]:
print(y)

(1, 2, 3)


2) 데이터프레임을 이용하여 분리하기

In [22]:
import pandas as pd
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']
df = pd.DataFrame(values,columns=columns)

In [25]:
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [26]:
X = df['메일 본문']
y = df['스팸 메일 유무']

In [27]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


3) Numpy를 이용하여 분리하기  

In [29]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [30]:
X=ar[:,:3]

In [31]:
X

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [32]:
y=ar[:,-1]

In [33]:
y

array([ 3,  7, 11, 15])

4) sklearn을 활용하여 데이터 분리하기

In [36]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

# 정수 인코딩 

보통 전처리 후 단어에 대한 빈도수로 정렬한 뒤에 텍스트에 고유한 숫자를 mapping 

In [21]:
text="A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [22]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from collections import Counter
text=sent_tokenize(text)

In [24]:
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [28]:
vocab =Counter()
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i)
    result=[]
    
    for word in sentence:
        word=word.lower()
        if word not in stop_words:
            if len(word)>2:
                result.append(word)
                vocab[word]=vocab[word]+1
    sentences.append(result)
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [50]:
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [52]:
vocab_sorted=sorted(vocab.items(),key=lambda x:x[1], reverse=True)

In [53]:
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [54]:
word_to_index={}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1: # 정제
        i=i+1
        word_to_index[word]=i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


# 원핫 인코딩

단어 집합에 있는 단어들에 고유한 정수 인덱스를 부여

In [3]:
from konlpy.tag import Okt

In [4]:
okt=Okt()

In [5]:
token=okt.morphs("나는 자연어 처리를 배운다")

In [6]:
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [None]:
## '고유한' 단어 집합 만드는 법 with dictionary

In [7]:
word2index={}
for voca in token:
    if voca not in word2index.keys(): ## 고유 =>if~ not in dictionary key값
        word2index[voca]=len(word2index) ## 하나씩 추가하는 걸 len로 소화
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [13]:
def one_hot_encoding(word,word2index):
    one_hot_vector=[0]*(len(word2index)) ## 비어있는 벡터 만드는 법
    index=word2index[word]
    one_hot_vector[index]=1
    return one_hot_vector

SyntaxError: unexpected EOF while parsing (<ipython-input-13-6975c62297fa>, line 1)

# 내부단어분리 

-> 배운 적이 없는 단어, Out of vocabulary 문제 해결방법

In [19]:
BPE(byte pair encoding) 알고리즘 
: 압축알고리즘, 연속적으로 가장 많이 등장한 글자의 쌍을 찾아서 하나의 글자로 병합하는 방식
ex) aaabdaaabac -> aa가 가장 많이 등장 -> Z로 치환 -> ZabdZabac -> ab가 가장 많이 등장 -> Y로 치환 
-> ZYdZYac -> ZY가 가장 많이 등장 -> X로 치환 -> XdXac

SyntaxError: invalid syntax (<ipython-input-19-8220e622ca32>, line 1)

In [20]:
BPE알고리즘을 '자연어 처리'에 적용하기
(요약) 글자 단위에서 점차적으로 단어 집합을 만들어 내는 bottom up 방식의 접근을 사용
1. 글자(Characters),유니코드 단위로 단어집합을 만들기
2. 가장 많이 등장하는 유니 그램을 하나의 유니그램으로 통합

(예시)
각 단어와 빈도수가 기록되어 있는 dictionary
low : 5, lower : 2, newest : 6, widest : 3
-> 글자단위로 분리
l o w : 5,  l o w e r : 2,  n e w e s t : 6,  w i d e s t : 3
-> iteration 정하기 ex) 10회 반복
가장 빈도수가 높은 유니그램의 쌍을 하나의 유니그램으로 통합하는 과정을 총 10회 반복
1회차: (e,s) 9회 -> es로 통합 -> vocabulary update
2회차: (es,t) 9회 -> est로 통합 -> vocabulary update
-> (반복) 결과 : vocabulary l, o, w, e, r, n, w, s, t, i, d, es, est, lo, low, ne, new, newest, wi, wid, widest

문제. lowest -> l,o,w,e,s,t -> 단어집합(updated vocabulary)을 근거로 low, est로 인코딩


SyntaxError: invalid syntax (<ipython-input-20-ea34189f25b4>, line 1)

In [None]:
##코드실습
import re, collections

def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

vocab = {'l o w </w>' : 5,
         'l o w e r </w>' : 2,
         'n e w e s t </w>':6,
         'w i d e s t </w>':3
         }

num_merges = 10

for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)
 