## 정수인코딩

In [1]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [2]:
#문장 토큰화
from nltk.tokenize import sent_tokenize


#문장 단위로 토큰화 됨.
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [4]:
#정제, 문장을 단어로 토큰화 
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from collections import Counter 

vocab = Counter() #파이썬의 counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있음. 

sentences = []
stop_words = set(stopwords.words('english')) #불용어 모음들 


#단어 토큰화 수행 
for i in text : 
    sentence = word_tokenize(i) #모든 토큰화 수행
    result = []
    
    #정수 인코딩 => 자연어 처리 들어가기 전 필수 
    for word in sentence :
        word = word.lower() #모든 단어를 소문자화하여 단어의 개수를 줄입니다.
        if word not in stop_words: #단어 토큰화 된 결과에 대해서 불용어 제거
            if len(word) > 2: #단어의 길이가 2이하인 경우에 대하여 추가로 단어 제거 
                result.append(word)
                vocab[word] = vocab[word]+1 #각 단어의 빈도 count 
            
    sentences.append(result)
    
    
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [6]:
print(vocab) #등장 빈도 순으로 정렬됨. 

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [7]:
vocab_sorted = sorted(vocab.items(),key=lambda x:x[1],reverse = True) #dictionary => list로 변경 , 많이 나온 순서대로 내림차순 정렬 
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [8]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency > 1:
        i = i+1
        word_to_index[word] = i 
        
print(word_to_index) #빈도가 높은 순으로 1부터 지정함.

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


## one-hot encoding

### -국소표현 방법 
 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법 
단어의 의미, 뉘앙스를 표현할 수 없음
ex) One-Hot vector, N-gram, Bag of word, TDM, TF-IDF


### - 연속 표현 방법 
그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법 
단어의 뉘앙스를 표현할 수 있음
ex) Word2Vec, (카운트기반)LSA , (예측, 카운트기반) Glove

## One-hot vector : 단어의 빈도수를 카운트해서 단어를 수치화하는 카운트 방법

문자를 숫자로 표현하는 기법 중 가장 기본적인 표현 방식
단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여 
다른 인덱스에는 0 을 부여하는 단어의 벡터 표현

#### 방법 
#### - 정수 인코딩 : 각 단어에 고유한 인덱스 부여
#### - 표현하고 싶은 단어의 인덱스에 1, 다른 단어의 인덱스에는 0

In [10]:
example = "이 여름 다시 한번 설레고 싶다 그때 그 여름을 틀어줘 그 여름을 들려줘 이 여름도 언젠가는 그해 여름 오늘이 가장 젊은 내 여름"

In [12]:
from konlpy.tag import Okt 
okt = Okt()

token = okt.morphs(example)

print(token) #형태소별로 확인 가능함.

['이', '여름', '다시', '한번', '설레고', '싶다', '그때', '그', '여름', '을', '틀어줘', '그', '여름', '을', '들려줘', '이', '여름', '도', '언젠가', '는', '그해', '여름', '오늘이', '가장', '젊은', '내', '여름']


In [13]:
word_to_index = {} 

for voca in token:
    if voca not in word_to_index.keys(): #key로 단어가 없으면 
        word_to_index[voca] = len(word_to_index) #
        
        
print(word_to_index)

{'이': 0, '여름': 1, '다시': 2, '한번': 3, '설레고': 4, '싶다': 5, '그때': 6, '그': 7, '을': 8, '틀어줘': 9, '들려줘': 10, '도': 11, '언젠가': 12, '는': 13, '그해': 14, '오늘이': 15, '가장': 16, '젊은': 17, '내': 18}


In [14]:
def one_hot_encoding(word,word_to_index): 
    one_hot_vector = [0]*(len(word_to_index))#단어의 개수대로 index의 개수대로 모두 0이 들어간 벡터 만들어주기 
    index = word_to_index[word] #해당하는 단어가 있는 index에 1 넣어줌
    one_hot_vector[index] =1
    return one_hot_vector

In [16]:
one_hot_encoding("여름",word_to_index) #여름이 있는 index 자리에 1 넣어줌. 

[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [17]:
one_hot_encoding("가장",word_to_index) #여름이 있는 index 자리에 1 넣어줌. 

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]

### < 과제 >
- 1글자 단어 제외하고 one hot 벡터 만들기

In [54]:
from konlpy.tag import Okt 
print("============= 단어 별로 토큰화====================")
okt = Okt()
token = okt.morphs(example)
print(token) #형태소별로 확인 가능함.

print("\n==========한 개 짜리 단어 제거 ========") 
new_list = []

for i in token : 
    if len(i)>=2 : 
        new_list.append(i)

       
print(new_list)

print("\n============단어 dictionary로 변경=========")
word_to_index = {} 


for voca in token:
    if voca not in word_to_index.keys(): #key로 단어가 없으면 
        word_to_index[voca] = len(word_to_index) #
        
        
print(word_to_index)


def one_hot_encoding(word,word_to_index): 
    one_hot_vector = [0]*(len(word_to_index))#단어의 개수대로 index의 개수대로 모두 0이 들어간 벡터 만들어주기 
    index = word_to_index[word] #해당하는 단어가 있는 index에 1 넣어줌
    one_hot_vector[index] =1
    return one_hot_vector
print("\n===========one hot 인코딩 불러오기=========")
print(one_hot_encoding("여름",word_to_index)) #여름이 있는 index 자리에 1 넣어줌. 

['이', '여름', '다시', '한번', '설레고', '싶다', '그때', '그', '여름', '을', '틀어줘', '그', '여름', '을', '들려줘', '이', '여름', '도', '언젠가', '는', '그해', '여름', '오늘이', '가장', '젊은', '내', '여름']

['여름', '다시', '한번', '설레고', '싶다', '그때', '여름', '틀어줘', '여름', '들려줘', '여름', '언젠가', '그해', '여름', '오늘이', '가장', '젊은', '여름']

{'이': 0, '여름': 1, '다시': 2, '한번': 3, '설레고': 4, '싶다': 5, '그때': 6, '그': 7, '을': 8, '틀어줘': 9, '들려줘': 10, '도': 11, '언젠가': 12, '는': 13, '그해': 14, '오늘이': 15, '가장': 16, '젊은': 17, '내': 18}

[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


### BoW
#### 기본이 되는 개념이면서 , 텍스트에서 사용된 단어의 종류와 빈도수만을 바탕으로 분석 

#### 장점
- 전처리가 단순 
- 단어들의 빈도를 간단히 수치화할 수 있고, 통계 방법 적용이 가능
- 분석 결과의 해석이 용이

#### 단점 
- 문장 구조를 무시함에 따라 어순 상의 차이 파악 불가능
- 동음이의어 구별 어려움

#### BoW 만들기 
- 각 단어에 고유한 Index 부여
- 각 인덱스의 위치에 단어 토큰의 등장 횟수(빈도)를 기록한 벡터(Vector) 생성

In [55]:
text = """이 여름 다시 한번 설레고 싶다. 그때 그 여름을 틀어줘. 그 여름을 들려줘. 이 여름도 언젠가는 그해 여름. 오늘이 가장 젊은 내 여름."""

In [56]:
from konlpy.tag import Okt
import re

okt = Okt()

In [57]:
#정규 표현식을 통해 온점 제거
token = re.sub("(\.)","",text)
print(token)

이 여름 다시 한번 설레고 싶다 그때 그 여름을 틀어줘 그 여름을 들려줘 이 여름도 언젠가는 그해 여름 오늘이 가장 젊은 내 여름


In [58]:
#토큰화 작업
token = okt.morphs(token)

print(token)

['이', '여름', '다시', '한번', '설레고', '싶다', '그때', '그', '여름', '을', '틀어줘', '그', '여름', '을', '들려줘', '이', '여름', '도', '언젠가', '는', '그해', '여름', '오늘이', '가장', '젊은', '내', '여름']


In [59]:
word2index={} #딕셔너리 생성
bow =[] #리스트 

for voca in token: #token은 리스트 
    if voca not in word2index.keys(): 
        word2index[voca] = len(word2index)
                #token을 읽으면서, word2index에 없는 not in 단어는 새로 추가하고,
                #이미 있는 단어는 넘김
        bow.insert(len(word2index)-1,1) #Bow 전체에 전부 기본값 1 지정
        
    else: #이미 있는 단어면(재등장하면) 
        index = word2index.get(voca) #재등장하는 단어의 인덱스 
        bow[index] = bow[index]+1 #재등장한 단어의 해당 인덱스에 1을 더함

In [61]:
print(word2index)


print(bow)

{'이': 0, '여름': 1, '다시': 2, '한번': 3, '설레고': 4, '싶다': 5, '그때': 6, '그': 7, '을': 8, '틀어줘': 9, '들려줘': 10, '도': 11, '언젠가': 12, '는': 13, '그해': 14, '오늘이': 15, '가장': 16, '젊은': 17, '내': 18}
[2, 6, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [63]:
from sklearn.feature_extraction.text import CountVectorizer
#띄어쓰기 기준으로 단어 자르는 token화
#영어는 용이하지만 한국어는 조사가 끊어지지 않으므로 사용이 분리함.


corpus = ['you know i want your love, because i love you.']
vector = CountVectorizer()

print(vector.fit_transform(corpus).toarray()) #코퍼스로부터 각 단어의 빈도 수 기록 
print(vector.vocabulary_) #각 단어의 인덱스 확인

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [64]:
print(vector.fit_transform(corpus))
#기본으로 길이가 2 이상인 아이만 인식하기 때문에 i는 제외 됨.

  (0, 4)	2
  (0, 1)	1
  (0, 3)	1
  (0, 5)	1
  (0, 2)	2
  (0, 0)	1


In [67]:
from sklearn.feature_extraction.text import CountVectorizer 

text = ["you know i want your love. because i love you"]
vect = CountVectorizer(stop_words = ["you", "your"]) #불용어로 지정하고 제거 (직접지정)

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_) #알파벳 순으로 지정됨.

[[1 1 2 1]]
{'know': 1, 'want': 3, 'love': 2, 'because': 0}


In [68]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

sw = stopwords.words("english")
text = ["you know i want your love. because i love you"]
vect = CountVectorizer(stop_words = sw)

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 2 1]]
{'know': 0, 'want': 2, 'love': 1}
