<a href="https://colab.research.google.com/github/fininsight/text-mining-tutorial/blob/master/1_%EB%8B%A8%EC%96%B4%EC%9D%98_%ED%91%9C%ED%98%84_Word_Representation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 단어의 표현 (Word Representation)


*   기계는 문자를 그대로 인식할 수 없기때문에 숫자로 변환



# 1 원-핫 인코딩 (One-Hot Encoding)
* 단어 집합 갯수 만큼 

## 1.1 "원숭이, 바나나, 사과" 로 원-핫 인코딩을 한다면

In [0]:
# 인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과']

In [0]:
from collections import defaultdict
import numpy as np 

def one_hot_encode(word_ls):
    # 고유 단어와 인덱스를 매칭시켜주는 사전 생성
    word2idx_dic = defaultdict(lambda:len(word2idx_dic)) 
    
    # {단어 : 인덱스} 사전 구축
    for word in word_ls:
        word2idx_dic[word]
    
    n_unique_words = len(word2idx_dic) # 고유한 단어의 갯수
    one_hot_vectors = np.zeros((len(word_ls), n_unique_words)) # 원핫-벡터를 만들기 위해 비어있는 벡터 생성
    
    for i,word in enumerate(word_ls):
        index = word2idx_dic[word] # 해당 단어의 고유 인덱스
        one_hot_vectors[i, index] += 1 # 해당 단어의 고유 인덱스에만 1을 더해줌
        
    return one_hot_vectors

In [29]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## 1.2 "코끼리"라는 단어가 추가된다면?

In [0]:
word_ls = ['원숭이','바나나','사과','코끼리']

In [31]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## 1.3 sklearn을 활용한 one-hot encoding


함수명 | 설명
--|--
fit(X[, y])	| Fit OneHotEncoder to X.
fit_transform(X[, y])	| Fit OneHotEncoder to X, then transform X.
inverse_transform(X)	| Convert the back data to the original representation.
transform(X)	| Transform X using one-hot encoding.

In [32]:
# sklearn을 활용한 one-hot encoding
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# 예제 데이터 배열
values = array(word_ls)
print(values)

# 문자열에 숫자를 붙임
label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(values)
print(int_enc)

# binary encode
onehot_enc = OneHotEncoder(sparse=False)
int_enc = int_enc.reshape(len(int_enc), 1) # n:1 matrix로 변환
onehot_enc = onehot_enc.fit_transform(int_enc)
print(onehot_enc)

# one-hot encoding 의 첫번째 배열을 값을 역으로 산출
inverted = label_enc.inverse_transform([argmax(onehot_enc[0, :])])
print(inverted)

['원숭이' '바나나' '사과' '코끼리']
[2 0 1 3]
[[0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]]
['원숭이']


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.




---



# 2 밀집 벡터 (Dense Vector)

In [0]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}



---



# 3 유사도 계산

## 3.1 유클리디언 거리(Euclidean distance)

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/55/Euclidean_distance_2d.svg/220px-Euclidean_distance_2d.svg.png"  width="200"/>

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/795b967db2917cdde7c2da2d1ee327eb673276c0" width="350"/>

https://en.wikipedia.org/wiki/Euclidean_distance

In [49]:
import numpy as np
def dist(x,y):   
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum(x-y)**2)
  
# 사과와 바나나의 코사인 유사도
dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.6

## 3.2 마할라노비스 거리(Mahalanobis distance)

## 3.3 민코스키 거리(Minkowski distance)

## 3.4 코사인 유사도(Cosine Similarity) 계산

In [0]:
def cal_cosine_similarity(x, y):
    # x와 y, 두 벡터의 코사인 유사도를 계산하는 함수
    nominator = np.dot(x, y)    # 분자
    denominator = np.linalg.norm(x)*np.linalg.norm(y)  # 분모
    return nominator/denominator

In [0]:
# 사과와 바나나의 코사인 유사도
cal_cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.8944271909999159

In [0]:

# 사과와 원숭이의 코사인 유사도
cal_cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['원숭이'])

0.7071067811865475

In [0]:
# 바나나와 원숭이의 코사인 유사도
cal_cosine_similarity(word_embedding_dic['바나나'], word_embedding_dic['원숭이'])

0.9486832980505138



---



# 4 단어 임베딩 (Word Embedding)

## 4.1 구글드라이브 내 파일 읽어오기

In [0]:
# 구글 드라이브에서 csv 파일을 읽어오기 위해 gauth 인증을 합니다.
!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
# Authenticate and create the PyDrive client.
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [0]:
url_it ='https://drive.google.com/open?id=1Yj9sJ-E_ZiOmEcHpsHI7-iIvs08HEVNN'
id_it = url_it.split('=')[1]
print(id_it)

url_culture ='https://drive.google.com/open?id=1eG0Tdh3b27Su5Zt45LXdBS3sHe2kDb7x'
id_culture = url_culture.split('=')[1]
print(id_culture)

1Yj9sJ-E_ZiOmEcHpsHI7-iIvs08HEVNN
1eG0Tdh3b27Su5Zt45LXdBS3sHe2kDb7x


In [0]:
%ls

adc.json  실리콘벨리기사_전처리.csv  [0m[01;34msample_data[0m/


In [0]:
# 크롤링해 온 국민청원 데이터를 판다스를 통해 읽어온다.
downloaded = drive.CreateFile({'id':id_it}) 
downloaded.GetContentFile('2_word_embedding_it.csv')  

# 크롤링해 온 국민청원 데이터를 판다스를 통해 읽어온다.
downloaded = drive.CreateFile({'id':id_culture}) 
downloaded.GetContentFile('2_word_embedding_culture.csv')  

In [0]:
%ls

2_word_embedding_culture.csv  2_word_embedding_it.csv  adc.json  [0m[01;34msample_data[0m/


In [0]:
import pandas as pd
it_df = pd.read_csv('2_word_embedding_it.csv').dropna()
culture_df = pd.read_csv('2_word_embedding_culture.csv').dropna()

## 4.2 Word2Vec

In [0]:
it_token_ls = list(it_df.loc[:,'1'])
culture_token_ls = list(culture_df.loc[:,'1'])
total_token_ls = it_token_ls + culture_token_ls

In [0]:
total_token_ls[0]

'배,정회,신임,과학기술,일자리,진흥,원장,아시아,경제,이민,우,배,정회,전,국립,중앙,과학,관,전시,연구,단장,과학기술,일자리,진흥,제,원장,취임,과학기술,정보,통신,같은,인사,발표,임기,날,동안,배,신임,원장,행정,고등고시,공직,입문,교육,과학기술,부,융합,기술,과장,중앙대,경영,경제,초빙교수,과기,정통부,연구,성과,활용,정책,과장,연구,성과,혁신,기획,과장,과학기술,정책,수립,정부,연구개발,연구,기술,이전,사업,두루,경험,보유,평가,배,신임,원장,날,환담,회,새로운,임무,조직,신속히,성하고,직원,역량,강화하겠다,며,실험실,유망,기술,전,문,기업,연결하며,기술,이전,효과,지원,신,기술,창업,통한,미래,일자리,많이,창,고,이민,우,네이버,홈,아시아,경제,뉴스,확인,재미,신기,과학,꿀,잼,인,기,만화,경제,눈,세계,창,아시아,경제,전,재'

In [0]:
total_token_ls = [tokens.split(',') for tokens in total_token_ls]

In [0]:
total_token_ls[0][:10]

['배', '정회', '신임', '과학기술', '일자리', '진흥', '원장', '아시아', '경제', '이민']

In [0]:
!pip install paramiko
from gensim.models import Word2Vec

Collecting paramiko
[?25l  Downloading https://files.pythonhosted.org/packages/cf/ae/94e70d49044ccc234bfdba20114fa947d7ba6eb68a2e452d89b920e62227/paramiko-2.4.2-py2.py3-none-any.whl (193kB)
[K    100% |████████████████████████████████| 194kB 7.0MB/s 
[?25hCollecting cryptography>=1.5 (from paramiko)
[?25l  Downloading https://files.pythonhosted.org/packages/5b/12/b0409a94dad366d98a8eee2a77678c7a73aafd8c0e4b835abea634ea3896/cryptography-2.6.1-cp34-abi3-manylinux1_x86_64.whl (2.3MB)
[K    100% |████████████████████████████████| 2.3MB 9.3MB/s 
Collecting bcrypt>=3.1.3 (from paramiko)
[?25l  Downloading https://files.pythonhosted.org/packages/d0/79/79a4d167a31cc206117d9b396926615fa9c1fdbd52017bcced80937ac501/bcrypt-3.1.6-cp34-abi3-manylinux1_x86_64.whl (55kB)
[K    100% |████████████████████████████████| 61kB 23.6MB/s 
[?25hCollecting pynacl>=1.0.1 (from paramiko)
[?25l  Downloading https://files.pythonhosted.org/packages/27/15/2cd0a203f318c2240b42cd9dd13c931ddd61067809fee3479f44f

In [0]:
word2vec = Word2Vec(
    sentences = total_token_ls,  # 학습시킬 문장
    size = 30,                  # 임베딩된 단어 벡터의 차원 크기
    alpha = 0.025,               # 학습률(Learning rate)
    min_count=2,                 # 1번 미만 등장한 단어는 제외
    window = 8,                  # 문맥의 크기 (window_size)
    sample = 0.001,              # sub-sampling
    sg = 1,                      # 0: CBOW, 1: Skip-gram
    iter = 10,                    # 전체 문장 반복학습 횟수(epoch)
    )

In [0]:
word2vec.wv.__getitem__('문화')

array([ 0.7587959 , -0.11468028,  0.99950695, -0.5830294 , -0.53146863,
       -0.08724304, -0.04303695,  0.44012544, -0.2901832 ,  0.47357106,
       -0.6258593 ,  0.22127847,  0.5892466 ,  0.46860823,  0.34110332,
        0.62596506, -0.57041854, -0.56690645,  0.53896487, -0.967613  ,
       -0.8699213 , -0.52416694, -0.72738206, -0.4006263 , -1.0287417 ,
       -0.44523874, -0.4051323 , -0.04418683,  0.5541464 , -0.05710315],
      dtype=float32)

In [0]:
word2vec.wv.most_similar('인공')

  if np.issubdtype(vec.dtype, np.int):


[('지능', 0.9658249616622925),
 ('유전자', 0.866620659828186),
 ('학습', 0.8557372093200684),
 ('높아', 0.8464064002037048),
 ('접목', 0.8357588648796082),
 ('결합', 0.8341535329818726),
 ('핀란드', 0.8224778175354004),
 ('정확성', 0.8214777708053589),
 ('프로젝트', 0.8140239119529724),
 ('의료', 0.8072370290756226)]

In [0]:
word2vec.wv.most_similar('공연')

  if np.issubdtype(vec.dtype, np.int):


[('회관', 0.9334250688552856),
 ('예술', 0.925646185874939),
 ('평양', 0.910593569278717),
 ('극장', 0.9045096635818481),
 ('관현악단', 0.8928622603416443),
 ('국악', 0.8884977102279663),
 ('그림', 0.8862243890762329),
 ('클래식', 0.8840991258621216),
 ('기원', 0.8784158229827881),
 ('연주', 0.8696287274360657)]

In [0]:
culture_df

Unnamed: 0.1,Unnamed: 0,0,1
0,0,"""[안성완 인턴기자 asw0727@imaeil.com] 사진=위메프 홈페이지 캡쳐위...","안성,완,인턴,사진,위,메,프,홈페이지,캡쳐,위메프,반값,특,밤,네티즌,관심,위,메..."
1,1,"""울산과 경남, 경북, 강원, 제주 등 5개 시도에서 공공 부문 중심 미세먼지 비상...","울산,경남,경북,강원,제주,개,시도,공공,부문,중심,미세,먼지,비상,감,조치,환경부..."
2,2,"""한국방송통신대학교(총장 류수노/이하 방송대)가 1월19일 ‘제 1회 KNOU 글로...","한국,방송통신,대학교,총장,류,노,이하,방송,제,글로벌,봉사,단,고엽제,피해자,수용..."
3,3,"""배우 박환희. [사진 박환희 인스타그램] 배우 박환희(29)가 섬유근육통...","배우,박,환희,사진,박,환희,인스타,그램,배우,박,환희,섬유,근육통,있다고,박,환희..."
4,4,"""ㆍ두 얼굴의 문명, 그 너머를 위해이탈리아 로마 근교 아피아 가도에는 아직도 수레...","두,얼굴,문명,너머,위해,이탈리아,로마,근교,아피아,가도,아직도,수레바퀴,자국,선명..."
5,5,"""(서울=연합뉴스) 서울 종로구 부암동 서울미술관이 22일 기자간담회를 열고 신관을...","서울,연합,서울,종로구,부암동,서울,미술관,간담,회,신관,공개,신관,지하,층,지상,..."
6,6,"""(서울=연합뉴스) 국립중앙박물관은 22일 손혜원 의원 관련 의혹을 해명하면서 작년...","서울,연합,국립,중앙,박물관,손,혜,원,의원,관련,의혹,해명,작년,구매,현대,금속,..."
7,7,"""동영상 뉴스","동,영상"
8,8,\t지난 20일 <SBS스페셜>을 통해 소개된 단식모방식단 FMD(Fasting-M...,"지난,스페셜,통해,소개,단식,모방,식단,대한,대중,관심,뜨겁습니다,달,제한,식단,섭..."
9,9,"""자료로 짚어본 한글과 여성“국문(한글)이 생긴 후 제일가는 명필”이란 극찬을 받은...","자료,한글,여성,국문,한글,후,제,일가,명필,이란,극찬,서기,씨,여성,조선말,최고,..."


## 4.3 차원축소 활용 시각화