## Unsupervised Learning

* 의미가 비슷한 단어의 벡터는 가까운 곳에 몰려있다
* 가까운곳의 기준? 유클리디안 거리!


* 유클리디안 거리 행렬 구축
* 가중치 행렬로 문장별 스코어 구하기 -> Document-Term Matrix와 내적

## 임베딩 읽어들이기

In [2]:
def load_word_embeddings(path, num_vecs=30000):
    embeddings, vocab = [], []
    f = open(path, "r", encoding="utf-8").readlines()[1:num_vecs + 1]
    for line in f:
        splited_line = line.strip().split(" ")
        word = splited_line[0]
        vec = [float(el) for el in splited_line[1:]]
        vocab.append(word)
        embeddings.append(vec)
    word_to_index = {word: idx for idx, word in enumerate(vocab)}
    index_to_word = {idx: word for idx, word in enumerate(vocab)}
    vocab_size = len(vocab)
    return embeddings, vocab, word_to_index, index_to_word, vocab_size

In [3]:
embeddings, vocab, word_to_index, index_to_word, vocab_size = load_word_embeddings("embedding/word2vec.txt")

In [7]:
word_to_index["폰"]

43

In [9]:
embeddings[43]

[-0.14557984,
 0.016829247,
 -0.6225956,
 0.72838,
 0.5608202,
 -0.02858739,
 0.11399057,
 -0.07930925,
 0.18284969,
 0.19744067,
 -0.22264831,
 0.16054781,
 -0.48303637,
 0.32036388,
 -0.07820362,
 -0.24856932,
 -0.12411274,
 -0.8648818,
 -0.051594675,
 0.008955578,
 -0.11973284,
 -0.25558752,
 -0.42160037,
 0.13444282,
 0.48941687,
 -0.2961389,
 0.2860343,
 0.45653197,
 0.28484613,
 0.24604179,
 -0.24901743,
 -0.49485847,
 0.32793656,
 -0.15836336,
 -0.41966224,
 0.016247373,
 -0.11009135,
 0.5343439,
 0.02720583,
 -0.1367373,
 0.3228519,
 0.31499067,
 -0.0997904,
 -0.10375432,
 0.3676059,
 0.030807907,
 -0.023195706,
 -0.106393576,
 -0.4339505,
 0.121650614,
 -0.06593861,
 -0.20390928,
 -0.28656945,
 0.12025366,
 0.078316174,
 0.2890838,
 0.21569826,
 0.30545276,
 -0.064022616,
 -0.32919356,
 0.3660378,
 -0.07438021,
 -0.13100073,
 0.11181796,
 0.39351696,
 -0.13065901,
 0.2815219,
 -0.13879251,
 0.10135274,
 -0.38892677,
 0.30976233,
 -0.16091305,
 0.049222738,
 -0.2701184,
 -0.183

In [10]:
embeddings[word_to_index["폰"]]

[-0.14557984,
 0.016829247,
 -0.6225956,
 0.72838,
 0.5608202,
 -0.02858739,
 0.11399057,
 -0.07930925,
 0.18284969,
 0.19744067,
 -0.22264831,
 0.16054781,
 -0.48303637,
 0.32036388,
 -0.07820362,
 -0.24856932,
 -0.12411274,
 -0.8648818,
 -0.051594675,
 0.008955578,
 -0.11973284,
 -0.25558752,
 -0.42160037,
 0.13444282,
 0.48941687,
 -0.2961389,
 0.2860343,
 0.45653197,
 0.28484613,
 0.24604179,
 -0.24901743,
 -0.49485847,
 0.32793656,
 -0.15836336,
 -0.41966224,
 0.016247373,
 -0.11009135,
 0.5343439,
 0.02720583,
 -0.1367373,
 0.3228519,
 0.31499067,
 -0.0997904,
 -0.10375432,
 0.3676059,
 0.030807907,
 -0.023195706,
 -0.106393576,
 -0.4339505,
 0.121650614,
 -0.06593861,
 -0.20390928,
 -0.28656945,
 0.12025366,
 0.078316174,
 0.2890838,
 0.21569826,
 0.30545276,
 -0.064022616,
 -0.32919356,
 0.3660378,
 -0.07438021,
 -0.13100073,
 0.11181796,
 0.39351696,
 -0.13065901,
 0.2815219,
 -0.13879251,
 0.10135274,
 -0.38892677,
 0.30976233,
 -0.16091305,
 0.049222738,
 -0.2701184,
 -0.183

## 관심 기능 정의

In [13]:
# 스마트폰에 관련된 관심있는 기능들
functions = ["배터리", "촬영", "디자인", "화면", "OS", "색"]
function_size = len(functions)

## 거리 행렬 구하기

In [12]:
import numpy as np
from scipy.spatial import distance

distance_matrix = np.zeros([function_size, vocab_size], dtype=np.float16) # 처음에 0핼렬로 정의
                                                                          # 크기는 6 (6가지 기능) x 23599

In [14]:
for func_idx, func in enumerate(functions):
    func_vec = embeddings[word_to_index[func]] 
    for word_idx, word_vec in enumerate(embeddings):
        distance_matrix[func_idx, word_idx] = distance.euclidean(func_vec, word_vec) #유클리디언 거리 구하기

## 가중치 행렬 구하기

In [16]:
weight_matrix = np.zeros([function_size, vocab_size], dtype=np.float16)
for func_idx, per_func_distances in enumerate(distance_matrix):
    values = np.exp(-(per_func_distances ** 2) / 15)              # 정규화
    mean = np.mean(values)                                        # standard noarmal distribution으로 만듬 (0~1 사이의 수로 정규화)
    weight_matrix[func_idx, :] = values - mean + 0.5

## 가중치 행렬 시각화

In [17]:
from bokeh.plotting import figure
from bokeh.layouts import gridplot
from bokeh.io import output_notebook, show

output_notebook()
def make_plot(title, hist, edges):
    p = figure(title=title, tools='', background_fill_color="#fafafa")
    p.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
           fill_color="navy", line_color="white", alpha=0.5)
    p.y_range.start = 0
    p.grid.grid_line_color="white"
    return p

In [18]:
plots = []
for func_idx, func in enumerate(functions):
    hist, edges = np.histogram(weight_matrix[func_idx], density=True, bins=50)
    plots.append(make_plot(func, hist, edges))
show(gridplot(plots, ncols=2, plot_width=400, plot_height=300, toolbar_location=None))

In [19]:
battery_weights = [(token, score) for token, score in zip(vocab, weight_matrix[0])]

In [20]:
sorted(battery_weights, key=lambda x: x[1], reverse=True)

[('배터리', 1.057),
 ('밧데리', 0.9307),
 ('터리', 0.7607),
 ('표준형', 0.748),
 ('대용량', 0.705),
 ('급속', 0.6855),
 ('리튬', 0.6836),
 ('충전기', 0.675),
 ('슬림형', 0.673),
 ('폴리머', 0.673),
 ('대기전력', 0.666),
 ('러닝', 0.666),
 ('TTA', 0.666),
 ('발열', 0.663),
 ('오래간다', 0.659),
 ('소모율', 0.6514),
 ('상판', 0.6504),
 ('간당간당', 0.6465),
 ('암페어', 0.6455),
 ('키트', 0.6455),
 ('단다고', 0.6445),
 ('변강', 0.6436),
 ('가로길이', 0.6426),
 ('mAH', 0.6416),
 ('여분', 0.6396),
 ('런타임', 0.6396),
 ('하판', 0.6396),
 ('커넥터', 0.6377),
 ('넓이', 0.6377),
 ('외장형', 0.6367),
 ('비품', 0.6357),
 ('타폰', 0.634),
 ('DIY', 0.634),
 ('나사', 0.633),
 ('강쇠', 0.633),
 ('배불뚝이', 0.632),
 ('껍데기', 0.631),
 ('기판', 0.628),
 ('통했', 0.627),
 ('RMAA', 0.627),
 ('절벽', 0.627),
 ('ap', 0.626),
 ('뒤판', 0.626),
 ('ISP', 0.626),
 ('회로', 0.625),
 ('오래간다고', 0.625),
 ('거미줄', 0.625),
 ('tta', 0.625),
 ('풀로', 0.624),
 ('애물단지', 0.624),
 ('aux', 0.624),
 ('라이트닝', 0.623),
 ('교실', 0.623),
 ('뽀대', 0.622),
 ('항시', 0.622),
 ('뒷부분', 0.621),
 ('코랄', 0.621),
 ('접점', 0.621),
 ('도로는', 0.

## Document-Term Matrix 구축

In [27]:
corpus = open("data/phone_review_mecab.txt", "r", encoding="utf-8").readlines()
corpus = list(set([el.strip() for el in corpus if len(el.split()) < 31]))

In [33]:
import random
corpus = random.sample(corpus, 3000)

In [34]:
corpus

['디자인 이 궁금 해요 ＊',
 '용도 에 따라 구매 를 하 셔야 할 듯 갤 s 가 훨씬 좋 은 부분 도 있 으니까요',
 '옵티머스 LTE 2 판매량 7 0 만 대 돌파',
 '옵 쥐 가 제일 상급 ips 입니다 아이폰 도 lg 디 플 에서 공급 받 는 거 쓰 지만 옵 g 보단 한 단계 낮 은 ips 이 구요',
 '겔 스 플레시 없 어요 헐',
 '그러 쿤 요 ㅠㅠ 에 구',
 '한 7 번 본 듯',
 '아래쪽 은 갤 스 때 도 그랬 어요 볼록 한 곳 에 안테나 들어가 있 는 곳',
 '검 게 보여서 필터 적용 한 느낌 이 들 나서 요',
 '국내 분 들 이 커널 만 개발 해 주 시 면 괜찮 다 능',
 '변경 하 고 받 는 것 도 가능 합니다 쿠폰 받 는 시점 에 갤 3 갤럭시 요금제 면 바로 가능 합니다',
 '하긴 지금 삼성 애플 두 기업 의 네임 밸류 가 지나치 게 높 다 보 니 시장 이 양극 화 되 는 문제 도 있 죠 ㅋㅋ',
 '며칠 전 에 뽐 게에 올라온 4 6 0 원 짤 인가 여섯 장 질렀 는데 괜찮 네요',
 '추진력 굳',
 '말 끝 나 니 바로 눈 ㅎㅎㅎ 5 1 2',
 '아드 레노 는 이번 스냅 4 세대 프로 서 제대로 뒤집 기 성공 했 죠 스냅 4 세대 땐 쓸 만하다 였 고요',
 '진짜 네임 드 님 출현 ㅎㅎ ㅊㅊ',
 '삼성 은 아직 멀 었 네여 ㅉㅉ',
 '판매자 도 정책 이 우찌 될지 는 모르 는 거 니까요',
 '테티 이 가 낫 지 않 나요 베레 2 면 몰라도 베레기 는 ㅋㅋ',
 '아 그렇 군요 LTE 로 한번 찾 아 봐야 겠 네요',
 '쿼드 코 어시장 에서 는 갤럭시 s 3 vs HTC One X 의 싸움 이 겠 군요',
 'Thanks',
 '지금 시점 에 저건 너무 비싸 네요',
 'LGU 갤럭시 노트 1 6 G 4 1 0 0 0 0 원 떴 네요 최저 가 경신',
 '떳 네요 달렸 어요 ㅋㅋ 친구 꺼',
 '뽐뿌 는 실시간 이 군요 ㅋㅋ',
 '옵티머스 LTE 2 배터리 나눔 합니다',
 '프라다 st 쪽 은 검 

In [35]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(vocabulary=vocab,
                             binary=True, 
                             ngram_range=(1, 1), 
                             tokenizer=lambda x: x.strip().split())

In [36]:
dtm = vectorizer.fit_transform(corpus).toarray()
word_counts_per_doc = np.sum(dtm, axis=1)
result = np.dot(dtm, weight_matrix.T)

In [37]:
word_counts_per_doc

array([ 4, 19,  9, ..., 19,  4, 16], dtype=int64)

In [38]:
word_counts_per_doc ** 0.6

array([2.29739671, 5.85129724, 3.73719282, ..., 5.85129724, 2.29739671,
       5.27803164])

## 최종 결과물 도출

In [39]:
for func_idx, func in enumerate(functions):
    print("##### " + func)
    scores = - result[:, func_idx] / (word_counts_per_doc ** 0.6)
    for sent_idx in scores.argsort()[:10]:
        print(corpus[sent_idx].strip(), - scores[sent_idx])
    print("\n")

##### 배터리
갠 적 으로 액정 필름 외 엔 케이스 를 안 끼우 는 스타일 이 라 ㅠㅠ 그냥 배터리 뒷 커버 만 하이퍼 스킨 이거 안 파나 요 ㅠㅠ 1.5920379858498444
카메라 는 알파 부터 확실히 우위 였 죠 센서 크롭 ois 의 부제 만 빼 면 노트 4 와 거의 같 은 스펙 에 품질 도 1.5868812043625475
제 갤 삼 도 일 년 정도 쓰 니깐 배터리 부풀 더라구요 밧데리 케이스 가 안 닫힐 정도 에 요 as 는 안 되 더라구요 ㅜㅜ ＊ 1.581852421014835
한국 놋 투도 됩니다 배터리 커버 빼 면 단자 가 있 습니다 무선 충전 코일 모듈 이랑 충전기 사면 가능 합니다 1.5654875075226697
SKT KT 모델 은 배터리 가 빨리 떨어진다고 합니다 배터리 시간 은 U 단말기 가 오래간다 네요 차이 가 많 나 더라구요 검색 하 시 면 원인 도 나올 겁니다 1.5455396098601166
본체 1 배터리 1 만 있 어서 배터리 걱정 이 네요 그냥 녹 네요 녹 아 ㅠㅠ 저장 도 문제 고 가볍 게 사용 하 기 딱 좋 네요 ㅎㅎ 1.5271367248541765
s 2 실사 2 년 인데 아직 까지 큰 문제 없이 잘 쓰 고 있 습니다 배터리 문제 빼 곤 하 지만 이번 KT 옵 G 로 넘어갔 어요 1.5230331339103562
네 넹 베 가레 이 서 젤 첨 에 나와서 이병헌 이 타이어 굴리 는 CF 찍 고 갤 S 2 랑 경쟁 했 던 그 베가 레이서 요 ㅋ 1.5143288403000201
전 플립 커버 로 밑 에 받치 고 쓰 다 보 니 발열 은 잘 못 느꼈 는데 ㅜ 지금 보 니 저 도 4 4 도 네요 ㅡㅡ 1.5091554676695143
액정 큰 거 야 다른 안 드 폰 도 크 고 갤 3 가 좋 은 건 아몰레드 의 리얼 블랙 정도 너무 오바 하 시 는 듯 ㅋ 1.500810793647693


##### 촬영
카메라 는 알파 부터 확실히 우위 였 죠 센서 크롭 ois 의 부제 만 빼 면 노트 4 와 거의 같 은 스펙 

  This is separate from the ipykernel package so we can avoid doing imports until


In [40]:
for func_idx, func in enumerate(functions):
    print("##### " + func)
    scores = - result[:, func_idx] / (word_counts_per_doc ** 0.6)
    i = 0
    for sent_idx in scores.argsort():
        if func not in corpus[sent_idx] and i < 10:
            print(corpus[sent_idx].strip(), - scores[sent_idx])
            i += 1
    print("\n")

##### 배터리
카메라 는 알파 부터 확실히 우위 였 죠 센서 크롭 ois 의 부제 만 빼 면 노트 4 와 거의 같 은 스펙 에 품질 도 1.5868812043625475
네 넹 베 가레 이 서 젤 첨 에 나와서 이병헌 이 타이어 굴리 는 CF 찍 고 갤 S 2 랑 경쟁 했 던 그 베가 레이서 요 ㅋ 1.5143288403000201
전 플립 커버 로 밑 에 받치 고 쓰 다 보 니 발열 은 잘 못 느꼈 는데 ㅜ 지금 보 니 저 도 4 4 도 네요 ㅡㅡ 1.5091554676695143
액정 큰 거 야 다른 안 드 폰 도 크 고 갤 3 가 좋 은 건 아몰레드 의 리얼 블랙 정도 너무 오바 하 시 는 듯 ㅋ 1.500810793647693
저 도 갤 투 쓸 때 갤 투문 자음 은 빼 놨었 는데 길거리 에서 들려오 는 휘파람 소리 문자 음 이 너무 탐나 더라구요 ㅠ 1.4764129553621304
국내 에 도 빨리 나오 면 좋 겠 네요 S 3 는 참 좋 은 폰 인데 이왕 2 GB 로 올리 지 1 5 GB 는 좀 아쉽 네요 1.4737448842902592
빨리빨리 사 라는 수작 일 뿐 광고 이 니 더기 다립 시 다 저 는 갤 탭 갤 투 조합 ㅎ 쓸 예정 이 라서 아직 급하 지 않 아요 1.4721076639125106
둥근 모서리 부분 의 회 번 률 이 라고 하 나요 이게 일치 한다고 카피 인정 한 게 겔 스 죠 갤 삼 은 곡선 반경 다른 듯 1.4677822092610677
아이폰 4 와 가로길이 가 사진 상 으론 비슷 해 보여서 비교 좀 부탁드릴께요 ㅠㅠㅠㅠ 가로 가 엄청 짧 고 세로 만 긴 기형 같 아서 고민 이 네요 ㅠㅠ 1.4672137424325604
저 랑 비슷 하 시 네요 ㅋㅋ 저 도 시리우스 만 기다리 면서 계속 새로 고침 이러 다가 갑자기 훅 나왔 다 사리 질지 도 모른다는 불안 감 ㅠㅠ 1.4640988142844484


##### 촬영
카메라 는 알파 부터 확실히 우위 였 죠 센서 크롭 ois 의 부제 만 빼 면 노트 4 와 거의 같 은 스

  This is separate from the ipykernel package so we can avoid doing imports until
