# BoW (Bag-of-Words)

### 의문
1. 단어 Index 순서는 미리 정해져있는지??
    - 아마 한 collection or breeze 엔진 내에서는 정해져 있을거 같음

### 과정

In [1]:
import numpy as np

from sklearn.preprocessing import OneHotEncoder

ORI_STRING = "28일 카카오엔터프라이즈에 따르면 카카오워크 이용자들에게 발송한 공지 메일을 통해 내년 업데이트 예정 기능을 안내했다. 개발 예정 목록에 카카오톡처럼 보낸 메시지를 삭제하고, 전화번호로 새로운 멤버를 초대하는 기능이 포함돼 있다."
# 형태소 색인 했다고 가정
# 어잘 단위 분리 -> 조사/형용사 제거 (형태소)
TEST_STRING = "28일 카카오엔터프라이즈 카카오워크 이용자 발송 공지 메일 통해 내년 업데이트 예정 기능 안내 개발 예정 목록 카카오톡 메시지 삭제 전화번호 멤버 초대 기능 포함 있다"
WORDS = ['카카오엔터프라이즈', '카카오', '카카오워크', '공지', '멤버', '메일', '업데이트', '기능', '개발', '카카오톡', '메시지', '전화번호']

In [2]:
index_list = np.array(TEST_STRING.split())
index_list = index_list.reshape(-1, 1)

print(f'Len of the static categories : {len(WORDS)}')
categories = np.array(WORDS).reshape(-1, 1)
for i, word in enumerate(WORDS):
    print(f'idx : {i}, word : {word}')

# handle_unknown : 변환 중에 알 수 없는 범주 특성이 있는 경우 오류를 발생 시킬지 여부
enc = OneHotEncoder(handle_unknown='ignore')
# 자동으로 오름차순 정렬
enc.fit(categories)
print('\n\n입력된 categories (자동으로 오름차순 정렬)')
print(enc.categories_)

Len of the static categories : 12
idx : 0, word : 카카오엔터프라이즈
idx : 1, word : 카카오
idx : 2, word : 카카오워크
idx : 3, word : 공지
idx : 4, word : 멤버
idx : 5, word : 메일
idx : 6, word : 업데이트
idx : 7, word : 기능
idx : 8, word : 개발
idx : 9, word : 카카오톡
idx : 10, word : 메시지
idx : 11, word : 전화번호


입력된 categories (자동으로 오름차순 정렬)
[array(['개발', '공지', '기능', '메시지', '메일', '멤버', '업데이트', '전화번호', '카카오',
       '카카오엔터프라이즈', '카카오워크', '카카오톡'], dtype='<U9')]


In [3]:
print(f'\n입력된 색인 단어 목록')
print(index_list)
print('\n\n')

res_onehot = enc.transform(index_list).toarray()

non_matched_list = []
for i, onehot in enumerate(res_onehot):
    word = ''
    if index_list[i] in WORDS:
        print(f'{index_list[i][0]} {"-" * 10}', end='')
    else:
        print(f'{".":>10}', end='')
        non_matched_list.append(index_list[i][0])

    print(f'{word}', onehot)

print('\nnon_matched_list')
print(non_matched_list)


입력된 색인 단어 목록
[['28일']
 ['카카오엔터프라이즈']
 ['카카오워크']
 ['이용자']
 ['발송']
 ['공지']
 ['메일']
 ['통해']
 ['내년']
 ['업데이트']
 ['예정']
 ['기능']
 ['안내']
 ['개발']
 ['예정']
 ['목록']
 ['카카오톡']
 ['메시지']
 ['삭제']
 ['전화번호']
 ['멤버']
 ['초대']
 ['기능']
 ['포함']
 ['있다']]



         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
카카오엔터프라이즈 ---------- [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
카카오워크 ---------- [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
공지 ---------- [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
메일 ---------- [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
업데이트 ---------- [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
기능 ---------- [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
개발 ---------- [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
         . [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.

### 결과

In [4]:
def bow(words : list, idx_list : list):
    static_categories = np.array(words).reshape(-1, 1)

    # handle_unknown : 변환 중에 알 수 없는 범주 특성이 있는 경우 오류를 발생 시킬지 여부
    one_hot_encoder = OneHotEncoder(handle_unknown='ignore')
    one_hot_encoder.fit(static_categories)

    one_hots = one_hot_encoder.transform(idx_list).toarray()

    bow_result = np.sum(one_hots, axis=0)

    return bow_result

index_list = np.array(TEST_STRING.split())
index_list = index_list.reshape(-1, 1)

print('입력 단어')
print(f'{index_list.reshape(-1)}\n')

print('출력 vector')
print('BoW : ', bow(WORDS, index_list))
print('idx : ', sorted(WORDS, key=str.lower))

입력 단어
['28일' '카카오엔터프라이즈' '카카오워크' '이용자' '발송' '공지' '메일' '통해' '내년' '업데이트' '예정' '기능'
 '안내' '개발' '예정' '목록' '카카오톡' '메시지' '삭제' '전화번호' '멤버' '초대' '기능' '포함' '있다']

출력 vector
BoW :  [1. 1. 2. 1. 1. 1. 1. 1. 0. 1. 1. 1.]
idx :  ['개발', '공지', '기능', '메시지', '메일', '멤버', '업데이트', '전화번호', '카카오', '카카오엔터프라이즈', '카카오워크', '카카오톡']


# bow 추가 (numpy)

In [19]:
def bow(words : list, idx_list : list):
    bow_list = []
    words = sorted(words, key=str.lower)

    for idx in idx_list:
        one_hot = [0] * len(words)
        if idx in words:
            one_hot[words.index(idx)] = 1

        bow_list.append(one_hot)

    print(np.sum(bow_list, axis=0))

index_list = np.array(TEST_STRING.split())
index_list = index_list.reshape(-1, 1)

print('입력 단어')
print(f'{index_list.reshape(-1)}\n')

print('출력 vector')
print('BoW : ', bow(WORDS, index_list))
print('idx : ', sorted(WORDS, key=str.lower))

입력 단어
['28일' '카카오엔터프라이즈' '카카오워크' '이용자' '발송' '공지' '메일' '통해' '내년' '업데이트' '예정' '기능'
 '안내' '개발' '예정' '목록' '카카오톡' '메시지' '삭제' '전화번호' '멤버' '초대' '기능' '포함' '있다']

출력 vector
[1 1 2 1 1 1 1 1 0 1 1 1]
BoW :  None
idx :  ['개발', '공지', '기능', '메시지', '메일', '멤버', '업데이트', '전화번호', '카카오', '카카오엔터프라이즈', '카카오워크', '카카오톡']


# N-gram

### 의문
1. N-gram을 만들때 입력이 어떻게 될까?? (string? list?)

In [5]:
n = 2

word_list = TEST_STRING.split()

res = []
print(len(word_list))
for i in range(len(word_list) - n):
    res_str = ''
    for j in range(n):
        res_str += f'{word_list[i + j]} '
    res_str = res_str.rstrip()

    res.append(res_str)

    print(res_str)

25
28일 카카오엔터프라이즈
카카오엔터프라이즈 카카오워크
카카오워크 이용자
이용자 발송
발송 공지
공지 메일
메일 통해
통해 내년
내년 업데이트
업데이트 예정
예정 기능
기능 안내
안내 개발
개발 예정
예정 목록
목록 카카오톡
카카오톡 메시지
메시지 삭제
삭제 전화번호
전화번호 멤버
멤버 초대
초대 기능
기능 포함


In [6]:
def ngram(n, word_list):
    n_grams = []
    for i in range(len(word_list) - n):
        res_str = ''
        for j in range(n):
            res_str += f'{word_list[i + j]} '
        res_str = res_str.rstrip()

        n_grams.append(res_str)

    return n_grams


In [7]:
word_list = TEST_STRING.split()
res = ngram(2, word_list)

for ress in res:
    print(ress)

28일 카카오엔터프라이즈
카카오엔터프라이즈 카카오워크
카카오워크 이용자
이용자 발송
발송 공지
공지 메일
메일 통해
통해 내년
내년 업데이트
업데이트 예정
예정 기능
기능 안내
안내 개발
개발 예정
예정 목록
목록 카카오톡
카카오톡 메시지
메시지 삭제
삭제 전화번호
전화번호 멤버
멤버 초대
초대 기능
기능 포함


# Tf-idf vector

In [36]:
import os
import json
import pandas as pd

In [33]:
data_dir = './data/brunch'
names = os.listdir(data_dir)

name = names[0]
# json_file = pd.read_json(f'{data_dir}/{name}')
f = open(f'{data_dir}/{name}', 'r')
lines = f.readlines()

In [39]:
print(lines[0])

{"doc_id":"brch-19vv-51","title":"내 결혼식장은 파리입니다. - 보잉 777을 타고 13시간 뒤 정거장에서 내리세요","contents":"'전무님. 저 내일모레 파리에서 결혼식을 합니다.' 7년전 휴가 전날 까지도 왜 아직 청첩장을 안돌리냐는 한 임원의 질문에 어렵게 답을 했다. 와이프와 처음 데이트를 한 곳이 파리였고 거기서 단둘이 조촐하게 결혼 한다는 내 발언은 직원들 사이에 회자되기 충분한 얘깃거리였다. 그리고 그 결정은 어쩔수없이 일부 직원들의 반감을 가져왔다. 업계 내에서도 꽤나 보수적인 편에 속해 보통은 거래처까지 청첩장을 돌리는 문화였으니 그에 정면으로 도전했던 셈이었다. 게다가 계좌번호를 함께 보내는게 암묵적 관례였으니 나로 인한 변화가 마냥 달갑진 않았으리라. 당시 '갑'의 위치에서 근 천만원은 쉽게 들어왔겠지만 내가 부자라서가 아닌 조촐한 결혼식이 그 돈으로 인해 바래지기 싫었던 고집이 있었던 것 같다. 결국, 못받은 축의금은 회사에서 저질러버린 커밍아웃에 대한 비용이었고 내 삶의 방향성을 정하는데 든 수업료였다. '주주임 아껴서 하는 말이지만, 그렇게 회사생활하면 안돼' 결혼 전에도 후에도 내 결정에 대한 환호만큼이나 비판도 많았다. 그리고 비판의 대다수는 내게서 사라져버린 예의나 개념에 개탄해 했다. 그래도 많은 시선 속에서도 당당할 수 있던 이유는 '결혼'만큼은 그 누구도 관여할 수 없는 내 영역이란 확신을 갖고 행했었기 때문이다. 우리는 그간 사회에서 너무나 많은 간섭을 당연시 여겼고 어느새 당연하게 해간다. 밥에 박혀있는 콩을 몰래 골라내다가 혼나던 유년기를 지나고서도 점심시간 메뉴는 늘 상사의 선택에 좌지우지 되었으며 회식에서조차 내 술잔을 쉽게 내려놓지 못했다. '집단'이란 미명하에 개인의 작은 권리까지도 아주 쉽게 무시되고 보다 관행화 되었다. 엄마의 콩밥은 그나마 사랑이었다손 치나 상사의 술잔은 어떻게 여겨야 했나. 그 집단 문화 속에서 스러져 가는 '나'를 세우고 선을 그었던 것이 바로 결혼이었다