# *One-hot Encoding*

컴퓨터는 문자보다 숫자를 더 잘 처리함<br>
자연어 처리에서는 문자를 숫자로 바꾸는 여러가지 기법이 있는데, 그 중 <big><b>One-hot Encoding</b></big>은 <u>단어를 표현하는 가장 기본적인 표현 방법</u>

<big><b>단어 집합(Vocabulary)</b></big>
<blockquote>서로 다른 단어들의 집합<br>
텍스트의 모든 단어를 중복 허용없이 모아놓으면 <u>단어 집합</u>이라고 함<br>
텍스트에 단어가 총 5,000개 존재하면, 단어 집합의 크기는 5,000<br></blockquote>

<big><b>원 핫 인코딩 한계</b></big>
<blockquote>1. 단어 개수가 늘어날수록, 벡터를 저장하기 위해 <b>필요 공간(벡터 차원)이 계속 늘어남</b><br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<u>원 핫 벡터에서의 단어 집합 크기가 곧 벡터 차원 수</u><br>
2. <b>단어의 유사성을 표현할 수 없음</b></blockquote>

# 

## *Data Load*

In [1]:
import pandas as pd
from pshmodule.utils import filemanager as fm

In [2]:
df = fm.load('/mnt/nas_storage3/shpark/practice/data/news_sentiment.csv')
df = df[['content', 'sentiment']]
df.rename(columns={"sentiment":"label"}, inplace=True)

extension : .csv
Loaded 5011 records from /mnt/nas_storage3/shpark/practice/data/news_sentiment.csv


In [3]:
print(df.head())

                                             content label
0  G7 원전사고 국경 넘어 민간인에 방사성 물질 노출 위험 무력분쟁 핵시설 파손으로 ...    부정
1  에 꽂힌 핀다   렌트리스 이어 오토론까지 보폭 확대 핀다 정상연 수석매니저 인터뷰...    긍정
2  3000명 회원에게 제각기 다른 3000개 앱이 되겠다여성 패션앱 1위 에이블리의 ...    긍정
3  항공업계 러시아 운항영공 통과 중단우회항로 이용 기사내용 요약대한항공아시아나 등 우...    부정
4  에 꽂힌 핀다  렌트리스 이어 오토론까지 보폭 확대 핀다 정상연 수석매니저 인터뷰2...    긍정


## *Vocabulary*

In [4]:
from konlpy.tag import Mecab

In [5]:
m = Mecab('/usr/local/lib/mecab/dic/mecab-ko-dic')

In [6]:
df['nouns'] = df.content.apply(lambda x : m.nouns(x))

In [7]:
token = df['nouns'][0]
print(token)

['원전', '사고', '국경', '민간인', '방사성', '물질', '노출', '위험', '무력', '분쟁', '핵시설', '파손', '민간', '위험', '극', '이율', '특파원', '주요', '개국', '비확산', '책임', '자그룹', '일', '우크라이나', '핵안', '전체', '관련', '성명', '우크라', '핵시설', '인근', '러시아', '공격', '우려', '표', '핵시설', '안전', '조처', '규탄', '우크라', '북부', '체르노빌', '원전', '경비', '러시아군', '러시아군', '병사', '일', '우크라', '북부', '프리', '트', '체르노빌', '원자력발전소', '앞', '경계', '근무', '이', '무력', '분쟁', '와중', '핵시설', '파손', '민간인', '위험', '가능', '극', '원전', '사고', '민간인', '환경', '방사성', '물질', '노출', '위험', '국가', '국경', '지적', '국제원자력기구', '추진중', '무력', '분쟁', '와중', '우크라', '핵시설', '안전', '보장', '체계', '합의', '노력', '지지', '라파엘', '그로시', '사무총장', '우크라', '핵시설', '안정', '보장', '체계', '확립', '핵시설', '물리', '유지', '안전보장', '시스템', '장비', '경우', '작동', '바', '그', '운영인력', '안전보장', '의무', '달성', '수', '외부', '전력', '공급', '가능', '핵시설', '내로', '물류', '공급망', '중단', '작동', '지적', '시설', '안팎', '효과', '방사성', '물질', '모니터링', '시스템', '핵시설', '규제', '당국', '간', '수', '소통', '그', '비확산', '책임', '자그룹', '우리', '우크라', '핵시설', '안전보장', '체계', '합의', '사무총장', '긴급', '노력', '지지', '동시', '우크라이나', '영토', '기반시설'

In [8]:
word2index = {}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)

In [9]:
print(word2index)

{'원전': 0, '사고': 1, '국경': 2, '민간인': 3, '방사성': 4, '물질': 5, '노출': 6, '위험': 7, '무력': 8, '분쟁': 9, '핵시설': 10, '파손': 11, '민간': 12, '극': 13, '이율': 14, '특파원': 15, '주요': 16, '개국': 17, '비확산': 18, '책임': 19, '자그룹': 20, '일': 21, '우크라이나': 22, '핵안': 23, '전체': 24, '관련': 25, '성명': 26, '우크라': 27, '인근': 28, '러시아': 29, '공격': 30, '우려': 31, '표': 32, '안전': 33, '조처': 34, '규탄': 35, '북부': 36, '체르노빌': 37, '경비': 38, '러시아군': 39, '병사': 40, '프리': 41, '트': 42, '원자력발전소': 43, '앞': 44, '경계': 45, '근무': 46, '이': 47, '와중': 48, '가능': 49, '환경': 50, '국가': 51, '지적': 52, '국제원자력기구': 53, '추진중': 54, '보장': 55, '체계': 56, '합의': 57, '노력': 58, '지지': 59, '라파엘': 60, '그로시': 61, '사무총장': 62, '안정': 63, '확립': 64, '물리': 65, '유지': 66, '안전보장': 67, '시스템': 68, '장비': 69, '경우': 70, '작동': 71, '바': 72, '그': 73, '운영인력': 74, '의무': 75, '달성': 76, '수': 77, '외부': 78, '전력': 79, '공급': 80, '내로': 81, '물류': 82, '공급망': 83, '중단': 84, '시설': 85, '안팎': 86, '효과': 87, '모니터링': 88, '규제': 89, '당국': 90, '간': 91, '소통': 92, '우리': 93, '긴급': 94, '동시': 95, '영토': 96, '기반시설': 97, 

## *One-hot Encoding*

In [10]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0] * len(word2index)
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [13]:
one_hot_encoding('방사성', word2index)

[0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0]