## Word2Vec

* 문장 내부의 단어를 단어간 유사도 분석을 위해 수치 형태의 벡터로 인코딩 하는 신경망

### 단어 인코딩이랑?

![image.png](attachment:image.png)
* 하지만 단순 수치 변환이나 원핫인코딩을 하게 되면 단어간의 유사도를 판단할 수 없다.

### Embedding
* 단어간 유사도를 표현할 수 있는 2차원 벡터

![image.png](attachment:image.png)

## 학습 방식

### CBOW(Continuous Bag of Words)

* 주변의 단어를 통해 중심 단어를 예측
* 주변 단어를 어디까지 봐야할지 결정하는 설정값을 윈도우(window)라고 함
* 보통 윈도우는 2를 기본값, 권장값으로 활용

![image.png](attachment:image.png)

### Skip-gram

* 중심 단어를 통해 주변 단어를 예측

![image.png](attachment:image.png)

## 유의어 분석을 위한 전처리

In [2]:
# py -m pip install gensim
import codecs
from konlpy.tag import Twitter
from konlpy.tag import Okt
from gensim.models import word2vec 
# utf-16 인코딩으로 파일을 열고 글자를 출력하기 --- (※1)
# fp = codecs.open("박근혜_국정연설문_2016.txt", "r", encoding="utf-8")
fp = codecs.open("문재인_국정연설문_2017.txt", "r", encoding="utf-8")
text = fp.read()
# 텍스트를 한 줄씩 처리하기 --- (※2)
# twitter = Twitter()
okt = Okt()
results = []
lines = text.split("\r\n")
for line in lines:
    # 형태소 분석하기 --- (※3)
    # 단어의 기본형 사용
    malist = okt.pos(line, norm=True, stem=True)
    r = []
    for word in malist:
        # 어미/조사/구두점 등은 대상에서 제외 
        if not word[1] in ["Josa", "Eomi", "Punctuation"]:
            r.append(word[0])
    rl = (" ".join(r)).strip()
    results.append(rl)
    print(rl)

    wakati_file = 'moon.wakati'

with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))
# Word2Vec 모델 만들기 --- (※5)
data = word2vec.LineSentence(wakati_file)
model = word2vec.Word2Vec(data, window=10, hs=1, min_count=2, sg=1)
# 예제 옵션을 활용하며 기타 옵션은 메뉴얼 참고
# The parameters:
# min_count = int - Ignores all words with total absolute frequency lower than this - (2, 100)
# window = int - The maximum distance between the current and predicted word within a sentence. E.g. window words on the left and window words on the left of our target - (2, 10)
# size = int - Dimensionality of the feature vectors. - (50, 300)
# sample = float - The threshold for configuring which higher-frequency words are randomly downsampled. Highly influencial. - (0, 1e-5)
# alpha = float - The initial learning rate - (0.01, 0.05)
# min_alpha = float - Learning rate will linearly drop to min_alpha as training progresses. To set it: alpha - (min_alpha * epochs) ~ 0.00
# negative = int - If > 0, negative sampling will be used, the int for negative specifies how many "noise words" should be drown. If set to 0, no negative sampling is used. - (5, 20)
# workers = int - Use these many worker threads to train the model (=faster training with multicore machines)

# model.save("park.model")
model.save("moon.model")
print("\n\n================= 분석 완료 ==================")

존경 하다 국민 여러분
정세균 국회의장 님 의원 여러분
19 대다 국회 때 바로 이 자리 당 대표 연설 하다
20 대다 국회 인사 드리다 것 처음 19 대다 국회 함께 활동 하다 분 들 많다 친근하다 동료 의식 갖다 있다

지난 5월 10일 저 국회 엄숙하다 마음 대통령 취임선서 하다
오늘 정부 추가경정예산 안 편성 이유 주요 내용 직접 설명 드리다 의원 여러분 이해 협조 부탁드리다 이 자리 서다

역대 가장 빠르다 시기 시정 연설 이자 사상 최초 추경 시정 연설 들다
국회 더 긴밀하다 소통 협 치하 고자 하 저 노력 받아들이다
그러나 그 보다 더 주목 해주다 기르다 바라다 것 일자리 추경 절박 성과 시급 성 이다

하다 청년 있다
열심히 공부 하다 대학 입학 하다 입시 몇 배 더 노력 하다 취업 준비 하다
그런데 청년 이렇게 말 하다
“ 제발 면접 하다 번 보다 좋다 ”
그 청년 아니다
우리 수많다 아들 딸 들 이력서 백장 기본 이제 오히려 담담하다 말 있다

실직 카드 빚 근심 하다 하다 청년 부모 보내다 마지막 문자 이렇게 써다
“ 다음 생 공부 잘 하다 ”
그 보도 보다 가슴 먹다 먹다 하다 것 모든 의원님 들 마찬가지 이다 것 이다

일자리 있다 하다 행복하다 것 아니다
부상 당 소방관 가뜩이나 인력 부족하다 상황 동료 들 폐가 되다 미안하다 병가 가지 못 하다
며칠 전 새벽 출근 우체국 집배원 과로사 사망 하다 안타깝다 소식 전해지다

일일이 말씀드리다 끝 없다 것 이다
이렇게 국민 들 고달프다 하루 매 일 매일 계속 되다 있다
우리 정치 책임 임 아무 부인 하다 못 하다 것 이다
이 분명하다 사실 직시 제대로 맞서다 것 국민 들 위해 정부 국회 하다 하다 일이 말씀드리다 싶다

존경 하다 국민 여러분 의원 여러분

국민 삶 고단 근 본 원인 바로 일자리 이다
누구 아시 바 같이 지금 우리 고용 상황 너무나 심각하다
그래서 지난 대선 때 우리 모두 방법론 차이 있다 좋다 일자리 많이 만들기 우리 경제 가장 시급하다 과제 데 인식 같이 하다

이미 통

---

### 유의어 검색
* 단어 빈도가 높은 어휘를 대상으로 유의어 분석
* 검색 결과를 보며 불용어를 추가 한다.

In [3]:
from gensim.models import word2vec

# model  = word2vec.Word2Vec.load("hong.model")
# model  = word2vec.Word2Vec.load("park.model")
model  = word2vec.Word2Vec.load("moon.model")

# similar_words =model.wv.most_similar(positive=["북한"])
# 일자리라는 키워드를 넣고 비슷한 연관 단어를 찾는다
similar_words =model.wv.most_similar(positive=["일자리"])
for word_set in similar_words:
    print(f'{word_set[0]:<10}: {word_set[1]}')
# print(model.most_similar(positive=["일자리"]))
# most_similar: 키워드와 유사한 또는 같이 많이 언급된 단어

것         : 0.9953616857528687
하다        : 0.9942967295646667
추경        : 0.9940459132194519
민간        : 0.9939311742782593
이다        : 0.993580162525177
지역        : 0.9932437539100647
부문        : 0.9927425384521484
등         : 0.9926672577857971
늘리다       : 0.9926609396934509
서비스       : 0.9926127195358276


---

## 불용어 제거
* 2_1에서 추출한 불용어에 검색결과에서 식별된 단어를 추가로 제거한다.

In [4]:
stop_words = "것 수 더 등 그 위 명 이 저 개 창 때 바로 내용 가장 위해 안 배 말 이후 국 충 번 바 속 총 관 그게 분 협 몇 생 전 임 데 치 를 창 개"
stop_words = stop_words.split()
stop_words[:15]

['것', '수', '더', '등', '그', '위', '명', '이', '저', '개', '창', '때', '바로', '내용', '가장']

In [5]:
len(stop_words)

39

In [6]:
add_s = "하다 이다 등 있다 들 되다"
add_s = add_s.split()
stop_words = stop_words + add_s
len(stop_words)

45

In [7]:
fp = codecs.open("문재인_국정연설문_2017.txt", "r", encoding="utf-8")
text = fp.read()
# 텍스트를 한 줄씩 처리하기 --- (※2)
# twitter = Twitter()
okt = Okt()
results = []
lines = text.split("\r\n")

for line in lines:
    # 형태소 분석하기 --- (※3)
    # 단어의 기본형 사용
    malist = okt.pos(line, norm=True, stem=True)
    r = []
    for word in malist:
        # 어미/조사/구두점 등은 대상에서 제외 
        if (not word[1] in ["Josa", "Eomi", "Punctuation"]) and not word[0] in stop_words:
            r.append(word[0])
    rl = (" ".join(r)).strip()
    results.append(rl)
    print(rl)

    wakati_file = 'moon.wakati'

존경 국민 여러분
정세균 국회의장 님 의원 여러분
19 대다 국회 자리 당 대표 연설
20 대다 국회 인사 드리다 처음 19 대다 국회 함께 활동 많다 친근하다 동료 의식 갖다

지난 5월 10일 국회 엄숙하다 마음 대통령 취임선서
오늘 정부 추가경정예산 편성 이유 주요 직접 설명 드리다 의원 여러분 이해 협조 부탁드리다 자리 서다

역대 빠르다 시기 시정 연설 이자 사상 최초 추경 시정 연설 들다
국회 긴밀하다 소통 치하 고자 하 노력 받아들이다
그러나 보다 주목 해주다 기르다 바라다 일자리 추경 절박 성과 시급 성

청년
열심히 공부 대학 입학 입시 노력 취업 준비
그런데 청년 이렇게
“ 제발 면접 보다 좋다 ”
청년 아니다
우리 수많다 아들 딸 이력서 백장 기본 이제 오히려 담담하다

실직 카드 빚 근심 청년 부모 보내다 마지막 문자 이렇게 써다
“ 다음 공부 잘 ”
보도 보다 가슴 먹다 먹다 모든 의원님 마찬가지

일자리 행복하다 아니다
부상 당 소방관 가뜩이나 인력 부족하다 상황 동료 폐가 미안하다 병가 가지 못
며칠 새벽 출근 우체국 집배원 과로사 사망 안타깝다 소식 전해지다

일일이 말씀드리다 끝 없다
이렇게 국민 고달프다 하루 매 일 매일 계속
우리 정치 책임 아무 부인 못
분명하다 사실 직시 제대로 맞서다 국민 정부 국회 일이 말씀드리다 싶다

존경 국민 여러분 의원 여러분

국민 삶 고단 근 본 원인 일자리
누구 아시 같이 지금 우리 고용 상황 너무나 심각하다
그래서 지난 대선 우리 모두 방법론 차이 좋다 일자리 많이 만들기 우리 경제 시급하다 과제 인식 같이

이미 통계청 발표 보도 우리 고용 상황 다시 말씀드리다 실업률 2000년 최고 실업 자수 역대 최고 치르다 기록
특히 청년 실업 고용 절벽 사용 정도 매우 심각하다
연간 청년 실업률 2013년 4년 간 급격하다 높아지다 지난 4월 기준 청년 실업률 통계 작성 최고 치인 11.2% 기록
체감 실업률 최근 3 월간 24% 안팎 청년 4 가운데 1 실업자
베이비붐 세대 자녀 에코 붐 세대 

In [8]:
with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))
# Word2Vec 모델 만들기 --- (※5)
data = word2vec.LineSentence(wakati_file)
model = word2vec.Word2Vec(data, window=10, hs=1, min_count=2, sg=1)
# 예제 옵션을 활용하며 기타 옵션은 메뉴얼 참고
# The parameters:
# min_count = int - Ignores all words with total absolute frequency lower than this - (2, 100)
# window = int - The maximum distance between the current and predicted word within a sentence. E.g. window words on the left and window words on the left of our target - (2, 10)
# size = int - Dimensionality of the feature vectors. - (50, 300)
# sample = float - The threshold for configuring which higher-frequency words are randomly downsampled. Highly influencial. - (0, 1e-5)
# alpha = float - The initial learning rate - (0.01, 0.05)
# min_alpha = float - Learning rate will linearly drop to min_alpha as training progresses. To set it: alpha - (min_alpha * epochs) ~ 0.00
# negative = int - If > 0, negative sampling will be used, the int for negative specifies how many "noise words" should be drown. If set to 0, no negative sampling is used. - (5, 20)
# workers = int - Use these many worker threads to train the model (=faster training with multicore machines)

# model.save("park.model")
model.save("moon.model")
print("\n\n================= 분석 완료 ==================")





In [9]:
# model  = word2vec.Word2Vec.load("hong.model")
# model  = word2vec.Word2Vec.load("park.model")
model  = word2vec.Word2Vec.load("moon.model")

# similar_words =model.wv.most_similar(positive=["북한"])
similar_words =model.wv.most_similar(positive=["일자리"])
for word_set in similar_words:
    print(f'{word_set[0]:<10}: {word_set[1]}')
# print(model.most_similar(positive=["일자리"]))
# most_similar: 키워드와 유사한 또는 같이 많이 언급된 단어

효과        : 0.6873893141746521
이번        : 0.6856487989425659
적         : 0.6239267587661743
지원        : 0.6192356944084167
센터        : 0.5997924208641052
력         : 0.5966618657112122
구직        : 0.5911209583282471
청년실업      : 0.5816858410835266
민생        : 0.5766255259513855
인력        : 0.572799801826477
