# Train Data

In [None]:
!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
train_data = pd.read_csv('/content/drive/Shareddrives/20-2 KUBIG 자연어처리 프로젝트/pre_corpus_df.csv')

In [None]:
len(train_data)

132776

In [None]:
train_data.drop_duplicates(subset=['document'], inplace=True)

In [None]:
train_data = train_data.dropna(how = 'any')

In [None]:
print(train_data.isnull().values.any())

False


In [None]:
train_data.head(10)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
5,5403919,막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.,0
6,7797314,원작의 긴장감을 제대로 살려내지못했다.,0
7,9443947,별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단...,0
8,7156791,액션이 없는데도 재미 있는 몇안되는 영화,1
9,5912145,왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나?,1


In [None]:
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

In [None]:
punct = "/-'?!.,#$%\'()*+-/:;<=>@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&'
punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "'", '“': '"', '”': '"', '“': '"', "£": "e", '∞': 'infinity', 'θ': 'theta', '÷': '/', 'α': 'alpha', '•': '.', 'à': 'a', '−': '-', 'β': 'beta', '∅': '', '³': '3', 'π': 'pi', }

In [None]:
def clean_punc(text, punct, mapping):
    for p in mapping:
        text = text.replace(p, mapping[p])
    
    for p in punct:
        text = text.replace(p, f' {p} ')
    
    specials = {'\u200b': ' ', '…': ' ... ', '\ufeff': '', 'करना': '', 'है': ''}
    for s in specials:
        text = text.replace(s, specials[s])
    
    return text.strip()

In [None]:
cleaned_corpus = []
for sent in train_data['document']:
    cleaned_corpus.append(clean_punc(sent, punct, punct_mapping))

In [None]:
for i in range(0, 10):
    print(cleaned_corpus[i])

아 더빙 진짜 짜증나네요 목소리
흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나
너무재밓었다그래서보는것을추천한다
교도소 이야기구먼 솔직히 재미는 없다평점 조정
사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다
막 걸음마 뗀 세부터 초등학교 학년생인 살용영화ㅋㅋㅋ별반개도 아까움
원작의 긴장감을 제대로 살려내지못했다
별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지정말 발로해도 그것보단 낫겟다 납치감금만반복반복이드라마는 가족도없다 연기못하는사람만모엿네
액션이 없는데도 재미 있는 몇안되는 영화
왜케 평점이 낮은건데 꽤 볼만한데 헐리우드식 화려함에만 너무 길들여져 있나


In [None]:
def clean_text(texts):
    corpus = []
    for i in range(0, len(texts)):
        review = re.sub(r'[@%\\*=()/~#&\+á?\xc3\xa1\-\|\.\:\;\!\-\,\_\~\$\'\"]', '',str(texts[i])) 
        review = re.sub(r'\d+','', str(texts[i]))
        review = review.lower() 
        review = re.sub(r'\s+', ' ', review) 
        review = re.sub(r'<[^>]+>','',review) 
        review = re.sub(r'\s+', ' ', review) 
        review = re.sub(r"^\s+", '', review) 
        review = re.sub(r'\s+$', '', review) 
        corpus.append(review)
    return corpus

In [None]:
basic_preprocessed_corpus = clean_text(cleaned_corpus)

In [None]:
for i in range(0, 10):
    print(basic_preprocessed_corpus[i])

아 더빙 진짜 짜증나네요 목소리
흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나
너무재밓었다그래서보는것을추천한다
교도소 이야기구먼 솔직히 재미는 없다평점 조정
사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다
막 걸음마 뗀 세부터 초등학교 학년생인 살용영화ㅋㅋㅋ별반개도 아까움
원작의 긴장감을 제대로 살려내지못했다
별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지정말 발로해도 그것보단 낫겟다 납치감금만반복반복이드라마는 가족도없다 연기못하는사람만모엿네
액션이 없는데도 재미 있는 몇안되는 영화
왜케 평점이 낮은건데 꽤 볼만한데 헐리우드식 화려함에만 너무 길들여져 있나


# Spell Check, Space Check, Normalization

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [None]:
from pykospacing import spacing

In [None]:
corpus=[]
for sent in basic_preprocessed_corpus:
    spaced_text = spacing(sent)
    corpus.append(spaced_text)

In [None]:
spaced_corpus=corpus

In [None]:
for i in range(0, 10):
    print(spaced_corpus[i])

아 더빙 진짜 짜증나네요 목소리
흠포스터 보고 초딩 영화 줄오버 연기조차 가볍지 않구나
너무 재밓었다 그래서 보는 것을 추천한다
교도소 이야기구먼 솔직히 재미는 없다 평점 조정
사이몬 페그의 익살스런 연기가 돋보였던 영화 스파이더맨에서 늙어 보이기만 했던 커스틴 던스트가 너무나도 이 뻐보였다
막 걸음마 뗀 세부터 초등학교 학년생인 살용영화ㅋㅋㅋ 별반 개도 아까움
원작의 긴장감을 제대로 살려내지 못했다
별 반개도 아깝다 욕 나온 다 이 응경 길용우 연기생활이 몇 년인지 정말 발로 해도 그것보단 낫겟다 납치 감금만 반복 반복이 드라마는 가족도 없다 연기 못하는 사람만 모엿네
액션이 없는데도 재미 있는 몇 안 되는 영화
왜 케 평점이 낮은 건데 꽤 볼만한 데 헐리우드식 화려함에만 너무 길들여져 있나


In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

In [None]:
from hanspell import spell_checker

In [None]:
!pip install soynlp

In [None]:
from soynlp.normalizer import *

In [None]:
corpus=[]
for sent in spaced_corpus:
  corpus.append(str(sent))

In [None]:
corpus=[]
for sent in spaced_corpus:
  spelled_sent = spell_checker.check(sent)
  checked_sent = spelled_sent.checked
  normalized_sent = repeat_normalize(checked_sent)
  corpus.append(normalized_sent)

preprcessed_corpus=corpus

In [None]:
for i in range(0, 10):
    print(preprcessed_corpus[i])

아 더빙 진짜 짜증 나네요 목소리
흠포스터 보고 초등학생 영화 줄 오버 연기조차 가볍지 않구나
너무 재밓었다 그래서 보는 것을 추천한다
교도소 이야기구먼 솔직히 재미는 없다 평점 조정
사이먼 페그의 익살스러운 연기가 돋보였던 영화 스파이더맨에서 늙어 보이기만 했던 커스틴 던스트가 너무나도 이 뻐보였다
막 걸음마 뗀 세부터 초등학교 학년생인 살용 영화ㅋㅋㅋ 별반 개도 아까움
원작의 긴장감을 제대로 살려내지 못했다
별 반 개도 아깝다 욕 나온 다 이 음경 길용우 연기생활이 몇 년인지 정말 발로해도 그것보단 낫겠다 납치 감금만 반복 반복이 드라마는 가족도 없다 연기 못하는 사람만 모였네
액션이 없는데도 재미있는 몇 안 되는 영화
왜 케 평점이 낮은 건데 꽤 볼만한 데 할리우드식 화려함에만 너무 길들여져 있나


In [None]:
pre_corpus=spaced_corpus

In [None]:
dat=pd.read_csv("/content/drive/Shareddrives/20-2 KUBIG 자연어처리 프로젝트/pre_corpus_df.csv")

In [None]:
len(dat)

132776

In [None]:
dat=dat[110000:]

In [None]:
dat.head()

Unnamed: 0.1,Unnamed: 0,0
110000,22054,화끈해서 좋고 숀 패리스라서 더 좋은 영화 한 번 봤는데 넘재밌더라구 요 마지막 타...
110001,22055,원작에 미치지 못하는 영화
110002,22056,뱀파이어 나오는 영화 중에 더럽게 재미없는 영화
110003,22058,이제야 이 영화를 보내요 재미있게 잘 봤어요 연기들이 인상적이었던 것 같아요
110004,22059,뭐냐 이 콩가루스러운 스토리는 다양성으로 치부하기엔 너무 반인륜적이다


In [None]:
len(dat)

22776

# Khaiii

In [None]:
api = KhaiiiApi()

In [None]:
significant_tags = ['NNG', 'NNP', 'NNB', 'VV', 'VA', 'VX', 'MAG', 'MAJ', 'XSV', 'XSA']

In [None]:
def pos_text(texts):
    corpus = []
    for sent in texts:
        pos_tagged = ''
        for word in api.analyze(sent):
            for morph in word.morphs:
                if morph.tag in significant_tags:
                    pos_tagged += morph.lex + '/' + morph.tag + ' '
        corpus.append(pos_tagged.strip())
    return corpus

In [None]:
tagged_corpus=pos_text(dat["0"])

In [None]:
len(tagged_corpus)

22776

# Stemming

In [None]:
p1 = re.compile('[가-힣A-Za-z0-9]+/NN. [가-힣A-Za-z0-9]+/XS.')
p2 = re.compile('[가-힣A-Za-z0-9]+/NN. [가-힣A-Za-z0-9]+/XSA [가-힣A-Za-z0-9]+/VX')
p3 = re.compile('[가-힣A-Za-z0-9]+/VV')
p4 = re.compile('[가-힣A-Za-z0-9]+/VX')

In [None]:
def stemming_text(text):
    corpus = []
    for sent in text:
        ori_sent = sent
        mached_terms = re.findall(p1, ori_sent)
        for terms in mached_terms:
            ori_terms = terms
            modi_terms = ''
            for term in terms.split(' '):
                lemma = term.split('/')[0]
                tag = term.split('/')[-1]
                modi_terms += lemma
            modi_terms += '다/VV'
            ori_sent = ori_sent.replace(ori_terms, modi_terms)
        
        mached_terms = re.findall(p2, ori_sent)
        for terms in mached_terms:
            ori_terms = terms
            modi_terms = ''
            for term in terms.split(' '):
                lemma = term.split('/')[0]
                tag = term.split('/')[-1]
                if tag != 'VX':
                    modi_terms += lemma
            modi_terms += '다/VV'
            ori_sent = ori_sent.replace(ori_terms, modi_terms)

        mached_terms = re.findall(p3, ori_sent)
        for terms in mached_terms:
            ori_terms = terms
            modi_terms = ''
            for term in terms.split(' '):
                lemma = term.split('/')[0]
                tag = term.split('/')[-1]
                modi_terms += lemma
            if '다' != modi_terms[-1]:
                modi_terms += '다'
            modi_terms += '/VV'
            ori_sent = ori_sent.replace(ori_terms, modi_terms)

        mached_terms = re.findall(p4, ori_sent)
        for terms in mached_terms:
            ori_terms = terms
            modi_terms = ''
            for term in terms.split(' '):
                lemma = term.split('/')[0]
                tag = term.split('/')[-1]
                modi_terms += lemma
            if '다' != modi_terms[-1]:
                modi_terms += '다'
            modi_terms += '/VV'
            ori_sent = ori_sent.replace(ori_terms, modi_terms)
        corpus.append(ori_sent)
    return corpus

In [None]:
stemming_corpus = stemming_text(tagged_corpus)

In [None]:
for i in range(0, 30):
    print(stemming_corpus[i])

화끈/MAG 하/XSA 좋/VA 숀/NNP 패리스/NNP 더/MAG 좋/VA 영화/NNG 번/NNB 보다/VV 넘재미있/VA 마지막/NNG 타다/VV 끝/MAG 내줍다/VV 번/NNB 보다/VV 보다/VV ㅋ/NNG
원작/NNG 미치다/VV 못하다/VV 영화/NNG
뱀파이/NNG 나오다/VV 영화/NNG 중/NNB 더럽/VA 재미없/VA 영화/NNG
이제야/MAG 영화/NNG 보내다/VV 재미있/VA 잘/MAG 보다/VV 연기/NNG 인상/NNG 것/NNB 같/VA
콩/NNG 루스럽/VA 스토리/NNG 다양/NNG 치부하다/VV 너무/MAG 반인륜/NNG
처음/NNG 재미없/VA 줄/NNB 알다/VV 엄청/MAG 재미있/VA
감독/NNG 전하다/VV 하다/VV 메시지/NNG 극/NNG 상황/NNG 인간/NNG 본연/NNG 악/NNG 본능/NNG 것/NNB 전하다/VV 하다/VV 메시지/NNG 참/MAG 하/XSA 거/NNB 같/VA 억지/NNG 설정/NNG 때문/NNB 재밌/VA 보다/VV 못하다/VV 그냥/MAG 별/NNG 로/MAG 킬링타임/NNG 좀비/MAG 영화/NNG 못하다/VV
차원/NNG 다/MAG 진짜/MAG 내용/NNG 모르다/VV 색감/NNG 너무/MAG 좋/VA
영화/NNG 잊다/VV 수/NNB 있다/VV 빌/NNG 잊다/VV 싶다/VV
눈물/NNG 나다/VV 정말/MAG 것/NNB 있다/VV 짧/VA 시간/NNG 길/VA 여운하다/VV 커피/NNG 에/NNG 스/NNP 프레소/NNG 같/VA 느낌하다/VV 연기/NNG 외국/NNG 사람/NNG 독특하다/VV 소재/NNG 색채/NNG 잘/MAG 보다/VV
재미없/VA 무섭/VA 않다/VV 그냥/MAG 어서/MAG 픕다/VV
재미있/VA 보다/VV 신고/NNG
카토/NNG 노인/NNG 칼부림/NNG 영화/NNG 유일하다/VV 볼거리/NNG
잼/NNG 끼다/VV 하지/MAJ 시청/NNG 요/NNG 뉴스/NNG 못하다/VV 것/NNB 데/NNG 그러다/VV 잘/MAG 하/XSV
보다/VV 부끄럽/

In [None]:
len(stemming_corpus)

22776

In [None]:
def text_cleaning(text):
   hangul=re.compile("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]+")
   result=hangul.sub('', text)
   return result

In [None]:
for sent in stemming_corpus:
  map(text_cleaning, sent)

In [None]:
corpus=[]
for i in range(0, len(stemming_corpus)):
  corpus.append(text_cleaning(stemming_corpus[i]))

In [None]:
clean_corpus = corpus

In [None]:
corpus=[]
for sent in clean_corpus:
  corpus.append(sent.split())

In [None]:
corpus_comma=corpus

In [None]:
for i in range(0, 30):
    print(corpus_comma[i])

['화끈', '하', '좋', '숀', '패리스', '더', '좋', '영화', '번', '보다', '넘재미있', '마지막', '타다', '끝', '내줍다', '번', '보다', '보다', 'ㅋ']
['원작', '미치다', '못하다', '영화']
['뱀파이', '나오다', '영화', '중', '더럽', '재미없', '영화']
['이제야', '영화', '보내다', '재미있', '잘', '보다', '연기', '인상', '것', '같']
['콩', '루스럽', '스토리', '다양', '치부하다', '너무', '반인륜']
['처음', '재미없', '줄', '알다', '엄청', '재미있']
['감독', '전하다', '하다', '메시지', '극', '상황', '인간', '본연', '악', '본능', '것', '전하다', '하다', '메시지', '참', '하', '거', '같', '억지', '설정', '때문', '재밌', '보다', '못하다', '그냥', '별', '로', '킬링타임', '좀비', '영화', '못하다']
['차원', '다', '진짜', '내용', '모르다', '색감', '너무', '좋']
['영화', '잊다', '수', '있다', '빌', '잊다', '싶다']
['눈물', '나다', '정말', '것', '있다', '짧', '시간', '길', '여운하다', '커피', '에', '스', '프레소', '같', '느낌하다', '연기', '외국', '사람', '독특하다', '소재', '색채', '잘', '보다']
['재미없', '무섭', '않다', '그냥', '어서', '픕다']
['재미있', '보다', '신고']
['카토', '노인', '칼부림', '영화', '유일하다', '볼거리']
['잼', '끼다', '하지', '시청', '요', '뉴스', '못하다', '것', '데', '그러다', '잘', '하']
['보다', '부끄럽', '만들다', '하', '시추에이션']
['별', '꼭짓점', '주다', '하다', '안', '되네ㅜㅜ', '차라리', '옛날', '성'

In [None]:
path="/content/drive/Shareddrives/20-2 KUBIG 자연어처리 프로젝트/korean_stopwords.txt"
with open(path, encoding='utf-8') as f:
  stopwords=f.readlines()
stopwords=[x.strip() for x in stopwords]

In [None]:
corpus=[]
for sentence in corpus_comma:
    temp_X = [word for word in sentence if not word in stopwords]
    corpus.append(temp_X)

In [None]:
removed_stopword_corpus = corpus

In [None]:
for i in range(0, 30):
    print(removed_stopword_corpus[i])

['화끈', '좋', '숀', '패리스', '더', '좋', '영화', '번', '보다', '넘재미있', '마지막', '끝', '내줍다', '번', '보다', '보다', 'ㅋ']
['원작', '미치다', '못하다', '영화']
['뱀파이', '나오다', '영화', '중', '더럽', '재미없', '영화']
['이제야', '영화', '보내다', '재미있', '잘', '보다', '연기', '인상', '같']
['콩', '루스럽', '스토리', '다양', '치부하다', '너무', '반인륜']
['처음', '재미없', '줄', '알다', '엄청', '재미있']
['감독', '전하다', '하다', '메시지', '극', '상황', '인간', '본연', '악', '본능', '전하다', '하다', '메시지', '거', '같', '억지', '설정', '때문', '재밌', '보다', '못하다', '그냥', '별', '킬링타임', '좀비', '영화', '못하다']
['차원', '다', '진짜', '내용', '모르다', '색감', '너무', '좋']
['영화', '잊다', '수', '빌', '잊다', '싶다']
['눈물', '나다', '정말', '짧', '길', '여운하다', '커피', '스', '프레소', '같', '느낌하다', '연기', '외국', '사람', '독특하다', '소재', '색채', '잘', '보다']
['재미없', '무섭', '않다', '그냥', '어서', '픕다']
['재미있', '보다', '신고']
['카토', '노인', '칼부림', '영화', '유일하다', '볼거리']
['잼', '끼다', '하지', '시청', '요', '뉴스', '못하다', '데', '그러다', '잘']
['보다', '부끄럽', '만들다', '시추에이션']
['별', '꼭짓점', '주다', '하다', '안', '되네ㅜㅜ', '옛날', '성', '영화', '찾아보다', '낫', '듯']
['어바웃', '타임', '같', 'ㅎㅎ', '분위기', '완전히', '틀리다']
['야동']
['강동원',

In [None]:
corp6 = pd.DataFrame(removed_stopword_corpus) 

In [None]:
corp6.to_csv('corp6.csv')

In [None]:
from gensim.models import Word2Vec
model = Word2Vec(sentences=removed_stopword_corpus, size=100, window=5, min_count=5, workers=4, sg=0)

In [None]:
model.wv.vectors.shape

(13691, 100)

In [None]:
print(model.wv.most_similar("영화"))

[('영화하다', 0.7142449021339417), ('애니메이션', 0.6596019864082336), ('영화임', 0.6279400587081909), ('애니', 0.5937248468399048), ('다큐', 0.5890297889709473), ('작품', 0.5871323347091675), ('수작', 0.5778002142906189), ('공포물', 0.5324687957763672), ('애니매이션', 0.5126153230667114), ('다큐멘터리', 0.5087503790855408)]


  if np.issubdtype(vec.dtype, np.int):


In [None]:
from gensim.models import KeyedVectors
model.wv.save_word2vec_format('khaii_w2v')

# Test Data

In [None]:
test_data=pd.read_csv("/content/drive/Shareddrives/20-2 KUBIG 자연어처리 프로젝트/전처리/test_spaced.csv")
test_data.head()

Unnamed: 0,0
0,굳ㅋ
1,뭐야이 평점들은 나쁘진 않지만 점짜리는 더더욱 아니잖아
2,지루하지는 않은데 완전 막장 임돈 주고 보기에는
3,만 아니었어도 별 다섯 개 줬을 텐데 왜로 나와서 제 심기를 불편하게 하죠
4,음악이 주가 된 최고의 음악영화


In [None]:
test = test_data[30000:]

In [None]:
corpus=[]
for sent in test_data['0']:
  corpus.append(str(sent))

In [None]:
spelled_corpus=corpus

In [None]:
for i in range(0, 10):
  print(spelled_corpus[i])

굳ㅋ
뭐야이 평점들은 나쁘진 않지만 점짜리는 더더욱 아니잖아
지루하지는 않은데 완전 막장 임돈 주고 보기에는
만 아니었어도 별 다섯 개 줬을 텐데 왜로 나와서 제 심기를 불편하게 하죠
음악이 주가 된 최고의 음악영화
진정한 쓰레기
마치 미국 애니에서 튀어나온 듯한 창의력 없는 로봇 디자인부터 가 고개를 젖게 한다
갈수록 개판되가는 중국 영화 유치하고 내용 없음 폼 잡다 끝남 말도 안 되는 무기에 유치한 남무아 그립다 동사서독 같은 영화가 이건 류아류작이다
이별의 아픔 뒤에 찾아오는 새로운 인연의 기쁨 모든 사람이 그렇지는 않네
괜찮네요 오랜만 포켓몬스터 잼밌어요


In [None]:
tagged_corpus=pos_text(spelled_corpus)
for i in range(0, 10):
    print(tagged_corpus[i])

굳/MAG ㅋ/NNG
이/NNG 평점/NNG 나쁘/VA 않/VX 점/NNG 더더욱/MAG 않/VX
하/XSA 않/VX 완전/NNG 막장/NNG 임돈/NNG 주/VV 보/VV
만/NNG 개/NNB 주/VV 터/NNB 왜/MAG 나오/VV 심기/NNG 불편/NNG 하/XSA 하/VX
음악/NNG 주가/NNG 되/VV 최고/NNG 음악/NNG 영화/NNG
하/XSA 쓰레기/NNG
마치/MAG 미국/NNP 애니/NNG 튀어나오/VV 듯/NNB 하/XSA 창의력/NNG 없/VA 로봇/NNG 디자인/NNG 가/VV 고개/NNG 젖/VV 하/VX
갈수록/MAG 개판/NNG 되/XSV 중국/NNP 영화/NNG 하/XSA 내용/NNG 없/VA 폼/NNG 잡/VV 끝나/VV 말/NNG 안/MAG 되/VV 무기/NNG 하/XSA 남무아/NNP 그립/VA 동사/NNG 서독/NNP 같/VA 영화/NNG 류아류작/NNG
이별/NNG 아픔/NNG 뒤/NNG 찾아오/VV 새롭/VA 인연/NNG 기쁨/NNG 사람/NNG 그렇/VA 않/VX
괜찮/VA 오랜/NNG 만/MAJ 포켓몬스터/NNG 잼밌/VA


In [None]:
stemming_corpus = stemming_text(tagged_corpus)

In [None]:
for sent in stemming_corpus:
  map(text_cleaning, sent)

In [None]:
corpus=[]
for i in range(0, len(stemming_corpus)):
  corpus.append(text_cleaning(stemming_corpus[i]))

In [None]:
clean_corpus=corpus

In [None]:
corpus=[]
for sent in clean_corpus:
  corpus.append(sent.split())

In [None]:
corpus_comma=corpus

In [None]:
for i in range(0, 30):
    print(corpus_comma[i])

['굳', 'ㅋ']
['이', '평점', '나쁘', '않다', '점', '더더욱', '않다']
['하', '않다', '완전', '막장', '임돈', '주다', '보다']
['만', '개', '주다', '터', '왜', '나오다', '심기', '불편하다', '하다']
['음악', '주가', '되다', '최고', '음악', '영화']
['하', '쓰레기']
['마치', '미국', '애니', '튀어나오다', '듯하다', '창의력', '없', '로봇', '디자인', '가다', '고개', '젖다', '하다']
['갈수록', '개판되다', '중국', '영화하다', '내용', '없', '폼', '잡다', '끝나다', '말', '안', '되다', '무기하다', '남무아', '그립', '동사', '서독', '같', '영화', '류아류작']
['이별', '아픔', '뒤', '찾아오다', '새롭', '인연', '기쁨', '사람', '그렇', '않다']
['괜찮', '오랜', '만', '포켓몬스터', '잼밌']
['한국독', '립영화', '한계', '그렇', '아버지', '되다', '비교되다']
['청춘', '아름답', '아름답', '이성', '흔들다', '놓다', '다', '찰', '아름답', '잘', '포착하다', '하', '아름답', '수채화', '같', '퀴다', '어', '영화']
['눈', '보이다', '반전', '영화', '흡인력', '사라지다', '않다']
['스토리', '연출', '연기', '비주얼', '등', '영화', '기본', '안', '되다', '영화', '평', '하다', '영화', '찍다', '김문옥', '감독', '영화', '경력', '조무래기', '영화', '평론하다', '같', '마인드', '빠지다', '있다']
['소위', 'ㅈ', '문가', '평점']
['최고']
['발연', '기도저히', '못', '보다', '진', '짜', '이렇', '연기', '못', '하', '거', '상상', '못', '하']
['나', '이스']
['재미', '없', 

In [None]:
corpus=[]
for sentence in corpus_comma:
    temp_X = [word for word in sentence if not word in stopwords]
    corpus.append(temp_X)

In [None]:
removed_stopword_corpus = corpus

In [None]:
for i in range(0, 30):
    print(removed_stopword_corpus[i])

['굳', 'ㅋ']
['평점', '나쁘', '않다', '점', '더더욱', '않다']
['않다', '완전', '막장', '임돈', '주다', '보다']
['만', '개', '주다', '터', '나오다', '심기', '불편하다', '하다']
['음악', '주가', '되다', '최고', '음악', '영화']
['쓰레기']
['미국', '애니', '튀어나오다', '듯하다', '창의력', '없', '로봇', '디자인', '가다', '고개', '젖다', '하다']
['갈수록', '개판되다', '중국', '영화하다', '내용', '없', '폼', '잡다', '끝나다', '말', '안', '되다', '무기하다', '남무아', '그립', '동사', '서독', '같', '영화', '류아류작']
['이별', '아픔', '뒤', '찾아오다', '새롭', '인연', '기쁨', '사람', '그렇', '않다']
['괜찮', '오랜', '만', '포켓몬스터', '잼밌']
['한국독', '립영화', '한계', '그렇', '아버지', '되다', '비교되다']
['청춘', '아름답', '아름답', '이성', '흔들다', '놓다', '다', '찰', '아름답', '잘', '포착하다', '아름답', '수채화', '같', '퀴다', '영화']
['눈', '보이다', '반전', '영화', '흡인력', '사라지다', '않다']
['스토리', '연출', '연기', '비주얼', '영화', '기본', '안', '되다', '영화', '평', '하다', '영화', '찍다', '김문옥', '감독', '영화', '경력', '조무래기', '영화', '평론하다', '같', '마인드', '빠지다']
['소위', 'ㅈ', '문가', '평점']
['최고']
['발연', '기도저히', '못', '보다', '진', '짜', '이렇', '연기', '못', '거', '상상', '못']
['이스']
['재미', '없', '거', '우리다', '먹다', '챔프', '방송', '번', '하다', 'ㅋㅋ']
['금요일', '나이트', 

# Word2Vec

In [None]:
from gensim.models import Word2Vec
model_2 = Word2Vec(sentences=removed_stopword_corpus, size=100, window=5, min_count=5, workers=4, sg=0)

In [None]:
model_2.wv.vectors.shape

(7136, 100)

In [None]:
print(model_2.wv.most_similar("일본"))

[('미국', 0.9512646794319153), ('노아', 0.94516921043396), ('졸작', 0.944031834602356), ('중국', 0.9429740905761719), ('삼성', 0.9402226805686951), ('우리나라', 0.9402210712432861), ('매미', 0.9398505091667175), ('합작', 0.9393743276596069), ('급', 0.9361792802810669), ('부끄럽', 0.9346533417701721)]


  if np.issubdtype(vec.dtype, np.int):


In [None]:
from gensim.models import KeyedVectors
model_2.wv.save_word2vec_format('khaii_w2v_2')