In [2]:
### 라이브러리 정의하기
import pandas as pd
import matplotlib.pyplot as plt
import urllib.request
from gensim.models.word2vec import Word2Vec
## gensim 깨져서 오류나면 밑에 형태소 분석 객체 생성하기 할때 위에 임포트 주석처리하고 다시 돌리니까 오류 해결
from konlpy.tag import Okt

In [3]:
### 데이터수집
# - 네이버 영화 리뷰 데이터 다운로드하기
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt",
                           filename="naver_ratings.txt")

('naver_ratings.txt', <http.client.HTTPMessage at 0x1b009202fa0>)

In [4]:
### 다운로드 받은 파일을 데이터프레임으로 읽어 들이기
train_data = pd.read_table("./naver_ratings.txt")
train_data.head()

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [5]:
### 데이터프레임 정보확인하기
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        200000 non-null  int64 
 1   document  199992 non-null  object
 2   label     200000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.6+ MB


In [6]:
### 결측치 처리하기
# 결측치가 있는 모든 행 삭제하기
train_data = train_data.dropna(how = "any")
train_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 199992 entries, 0 to 199999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        199992 non-null  int64 
 1   document  199992 non-null  object
 2   label     199992 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 6.1+ MB


In [7]:
### 데이터양을 줄여서 진행 (속도 때문에)
# 100개의 행만 사용...
train_data = train_data.iloc[:100, :]
train_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 0 to 99
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        100 non-null    int64 
 1   document  100 non-null    object
 2   label     100 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 3.1+ KB


In [8]:
### 데이터 확인
train_data

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
...,...,...,...
95,3908729,진짜 최고다 최고 성룡형님 마이 우상,1
96,6318878,amy6250 당신이 좋아하는 장르는 뭐요? 이영화에도 저영화에도 이런장르는 싫다니원,1
97,2620222,지금까지 본영화중에 최고다,1
98,5954450,매회리타가자꾸거슬려서죽었으면좋겠다고생각했는데ㅠㅠ죄책감에나도잠못이룬다.,1


In [9]:
### 정제처리 하기
# - 한글을 제외한 모든 것 제외시키기
# - 한글 : ㄱ-ㅎ  가-힣  (한글 범위 전체를 의미)
## regex : 정규표현식을 쓸 것인지 여부, 첫번째를 두번째로 바꾸면서 이를 기준으로
## 첫번째 인자에 마지막에 띄어쓰기 포함해야 띄어쓰기가 사라지지 않음
train_data["document"] = \
            train_data["document"].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]",
                                               "",
                                               regex = True)
train_data

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,디자인을 배우는 학생으로 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산업...,1
2,4655635,폴리스스토리 시리즈는 부터 뉴까지 버릴께 하나도 없음 최고,1
3,9251303,와 연기가 진짜 개쩔구나 지루할거라고 생각했는데 몰입해서 봤다 그래 이런게 진짜 영화지,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화,1
...,...,...,...
95,3908729,진짜 최고다 최고 성룡형님 마이 우상,1
96,6318878,당신이 좋아하는 장르는 뭐요 이영화에도 저영화에도 이런장르는 싫다니원,1
97,2620222,지금까지 본영화중에 최고다,1
98,5954450,매회리타가자꾸거슬려서죽었으면좋겠다고생각했는데ㅠㅠ죄책감에나도잠못이룬다,1


In [10]:
train_data["document"]

0                                   어릴때보고 지금다시봐도 재밌어요ㅋㅋ
1     디자인을 배우는 학생으로 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산업...
2                      폴리스스토리 시리즈는 부터 뉴까지 버릴께 하나도 없음 최고
3      와 연기가 진짜 개쩔구나 지루할거라고 생각했는데 몰입해서 봤다 그래 이런게 진짜 영화지
4                            안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화
                            ...                        
95                                 진짜 최고다 최고 성룡형님 마이 우상
96               당신이 좋아하는 장르는 뭐요 이영화에도 저영화에도 이런장르는 싫다니원
97                                       지금까지 본영화중에 최고다
98                매회리타가자꾸거슬려서죽었으면좋겠다고생각했는데ㅠㅠ죄책감에나도잠못이룬다
99    어릴 때보고 커서 다시 봤는데 진짜 잘 만든 영화였네 웃음과 감동을 잘 이어 붙였고...
Name: document, Length: 100, dtype: object

In [11]:
### 단어 토큰화 하기
# - 단어 토큰화 & 불용어 처리

### 형태소 분석 객체 생성하기
okt = Okt()

In [12]:
### 불용어 정의하기 : 리스트로
stopwords = ["의", "가", "이", "은", "들", "는", "좀",
             "잘", "걍", "과", "도", "를", "으로", "자",
             "에", "와", "한", "하다"]
print(stopwords)

['의', '가', '이', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다']


In [13]:
### 문장 단위 단어 토큰화 진행하기

tokenized_data = []
for sentence in train_data["document"].to_list() :
    print(sentence)
    
    ### 단어 토큰화 : stem -> 어간(표제어 : 조상단어) 단위로 추출을 의미함
    tokenized_sentence = okt.morphs(sentence, stem=True)
    print(tokenized_sentence)
    
    ### 불용어 처리하기
    stopwords_removed_sentence = [word 
                                    for word in tokenized_sentence
                                         if not word in stopwords]
    # print(stopwords_removed_sentence)
    tokenized_data.append(stopwords_removed_sentence)
    
### 문장 및 단어토큰화 결과는 2차원 리스트
print(tokenized_data)

어릴때보고 지금다시봐도 재밌어요ㅋㅋ
['어리다', '때', '보고', '지금', '다시', '보다', '재밌다', 'ㅋㅋ']
디자인을 배우는 학생으로 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산업이 부러웠는데 사실 우리나라에서도 그 어려운시절에 끝까지 열정을 지킨 노라노 같은 전통이있어 저와 같은 사람들이 꿈을 꾸고 이뤄나갈 수 있다는 것에 감사합니다
['디자인', '을', '배우다', '학생', '으로', '외국', '디자이너', '와', '그', '들', '이', '일군', '전통', '을', '통해', '발전', '하다', '문화', '산업', '이', '부럽다', '사실', '우리나라', '에서도', '그', '어렵다', '시절', '에', '끝', '까지', '열정', '을', '지키다', '노라노', '같다', '전통', '이', '있다', '저', '와', '같다', '사람', '들', '이', '꿈', '을', '꾸다', '이루다', '나가다', '수', '있다', '것', '에', '감사하다']
폴리스스토리 시리즈는 부터 뉴까지 버릴께 하나도 없음 최고
['폴리스스토리', '시리즈', '는', '부터', '뉴', '까지', '버리다', '하나', '도', '없다', '최고']
와 연기가 진짜 개쩔구나 지루할거라고 생각했는데 몰입해서 봤다 그래 이런게 진짜 영화지
['오다', '연기', '가', '진짜', '개', '쩔다', '지루하다', '생각', '하다', '몰입', '하다', '보다', '그렇다', '이렇다', '진짜', '영화', '지']
안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화
['안개', '자욱하다', '밤하늘', '에', '뜨다', '있다', '초승달', '같다', '영화']
사랑을 해본사람이라면 처음부터 끝까지 웃을수 있는영화
['사랑', '을', '해보다', '사람', '이', '라면', '처음', '부터', '끝', '까지', '웃다', '있다', '영화']
완전 감동입니다 다시봐도 감동
['완전', '감동'

In [14]:
### Word2Vec 훈련모델 생성 및 훈련시키기
from gensim.models import Word2Vec

In [15]:
model = Word2Vec(sentences = tokenized_data,
                 vector_size = 100,
                 window = 5,
                 min_count = 5,
                 workers = 4,
                 sg = 0)

In [16]:
### 훈련이 끝나면 단어임베딩이 완료됨
# - 단어 임베딩 행렬의 크기 확인하기
## 42개 단어, 100개
model.wv.vectors.shape

(42, 100)

In [17]:
### 유사단어 조회하기
model.wv.most_similar("감동")

[('저', 0.15991708636283875),
 ('영화', 0.15967068076133728),
 ('을', 0.1563413143157959),
 ('에서', 0.14823421835899353),
 ('내', 0.14398179948329926),
 ('재밌다', 0.13573001325130463),
 ('나오다', 0.12083221226930618),
 ('재미있다', 0.09644678235054016),
 ('적', 0.08289238065481186),
 ('같다', 0.07847648859024048)]

In [18]:
### 유사 단어만(정확도 제외) 리스트로 조회하기
## 첫번째~.. 튜플의 값의 0번째 값
## 한줄코딩에서의 최종결과값은 (오른쪽으로 코딩하다가)제일 왼쪽
[x[0] for x in model.wv.most_similar("감동")]

['저', '영화', '을', '에서', '내', '재밌다', '나오다', '재미있다', '적', '같다']