# 텍스트 마이닝을 활용한 영화 평점 감성 분석

## 1) 영화 평점 데이터 크롤링

In [1]:
import requests
from bs4 import BeautifulSoup
from urllib import parse

base_url = "https://movie.naver.com/movie/point/af/list.naver?st=mcode&sword=208077&target=after&page={}"
url = base_url.format(1)
res = requests.get(url)

soup = BeautifulSoup(res.text)
tds = soup.select('table.list_netizen > tbody > tr > td.title')

for td in tds:
    movie_title = td.select_one('a.movie').text.strip()
    score = td.select_one('div.list_netizen_score > em').text.strip()
    comment = td.select_one('br').next_sibling.strip()
    print(movie_title, score, comment, sep=' :: ')
    print('-------------------------------------------')

스파이더맨: 노 웨이 홈 :: 10 :: 
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 10 :: 너무나도 잼있게 보았습니다!!!!
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 8 :: 올해 가장 만족스러운 마블 영화인 동시에 선물같은 영화
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 10 :: 역시 스파이더맨
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 4 :: 기대이하이고 , 넘 실망스러운게 억지감동이 심함 일류배우들이 나오는 삼류스토리;;
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 10 :: 다 좋았는데 톰홀랜드가 초반에 발암유발자였다
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 10 :: 남자는 태어나서 3번운다. 스파이더맨 노웨이홈을 보면서 3번운다.
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 10 :: 레전드다이거는너무재밌게 봤다
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 8 :: -2점은 스파이더맨을 보지 않은 사람들에 대한 경고. 한번도 다른 스파이더맨 영화를 보지 않고 이 영화를 보려는 사람은 그 시도를 멈추라!! 정말 재미없을 것이다.
-------------------------------------------
스파이더맨: 노 웨이 홈 :: 10 :: 원래 자리로 돌아온 다정한 이웃 스파이더맨. 이렇게 잘 싸매서 돌려준다니 마블 너어..
-------------------------------------------


In [None]:
import time
import random

comment_list=[] # 저장 할 리스트
for page in range(1, 1001):
    url = base_url.format(page)
    res = requests.get(url)
    
    soup = BeautifulSoup(res.text, 'lxml')
    tds = soup.select('table.list_netizen > tbody > tr > td.title')
    
    for td in tds:
        score = td.select_one('div.list_netizen_score > em').text.strip()
        comment = td.select_one('br').next_sibling.strip()
        if comment is not '' : # comment가 빈값이 아니라면 리스트에 추가
            comment_list.append((score, comment)) 
    delay = round(random.uniform(0.2, 1.2), 2) # 크롤링을 위해 페이지 전환을 빠르게 하게되면 네이버에서 막을 수 있기에 delay를 걸어준다.
    time.sleep(delay)
    

  if comment is not '' : # comment가 빈값이 아니라면 리스트에 추가


In [None]:
print(comment_list)

In [116]:
import pandas as pd
df = pd.DataFrame(comment_list,columns=['rate','comment'])
df.to_csv('spider_naver_comment_blank_removed.csv', encoding='utf-8', index = False)

## 2) 텍스트 전처리를 위한 데이터 셋 살펴보기

In [117]:
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

df = pd.read_csv("https://raw.githubusercontent.com/nexussord/HUFS_MLP/main/spider_naver_comment_blank_removed.csv")

In [118]:
df.head()

Unnamed: 0,rate,comment
0,10,스파이더맨 팬이라면 꼭 봐야 될 영화
1,10,진짜 1회차 2회차 둘다 어우 한편만에 이렇게알찬 스토리를 볼 수 있어 좋았어요.....
2,6,이전 시리즈에 나왔던 캐릭터들이 다시 등장한다는 것 빼곤 딱히 감상 포인트가 없고 ...
3,10,스파이더맨 총집합 최고였음
4,10,거미극혐하는사람이 거미인간 좋아하게 만드는 영화임 마블영화본거중에 난 이게 1위타노...


In [119]:
df.shape

(10000, 2)

In [120]:
df.isnull().sum() # 데이터 무결성 확인

rate         0
comment    644
dtype: int64

In [98]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9361 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   rate     9361 non-null   int64 
 1   comment  9361 non-null   object
dtypes: int64(1), object(1)
memory usage: 219.4+ KB


In [102]:
df['comment'][20]

'처음 본 전율을 잊고싶지 않다.'

In [52]:
len(df['comment'].values.sum())

370020

## 3) 한국어 텍스트 전처리

### Konlpy 설치

In [53]:
!pip install konlpy==0.5.1 jpype1 



### 정규표현식 적용

In [54]:
import re

def filter(text):
    korean = re.compile('[^ ㄱ-ㅣ가-힣]') # 한글만 추출할 수 있게끔
    result = korean.sub('', text)
    return result

In [90]:
filter(df['comment'][19])

TypeError: expected string or bytes-like object

### 명사 형태소 추출

In [88]:
from konlpy.tag import Okt
from collections import Counter

nouns_tagger = Okt()
nouns = nouns_tagger.nouns(filter(df['comment'][9]))
nouns

['인피니티', '워', '이후', '가장', '마블', '영화']

In [89]:
nouns = nouns_tagger.nouns(filter("".join(df['comment'].tolist()))) # corpus(전체)에서 명사 형태소 추출

TypeError: sequence item 19: expected str instance, float found