<a href="https://colab.research.google.com/github/dscoool/datastructure/blob/main/moviereview_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

안녕하세요 수강생 여러분? 😊

이번 시간에는 영화 포탈 사이트(네이버 영화)에서

사용자들의 댓글을 크롤링(crawling, 수집)하고 분석하는 실습을 해 보도록 하겠습니다!!

우선 아래 사이트에 접속하면:

https://movie.naver.com/movie/bi/mi/basic.nhn?code=70254

'아이언맨3' 영화에 대한 정보를 볼 수 있어요.

이 사이트에서 필요한 정보만을 추출해 보는 실습을 하도록 하겠습니다. 😊



## 영화 리뷰 정보 크롤링하기

필요한 모듈 import.
BeautifulSoup 이라는 웹 수집 모듈을 이용합니다.

In [None]:
import urllib.request
from bs4 import BeautifulSoup

Review 클래스를 정의합니다. </br>
클래스 안에는 comment, date, star, good, bad 요소(attribute)가 있습니다. </br>
분석요소에는 사용자한줄평, 날짜, 별점, 좋아요(👍🏻), 싫어요(👎🏻)가 있습니다. </br>

In [None]:
class Review:
  def __init__(self, comment, date, star, good, bad):
    self.comment = comment
    self.date = date
    self.star = star
    self.good = good
    self.bad = bad

  def show(self):
    print("내용: " + self.comment +
          "\n날짜: " + self.date +
          "\n별점: " + self.star +
          "\n좋아요: " + self.good +
          "\n싫어요: " + self.bad)

이제 url에서 정보를 크롤링해볼까요? 😊

In [None]:
def crawl(url):
  # 웹에 접속해서 url로부터 HTML을 다운받습니다.
  page = urllib.request.urlopen(url)
  #다운받은 HTML을 parse하기 위해, 'BeautifulSoup' 모듈을 사용하여
  # 'soup'이라는 변수에 저장합니다. "html.parser"는 이 문서가 HTML 형태임을 나타냅니다.
  soup = BeautifulSoup(page.read(), "html.parser")
  #댓글을 분석하기 위해 review_list 리스트를 정의하여 빈 채로 둡니다.
  # 여기에 review를 저장할 거예요.
  review_list = []

  # HTML이 저장된 soup변수에서 soup.find 명령어를 이용하여,
  # <H3 class = 'h_movie'> --> <a> --> text를 추출합니다.
  # 웹브라우저 --> 개발자 모드 --> 'h_movie' 검색!!

  title = soup.find('h3', class_='h_movie').find('a').text

  # 마찬가지로
  # 웹브라우저 --> 개발자 모드 --> 'score_result' 검색!!
  # 먼저 <div class = "score_result">를 찾은 후,
  # 하위 요소 중에 <ul> --> <li>를 찾아 data_list에 저장합니다.
  div = soup.find("div", class_="score_result")
  data_list = div.select("ul > li")

  # review 요소에서 세부적으로
  # 정보를 담고 있는 별점(star), 한줄평(comment),
  # 날짜(date), 좋아요(good), 싫어요(bad)를
  # 수집합니다.

  for review in data_list:
    star = review.find("div", class_="star_score").text.strip()
    reply = review.find("div", class_="score_reple")
    comment = reply.find("p").text
    date = reply.select("dt > em")[1].text.strip()
    button = review.find("div", class_="btn_area")
    sympathy = button.select("a > strong")
    good = sympathy[0].text
    bad = sympathy[1].text
    review_list.append(Review(comment, date, star, good, bad))

  return title, review_list

이제 실행해볼까요? </br>
아래 코드를 실행해보세요!! </br>

* url의 마지막 basic.nhn?code=00000 에서</br>
00000은 영화코드를 나타냅니다!!</br>
여러분도 영화를 검색해서 url을 수정한 후 접속해 보세요!!</br>

In [None]:
title, review_list = crawl("https://movie.naver.com/movie/bi/mi/basic.nhn?code=36944")
print('제목: ' + title)
for review in review_list:
  review.show()

제목: 올드보이
내용: 

														
														
														
														
															
															
																이 영화는 필요 이상으로 너무 잘만들었다. 인간이 만든 작품이 아니다. 
															
														
														
													
날짜: 2013.06.09 17:59
별점: 10
좋아요: 3769
싫어요: 225
내용: 

														
														
														
														
															
															
																충격적인 영화 촬영 기법, 스토리, 눈물샘을 자극시키는 사운드트랙. 대중영화 예술에 큰 기여를 한 혁명적인 영화. 
															
														
														
													
날짜: 2013.06.09 01:08
별점: 10
좋아요: 2420
싫어요: 91
내용: 

														
														
														
														
															
															
																사람은 상상력이 있어서 비겁해 지는거래... 
															
														
														
													
날짜: 2013.07.17 14:26
별점: 10
좋아요: 2156
싫어요: 74
내용: 

														
														
														
														
															
															
																10년만에 다시 본 올드보이. 역시 최고였다. 
															
														
														
											

올드보이와 아이언맨3의 별점(star), 한줄평(comment),
날짜(date), 좋아요(good), 싫어요(bad)를 수집했습니다.

In [None]:
title, review_list = crawl("https://movie.naver.com/movie/bi/mi/basic.nhn?code=70254")
print('제목: ' + title)
for review in review_list:
  review.show()

제목: 아이언맨 3
내용: 

														
														
														
														
															
															
																최고다. 후속작은 재미없을 거라는 편견을 깨준영화. 
															
														
														
													
날짜: 2013.07.10 11:03
별점: 10
좋아요: 1419
싫어요: 95
내용: 

														
														
														
														
															
															
																자, 이제 어벤져스2가 기대된다. 
															
														
														
													
날짜: 2013.06.06 12:05
별점: 10
좋아요: 817
싫어요: 80
내용: 

														
														
														
														
															
															
																아이언맨 기대를 저버리지 않는군 
															
														
														
													
날짜: 2013.06.23 17:44
별점: 10
좋아요: 665
싫어요: 55
내용: 

														
														
														
														
															
															
																재미있음 코믹과 스토리를 잘 섞었는 영화 
															
														
														
													
날짜: 2013.06.19 18:37
별점: 10
좋아요: 559
싫어요: 43
내용: 

													