# 복습예제: 영화평점 데이터 수집

주소: https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&date=20220323

In [19]:
import requests as req
import pandas as pd
from bs4 import BeautifulSoup as bs

h = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}

### 영화명과 평점데이터 수집하여 데이터프레임형태로 저장
[데이터수집순서]<br>
1. <b>req.get()</b>로 웹 페이지 정보 요청(<b>★ headers 속성 반드시 정의</b>)
2. 응답받은 데이터를 <b>bs()</b>를 활용하여 파이썬객체로 변환
3. <b>select() or select_one()</b>을 이용해서 <b>영화명과 평점데이터</b>를 가진 요소객체 접근
4. text속성으로 내용추출
5. 데이터프레임 형태로 저장

In [4]:
rating_url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&date=20220323'
movie_rating_res = req.get(rating_url, headers = h)
html = bs(movie_rating_res.text, 'lxml')

html

<!DOCTYPE html>
<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image"/>
<meta content="네이버영화 " property="me2:post_tag"/>
<meta content="네이버영화" property="me2:category1"/>
<meta content="" property="me2:category2"/>
<meta content="랭킹 : 네이버 영화" property="og:title"/>
<meta content="영화, 영화인, 예매, 박스오피스 랭킹 정보 제공" property="og:description"/>
<meta content="article" property="og:type"/>
<meta content="https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&amp;date=20220323" property="og:url"/>
<meta content="http://static.naver.net/m/movie/icons/OG_270_270.png" property="og:image"/><!-- http://static.naver.net/m/movie/im/navermovie.jpg -->
<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="og:article:thumbnailUrl"/>
<meta content="네이버 영화" property="og:article:author"/

In [6]:
movieNms = html.select('div.tit5 > a')
points = html.select('td.point')

len(movieNms), len(points)

(32, 32)

In [7]:
movieNm_list = []
point_list = []

for i in range(len(movieNms)):
    movieNm_list.append(movieNms[i].text)
    point_list.append(points[i].text)

In [8]:
movieNm_list

['씽2게더',
 '가나의 혼인잔치: 언약',
 '패왕별희 디 오리지널',
 '극장판 주술회전 0',
 '크루엘라',
 '해피 투게더',
 '틱, 틱... 붐!',
 '스파이더맨: 노 웨이 홈',
 '한공주',
 '화양연화',
 '벌새',
 '돈 룩 업',
 '드라이브 마이 카',
 '아비정전',
 '광대: 소리꾼',
 '이상한 나라의 수학자',
 '어나더 라운드',
 '엔칸토: 마법의 세계',
 '신비한 동물사전',
 '나이트메어 앨리',
 '듄',
 '파워 오브 도그',
 '언차티드',
 '스펜서',
 '킹메이커',
 '더 배트맨',
 '안테벨룸',
 '나의 촛불',
 '해적: 도깨비 깃발',
 '문폴',
 '인민을 위해 복무하라',
 '우상']

In [9]:
point_list

['9.41',
 '9.41',
 '9.31',
 '9.31',
 '9.20',
 '9.19',
 '8.84',
 '8.84',
 '8.80',
 '8.80',
 '8.74',
 '8.65',
 '8.50',
 '8.46',
 '8.42',
 '8.30',
 '8.28',
 '8.26',
 '8.18',
 '8.16',
 '7.96',
 '7.70',
 '7.64',
 '7.60',
 '7.29',
 '7.22',
 '7.14',
 '6.12',
 '5.62',
 '5.56',
 '5.11',
 '3.91']

In [10]:
point_dic = {'영화명':movieNm_list, '평점':point_list}
point_df = pd.DataFrame(point_dic)
point_df

Unnamed: 0,영화명,평점
0,씽2게더,9.41
1,가나의 혼인잔치: 언약,9.41
2,패왕별희 디 오리지널,9.31
3,극장판 주술회전 0,9.31
4,크루엘라,9.2
5,해피 투게더,9.19
6,"틱, 틱... 붐!",8.84
7,스파이더맨: 노 웨이 홈,8.84
8,한공주,8.8
9,화양연화,8.8


# Selenium 다루기
: 동적인 데이터를 가진 웹 사이트로부터 데이터를 수집하기 위한 라이브러리

In [1]:
from selenium import webdriver

In [9]:
#크롬드라이버를 실행하기 위한 객체생성
driver = webdriver.Chrome()

#요청할 주소를 이용해서 테스트 브라우저를 실행
driver.get('https://www.naver.com')

In [16]:
# 네이버 검색창에 키워드 입력 후 검색하기
# driver.find_element_by_css_selector(CSS선택자): WebElement객체반환
# send_keys(데이터) : 입력요소에 값을 보낼 때 사용
driver.find_element_by_css_selector('#query').send_keys('크롤링\n')

# driver.find_element(by='#query').send_keys('크롤링\n')

  driver.find_element_by_css_selector('#query').send_keys('크롤링\n')


In [17]:
driver.find_element_by_css_selector('#query').send_keys('크롤링')

#버튼 클릭
driver.find_element_by_css_selector('#search_btn').click()

  driver.find_element_by_css_selector('#query').send_keys('크롤링')
  driver.find_element_by_css_selector('#search_btn').click()


In [18]:
# res.text와 동일하게 웹 페이지 데이터를 문자열로 반환
driver.page_source



In [20]:
html = bs(driver.page_source, 'lxml')
html

<html data-platform="win32" data-useragent="mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/99.0.4844.82 safari/537.36" lang="ko"><head> <meta charset="utf-8"/> <meta content="always" name="referrer"/> <meta content="telephone=no,address=no,email=no" name="format-detection"/> <meta content="width=device-width,initial-scale=1.0,maximum-scale=2.0" name="viewport"/> <meta content="크롤링 : 네이버 통합검색" property="og:title"/> <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/> <meta content="'크롤링'의 네이버 통합검색 결과입니다." property="og:description"/> <meta content="'크롤링'의 네이버 통합검색 결과입니다." lang="ko" name="description"/> <title>크롤링 : 네이버 통합검색</title> <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico" rel="shortcut icon"/> <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml"/><link href="https:

In [21]:
html.select_one('title')

<title>크롤링 : 네이버 통합검색</title>

In [8]:
# driver.get('https://www.naver.com')

In [22]:
# 브라우저 종료
driver.close()