In [1]:
# 한글 깨짐 방지
import platform #os 정보를 가져 올 수 있는 모듈

from matplotlib import font_manager, rc # font_manager : 폰트 관리 모듈, rc : 폰트 변경 모듈
from matplotlib import pyplot as plt # 시각화 도구

import seaborn as sns

%matplotlib inline
plt.rcParams['axes.unicode_minus'] = False # 유니코드 표현 설정하기


if platform.system() == 'Darwin':
    rc('font', family='AppleGothic') # OS가 APPLE(Darwin)이면 AppleGothic으로 폰트 설정
elif platform.system() == 'Windows':
    path="c:/Windows/Fonts/malgun.ttf" #OS가 윈도우즈면 맑은 고딕으로 설정
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown System... sorry~~~~')

In [5]:
from bs4 import BeautifulSoup # HTML 문자열을 DOM 구조화
from urllib.request import urlopen # url을 이용한 http 요청을 하기위한 객체
from urllib.parse import urljoin # url을 다루기 쉽게 해준다.

import pandas as pd

# urljoin을 이용해서 크롤링 대상 url 만들기

In [6]:
url_base = 'https://movie.naver.com/'
url_sub = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date=20200715'

url = urljoin(url_base,url_sub)
url

'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date=20200715'

# 영화 평점 랭킹 페이지 가져오기

In [15]:
page = urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
soup


<!DOCTYPE html>

<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image">
<meta content="네이버영화 " property="me2:post_tag">
<meta content="네이버영화" property="me2:category1"/>
<meta content="" property="me2:category2"/>
<meta content="랭킹 : 네이버 영화" property="og:title"/>
<meta content="영화, 영화인, 예매, 박스오피스 랭킹 정보 제공" property="og:description"/>
<meta content="article" property="og:type"/>
<meta content="https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&amp;tg=0&amp;date=20200715" property="og:url"/>
<meta content="http://static.naver.net/m/movie/icons/OG_270_270.png" property="og:image"/><!-- http://static.naver.net/m/movie/im/navermovie.jpg -->
<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="og:article:thumbnailUrl"/>
<meta content="네이버 영화" property="og:article:a

## 영화 평점 페이지 확인 결과
- 테이블 중간 중간 비어있는 항목이 있었다.
- 따라서 tbody 안의 tr만 사용해서 스크래이핑 할 때 예외처리가 반드시 필요할 것 같다.
- 직접 랭킹, 제목, 평점을 선택해서 가지고 올 것

In [21]:
print(soup.find('td',class_='ac').find('img').get('alt').strip())
print(soup.find('div',class_='tit5').text.strip())
print(soup.find('td',class_='point').text.strip())

01
가버나움
9.59


사람마다 방식이 다르겠지만

크롤링 할 때 공백제거 이외의 특별한 로직에 의해서 수집되어야 하면 for 및 zip 문법을 사용하고, 그 외의 경우는 컴프리헨션을 사용

In [41]:
# 컴프리헨션을 사용하는 경우
ranks  = [td.find('img') for td in soup.find_all('td', class_='ac') if td.find('img') is not None ]
ranks  = [ int(rank.get('alt').strip()) for rank in ranks if (rank.get('alt') != "na" and rank.get('alt') !='up' and rank.get('alt') !='down') and (rank.get('alt').isalnum())]
movies = [ movie.text.strip() for movie in soup.find_all('div', class_='tit5') ]
points = [ point.text.strip() for point in soup.find_all('td', class_='point') ]

# 컴프리헨션을 이용하지 않는 경우
rank_list = [] movie_list = [] point_list = []

for rank, movie, point in zip(ranks, movies, points): pass

In [42]:
ranks[:5]

[1, 2, 3, 4, 5]

In [43]:
movies[:5]

['가버나움', '위대한 쇼맨', '에이리언 2', '다크 나이트', '시네마 천국']

In [45]:
points[:5]

['9.59', '9.40', '9.34', '9.34', '9.31']

In [46]:
len(ranks), len(movies), len(points)

(50, 50, 50)

In [47]:
df_movie_rank = pd.DataFrame({
    '랭킹': ranks,
    '영화': movies,
    '평점': points
})
df_movie_rank.set_index('랭킹', inplace=True)

# 100일간 네이버 영화 평점의 변화를 확인하자
- 100일차의 날짜 데이터를 생성
- pandas의 data_range

In [31]:
date = pd.date_range('2020-04-07',periods=100,freq='D')
date

DatetimeIndex(['2020-04-07', '2020-04-08', '2020-04-09', '2020-04-10',
               '2020-04-11', '2020-04-12', '2020-04-13', '2020-04-14',
               '2020-04-15', '2020-04-16', '2020-04-17', '2020-04-18',
               '2020-04-19', '2020-04-20', '2020-04-21', '2020-04-22',
               '2020-04-23', '2020-04-24', '2020-04-25', '2020-04-26',
               '2020-04-27', '2020-04-28', '2020-04-29', '2020-04-30',
               '2020-05-01', '2020-05-02', '2020-05-03', '2020-05-04',
               '2020-05-05', '2020-05-06', '2020-05-07', '2020-05-08',
               '2020-05-09', '2020-05-10', '2020-05-11', '2020-05-12',
               '2020-05-13', '2020-05-14', '2020-05-15', '2020-05-16',
               '2020-05-17', '2020-05-18', '2020-05-19', '2020-05-20',
               '2020-05-21', '2020-05-22', '2020-05-23', '2020-05-24',
               '2020-05-25', '2020-05-26', '2020-05-27', '2020-05-28',
               '2020-05-29', '2020-05-30', '2020-05-31', '2020-06-01',
      

tqdm_notebook을 활용해서 진행상황 시각화
- pip(pip3) install tqdm

In [32]:
from tqdm import tqdm_notebook
import urllib

In [33]:
movie_date = [] # 평점 검색 날짜
movie_name = [] # 영화 제목
movie_point = [] # 해당 일자의 영화 평점 점수

In [34]:
url_base = 'https://movie.naver.com/'
url_sub = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date={}'

In [40]:
for today in tqdm_notebook(date):
    # yyyy-mm--dd 형식의 날짜 형식을 yyyymmdd 형식으로 바꾸기
    today = urllib.parse.quote(today.strftime('%Y%m%d'))
    url_formated = url_sub.format(today)
    url = urljoin(url_base,url_formated)
    
    page = urlopen(url)
    soup = BeautifulSoup(page,'html.parser')
    
    # 조회한 날짜마다 영화의 제목과 평점을 한꺼번에 구하기
    movies = [movie.text.strip() for movie in soup.find_all('div', class_='tit5')]
    points = [point.text.strip() for point in soup.find_all('td',class_='point')]
    
    movie_date.extend([today for n in range(0,len(movies))]) # 날짜 데이터 리스트 추가
    movie_name.extend(movies)
    movie_point.extend(points)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  """Entry point for launching an IPython kernel.


HBox(children=(FloatProgress(value=0.0), HTML(value='')))


