In [1]:
import platform #os 정보를 가져 올 수 있는 모듈

from matplotlib import font_manager, rc # font_manager : 폰트 관리 모듈, rc : 폰트 변경 모듈
from matplotlib import pyplot as plt # 시각화 도구

import seaborn as sns

%matplotlib inline
plt.rcParams['axes.unicode_minus'] = False # 유니코드 표현 설정하기


if platform.system() == 'Darwin':
    rc('font', family='AppleGothic') # OS가 APPLE(Darwin)이면 AppleGothic으로 폰트 설정
elif platform.system() == 'Windows':
    path="c:/Windows/Fonts/malgun.ttf" #OS가 윈도우즈면 맑은 고딕으로 설정
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown System... sorry~~~~')

In [2]:
from bs4 import BeautifulSoup # HTML문자열을 DOM 구조화
from urllib.request import urlopen # url을 이용한 http 요청을 하기위한 객체
from urllib.parse import urljoin # url을 굉장히 다루기 쉽게 해준다.

import pandas as pd

# urljoin을 이용해서 크롤링 대상 url 만들기

In [5]:
url_base = 'https://movie.naver.com/'
url_sub  = 'movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200715'

url = urljoin(url_base, url_sub)
url

'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200715'

# 영화 평점 랭킹 페이지 가져오기

In [8]:
page = urlopen(url)
soup = BeautifulSoup(page, 'html.parser')

## 영화 평점 페이지 확인 결과
- 테이블 중간 중간 비어있는 항목이 있었다.
 - 따라서 tbody 안의 tr만 사용해서 스크래이핑 할 때 예외 처리가 반드시 필요할 것 같다.
 
- 직접 랭킹, 제목, 평점을 선택해서 가지고 올 것임

In [16]:
print(soup.find('td', class_='ac').find('img').get('alt').strip())
print(soup.find('div', class_='tit5').text.strip())
print(soup.find('td', class_='point').text.strip())

01
그린 북
9.59


크롤링 할 때 공백제거 이외의 특별한 로직에 의해서 수집이 되어야 하면 for 및 zip 문법을 사용하고, 그 외의 경우는 컴프리헨션을 사용

In [64]:
ranks  = [td.find('img') for td in soup.find_all('td', class_='ac') if td.find('img') is not None ]
ranks  = [ rank.get('alt').strip() for rank in ranks if (rank.get('alt') != "na" and rank.get('alt') !='up' and rank.get('alt') !='down') & (rank.get('alt').isalnum())]
movies = [ movie.text.strip() for movie in soup.find_all('div', class_='tit5') ]
points = [ point.text.strip() for point in soup.find_all('td', class_='point') ]

In [65]:
ranks[:5]

['01', '02', '03', '04', '05']

In [66]:
movies[:5]

['그린 북', '가버나움', '베일리 어게인', '원더', '포드 V 페라리']

In [67]:
points[:5]

['9.59', '9.59', '9.53', '9.49', '9.49']

In [68]:
len(ranks), len(movies), len(points)

(50, 50, 50)