## 네이버 영화 데이터 수집하기

#### 같은 선택자를 가지고 있는 데이터를 분리해서 수집할 수 있는 방법
1. 리스트 활용하기
    - select 함수를 사용해 데이터를 리스트 형태로 저장한 뒤, 리스트에 저장된 데이터를 인덱싱하여 특정 순서의 데이터를 수집할 수 있습니다. 
    - 아래 예시에서 각 dd태그 안의 a 태그에 장르, 감독, 배우에 대한 데이터가 들어있고, 한 영화에 여러 개의 장르, 감독, 배우에 대한 데이터가 있을 수 있으므로 select 함수를 사용해서 리스트로 저장합니다.

In [1]:
import requests
from bs4 import BeautifulSoup
raw= requests.get("https://movie.naver.com/movie/running/current.nhn",
                  headers={'User-Agent': 'Morzilla/5.0'})
html = BeautifulSoup(raw.text,'html.parser')

movies = html.select("dl.lst_dsc")
for m in movies:
    title = m.select_one('dt.tit>a').text
    score = m.select_one('div.star_t1 span.num').text
    # 예매율도 평점과 같은 선택자이지만 select_one은 첫번째 데이터를 가져오므로 상관 없음

# 장르/감독/배우 --> dl.info_text1 dd a
    # 이 때 한 영화에 여러 장르, 감독, 배우가 있을 수 있으므로 select 함수 사용
    try:
        info = m.select('dl.info_txt1 dd')
        genre = info[0].select('a')
        director = info[1].select('a')
        actor = info[2].select('a')
    except:
        info = m.select('dl.info_txt1 dd')
        genre = info[0].select('a')
        director = info[1].select('a')

    print('제목:', title)
    print('평점:', score)
    # 장르, 감독, 배우는 데이터가 여러개일 수 있으므로 반복문을 통해 출력
    print('장르:')
    for g in genre:
        print(g.text)
    print('감독:')
    for d in director:
        print(d.text)
    print('배우:')
    for a in actor:
        print(a.text)
    print('='*50)

제목: 인비저블맨
평점: 8.34
장르:
공포
스릴러
감독:
리 워넬
배우:
엘리자베스 모스
제목: 지푸라기라도 잡고 싶은 짐승들
평점: 6.67
장르:
범죄
스릴러
감독:
김용훈
배우:
전도연
정우성
배성우
윤여정
정만식
진경
신현빈
정가람
제목: 1917
평점: 8.98
장르:
드라마
전쟁
감독:
샘 멘데스
배우:
조지 맥케이
딘-찰스 채프먼
제목: 정직한 후보
평점: 7.70
장르:
코미디
감독:
장유정
배우:
라미란
김무열
나문희
윤경호
제목: 작은 아씨들
평점: 8.88
장르:
드라마
멜로/로맨스
감독:
그레타 거윅
배우:
시얼샤 로넌
엠마 왓슨
플로렌스 퓨
엘리자 스캔런
티모시 샬라메
제목: 젠틀맨
평점: 8.51
장르:
범죄
액션
감독:
가이 리치
배우:
매튜 맥커너히
휴 그랜트
콜린 파렐
찰리 허냄
헨리 골딩
미셀 도커리
제목: 시원찮은 그녀를 위한 육성방법 피날레
평점: 8.42
장르:
애니메이션
드라마
감독:
카메이 칸타
배우:
마츠오카 요시츠구
야스노 키요노
오오니시 사오리
카야노 아이
야하기 사유리
제목: 장마
평점: 9.70
장르:
다큐멘터리
감독:
이용남
음정현
배우:
이은택
제목: 클로젯
평점: 6.86
장르:
미스터리
드라마
감독:
김광빈
배우:
하정우
김남길
허율
김시아
제목: 조조 래빗
평점: 9.21
장르:
코미디
드라마
전쟁
감독:
타이카 와이티티
배우:
스칼렛 요한슨
로만 그리핀 데이비스
타이카 와이티티
토마신 맥켄지
제목: 기생충
평점: 8.48
장르:
드라마
감독:
봉준호
배우:
송강호
이선균
조여정
최우식
박소담
이정은
장혜진
제목: 하이, 젝시
평점: 6.64
장르:
코미디
감독:
존 루카스
스캇 무어
배우:
아담 드바인
로즈 번
제목: 숀더쉽 더 무비: 꼬마 외계인 룰라!
평점: 9.35
장르:
애니메이션
모험
코미디
감독:
윌 베처
리처드 펠런
배우:
저스틴 플레쳐
아멜리아 비테일
제목: 수퍼 소닉
평점: 8.41
장르:
애니메이션
액션
모험
코미디
가족
판타지
SF
감독:
제프 파울러
배우:
짐 캐리
제임스 마

2. 선택자 응용하기(nth-of-type)
    - '태그이름:nth-of-type(n)'을 활용하면 n번째 태그 데이터를 선택할 수 있습니다. 프로그래밍 언어는 대부분 숫자 0부터 세지만 nth-of-type()의 경우는 숫자를 1부터 셉니다.
    - 그리고 nth-of-type()의 앞에는 클래스 또는 아이디가 올 수 없기 때문에 해당하는 태그가 몇번째 태그인지도 꼭 확인해야 합니다.

In [2]:
import requests
from bs4 import BeautifulSoup
raw= requests.get("https://movie.naver.com/movie/running/current.nhn",
                  headers={'User-Agent': 'Morzilla/5.0'})
html = BeautifulSoup(raw.text,'html.parser')

movies = html.select("dl.lst_dsc")
for m in movies:
    title = m.select_one('dt.tit a')
    score = m.select_one('div.star_t1 span.num')
    # 장르/감독/배우 --> dl.info_text1 dd a
    # nth-of-type을 활용해서 데이터를 선택합니다.
    genre = m.select("dl.info_txt1 dd:nth-of-type(1) a")
    director = m.select("dl.info_txt1 dd:nth-of-type(2) a")
    actor = m.select("dl.info_txt1 dd:nth-of-type(3) a")

    print('제목:', title.text)
    print('평점:', score.text)
    print('장르:')
    for g in genre:
        print(g.text)
    print('감독:')
    for d in director:
        print(d.text)
    print('배우:')
    for a in actor:
        print(a.text)
    print('='*50)

제목: 인비저블맨
평점: 8.34
장르:
공포
스릴러
감독:
리 워넬
배우:
엘리자베스 모스
제목: 지푸라기라도 잡고 싶은 짐승들
평점: 6.67
장르:
범죄
스릴러
감독:
김용훈
배우:
전도연
정우성
배성우
윤여정
정만식
진경
신현빈
정가람
제목: 1917
평점: 8.98
장르:
드라마
전쟁
감독:
샘 멘데스
배우:
조지 맥케이
딘-찰스 채프먼
제목: 정직한 후보
평점: 7.70
장르:
코미디
감독:
장유정
배우:
라미란
김무열
나문희
윤경호
제목: 작은 아씨들
평점: 8.88
장르:
드라마
멜로/로맨스
감독:
그레타 거윅
배우:
시얼샤 로넌
엠마 왓슨
플로렌스 퓨
엘리자 스캔런
티모시 샬라메
제목: 젠틀맨
평점: 8.51
장르:
범죄
액션
감독:
가이 리치
배우:
매튜 맥커너히
휴 그랜트
콜린 파렐
찰리 허냄
헨리 골딩
미셀 도커리
제목: 시원찮은 그녀를 위한 육성방법 피날레
평점: 8.42
장르:
애니메이션
드라마
감독:
카메이 칸타
배우:
마츠오카 요시츠구
야스노 키요노
오오니시 사오리
카야노 아이
야하기 사유리
제목: 장마
평점: 9.70
장르:
다큐멘터리
감독:
이용남
음정현
배우:
이은택
제목: 클로젯
평점: 6.86
장르:
미스터리
드라마
감독:
김광빈
배우:
하정우
김남길
허율
김시아
제목: 조조 래빗
평점: 9.21
장르:
코미디
드라마
전쟁
감독:
타이카 와이티티
배우:
스칼렛 요한슨
로만 그리핀 데이비스
타이카 와이티티
토마신 맥켄지
제목: 기생충
평점: 8.48
장르:
드라마
감독:
봉준호
배우:
송강호
이선균
조여정
최우식
박소담
이정은
장혜진
제목: 하이, 젝시
평점: 6.64
장르:
코미디
감독:
존 루카스
스캇 무어
배우:
아담 드바인
로즈 번
제목: 숀더쉽 더 무비: 꼬마 외계인 룰라!
평점: 9.35
장르:
애니메이션
모험
코미디
감독:
윌 베처
리처드 펠런
배우:
저스틴 플레쳐
아멜리아 비테일
제목: 수퍼 소닉
평점: 8.41
장르:
애니메이션
액션
모험
코미디
가족
판타지
SF
감독:
제프 파울러
배우:
짐 캐리
제임스 마

#### 조건에 따라 데이터 선택하기

In [3]:
import requests
from bs4 import BeautifulSoup
raw= requests.get("https://movie.naver.com/movie/running/current.nhn",
                  headers={'User-Agent': 'Morzilla/5.0'})
html = BeautifulSoup(raw.text,'html.parser')

movies = html.select("dl.lst_dsc")
for m in movies:
    title = m.select_one('dt.tit a')
    score = m.select_one('div.star_t1 span.num')
    genre = m.select("dl.info_txt1 dd:nth-of-type(1) a")
    director = m.select("dl.info_txt1 dd:nth-of-type(2) a")
    actor = m.select("dl.info_txt1 dd:nth-of-type(3) a")
    # genre_all이라는 변수에 전체 장르를 수집
    genre_all = m.select_one("dl.info_txt1 dd:nth-of-type(1) span.link_txt")

    # 평점이 8.5이상인 경우만 선택
    # continue는 조건이 참이면 현재 반복을 종료하고 다음 순서의 반복문이 실행되도록 합니다.
    if float(score.text) < 8.5:
        continue
    
    # 장르가 액션인 경우만 선택
    # 장르는 태그가 붙어있는 상태로 수집된 상태. 따라서 텍스트의 상태로 바꿔줘야 함
    if '액션' not in genre_all.text:
        continue

    print('제목:', title.text)
    print('평점:', score.text)
    print('장르:')
    for g in genre:
        print(g.text)
    print('감독:')
    for d in director:
        print(d.text)
    print('배우:')
    for a in actor:
        print(a.text)
    print('='*50)

제목: 젠틀맨
평점: 8.51
장르:
범죄
액션
감독:
가이 리치
배우:
매튜 맥커너히
휴 그랜트
콜린 파렐
찰리 허냄
헨리 골딩
미셀 도커리
제목: 포드 V 페라리
평점: 9.51
장르:
액션
드라마
감독:
제임스 맨골드
배우:
맷 데이먼
크리스찬 베일
제목: 극장판 원피스 스탬피드
평점: 8.93
장르:
모험
액션
판타지
애니메이션
감독:
오츠카 타카시
배우:
타나카 마유미
나카이 카즈야
오카무라 아케미
야마구치 캇페이
제목: 인셉션
평점: 9.23
장르:
액션
모험
SF
스릴러
감독:
크리스토퍼 놀란
배우:
레오나르도 디카프리오
와타나베 켄
조셉 고든 레빗
마리옹 꼬띠아르
엘렌 페이지
톰 하디
제목: 해리 포터와 아즈카반의 죄수
평점: 8.68
장르:
판타지
가족
모험
액션
감독:
알폰소 쿠아론
배우:
다니엘 래드클리프
엠마 왓슨
루퍼트 그린트


## IMDb 영화 데이터 수집하기

In [4]:
import requests
from bs4 import BeautifulSoup
raw= requests.get("https://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth",
                  headers={'User-Agent': 'Morzilla/5.0'})
html = BeautifulSoup(raw.text,'html.parser')

movies = html.select("td.overview-top")

for m in movies:
    title = m.select_one('h4 > a').text
    info = m.select('div.txt-block')
    # 1. 리스트 활용
    director = info[0].select('a')
    stars = info[1].select('a')
    print('='*50)
    print('제목: ', title)
    print('감독: ')
    for d in director:
        print(d.text)
    print('배우: ')
    for s in stars:
        print(s.text)

제목:   The Invisible Man (2020)
감독: 
Leigh Whannell
배우: 
Elisabeth Moss
Oliver Jackson-Cohen
Harriet Dyer
Aldis Hodge
제목:   Wendy (2020)
감독: 
Benh Zeitlin
배우: 
Yashua Mack
Devin France
Gage Naquin
Gavin Naquin
제목:   Ride (2018)
감독: 
Alex Ranarivelo
배우: 
Shane Graham
Ludacris
Sasha Alexander
Blake Sheldon
제목:   Burden (2018)
감독: 
Andrew Heckler
배우: 
Andrea Riseborough
Garrett Hedlund
Forest Whitaker
Tom Wilkinson
제목:   La Gomera (2019)
감독: 
Corneliu Porumboiu
배우: 
Vlad Ivanov
Catrinel Marlon
Rodica Lazar
Agustí Villaronga
제목:   Saint Frances (2019)
감독: 
Alex Thompson
배우: 
Kelly O'Sullivan
Charin Alvarez
Braden Crothers
William Drain
제목:   Hvítur, hvítur dagur (2019)
감독: 
Hlynur Palmason
배우: 
Ingvar Sigurdsson
Ída Mekkín Hlynsdóttir
Hilmir Snær Guðnason
Sara Dögg Ásgeirsdóttir
제목:   Lost in America (2018)
감독: 
Rotimi Rainwater
배우: 
Rosario Dawson
Halle Berry
Tiffany Haddish
Jon Bon Jovi
제목:   Sonic the Hedgehog (2020)
감독: 
Jeff Fowler
배우: 
Ben Schwartz
James Marsden
Jim Carrey
Tika Sumpte

In [5]:
import requests
from bs4 import BeautifulSoup
raw= requests.get("https://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth",
                  headers={'User-Agent': 'Morzilla/5.0'})
html = BeautifulSoup(raw.text,'html.parser')

movies = html.select("td.overview-top")

for m in movies:
    title = m.select_one('h4 > a').text
    # 2. nth-of-type 활용
    director = m.select('> div:nth--of-type(3) a')
    stars = m.select('> div:nth--of-type(4) a')
    print('='*50)
    print('제목: ', title)
    print('감독: ')
    for d in director:
        print(d.text)
    print('배우: ')
    for s in stars:
        print(s.text)

SelectorSyntaxError: The combinator '>' at postion 0, must have a selector before it
  line 1:
> div:nth--of-type(3) a
^ (<string>)

In [6]:
import requests
from bs4 import BeautifulSoup
raw= requests.get("https://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth",
                  headers={'User-Agent': 'Morzilla/5.0'})
html = BeautifulSoup(raw.text,'html.parser')

movies = html.select("td.overview-top")

for m in movies:
    title = m.select_one('h4 > a').text
    info = m.select('div.txt-block')
    director = info[0].select('a')
    stars = info[1].select('a')
    
    genre_all = m.select_one("p.cert-runtime-genre")

    # 장르가 Action인 경우만 선택
    if 'Action' not in genre_all.text:
        continue
    
    print('='*50)
    print('제목: ', title)
    print('감독: ')
    for d in director:
        print(d.text)
    print('배우: ')
    for s in stars:
        print(s.text)

제목:   Ride (2018)
감독: 
Alex Ranarivelo
배우: 
Shane Graham
Ludacris
Sasha Alexander
Blake Sheldon
제목:   Sonic the Hedgehog (2020)
감독: 
Jeff Fowler
배우: 
Ben Schwartz
James Marsden
Jim Carrey
Tika Sumpter
제목:   Birds of Prey: And the Fantabulous Emancipation of One Harley Quinn (2020)
감독: 
Cathy Yan
배우: 
Margot Robbie
Rosie Perez
Mary Elizabeth Winstead
Jurnee Smollett-Bell
제목:   Bad Boys for Life (2020)
감독: 
Adil El Arbi
Bilall Fallah
배우: 
Will Smith
Martin Lawrence
Vanessa Hudgens
Alexander Ludwig
제목:   Jumanji: The Next Level (2019)
감독: 
Jake Kasdan
배우: 
Dwayne Johnson
Jack Black
Kevin Hart
Karen Gillan
