In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import functools as ft
import numpy as np
import pandas as pd
from time import sleep
import re
from pprint import pprint

In [2]:
year_max, year_min = 2019,2000
year_pages = []
print('Range : %d ~ %d'%(year_min,year_max))
for info in BeautifulSoup(urlopen('https://movie.naver.com/movie/sdb/browsing/bmovie_open.nhn'),'html.parser').find('table').select('td'):
    if year_min <= int(info.text[:4]) <= year_max:
        year, pages = info.text[:4], str(np.ceil(float(info.text[7:-1])/20).astype(int))
        print('Year '+year+' - '+pages+' pages')
        year_pages.append((year,pages))
year_pages

Range : 2000 ~ 2019
Year 2019 - 43 pages
Year 2018 - 50 pages
Year 2017 - 53 pages
Year 2016 - 59 pages
Year 2015 - 71 pages
Year 2014 - 76 pages
Year 2013 - 61 pages
Year 2012 - 44 pages
Year 2011 - 41 pages
Year 2010 - 29 pages
Year 2009 - 24 pages
Year 2008 - 28 pages
Year 2007 - 26 pages
Year 2006 - 24 pages
Year 2005 - 21 pages
Year 2004 - 38 pages
Year 2003 - 20 pages
Year 2002 - 18 pages
Year 2001 - 17 pages
Year 2000 - 19 pages


[('2019', '43'),
 ('2018', '50'),
 ('2017', '53'),
 ('2016', '59'),
 ('2015', '71'),
 ('2014', '76'),
 ('2013', '61'),
 ('2012', '44'),
 ('2011', '41'),
 ('2010', '29'),
 ('2009', '24'),
 ('2008', '28'),
 ('2007', '26'),
 ('2006', '24'),
 ('2005', '21'),
 ('2004', '38'),
 ('2003', '20'),
 ('2002', '18'),
 ('2001', '17'),
 ('2000', '19')]

In [None]:
csvdata = []
for year, pages in year_pages:
    for page in range(1,int(pages)+1):
        try:
            soup = BeautifulSoup(urlopen('https://movie.naver.com/movie/sdb/browsing/bmovie.nhn?open='+year+'&page='+str(page)),'html.parser')
            for link in soup.find('ul','directory_list').select('li>a'):
                date = re.findall('\d{2}.\d{2}',link.text)
                
                if 'href' in link.attrs and 'class' not in link.attrs:
                    basic_page = 'https://movie.naver.com'+link.attrs['href']
                    data = BeautifulSoup(urlopen(basic_page),'html.parser')
                    
                    # title
                    title = data.find('h3','h_movie').select('h3>a')[0].text
                    
                    # date
                    try:
                        date = data.find('dl','info_spec').find('dd').find_all('span')[-1].find_all('a')[-1].text[1:]
                    except:
                        date = ''
                    
                    # rating, vote_count
                    try:
                        rating = str(ft.reduce(lambda x,y:x+y,[val.text for val in data.find('div','score score_left').select('div>a>em')[:4]]))
                        vote_count = data.find('div','score score_left').find('div','ly_count').em.text
                    except:
                        rating = '0.00'
                    # genre
                    genre = '|'.join(list(map(lambda x: x.text, filter(lambda x: 'genre' in x.attrs['href'], data.find('dl','info_spec').select('dd>p>span>a')))))
                    genre = genre.replace('멜로/로맨스','로맨스')
                    
                    detail_page = basic_page.replace('basic','detail')
                    detail_soup = BeautifulSoup(urlopen(detail_page))
                    
                    #plot
                    plot = data.find_all('p','con_tx')[0].text
                    
                    # actors
                    main_act,supp_act = '',''
                    main_num = sum([1 if line.text == '주연' else 0 for line in detail_soup.find_all('em','p_part')])
                    if main_num > 0:
                        for i,actor in enumerate(detail_soup.find('ul','lst_people').find_all('a','k_name')):
                            if i<main_num:
                                main_act += actor.text+'|'
                            else:
                                supp_act += actor.text+'|'
                        main_act,supp_act = main_act[:-1],supp_act[:-1]
                        
                    #img_url
                    try:
                        img_url = data.find('div','poster').find('img').attrs['src']
                    except:
                        img_url = ''
                    
                    # data check => save
                    if rating != '0.00' and genre != '' and len(date) > 0:
                        '''
                        영화제목, 장르, 연도, 날짜, 평점, 투표수, 주연, 조연, url, 이미지링크
                        '''
                        csvdata.append([title, genre, year, date, rating, vote_count,
                                       plot, main_act, supp_act, basic_page,img_url])
            print('year '+year+' page '+str(page)+'/{} - crawling completed'.format(pages))
            #sleep(3)
        except Exception as e:
            print('year '+year+' page '+str(page)+'/{} - crawling failed'.format(pages))
            print('Error at title({}) : '.format(title),str(e))
        if page % 10 == 0:
            print('Check per 10 pages - Recently appended 10 data')
            pprint(csvdata[-10:])

In [None]:
len(csvdata)

In [None]:
df = pd.DataFrame(csvdata,columns=['title','genre','year','date','rating','vote_count','plot', 'main_act','supp_act','page_url','img_url'])
df.head()

In [6]:
df['vote_count'] = df['vote_count'].apply(lambda x: int(x.replace(',','')))

In [8]:
import datetime
today = datetime.datetime.today()
mmdd = str(today.month) + str(today.day)

df.to_csv('./dataset/naver_movie_dataset_'+mmdd+'.csv',encoding='utf-8',index=False)
del df

'1227'

In [3]:
df = pd.read_csv('./dataset/naver_movie_dataset_1227.csv')
df.head(20)

Unnamed: 0,title,genre,year,date,rating,vote_count,plot,main_act,supp_act,page_url,img_url
0,0.0MHz,공포,2019,5.29,5.01,2016,"에디슨의 마지막 발명품, 유령 탐지기? “증명할 수 없는 미스터리란 없다” 가지 말...",정은지|이성열|최윤영|신주환|정원창,박명신|남정희|강태웅,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190517_285/1...
1,1+3,로맨스,2019,12.12,8.6,15,"멈추지 않는 성욕과 사랑하는 세 명의 남편을 위해,\r 선상에서 밤낮 없이 몸을 파...",증미혜자,진담문|등월평,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20191204_25/15...
2,10 미니츠 곤,액션|범죄,2019,11.21,3.4,20,동물적인 직감과 1초의 오차도 용납하지 않는 설계자 ‘렉스’\r 철저한 계획 하에 ...,브루스 윌리스|마이클 치클리스,,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20191104_204/1...
3,100일 동안 100가지로 100퍼센트 행복찾기,코미디,2019,9.12,8.88,286,"어렸을 적부터 함께 자라고, IT 회사도 공동 운영,\r 사는 집도 아랫집, 윗집으...",플로리안 데이비드 핏츠|마치아스 슈와바이어퍼,미리엄 스테인|한넬로르 엘스너|카타리나 탈바흐|요하네스 알마예르|울프강 스텀프,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190823_42/15...
4,10년,드라마,2019,12.12,7.43,7,"안락사, 인공지능과 완전히 통제된 교육,\r 디지털 유산과 알 권리, 환경오염, 전...",스기사키 하나|쿠니무라 준|이케와키 치즈루|타이가|카와구치 사토루,,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20191120_7/157...
5,12번째 솔저,전쟁,2019,4.11,9.08,144,제2차 세계대전 나치에 점령된 노르웨이.\r 나치를 함락시킬 유일한 ‘마틴 레드 작...,토마스 갈라스타드|조나단 리스 마이어스,매즈 소요가드 피터센|마리 블로쿠스|베가 호엘,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190329_230/1...
6,13년의 공백,드라마|가족,2019,7.04,5.96,47,담배를 사러 다녀 오겠다는 아버지는 그렇게 돌아오지 않았다.\r 엄마는 아버지 대신...,타카하시 잇세이|릴리 프랭키|사이토 타쿠미|마츠오카 마유|칸노 미스즈,사토 지로|오니시 리쿠|오리모토 준키치|무라카미 준|칸베 히로시,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190529_195/1...
7,1919 유관순,다큐멘터리,2019,3.14,8.32,359,"100년 전, 소녀들이 대한독립을 위해 세상에 맞서기 시작했다.\r 우리가 기억해야...",이새봄|양윤희|김나니|박자희|김규리|김무늬|류의도|장세아|황도원|문보람|나애진,,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190222_78/15...
8,2047 버추얼 레볼루션,SF|액션,2019,10.03,4.5,2,"가상현실 기술의 발달로 환상과 현실이 혼합된 근 미래의 유럽.\r 어느 날, 사이버...",마이크 도퍼드|제인 배들러|요헨 해겔,맥시밀리엔 폴레인|니콜라스 반 비버렌|에밀리언 드 팔코|멜리사 마르스|패트라 실랜더,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190925_8/156...
9,47미터 2,공포|스릴러,2019,8.28,6.99,2104,물에 잠긴 고대 마야의 수중도시 '시발바'를 향해\r 짜릿한 동굴 다이빙에 나선 '...,소피 넬리스|시스틴 로즈 스탤론|브리안느 쥬|코린 폭스,브렉 베싱어|다비 산토스|킬린 람보|존 코베트|니아 롱,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190828_168/1...


In [4]:
df.shape

(10259, 11)

In [5]:
c = df['rating'].mean()
m = df['vote_count'].quantile(.6)
print(round(c,3), round(m,3))

def weighted_vote_average(record):
    v, r = record['vote_count'], record['rating']
    return (v/(v+m))*r + (m/(m+v))*c

df['weighted_vote'] = df.apply(weighted_vote_average,axis=1)

7.187 173.0


### 타이틀 검색

In [6]:
search = '어벤 져스'
df[df['title'].apply(lambda x: x.replace(' ','')).str.startswith(search.replace(' ',''))].sort_values('weighted_vote',ascending=False)

Unnamed: 0,title,genre,year,date,rating,vote_count,plot,main_act,supp_act,page_url,img_url,weighted_vote
430,어벤져스: 엔드게임,액션|SF,2019,4.24,9.38,68905,인피니티 워 이후 절반만 살아남은 지구 마지막 희망이 된 어벤져스 먼저 떠난 그들을...,로버트 다우니 주니어|크리스 에반스|크리스 헴스워스|마크 러팔로|스칼렛 요한슨|제레...,베네딕트 컴버배치|조 샐다나|크리스 프랫|채드윅 보스만|톰 홀랜드|안소니 마키|기네...,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20190417_250/1...,9.374507
1219,어벤져스: 인피니티 워,액션|모험|판타지|SF,2018,4.25,8.96,35881,"새로운 조합을 이룬 어벤져스,\r 역대 최강 빌런 타노스에 맞서 세계의 운명이 걸린...",로버트 다우니 주니어|조슈 브롤린|크리스 헴스워스|베네딕트 컴버배치|크리스 프랫|마...,세바스찬 스탠|기네스 팰트로|폼 클레멘티에프|레티티아 라이트|카렌 길런|다나이 구리...,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20180322_242/1...,8.95149
6423,어벤져스,액션|SF|모험,2012,4.26,8.8,17954,"지구의 안보가 위협당하는 위기의 상황에서 슈퍼히어로들을 불러모아 세상을 구하는, 일...",로버트 다우니 주니어|스칼렛 요한슨|크리스 헴스워스|크리스 에반스|마크 러팔로|제레...,기네스 팰트로|코비 스멀더스|폴 베타니|클락 그레그|루 페리그노|스텔란 스카스가드|...,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20120426_172/1...,8.784602
3847,어벤져스: 에이지 오브 울트론,액션|모험|판타지|SF,2015,4.23,8.31,31268,"쉴드의 숙적 히드라는 연구를 통해 새로운 능력자 막시모프 남매를 탄생시키고, 히드라...",로버트 다우니 주니어|크리스 헴스워스|마크 러팔로|크리스 에반스|스칼렛 요한슨|제레...,애런 존슨|엘리자베스 올슨|폴 베타니|코비 스멀더스|스텔란 스카스가드|수현|토마스 ...,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20150324_33/14...,8.303818
1218,어벤져스 그림: 시간 전쟁,액션|모험,2018,10.3,5.3,10,시공간의 균열로 인해 마법 세계와의 통로가 열렸다! 아틀란티스의 여왕 막다는 마법의...,로렌 파킨슨,,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20181102_272/1...,7.083456
5724,어벤져스 어셈블,애니메이션,2013,5.26,5.4,15,"세계 최강의 수퍼 히어로가 뭉쳤다. 아이언맨, 헐크, 캡틴 아메리카, 호크아이, 블...",,,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20150918_131/1...,7.044003
429,어벤져스 오브 저스티스,액션|코미디|가족,2019,10.16,2.8,10,은하계 최강의 빌런 조크스터는 태양을 없애 지구에 새로운 빙하기를 불러일으키고자 한...,에이미 스마트|토니 차발레로|사이먼 렉스|스티븐 랜나지시|제프 체이스|제이슨 앨런 스미스,,https://movie.naver.com/movie/bi/mi/basic.nhn?...,https://movie-phinf.pstatic.net/20191022_233/1...,6.946844
