In [1]:
import requests
from bs4 import BeautifulSoup
from urllib import request
import numpy as np
import pandas as pd


def get_url():
    url_list = []
    for i in range(2004, 2021):
        url_list.append('https://movie.daum.net/boxoffice/yearly?year=' + str(i))
    return url_list


class Movie_Url:
    def __init__(self, movie_url):
        self.movie_url = movie_url
        self.lst = self.navigate_url()
        self.name_list = self.crawl_movie_name()
        self.rating_list = self.crawl_movie_rating()
        self.genre_list, self.director_list, self.actor_list = self.crawl_movie_detail()

    def navigate_url(self):
        response = requests.get(self.movie_url)
        html = BeautifulSoup(response.content, 'html.parser')
        info = html.find('div', {'class': 'main_detail'})
        return info.findAll('li')

    def crawl_movie_name(self):
        name_list = []
        for lt in self.lst:
            name = lt.find('strong').getText()
            name_list.append(name)
        return name_list

    def crawl_movie_rating(self):
        rating_list=[]
        for lt in self.lst:
            rating = lt.find('em').getText()
            rating_list.append(rating)
        return rating_list

    def crawl_movie_image(self):
        for i, lt in enumerate(self.lst):
            img = str(lt.find('img'))
            img_url = img[img.find('http'):img.find('onload')-2]

            request.urlretrieve(img_url, "./image/"+str(self.movie_url[-4:])+str(i+1)+".png")
        print('Image Downloaded')

    def crawl_movie_detail(self):
        base_url = 'https://movie.daum.net'
        genre_list = []
        director_list = []
        actor_list = []

        for lt in self.lst:
            stlt = str(lt)
            stlt_2 = stlt[stlt.find('href=')+6:]
            stlt_3 = stlt_2[:stlt_2.find('>')-1]

            new_url = base_url+str(stlt_3)
            response = requests.get(new_url)
            html = BeautifulSoup(response.content, 'html.parser')
            new_info = html.find('div', {'class': 'movie_summary'})
            genre_list.append(new_info.findAll('dd')[0].getText())
            director_list.append(html.find('dd', {'class': 'type_ellipsis'}).find('a').getText())
            try:
                actor_list.append([x.getText() for x in html.findAll('dd',{'class': 'type_ellipsis'})[1]
                              .findAll('a')])
            except IndexError:
                actor_list.append('X')

        genre_list = [genre.split('/') for genre in genre_list]

        return genre_list, director_list, actor_list

    def make_movie_df(self):
        df_movie = pd.DataFrame()
        df_movie['movie_name'] = self.name_list
        df_movie['movie_rating'] = self.rating_list
        df_movie['movie_genre'] = self.genre_list
        df_movie['movie_director'] = self.director_list
        df_movie['movie_actor'] = self.actor_list

        return df_movie

def object_column_preprocess(df):
    df = df.reset_index(drop=True)
    df['movie_genre_split'] = df['movie_genre'].apply(lambda x: (' ').join(x))
    df['movie_director_split'] = df['movie_director'].apply(lambda x: x.replace(' ', ''))
    df['movie_actor_split'] = df['movie_actor'].apply(
        lambda x: (' ').join([ac.replace(' ', '') for ac in x]))

    return df

url_list = get_url()
for i, year_url in enumerate(url_list):
    movie = Movie_Url(year_url)
    # movie.crawl_movie_image()
    if i == 0:
        movie_df = movie.make_movie_df()
    else:
        movie_df = pd.concat([movie_df, movie.make_movie_df()], axis=0)

    print(i)

movie_df = object_column_preprocess(movie_df)
# movie_2004 = Movie_Url(url_list[0])
# df_2004 = movie_2004.make_movie_df()
# print(df_2004)


0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16


In [2]:
movie_df

Unnamed: 0,movie_name,movie_rating,movie_genre,movie_director,movie_actor,movie_genre_split,movie_director_split,movie_actor_split
0,태극기 휘날리며,9.1,[전쟁],강제규,"[장동건, 원빈]",전쟁,강제규,장동건 원빈
1,트로이,8.4,"[액션, 로맨스, 멜로]",볼프강 페터슨,"[브래드 피트, 올랜도 블룸]",액션 로맨스 멜로,볼프강페터슨,브래드피트 올랜도블룸
2,내 머리 속의 지우개,8.7,"[로맨스, 멜로, 드라마]",이재한,"[정우성, 손예진]",로맨스 멜로 드라마,이재한,정우성 손예진
3,귀신이 산다,6.4,"[코미디, 판타지, 공포]",김상진,"[차승원, 장서희]",코미디 판타지 공포,김상진,차승원 장서희
4,투모로우,8.3,"[액션, 스릴러, SF, 어드벤처, 드라마]",롤랜드 에머리히,"[데니스 퀘이드, 제이크 질렌할]",액션 스릴러 SF 어드벤처 드라마,롤랜드에머리히,데니스퀘이드 제이크질렌할
...,...,...,...,...,...,...,...,...
845,이 멋진 세계에 축복을! 붉은 전설,7.7,"[애니메이션, 액션, 코미디, 판타지]",칸자키 타카오미,"[후쿠시마 쥰, 아마미야 소라, 타카하시 리에, 카야노 아이]",애니메이션 액션 코미디 판타지,칸자키타카오미,후쿠시마쥰 아마미야소라 타카하시리에 카야노아이
846,사마에게,9.7,[다큐멘터리],와드 알-카팁,X,다큐멘터리,와드알-카팁,X
847,핑크퐁 시네마 콘서트 : 우주대탐험,7.1,[애니메이션],변희선,"[조경이, 김서영]",애니메이션,변희선,조경이 김서영
848,슈퍼 베어,6.6,"[액션, 어드벤처, 애니메이션]",왕치,"[김기두, 서반석, 이다은, 박성영]",액션 어드벤처 애니메이션,왕치,김기두 서반석 이다은 박성영


In [4]:
mv_df=movie_df.drop(['movie_genre','movie_director','movie_actor'],axis=1)

In [5]:
mv_df

Unnamed: 0,movie_name,movie_rating,movie_genre_split,movie_director_split,movie_actor_split
0,태극기 휘날리며,9.1,전쟁,강제규,장동건 원빈
1,트로이,8.4,액션 로맨스 멜로,볼프강페터슨,브래드피트 올랜도블룸
2,내 머리 속의 지우개,8.7,로맨스 멜로 드라마,이재한,정우성 손예진
3,귀신이 산다,6.4,코미디 판타지 공포,김상진,차승원 장서희
4,투모로우,8.3,액션 스릴러 SF 어드벤처 드라마,롤랜드에머리히,데니스퀘이드 제이크질렌할
...,...,...,...,...,...
845,이 멋진 세계에 축복을! 붉은 전설,7.7,애니메이션 액션 코미디 판타지,칸자키타카오미,후쿠시마쥰 아마미야소라 타카하시리에 카야노아이
846,사마에게,9.7,다큐멘터리,와드알-카팁,X
847,핑크퐁 시네마 콘서트 : 우주대탐험,7.1,애니메이션,변희선,조경이 김서영
848,슈퍼 베어,6.6,액션 어드벤처 애니메이션,왕치,김기두 서반석 이다은 박성영


In [12]:
mv_df['for_count_vect']=mv_df['movie_genre_split'\
                             ]+str(' ')+mv_df['movie_director_split']+str(' ')+mv_df['movie_actor_split']

In [30]:
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
overall_info_mat=CountVectorizer(min_df=0,ngram_range=(1,2)).fit_transform(mv_df['for_count_vect'])
overall_info_mat_2=CountVectorizer(min_df=0,ngram_range=(1,1)).fit_transform(mv_df['for_count_vect'])
overall_info_mat_3=TfidfVectorizer(min_df=0,ngram_range=(1,1)).fit_transform(mv_df['for_count_vect'])

In [31]:
mv_sim = cosine_similarity(overall_info_mat,overall_info_mat)
mv_sim_2 = cosine_similarity(overall_info_mat_2,overall_info_mat_2)
mv_sim_3 = cosine_similarity(overall_info_mat_3,overall_info_mat_3)
print(mv_sim.shape)

(850, 850)


In [32]:
mv_sim_ind = mv_sim.argsort()[:,::-1]
mv_sim_ind_2 = mv_sim_2.argsort()[:,::-1]
mv_sim_ind_3 = mv_sim_3.argsort()[:,::-1]

In [70]:
mv_df.iloc[mv_sim_ind[6]].head(20).sort_values('movie_rating',ascending=False).head(10)

In [66]:
mv_df.iloc[mv_sim_ind_2[6]].head(20).sort_values('movie_rating',ascending=False).head(10)

Unnamed: 0,movie_name,movie_rating,movie_genre_split,movie_director_split,movie_actor_split,for_count_vect
53,해리포터와 불의 잔,9.2,판타지 어드벤처,마이크뉴웰,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 마이크뉴웰 다니엘래드클리프 엠마왓슨 루퍼트그린트
358,해리포터와 죽음의 성물2,9.2,판타지 어드벤처,데이빗예이츠,다니엘래드클리프 루퍼트그린트 엠마왓슨,판타지 어드벤처 데이빗예이츠 다니엘래드클리프 루퍼트그린트 엠마왓슨
129,킹콩,8.7,액션 판타지 어드벤처,피터잭슨,나오미왓츠,액션 판타지 어드벤처 피터잭슨 나오미왓츠
63,킹콩,8.7,액션 판타지 어드벤처,피터잭슨,나오미왓츠,액션 판타지 어드벤처 피터잭슨 나오미왓츠
6,해리포터와 아즈카반의 죄수,8.4,판타지 어드벤처,알폰소쿠아론,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 알폰소쿠아론 다니엘래드클리프 엠마왓슨 루퍼트그린트
835,해리포터와 아즈카반의 죄수,8.4,판타지 어드벤처,알폰소쿠아론,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 알폰소쿠아론 다니엘래드클리프 엠마왓슨 루퍼트그린트
227,나니아 연대기:캐스피언 왕자,8.3,어드벤처 판타지 가족,앤드류아담슨,벤반스 조지헨리,어드벤처 판타지 가족 앤드류아담슨 벤반스 조지헨리
155,해리 포터와 불사조 기사단,8.2,판타지 어드벤처,데이빗예이츠,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 데이빗예이츠 다니엘래드클리프 엠마왓슨 루퍼트그린트
419,호빗: 뜻밖의 여정,8.1,어드벤처 판타지,피터잭슨,이안맥켈런 마틴프리먼,어드벤처 판타지 피터잭슨 이안맥켈런 마틴프리먼
315,해리 포터와 죽음의 성물1,7.9,판타지,데이빗예이츠,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 데이빗예이츠 다니엘래드클리프 엠마왓슨 루퍼트그린트


In [65]:
mv_df.iloc[mv_sim_ind_3[6]].head(20).sort_values('movie_rating',ascending=False).head(10)

Unnamed: 0,movie_name,movie_rating,movie_genre_split,movie_director_split,movie_actor_split,for_count_vect
53,해리포터와 불의 잔,9.2,판타지 어드벤처,마이크뉴웰,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 마이크뉴웰 다니엘래드클리프 엠마왓슨 루퍼트그린트
358,해리포터와 죽음의 성물2,9.2,판타지 어드벤처,데이빗예이츠,다니엘래드클리프 루퍼트그린트 엠마왓슨,판타지 어드벤처 데이빗예이츠 다니엘래드클리프 루퍼트그린트 엠마왓슨
129,킹콩,8.7,액션 판타지 어드벤처,피터잭슨,나오미왓츠,액션 판타지 어드벤처 피터잭슨 나오미왓츠
63,킹콩,8.7,액션 판타지 어드벤처,피터잭슨,나오미왓츠,액션 판타지 어드벤처 피터잭슨 나오미왓츠
6,해리포터와 아즈카반의 죄수,8.4,판타지 어드벤처,알폰소쿠아론,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 알폰소쿠아론 다니엘래드클리프 엠마왓슨 루퍼트그린트
835,해리포터와 아즈카반의 죄수,8.4,판타지 어드벤처,알폰소쿠아론,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 알폰소쿠아론 다니엘래드클리프 엠마왓슨 루퍼트그린트
227,나니아 연대기:캐스피언 왕자,8.3,어드벤처 판타지 가족,앤드류아담슨,벤반스 조지헨리,어드벤처 판타지 가족 앤드류아담슨 벤반스 조지헨리
155,해리 포터와 불사조 기사단,8.2,판타지 어드벤처,데이빗예이츠,다니엘래드클리프 엠마왓슨 루퍼트그린트,판타지 어드벤처 데이빗예이츠 다니엘래드클리프 엠마왓슨 루퍼트그린트
464,그래비티,8.1,SF 드라마,알폰소쿠아론,산드라블록 조지클루니,SF 드라마 알폰소쿠아론 산드라블록 조지클루니
419,호빗: 뜻밖의 여정,8.1,어드벤처 판타지,피터잭슨,이안맥켈런 마틴프리먼,어드벤처 판타지 피터잭슨 이안맥켈런 마틴프리먼


In [68]:
mv_df.iloc[6]

movie_name                                    해리포터와 아즈카반의 죄수
movie_rating                                             8.4
movie_genre_split                                   판타지 어드벤처
movie_director_split                                  알폰소쿠아론
movie_actor_split                       다니엘래드클리프 엠마왓슨 루퍼트그린트
for_count_vect          판타지 어드벤처 알폰소쿠아론 다니엘래드클리프 엠마왓슨 루퍼트그린트
Name: 6, dtype: object