# Web Scraping des informations sur les meilleurs films di site allocine

## Importation des librairies nécessaires

In [1]:
# requests pour recupérer des pages depuis internet
import requests
# BeautifulSoup pour parcourir les pages HTML et y extraire les données recherchées 
from bs4 import BeautifulSoup 
# numpy et pandas pour collecter et traiter les données
import numpy as np
import pandas as pd

### extraire les titres des films de la page 1

In [10]:
# on dééclare l'url de la page 1
url = 'https://www.allocine.fr/film/meilleurs/'
response = requests.get(url) 
soup=BeautifulSoup(response.text,'html.parser')
titres_balise=soup.find_all("a",{"class":"meta-title-link"})
titres=[x.get_text() for x in titres_balise]
titres

['Forrest Gump',
 'La Liste de Schindler',
 'La Ligne verte',
 '12 hommes en colère',
 'Le Parrain',
 'Les Evadés',
 'Le Seigneur des anneaux : le retour du roi',
 'Le Roi Lion',
 "Vol au-dessus d'un nid de coucou",
 'The Dark Knight, Le Chevalier Noir']

In [3]:
# extraire les resumés des films de la page 1
resume_balise=soup.find_all("div",{"class":"content-txt"})
resume=[x.get_text() for x in resume_balise]
resume

["\n Quelques décennies d'histoire américaine, des années 1940 à la fin du XXème siècle, à travers le regard et l'étrange odyssée d'un homme simple et pur, Forrest Gump.\n",
 "\nEvocation des années de guerre d'Oskar Schindler, industriel autrichien rentré à Cracovie en 1939 avec les troupes allemandes. Il va, tout au long de la guerre, protéger des juifs en les faisant travailler dans sa fabrique.\n",
 '\nPaul Edgecomb, Gardien-chef du pénitencier de Cold Mountain en 1935, était chargé de veiller au bon déroulement des exécutions capitales. Parmi les prisonniers se trouvait un colosse du nom de John Coffey...\n',
 "\nLors d'un procès, un juré émet l'hypothèse que l'homme qu'il doit juger n'est peut-être pas coupable. Il va tenter de convaincre les onze autres jurés.\n",
 '\nEn 1945, à New York, les Corleone sont une des cinq familles de la mafia. Don Vito Corleone marie sa fille à un bookmaker. Sollozzo, "parrain" de la famille Tattaglia, propose à Don Vito une association dans le tra

In [4]:
# extraire les notes des films de la page 1
note_balise=soup.find_all("span",{"class":"stareval-note"})
note=[x.get_text() for x in note_balise]
note

['2,6',
 '4,6',
 '--',
 '4,2',
 '4,6',
 '--',
 '2,8',
 '4,6',
 '--',
 '5,0',
 '4,6',
 '--',
 '4,6',
 '4,5',
 '--',
 '3,2',
 '4,5',
 '--',
 '3,8',
 '4,5',
 '--',
 '3,4',
 '4,5',
 '--',
 '5,0',
 '4,5',
 '--',
 '4,0',
 '4,5',
 '--']

In [172]:
# we initialize an empty list for all data we want to scrap
all_title = []
all_release_date = []
all_director = []
all_duration = []
all_category = []
all_actor = []
all_resume = []
all_press_rating = []
all_spectator_rating = []
all_friend_rating = []

In [173]:
# on déclare l'url de la page 1
# url = 'https://www.allocine.fr/film/meilleurs/'
url ='https://www.allocine.fr/film/meilleurs/?page=30'
response = requests.get(url) 
soup=BeautifulSoup(response.text,'html.parser')

movies_card = soup.find_all('div',{"class":"card entity-card entity-card-list cf"})

In [174]:
for movie_card in movies_card :
    ## to extract mmovie title
    title_tag = movie_card.find_all("a",{"class":"meta-title-link"})
    title = title_tag[0].get_text()
    print("title : ",title)
    ## To extract release date
    release_date_tag = movie_card.find_all("span",{"class":"date"})
    # We check if the release_date_tag is empty because there are some movies without release_date
    if release_date_tag:
        release_date = release_date_tag[0].get_text()
    else:
        release_date = np.nan
    print("release_date : ",release_date)
    ## Extract duration and director
    director_tag = movie_card.find_all("a",{"class":"blue-link"})
    # We check if the director_tag is empty because there are some movies without director_tag
    if director_tag:
        director = director_tag[0].get_text()
    else:
        director = np.nan
    print("Director : ",director)
    ## Extract duration and categories
    duration_cat_tag = movie_card.find_all("div",{"class":"meta-body-item meta-body-info"})
    #print(duration_cat_tag)
    duration_cat = duration_cat_tag[0].get_text()
    #print("duration_cat : ",duration_cat)
    # We check if duration_cat is empty because there are some movies without duration_cat
    if duration_cat:
        duration, categories = duration_cat.split('/')
        duration = duration.strip('\n')
        categories_tag = duration_cat_tag[0].find_all("span")
        # to get category name in a list
        categories_name = [cat.get_text() for cat in categories_tag ]
        # to transform categories_name from list to string
        categories = categories_name[1]
        for i in range(2, len(categories_name)):
            categories += ',' + categories_name[i]
    else:
        duration = np.nan
        categories = np.nan
    print("duration : ",duration)
    print("categories : ", categories)
    ## Extract actors name
    actors_tag = movie_card.find_all("div",{"class":"meta-body-item meta-body-actor"})
    # We check if actors_tag is empty because there are some movies without actors_tag
    if actors_tag:
        actors_tag_list = actors_tag[0].find_all("a")
        # to get actors name in a list
        actors_name = [ element.get_text() for element in actors_tag_list]
        # to transform actors_name from list to string 
        actors = actors_name[0]
        for i in range(1,len(actors_name)):
            actors += ',' + actors_name[i]
    else:
        actors= np.nan
    print("actors : ",actors)
    ## to extract movie resume
    resume_tag = movie_card.find_all("div",{"class":"content-txt"})
    if resume_tag:
        resume = resume_tag[0].get_text()
        resume = resume.strip('\n')
    else:
        resume = np.nan
    print("resume : ",resume)
    ## to extract press_rate, spectator_rate and friend_rate
    rating_tag = movie_card.find_all("span",{"class":"stareval-note"})
    # We check if rating_tag is empty because there are some movies without rating_tag
    if rating_tag:
#         print(rating_tag)
        if len(rating_tag) == 3 :
            press_rating = rating_tag[0].get_text()
            spectator_rating = rating_tag[1].get_text()
            friends_rating = rating_tag[2].get_text()
        elif len(rating_tag) == 2 :
            press_rating = np.nan
            spectator_rating =  rating_tag[0].get_text()
            friends_rating = np.nan
    else:
        press_rating = np.nan
        spectator_rating =  np.nan
        friends_rating = np.nan
    print("press_rating : ",press_rating)
    print("spectator_rating : ",spectator_rating)
    print("friends_rating : ",friends_rating)
    all_title.append(title)
    all_release_date.append(release_date)
    all_director.append(director)
    all_duration.append(duration)
    all_category.append(categories)
    all_actor.append(actors)
    all_resume.append(resume)
    all_press_rating.append(press_rating)
    all_spectator_rating.append(spectator_rating)
    all_friend_rating.append(friends_rating)
    print("\n")

title :  Parvana
release_date :  nan
Director :  Nora Twomey
duration :  1h 33min
categories :  Animation,Famille
actors :  Golshifteh Farahani,Saara Chaudry,Soma Bhatia
resume :  En Afghanistan, sous le régime taliban, Parvana, onze ans, grandit à Kaboul ravagée par la guerre. Elle aime écouter les histoires que lui raconte son père, lecteur et écrivain public. Mais un jour, il est arrêté et la vie de Parvana bascule à jamais. Car sans être accompagnée d’un homme, on ne peut plus travailler, ramener de l'argent ni même acheter de la nourriture.
press_rating :  4,1
spectator_rating :  4,2
friends_rating :  --


title :  HEIMAT II – L’exode
release_date :  nan
Director :  Edgar Reitz
duration :  3h 51min
categories :  Drame,Historique
actors :  Jan Dieter Schneider,Antonia Bill,Maximilian Scheidt
resume :  1842-1844, L’histoire de la famille Simon. Les coups du destin risquent de détruire cette famille mais c’est une histoire de courage et de foi en l’avenir.
press_rating :  4,2
spectat

In [175]:
movies_dict = {
    'title' : all_title,
     'release_date' : all_release_date,
    'director' : all_director,
    'duration' : all_duration,
    'category' : all_category,
    'actor' : all_actor,
    'resume' : all_resume,
    'press_rating' : all_press_rating,
    'spectator_rating' : all_spectator_rating,
    'friend_rating' : all_friend_rating
}

In [176]:
movies = pd.DataFrame(movies_dict)
print(movies.shape)
movies

(10, 10)


Unnamed: 0,title,release_date,director,duration,category,actor,resume,press_rating,spectator_rating,friend_rating
0,Parvana,,Nora Twomey,1h 33min,"Animation,Famille","Golshifteh Farahani,Saara Chaudry,Soma Bhatia","En Afghanistan, sous le régime taliban, Parvan...",41,42,--
1,HEIMAT II – L’exode,,Edgar Reitz,3h 51min,"Drame,Historique","Jan Dieter Schneider,Antonia Bill,Maximilian S...","1842-1844, L’histoire de la famille Simon. Les...",42,42,--
2,Tout ce que le ciel permet,31 juillet 2019,Douglas Sirk,1h 29min,"Comédie dramatique,Romance","Jane Wyman,Rock Hudson,Agnes Moorehead","L'histoire d'une veuve qui renonce, à cause de...",50,42,--
3,L'Affaire Cicéron,6 novembre 2019,Joseph L. Mankiewicz,1h 48min,"Drame,Espionnage,Thriller","James Mason,Danielle Darrieux,Michael Rennie","En 1944, Diello sert un ambassadeur anglais à ...",50,42,--
4,Les Plus belles années de notre vie,20 novembre 2002,William Wyler,2h 52min,"Drame,Guerre","Myrna Loy,Fredric March,Dana Andrews","En 1945, trois soldats démobilisés font connai...",50,42,--
5,L'Ange ivre,17 avril 2019,Akira Kurosawa,1h 38min,"Drame,Thriller","Toshirô Mifune,Takashi Shimura,Reisaburo Yamamoto",Appelé en pleine nuit à soigner un jeune gangs...,40,42,--
6,Dans ses yeux,,Juan José Campanella,2h 09min,"Policier,Drame,Romance","Ricardo Darín,Soledad Villamil,Pablo Rago","1974, Buenos Aires. Benjamin Esposito enquête ...",36,42,--
7,La Chasse,,Thomas Vinterberg,1h 51min,Drame,"Mads Mikkelsen,Thomas Bo Larsen,Annika Wedderkopp","Après un divorce difficile, Lucas, quarante an...",31,42,--
8,Snatch,,Guy Ritchie,1h 43min,"Comédie,Policier","Jason Statham,Brad Pitt,Vinnie Jones",Franky vient de voler un énorme diamant qu'il ...,37,42,--
9,Bac Nord,,Cédric Jimenez,1h 44min,"Policier,Thriller","Gilles Lellouche,François Civil,Karim Leklou",2012. Les quartiers Nord de Marseille détienne...,35,42,--


### Now,  we can generalize our process and collect data on all the other pages
>Now that we have all the data on the movies on the first page, we can generalize and collect data on all the other pages

In [125]:
#create a function to generate the link of all the other page
# Note that we have created this function based on the structure of the urls of other pages
def create_link(urls):
    for i in range(2,31):
        urls.append(f'https://www.allocine.fr/film/meilleurs/?page={i}')
    return urls


In [177]:
# we initialize our list with the link of the fisrt page
urls=[
    'https://www.allocine.fr/film/meilleurs/',
]
links =create_link(urls)
print(len(links))
links

30


['https://www.allocine.fr/film/meilleurs/',
 'https://www.allocine.fr/film/meilleurs/?page=2',
 'https://www.allocine.fr/film/meilleurs/?page=3',
 'https://www.allocine.fr/film/meilleurs/?page=4',
 'https://www.allocine.fr/film/meilleurs/?page=5',
 'https://www.allocine.fr/film/meilleurs/?page=6',
 'https://www.allocine.fr/film/meilleurs/?page=7',
 'https://www.allocine.fr/film/meilleurs/?page=8',
 'https://www.allocine.fr/film/meilleurs/?page=9',
 'https://www.allocine.fr/film/meilleurs/?page=10',
 'https://www.allocine.fr/film/meilleurs/?page=11',
 'https://www.allocine.fr/film/meilleurs/?page=12',
 'https://www.allocine.fr/film/meilleurs/?page=13',
 'https://www.allocine.fr/film/meilleurs/?page=14',
 'https://www.allocine.fr/film/meilleurs/?page=15',
 'https://www.allocine.fr/film/meilleurs/?page=16',
 'https://www.allocine.fr/film/meilleurs/?page=17',
 'https://www.allocine.fr/film/meilleurs/?page=18',
 'https://www.allocine.fr/film/meilleurs/?page=19',
 'https://www.allocine.fr/fi

In [179]:
links2 = ['https://www.allocine.fr/film/meilleurs/',
 'https://www.allocine.fr/film/meilleurs/?page=2']

In [142]:
print(len(links))

30


In [129]:
# # we re-initialize an empty list for all data we want to scrap because now, we want to run this for all the page
# all_title = []
# all_release_date = []
# all_director = []
# all_duration = []
# all_category = []
# all_actor = []
# all_resume = []
# all_press_rating = []
# all_spectator_rating = []
# all_friend_rating = []

In [186]:

def scrap_movie_data(urls):
    ## we re-initialize an empty list for all data we want to scrap because now, we want to run this for all the page
    all_title = []
    all_release_date = []
    all_director = []
    all_duration = []
    all_category = []
    all_actor = []
    all_resume = []
    all_press_rating = []
    all_spectator_rating = []
    all_friend_rating = []
    
    for url in urls:
        ## Send a request to get the web page
        response = requests.get(url) 
        ## use BeautifulSoup to  read the page
        soup=BeautifulSoup(response.text,'html.parser')
        # Get all the movies card af the current page
        movies_card = soup.find_all('div',{"class":"card entity-card entity-card-list cf"})
        # to collect data movie by movie
        for movie_card in movies_card :
            ## to extract mmovie title
            title_tag = movie_card.find_all("a",{"class":"meta-title-link"})
            title = title_tag[0].get_text()
            print("title : ",title)
            ## To extract release date
            release_date_tag = movie_card.find_all("span",{"class":"date"})
            # We check if the release_date_tag is empty because there are some movies without release_date
            if release_date_tag:
                release_date = release_date_tag[0].get_text()
            else:
                release_date = np.nan
            print("release_date : ",release_date)
            ## Extract duration and director
            director_tag = movie_card.find_all("a",{"class":"blue-link"})
            # We check if the director_tag is empty because there are some movies without director_tag
            if director_tag:
                director = director_tag[0].get_text()
            else:
                director = np.nan
            print("Director : ",director)
            ## Extract duration and categories
            duration_cat_tag = movie_card.find_all("div",{"class":"meta-body-item meta-body-info"})
            #print(duration_cat_tag)
            duration_cat = duration_cat_tag[0].get_text()
            #print("duration_cat : ",duration_cat)
            # We check if duration_cat is empty because there are some movies without duration_cat
            if duration_cat:
                try:
                    duration, categories = duration_cat.split('/')
                    duration = duration.strip('\n')
                    categories_tag = duration_cat_tag[0].find_all("span")
                    # to get category name in a list
                    categories_name = [cat.get_text() for cat in categories_tag ]
                    # to transform categories_name from list to string
                    categories = categories_name[1]
                    for i in range(2, len(categories_name)):
                        categories += ',' + categories_name[i]
                except(ValueError):
                    # Pour certains film comme "Baby Cart la saga" qui ont code html différents, on saute
#                     continue;
                    pass;
            else:
                duration = np.nan
                categories = np.nan
            print("duration : ",duration)
            print("categories : ", categories)
            ## Extract actors name
            actors_tag = movie_card.find_all("div",{"class":"meta-body-item meta-body-actor"})
            # We check if actors_tag is empty because there are some movies without actors_tag
            if actors_tag:
                actors_tag_list = actors_tag[0].find_all("a")
                if actors_tag_list:
                    # to get actors name in a list
                    actors_name = [ element.get_text() for element in actors_tag_list]
                    # to transform actors_name from list to string 
                    actors = actors_name[0]
                    for i in range(1,len(actors_name)):
                        actors += ',' + actors_name[i]
            else:
                actors= np.nan
            print("actors : ",actors)
            ## to extract movie resume
            resume_tag = movie_card.find_all("div",{"class":"content-txt"})
            if resume_tag:
                resume = resume_tag[0].get_text()
                resume = resume.strip('\n')
            else:
                resume = np.nan
            print("resume : ",resume)
            ## to extract press_rate, spectator_rate and friend_rate
            rating_tag = movie_card.find_all("span",{"class":"stareval-note"})
            # We check if rating_tag is empty because there are some movies without rating_tag
            if rating_tag:
        #         print(rating_tag)
                if len(rating_tag) == 3 :
                    press_rating = rating_tag[0].get_text()
                    spectator_rating = rating_tag[1].get_text()
                    friends_rating = rating_tag[2].get_text()
                elif len(rating_tag) == 2 :
                    press_rating = np.nan
                    spectator_rating =  rating_tag[0].get_text()
                    friends_rating = np.nan
            else:
                press_rating = np.nan
                spectator_rating =  np.nan
                friends_rating = np.nan
            print("press_rating : ",press_rating)
            print("spectator_rating : ",spectator_rating)
            print("friends_rating : ",friends_rating)
            ## Add the current mivie data to lists
            all_title.append(title)
            all_release_date.append(release_date)
            all_director.append(director)
            all_duration.append(duration)
            all_category.append(categories)
            all_actor.append(actors)
            all_resume.append(resume)
            all_press_rating.append(press_rating)
            all_spectator_rating.append(spectator_rating)
            all_friend_rating.append(friends_rating)
            
            print("\n")
    #
    print("all_title : ",len(all_title))
    movies_dict = {
        'title' : all_title,
         'release_date' : all_release_date,
        'director' : all_director,
        'duration' : all_duration,
        'category' : all_category,
        'actor' : all_actor,
        'resume' : all_resume,
        'press_rating' : all_press_rating,
        'spectator_rating' : all_spectator_rating,
        'friend_rating' : all_friend_rating
    }

    movies_df = pd.DataFrame(movies_dict)
    print(movies_df.shape)
    return movies_df

In [189]:
df = scrap_movie_data(links)
# df2 = scrap_movie_data(links2)

title :  Forrest Gump
release_date :  28 octobre 2015
Director :  Robert Zemeckis
duration :  2h 20min
categories :  Comédie,Drame,Romance
actors :  Tom Hanks,Gary Sinise,Robin Wright
resume :   Quelques décennies d'histoire américaine, des années 1940 à la fin du XXème siècle, à travers le regard et l'étrange odyssée d'un homme simple et pur, Forrest Gump.
press_rating :  2,6
spectator_rating :  4,6
friends_rating :  --


title :  La Liste de Schindler
release_date :  13 mars 2019
Director :  Steven Spielberg
duration :  3h 15min
categories :  Historique,Guerre
actors :  Liam Neeson,Ben Kingsley,Ralph Fiennes
resume :  Evocation des années de guerre d'Oskar Schindler, industriel autrichien rentré à Cracovie en 1939 avec les troupes allemandes. Il va, tout au long de la guerre, protéger des juifs en les faisant travailler dans sa fabrique.
press_rating :  4,2
spectator_rating :  4,6
friends_rating :  --


title :  La Ligne verte
release_date :  nan
Director :  Frank Darabont
duration :

title :  Star Wars : Episode V - L'Empire contre-attaque
release_date :  9 avril 1997
Director :  Irvin Kershner
duration :  2h 04min
categories :  Aventure,Science Fiction
actors :  Mark Hamill,Harrison Ford,Carrie Fisher
resume :  Malgré la destruction de l'Etoile Noire, l'Empire maintient son emprise sur la galaxie, et poursuit sans relâche sa lutte contre l'Alliance rebelle. Basés sur la planète glacée de Hoth, les rebelles essuient un assaut des troupes impériales...
press_rating :  5,0
spectator_rating :  4,5
friends_rating :  --


title :  Seven
release_date :  nan
Director :  David Fincher
duration :  2h 10min
categories :  Policier,Thriller
actors :  Brad Pitt,Morgan Freeman,Gwyneth Paltrow
resume :  John Doe a decidé de nettoyer la societé des maux qui la rongent en commettant sept meurtres bases sur les sept pechés capitaux.
press_rating :  3,6
spectator_rating :  4,5
friends_rating :  --


title :  Le Dictateur
release_date :  10 juillet 2019
Director :  Charles Chaplin
dur

title :  Le Silence des agneaux
release_date :  7 octobre 2020
Director :  Jonathan Demme
duration :  1h 58min
categories :  Drame,Thriller
actors :  Anthony Hopkins,Jodie Foster,Scott Glenn
resume :  Clarice Starling, jeune stagiaire du FBI, est désignée pour enquêter sur une série de meurtres épouvantables commis dans le Middle West par un tueur de femmes psychopathe connu sous le nom de Buffalo Bill.
press_rating :  4,8
spectator_rating :  4,4
friends_rating :  --


title :  Star Wars : Episode IV - Un nouvel espoir (La Guerre des étoiles)
release_date :  12 mars 1997
Director :  George Lucas
duration :  2h 01min
categories :  Aventure,Science Fiction
actors :  Mark Hamill,Harrison Ford,Carrie Fisher
resume :  Il y a bien longtemps, dans une galaxie très lointaine... La guerre civile fait rage entre l'Empire galactique et l'Alliance rebelle.
press_rating :  4,8
spectator_rating :  4,4
friends_rating :  --


title :  Joker
release_date :  nan
Director :  Todd Phillips
duration :  2h 

title :  Ip Man
release_date :  nan
Director :  Wilson Yip
duration :  1h 45min
categories :  Biopic,Arts Martiaux
actors :  Donnie Yen,Simon Yam,Siu-Wong Fan
resume :  Film biographique sur la vie de Ip Man, pionnier du Wing Chun et maitre de Bruce Lee.
press_rating :  nan
spectator_rating :  4,4
friends_rating :  nan


title :  Il faut sauver le soldat Ryan
release_date :  nan
Director :  Steven Spielberg
duration :  2h 43min
categories :  Drame,Guerre
actors :  Ryan Hurst,Tom Hanks,Tom Sizemore
resume :  Alors que les forces alliées débarquent à Omaha Beach, Miller doit conduire son escouade derrière les lignes ennemies pour une mission particulièrement dangereuse : trouver et ramener sain et sauf le simple soldat James Ryan, dont les trois frères sont morts au combat en l'espace de trois jours. Pendant que l'escouade progresse en territoire ...
press_rating :  3,0
spectator_rating :  4,4
friends_rating :  --


title :  Top Gun: Maverick
release_date :  nan
Director :  Joseph Kosins

title :  La Ruée vers l'or
release_date :  10 juillet 2019
Director :  Charles Chaplin
duration :  1h 12min
categories :  Comédie
actors :  Mack Swain,Tom Murray
resume :  1898, Nord-Ouest du Canada. Alors que des milliers d’aventuriers arpentent le Klondike en quête du métal précieux, Charlot est surpris par une tempête de neige. Il trouve refuge dans une cabane isolée et fait la rencontre de Big Jim McKay et du terrible Black Larsen…
press_rating :  5,0
spectator_rating :  4,3
friends_rating :  --


title :  Le Trou
release_date :  19 avril 2017
Director :  Jacques Becker
duration :  2h 12min
categories :  Drame,Thriller
actors :  Michel Constantin,Jean Keraudy,Philippe Leroy
resume :  Cinq prisonniers, enfermés à La Santé, vont tenter de s'évader en creusant un tunnel.
press_rating :  nan
spectator_rating :  4,3
friends_rating :  nan


title :  1917
release_date :  nan
Director :  Sam Mendes
duration :  1h 59min
categories :  Drame,Guerre
actors :  George MacKay,Dean-Charles Chapman

title :  Là-haut
release_date :  nan
Director :  Pete Docter
duration :  1h 35min
categories :  Animation,Famille,Fantastique
actors :  Charles Aznavour,Edward Asner,Tom Trouffier
resume :  Carl Fredricksen, vendeur de ballons à la retraite, s’envole vers le ciel en attachant des milliers de ballons à sa maison. Un jeune garçon nommé Russell devient un passager clandestin de son voyage.
press_rating :  4,6
spectator_rating :  4,3
friends_rating :  --


title :  The Truman Show
release_date :  15 juin 2022
Director :  Peter Weir
duration :  1h 43min
categories :  Comédie,Drame
actors :  Jim Carrey,Laura Linney,Natascha McElhone
resume :  Truman Burbank mène une vie calme et heureuse. Il habite dans un petit pavillon propret de la radieuse station balnéaire de Seahaven. Il part tous les matins à son bureau d'agent d'assurances dont il ressort huit heures plus tard pour regagner son foyer, savourer le confort de son habitat modèle, la bonne humeur inaltérable et le sourire mécanique de sa

title :  Boulevard du crépuscule
release_date :  9 novembre 2016
Director :  Billy Wilder
duration :  1h 50min
categories :  Drame,Romance
actors :  William Holden,Gloria Swanson,Erich Von Stroheim
resume :  Un scénariste qui a du mal à percer, est embauché par une ancienne star du muet, disparu d’Hollywood, pour écrire un scénario.
press_rating :  4,4
spectator_rating :  4,3
friends_rating :  --


title :  Ma Vie De Courgette
release_date :  nan
Director :  Claude Barras
duration :  1h 06min
categories :  Animation,Drame,Famille
actors :  Gaspard Schlatter,Sixtine Murat,Paulin Jaccoud
resume :  Courgette n’a rien d’un légume, c’est un vaillant petit garçon. Il croit qu’il est seul au monde quand il perd sa mère. Mais c’est sans compter sur les rencontres qu’il va faire dans sa nouvelle vie au foyer pour enfants. 
press_rating :  4,4
spectator_rating :  4,3
friends_rating :  --


title :  L'Inconnu
release_date :  19 juin 2002
Director :  Tod Browning
duration :  1h 05min
categories : 

title :  Rush
release_date :  nan
Director :  Ron Howard
duration :  2h 03min
categories :  Biopic,Drame
actors :  Chris Hemsworth,Daniel Brühl,Olivia Wilde
resume :  Situé durant l’âge d’or de la Formule 1, RUSH retrace le passionnant et haletant combat entre deux des plus grands rivaux que l’histoire du sport ait jamais connus, celui de James Hunt et Niki Lauda concourant pour les illustres écuries McLaren et Ferrari.
press_rating :  4,1
spectator_rating :  4,3
friends_rating :  --


title :  Fanny et Alexandre - Partie 1
release_date :  nan
Director :  Ingmar Bergman
duration :  2h 51min
categories :  Drame
actors :  Pernilla Allwin,Bertil Guve,Kristina Adolphson
resume :  Suède, début du XXème siècle. Le film dépeint la vie d'une jeune fille, Fanny, et de son frère Alexandre au sein d'une famille aisée. Les parents travaillent dans le théâtre et sont très heureux ensemble jusqu'à la mort subite du père. Peu après ce drame, la mère trouve un prétendant...
press_rating :  nan
spectat

title :  Le Château dans le ciel
release_date :  nan
Director :  Hayao Miyazaki
duration :  2h 04min
categories :  Aventure,Animation,Fantastique
actors :  Mayumi Tanaka,Jim Cummings,Hiroshi Ito
resume :  Qui est vraiment Sheeta, la petite fille porteuse d’une pierre en pendentif aux pouvoirs magiques qui suscite bien des convoitises ? Retenue prisonnière à bord d’un dirigeable, l’enfant affronte une bande de pirates de l’air menée par la très pittoresque Dora, puis une armée de militaires à la solde de Muska, un gentleman machiavélique trop poli pour être honnête. Sauvée par le jeune Pazu, Sheeta se réfugie dans un village de mineurs. Là, elle tentera avec le garçon de percer le secret de ses origines pour prouver que l’histoire de Laputa, l’île merveilleuse flottant dans les airs, n’est pas une légende…
press_rating :  5,0
spectator_rating :  4,3
friends_rating :  --


title :  Ratatouille
release_date :  nan
Director :  Brad Bird
duration :  1h 50min
categories :  Animation,Comédie,

title :  Into the Wild
release_date :  nan
Director :  Sean Penn
duration :  2h 28min
categories :  Aventure,Biopic,Drame
actors :  Emile Hirsch,Marcia Gay Harden,William Hurt
resume :  Le jeune idéaliste Christopher McCandless abandonne la vie que la plupart d'entre nous connait pour les contrées sauvages de l'Alaska.
press_rating :  3,9
spectator_rating :  4,3
friends_rating :  --


title :  Ernest et Célestine
release_date :  nan
Director :  Benjamin Renner
duration :  1h 16min
categories :  Animation
actors :  Lambert Wilson,Pauline Brunner,Anne-Marie Loop
resume :  Dans le monde conventionnel des ours, il est mal vu de se lier d’amitié avec une souris. Et pourtant, Ernest, gros ours marginal, clown et musicien, va accueillir chez lui la petite Célestine, une orpheline qui a fui le monde souterrain des rongeurs.
press_rating :  4,3
spectator_rating :  4,3
friends_rating :  --


title :  Le Fanfaron
release_date :  3 octobre 2018
Director :  Dino Risi
duration :  1h 45min
categories

title :  L'Insulte
release_date :  nan
Director :  Ziad Doueiri
duration :  1h 49min
categories :  Drame
actors :  Adel Karam,Kamel El Basha,Diamand Abou Abboud
resume :  A Beyrouth, de nos jours, une insulte qui dégénère conduit Toni (chrétien libanais) et Yasser (réfugié palestinien) devant les tribunaux. De blessures secrètes en révélations, l'affrontement des avocats porte le Liban au bord de l'explosion sociale mais oblige ces deux hommes à se regarder en face.
press_rating :  3,8
spectator_rating :  4,3
friends_rating :  --


title :  Illusions Perdues
release_date :  nan
Director :  Xavier Giannoli
duration :  2h 30min
categories :  Drame,Historique
actors :  Benjamin Voisin,Cécile de France,Vincent Lacoste
resume :  Lucien est un jeune poète inconnu dans la France du XIXème siècle. Il a de grandes espérances et veut se forger un destin. Il quitte l’imprimerie familiale de sa province natale pour tenter sa chance à Paris, au bras de sa protectrice.
press_rating :  4,0
spectator_

title :  Sur la route de Madison
release_date :  nan
Director :  Clint Eastwood
duration :  2h 15min
categories :  Drame,Romance
actors :  Meryl Streep,Annie Corley
resume :  Michael Johnson et sa soeur Caroline reviennent dans la ferme de leur enfance régler la succession de leur mère, Francesca. Ils vont découvrir tout un pan de la vie de leur mère ignoré de tous, sa brève, intense et inoubliable liaison avec un photographe de passage.
press_rating :  4,6
spectator_rating :  4,3
friends_rating :  --


title :  Midnight Express
release_date :  nan
Director :  Alan Parker
duration :  2h 00min
categories :  Drame
actors :  Brad Davis,Irene Miracle,Bo Hopkins
resume :  Billy Hayes est arrêté à Istanbul pour avoir sur lui quelques grammes de hashisch. Condamné à perpétuité, il est enfermé dans des geôles d'une extrême inhumanité.
press_rating :  2,0
spectator_rating :  4,3
friends_rating :  --


title :  Soy Cuba
release_date :  20 octobre 2021
Director :  Mikhail Kalatozov
duration :  2h

title :  Le Dîner de cons
release_date :  nan
Director :  Francis Veber
duration :  1h 20min
categories :  Comédie
actors :  Thierry Lhermitte,Jacques Villeret,Francis Huster
resume :  Tous les mercredis, Pierre Brochant et ses amis organisent un dîner où chacun doit amener un con. Celui qui a trouvé le plus spectaculaire est declaré vainqueur. Ce soir, Brochant exulte, il est sur d'avoir trouvé la perle rare, un con de classe mondiale: Francois Pignon, comptable au ministère des Finances et passionné de modèles réduits ...
press_rating :  nan
spectator_rating :  4,2
friends_rating :  nan


title :  Le Loup de Wall Street
release_date :  nan
Director :  Martin Scorsese
duration :  2h 59min
categories :  Biopic,Drame
actors :  Leonardo DiCaprio,Jonah Hill,Margot Robbie
resume :  L’argent. Le pouvoir. Les femmes. La drogue. Les tentations étaient là, à portée de main, et les autorités n’avaient aucune prise. Aux yeux de Jordan et de sa meute, la modestie était devenue complètement inutil

title :  American Beauty
release_date :  nan
Director :  Sam Mendes
duration :  2h 02min
categories :  Drame
actors :  Kevin Spacey,Annette Bening,Thora Birch
resume :  Une maison de rêve, un pavillon bourgeois discrètement cossu dissimule dans une banlieue résidentielle, c'est ici que résident Lester Burnhamm, sa femme Carolyn et leur fille Jane. L'agitation du monde et sa violence semblent bien loin ici. Mais derrière cette respectable façade se tisse une étrange et grinçante tragi-comédie familiale ou ...
press_rating :  3,9
spectator_rating :  4,2
friends_rating :  --


title :  3 Billboards, Les Panneaux de la vengeance
release_date :  nan
Director :  Martin McDonagh
duration :  1h 56min
categories :  Drame
actors :  Frances McDormand,Woody Harrelson,Sam Rockwell
resume :  Après des mois sans que l'enquête sur la mort de sa fille ait avancé, Mildred Hayes prend les choses en main, affichant un message controversé visant le très respecté chef de la police sur trois grands panneaux 

title :  Call Me By Your Name
release_date :  nan
Director :  Luca Guadagnino
duration :  2h 11min
categories :  Drame,Romance
actors :  Armie Hammer,Timothée Chalamet,Michael Stuhlbarg
resume :  Été 1983. Elio Perlman, 17 ans, passe ses vacances dans la villa du XVIIe siècle que possède sa famille en Italie, à jouer de la musique classique, à lire et à flirter avec son amie Marzia. Son père, éminent professeur spécialiste de la culture gréco-romaine, et sa mère, traductrice, lui ont donné une excellente éducation, et il est proche de ses parents. 
press_rating :  4,2
spectator_rating :  4,2
friends_rating :  --


title :  The Greatest Showman
release_date :  nan
Director :  Michael Gracey
duration :  1h 44min
categories :  Drame,Comédie musicale
actors :  Hugh Jackman,Zac Efron,Michelle Williams
resume :  L’histoire de P.T Barnum, un visionnaire parti de rien pour créer un spectacle devenu un phénomène planétaire.
press_rating :  2,7
spectator_rating :  4,2
friends_rating :  --


titl

In [190]:
df.shape

(300, 10)

In [191]:
df.sample(5)

Unnamed: 0,title,release_date,director,duration,category,actor,resume,press_rating,spectator_rating,friend_rating
142,Retour vers le futur II,,Robert Zemeckis,1h 48min,"Aventure,Comédie,Science Fiction","Michael J. Fox,Christopher Lloyd,Lea Thompson","Lors de son premier voyage en 1985, Marty a co...",16.0,43,--
201,Illusions Perdues,,Xavier Giannoli,2h 30min,"Drame,Historique","Benjamin Voisin,Cécile de France,Vincent Lacoste",Lucien est un jeune poète inconnu dans la Fran...,40.0,43,--
169,Ordet,9 novembre 2022,Carl Theodor Dreyer,2h 06min,Drame,"Henrik Malberg,Emil Hass Christensen,Preben Le...","En 1930, dans un village du Jutland, des disco...",,43,
46,Hamilton,,Thomas Kail,2h 40min,"Biopic,Historique,Musical","Lin-Manuel Miranda,Jonathan Groff (II),Daveed ...",Captation de la célèbre comédie musicale de Br...,,44,
272,Le Salaire de la Peur,8 novembre 2017,Henri-Georges Clouzot,2h 31min,"Aventure,Thriller","Yves Montand,Charles Vanel,Peter van Eyck","Quatre hommes acceptent de véhiculer, au péril...",,42,


In [196]:
df.to_csv('allocine_best_movies.csv',index=False)

## All is ok ; Next, we are going to analyze collected data

In [195]:
df.duplicated().sum()

0