# Sens Critique
### Pourquoi un film fonctionne ?

In [2]:
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import requests
from io import StringIO

#Step 1 is to install the necessary libraries...

url_sc = 'https://www.senscritique.com/films/tops/top111'  #next we specify the url where we want to get the data from
page_sc = requests.get(url_sc) # we must ask the server if we can access the information
soup = BeautifulSoup(page_sc.content, "html.parser") # we use beautiful soup to display the website data in a neat understandable way asnd thats where all ou website info goes...

In [3]:
# so now we have a soup but we only want specific things in the soup that will help us form our database from scratch...
titles = [] 
ratings = []
other_info = []
director_links = []


films = soup.find_all('div', class_="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg") # here we are looking for the film and the info around it...it comes as a combintion of the title, synopsis, picture...
# NB: The <div> tag defines a division or a section in an HTML document. 
# The <div> tag is used as a container for HTML elements - which is then styled with CSS or manipulated with JavaScript.
# In our case the <div> contains all elements of the film in question
for film in films: 
    #now we fill our empty lists above, the foundations for our database
    other_info.append(film.find('p', attrs= {'data-testid': 'other-infos'}).text)
    ratings.append(film.find('div', attrs={'data-testid': 'Rating'}).text) #now we are looking for specific attributes in our film container
    titles.append(film.find('a', attrs={'data-testid': 'product-title'}).text)
    director_links.append(film.find('a', attrs={'data-testid': 'link'}).get('href')) #(Hypertext REFerence) The HTML code used to create a link to another page
    
df_extracted_films = pd.DataFrame({'titles': titles, 'ratings': ratings, 'director_links': director_links, 'other-info': other_info})
df_extracted_films.tail()

Unnamed: 0,titles,ratings,director_links,other-info
45,Andreï Roublev (1966),8.2,/contact/Andrei_Tarkovski/2243,3 h 03 min. Sortie : décembre 1969 (France). ...
46,Les Sentiers de la gloire (1957),8.2,/contact/Stanley_Kubrick/1129,1 h 28 min. Sortie : 26 mars 1975 (France). D...
47,Fenêtre sur cour (1954),8.1,/contact/Alfred_Hitchcock/2622,1 h 52 min. Sortie : 1 avril 1955 (France). T...
48,M le maudit (1931),8.1,/contact/Fritz_Lang/1273,1 h 57 min. Sortie : 8 avril 1932 (France). P...
49,Metropolis (1927),8.1,/contact/Fritz_Lang/1273,2 h 25 min. Sortie : 6 février 1927 (France). ...


In [4]:
df = pd.DataFrame(other_info).rename (columns= {0: 'more_info'})

df[['duration', 'release_date_place', 'genre']] = df['more_info'].str.split('.', expand=True)

df



Unnamed: 0,more_info,duration,release_date_place,genre
0,1 h 36 min. Sortie : 4 octobre 1957 (France). ...,1 h 36 min,Sortie : 4 octobre 1957 (France),"Policier, Drame"
1,2 h 13 min. Sortie : 24 juillet 1963 (France)....,2 h 13 min,Sortie : 24 juillet 1963 (France),Drame
2,1 h 57 min. Sortie : 5 octobre 2007. Science-...,1 h 57 min,Sortie : 5 octobre 2007,Science-fiction
3,2 h 59 min. Sortie : 8 mars 1968 (France). We...,2 h 59 min,Sortie : 8 mars 1968 (France),"Western, Aventure"
4,3 h 05 min. Sortie : 4 janvier 1978 (France). ...,3 h 05 min,Sortie : 4 janvier 1978 (France),Drame
5,3 h 27 min. Sortie : 30 novembre 1955 (France)...,3 h 27 min,Sortie : 30 novembre 1955 (France),"Arts martiaux, Aventure, Drame"
6,2 h 55 min. Sortie : 27 août 1969 (France). W...,2 h 55 min,Sortie : 27 août 1969 (France),Western
7,2 h 55 min. Sortie : 18 octobre 1972 (France)....,2 h 55 min,Sortie : 18 octobre 1972 (France),"Policier, Drame"
8,"3 h 49 min. Sortie : 23 mai 1984. Drame, Gang...",3 h 49 min,Sortie : 23 mai 1984,"Drame, Gangster"
9,"2 h 12 min. Sortie : 18 mars 1960. Policier, ...",2 h 12 min,Sortie : 18 mars 1960,"Policier, Drame, Thriller"


In [5]:
df_extracted_films[['duration', 'release_date_place', 'genre']] = df[['duration', 'release_date_place', 'genre']]
df_extracted_films

Unnamed: 0,titles,ratings,director_links,other-info,duration,release_date_place,genre
0,Douze Hommes en colère (1957),8.7,/contact/Sidney_Lumet/7800,1 h 36 min. Sortie : 4 octobre 1957 (France). ...,1 h 36 min,Sortie : 4 octobre 1957 (France),"Policier, Drame"
1,Harakiri (1962),8.6,/contact/Masaki_Kobayashi/20521,2 h 13 min. Sortie : 24 juillet 1963 (France)....,2 h 13 min,Sortie : 24 juillet 1963 (France),Drame
2,Blade Runner : The Final Cut (2007),8.5,/contact/Ridley_Scott/573,1 h 57 min. Sortie : 5 octobre 2007. Science-...,1 h 57 min,Sortie : 5 octobre 2007,Science-fiction
3,"Le Bon, la Brute et le Truand (1966)",8.5,/contact/Sergio_Leone/3267,2 h 59 min. Sortie : 8 mars 1968 (France). We...,2 h 59 min,Sortie : 8 mars 1968 (France),"Western, Aventure"
4,Barberousse (1965),8.5,/contact/Akira_Kurosawa/1114,3 h 05 min. Sortie : 4 janvier 1978 (France). ...,3 h 05 min,Sortie : 4 janvier 1978 (France),Drame
5,Les Sept Samouraïs (1954),8.5,/contact/Akira_Kurosawa/1114,3 h 27 min. Sortie : 30 novembre 1955 (France)...,3 h 27 min,Sortie : 30 novembre 1955 (France),"Arts martiaux, Aventure, Drame"
6,Il était une fois dans l'Ouest (1968),8.5,/contact/Sergio_Leone/3267,2 h 55 min. Sortie : 27 août 1969 (France). W...,2 h 55 min,Sortie : 27 août 1969 (France),Western
7,Le Parrain (1972),8.5,/contact/Francis_Ford_Coppola/1387,2 h 55 min. Sortie : 18 octobre 1972 (France)....,2 h 55 min,Sortie : 18 octobre 1972 (France),"Policier, Drame"
8,Il était une fois en Amérique (1984),8.5,/contact/Sergio_Leone/3267,"3 h 49 min. Sortie : 23 mai 1984. Drame, Gang...",3 h 49 min,Sortie : 23 mai 1984,"Drame, Gangster"
9,Le Trou (1960),8.4,/contact/Jacques_Becker/7028,"2 h 12 min. Sortie : 18 mars 1960. Policier, ...",2 h 12 min,Sortie : 18 mars 1960,"Policier, Drame, Thriller"


In [6]:
director_data = {} #empty dictionary

director_links_to_scrap = np.unique(df_extracted_films['director_links']) # np.unique finds the unique elements of an array and returns these unique elements as a sorted array
for director in director_links_to_scrap: # we want to pick out the info we want from the unique values generated...
    url_director = 'https://www.senscritique.com' + str (director) # where we want info from
    page_director = requests.get(url_director) #permission
    soup_director = BeautifulSoup(page_director.content, "html.parser") #soup arranges our html data and stores it
    director_name = str (soup_director.find('h1', class_="Text__SCTitle-sc-1aoldkr-1").text) #find and extract the direcor's name
    description = str (soup_director.find('p', class_="CoverContactInfos__Description-sc-1402al5-8").text) # and description
    director_data[str(director)] = (director_name, description, director)
    
print(director_data)


#this part shows how to extract data from a link... (for future reference)

{'/contact/Akira_Kurosawa/1114': ('Akira Kurosawa', 'acteur, auteur, réalisateur, illustrateur, producteur et scénariste japonais né le 22 mars 1910 à Tokyo. Il est décédé le 5 septembre 1998 à Tokyo.', '/contact/Akira_Kurosawa/1114'), '/contact/Alfred_Hitchcock/2622': ('Alfred Hitchcock', 'acteur, auteur, réalisateur, producteur et scénariste britannique né le 12 août 1899 à Londres. Il est décédé le 28 avril 1980 à Los Angeles (États-Unis).', '/contact/Alfred_Hitchcock/2622'), '/contact/Andrei_Tarkovski/2243': ('Andreï Tarkovski', 'acteur, auteur, réalisateur et scénariste russe né le 3 avril 1932 à Zavrajye (Russie). Il est décédé le 28 décembre 1986 à Neuilly-sur-Seine (France).', '/contact/Andrei_Tarkovski/2243'), '/contact/Ari_Aster/896473': ('Ari Aster', 'acteur, réalisateur, producteur et scénariste américain né le 14 juillet 1986 à New York (Etats-Unis).', '/contact/Ari_Aster/896473'), '/contact/Bela_Tarr/14656': ('Béla Tarr', 'acteur, réalisateur, producteur et scénariste hon

In [7]:
df_director_data = pd.DataFrame(director_data).transpose() #The combination of these two operations is taking data that might be organized as rows and converting it into a DataFrame, 
                                        #and then reorganizing it so that it's presented with columns instead of rows. 
                                        #This can be useful in cases where you want to switch the orientation of your data for analysis or presentation.
df_director_data_cleaned = df_director_data.rename(columns= ({0: 'director_name', 1: 'director_description', 2: 'director_links'}))
df_director_data_cleaned

Unnamed: 0,director_name,director_description,director_links
/contact/Akira_Kurosawa/1114,Akira Kurosawa,"acteur, auteur, réalisateur, illustrateur, pro...",/contact/Akira_Kurosawa/1114
/contact/Alfred_Hitchcock/2622,Alfred Hitchcock,"acteur, auteur, réalisateur, producteur et scé...",/contact/Alfred_Hitchcock/2622
/contact/Andrei_Tarkovski/2243,Andreï Tarkovski,"acteur, auteur, réalisateur et scénariste russ...",/contact/Andrei_Tarkovski/2243
/contact/Ari_Aster/896473,Ari Aster,"acteur, réalisateur, producteur et scénariste ...",/contact/Ari_Aster/896473
/contact/Bela_Tarr/14656,Béla Tarr,"acteur, réalisateur, producteur et scénariste ...",/contact/Bela_Tarr/14656
/contact/Billy_Wilder/861,Billy Wilder,"acteur, auteur, réalisateur, producteur et scé...",/contact/Billy_Wilder/861
/contact/Bong_JoonHo/75706,Bong Joon-Ho,"acteur, réalisateur, producteur et scénariste ...",/contact/Bong_JoonHo/75706
/contact/Buster_Keaton/5696,Buster Keaton,"acteur, auteur, réalisateur, producteur et scé...",/contact/Buster_Keaton/5696
/contact/Charlie_Chaplin/10040,Charlie Chaplin,"acteur, artiste musical, auteur, réalisateur, ...",/contact/Charlie_Chaplin/10040
/contact/Elem_Klimov/4807,Elem Klimov,"acteur, réalisateur et scénariste russe né le ...",/contact/Elem_Klimov/4807


In [8]:
#df_extracted_films['director_name'] = df_director_data_cleaned [director_name]<- this code gives me an error saying the 111th director doesnt exist Waad Al-Kateab
#df_extracted_films['director_name'] = df_director_data [director] <- this one as well
#becuase of this I decided to merge the data frames...

In [9]:
merged_df = pd.merge(df_extracted_films, df_director_data_cleaned, how='inner', on='director_links')
merged_df


Unnamed: 0,titles,ratings,director_links,other-info,duration,release_date_place,genre,director_name,director_description
0,Douze Hommes en colère (1957),8.7,/contact/Sidney_Lumet/7800,1 h 36 min. Sortie : 4 octobre 1957 (France). ...,1 h 36 min,Sortie : 4 octobre 1957 (France),"Policier, Drame",Sidney Lumet,"acteur, auteur, réalisateur, producteur et scé..."
1,Point limite (1964),8.4,/contact/Sidney_Lumet/7800,1 h 52 min. Sortie : 25 février 1965 (France)....,1 h 52 min,Sortie : 25 février 1965 (France),"Drame, Thriller",Sidney Lumet,"acteur, auteur, réalisateur, producteur et scé..."
2,Harakiri (1962),8.6,/contact/Masaki_Kobayashi/20521,2 h 13 min. Sortie : 24 juillet 1963 (France)....,2 h 13 min,Sortie : 24 juillet 1963 (France),Drame,Masaki Kobayashi,"réalisateur, producteur et scénariste japonais..."
3,La Condition de l'homme 1 - Il n'y a pas de pl...,8.2,/contact/Masaki_Kobayashi/20521,3 h 28 min. Sortie : 15 janvier 1959 (Japon). ...,3 h 28 min,Sortie : 15 janvier 1959 (Japon),"Drame, Historique, Guerre",Masaki Kobayashi,"réalisateur, producteur et scénariste japonais..."
4,Rébellion (1967),8.2,/contact/Masaki_Kobayashi/20521,2 h 08 min. Sortie : 3 juin 1967 (Japon). Dra...,2 h 08 min,Sortie : 3 juin 1967 (Japon),"Drame, Action",Masaki Kobayashi,"réalisateur, producteur et scénariste japonais..."
5,Blade Runner : The Final Cut (2007),8.5,/contact/Ridley_Scott/573,1 h 57 min. Sortie : 5 octobre 2007. Science-...,1 h 57 min,Sortie : 5 octobre 2007,Science-fiction,Ridley Scott,"acteur, auteur, réalisateur, producteur et scé..."
6,"Le Bon, la Brute et le Truand (1966)",8.5,/contact/Sergio_Leone/3267,2 h 59 min. Sortie : 8 mars 1968 (France). We...,2 h 59 min,Sortie : 8 mars 1968 (France),"Western, Aventure",Sergio Leone,"acteur, réalisateur, illustrateur, producteur ..."
7,Il était une fois dans l'Ouest (1968),8.5,/contact/Sergio_Leone/3267,2 h 55 min. Sortie : 27 août 1969 (France). W...,2 h 55 min,Sortie : 27 août 1969 (France),Western,Sergio Leone,"acteur, réalisateur, illustrateur, producteur ..."
8,Il était une fois en Amérique (1984),8.5,/contact/Sergio_Leone/3267,"3 h 49 min. Sortie : 23 mai 1984. Drame, Gang...",3 h 49 min,Sortie : 23 mai 1984,"Drame, Gangster",Sergio Leone,"acteur, réalisateur, illustrateur, producteur ..."
9,Barberousse (1965),8.5,/contact/Akira_Kurosawa/1114,3 h 05 min. Sortie : 4 janvier 1978 (France). ...,3 h 05 min,Sortie : 4 janvier 1978 (France),Drame,Akira Kurosawa,"acteur, auteur, réalisateur, illustrateur, pro..."


In [15]:
df_extracted_films_cleaned = merged_df.drop(columns={'other-info', 'director_links', 'release_date_place'})
df_extracted_films_cleaned

Unnamed: 0,titles,ratings,duration,genre,director_name,director_description
0,Douze Hommes en colère (1957),8.7,1 h 36 min,"Policier, Drame",Sidney Lumet,"acteur, auteur, réalisateur, producteur et scé..."
1,Point limite (1964),8.4,1 h 52 min,"Drame, Thriller",Sidney Lumet,"acteur, auteur, réalisateur, producteur et scé..."
2,Harakiri (1962),8.6,2 h 13 min,Drame,Masaki Kobayashi,"réalisateur, producteur et scénariste japonais..."
3,La Condition de l'homme 1 - Il n'y a pas de pl...,8.2,3 h 28 min,"Drame, Historique, Guerre",Masaki Kobayashi,"réalisateur, producteur et scénariste japonais..."
4,Rébellion (1967),8.2,2 h 08 min,"Drame, Action",Masaki Kobayashi,"réalisateur, producteur et scénariste japonais..."
5,Blade Runner : The Final Cut (2007),8.5,1 h 57 min,Science-fiction,Ridley Scott,"acteur, auteur, réalisateur, producteur et scé..."
6,"Le Bon, la Brute et le Truand (1966)",8.5,2 h 59 min,"Western, Aventure",Sergio Leone,"acteur, réalisateur, illustrateur, producteur ..."
7,Il était une fois dans l'Ouest (1968),8.5,2 h 55 min,Western,Sergio Leone,"acteur, réalisateur, illustrateur, producteur ..."
8,Il était une fois en Amérique (1984),8.5,3 h 49 min,"Drame, Gangster",Sergio Leone,"acteur, réalisateur, illustrateur, producteur ..."
9,Barberousse (1965),8.5,3 h 05 min,Drame,Akira Kurosawa,"acteur, auteur, réalisateur, illustrateur, pro..."


In [16]:
df_extracted_films_cleaned[['titles', 'year']] = df_extracted_films_cleaned['titles'].str.extract(r'^(.*?) \((\d{4})\)$')
df_extracted_films_cleaned


Unnamed: 0,titles,ratings,duration,genre,director_name,director_description,year
0,Douze Hommes en colère,8.7,1 h 36 min,"Policier, Drame",Sidney Lumet,"acteur, auteur, réalisateur, producteur et scé...",1957
1,Point limite,8.4,1 h 52 min,"Drame, Thriller",Sidney Lumet,"acteur, auteur, réalisateur, producteur et scé...",1964
2,Harakiri,8.6,2 h 13 min,Drame,Masaki Kobayashi,"réalisateur, producteur et scénariste japonais...",1962
3,La Condition de l'homme 1 - Il n'y a pas de pl...,8.2,3 h 28 min,"Drame, Historique, Guerre",Masaki Kobayashi,"réalisateur, producteur et scénariste japonais...",1959
4,Rébellion,8.2,2 h 08 min,"Drame, Action",Masaki Kobayashi,"réalisateur, producteur et scénariste japonais...",1967
5,Blade Runner : The Final Cut,8.5,1 h 57 min,Science-fiction,Ridley Scott,"acteur, auteur, réalisateur, producteur et scé...",2007
6,"Le Bon, la Brute et le Truand",8.5,2 h 59 min,"Western, Aventure",Sergio Leone,"acteur, réalisateur, illustrateur, producteur ...",1966
7,Il était une fois dans l'Ouest,8.5,2 h 55 min,Western,Sergio Leone,"acteur, réalisateur, illustrateur, producteur ...",1968
8,Il était une fois en Amérique,8.5,3 h 49 min,"Drame, Gangster",Sergio Leone,"acteur, réalisateur, illustrateur, producteur ...",1984
9,Barberousse,8.5,3 h 05 min,Drame,Akira Kurosawa,"acteur, auteur, réalisateur, illustrateur, pro...",1965
