# Nettoyage des données scrappées sur Wikipédia 

Dans cette partie, nous procédons au nettoyage des données que nous avons scrappé sur Wikipédia (vous pouvez vous réferer au dossier wiki_scrap et le fichier fonction_scrapping pour voir la première étape). 

En effet, nous avons récupéré en plusieurs fichiers csv les données brutes de pages de Wiki qui rescencent les nominations, catégories et les victoires dans les compétitions et festivals de cinéma tels que Oscar (Academy awards), César, Festival de Cannes et Festival de Venise. 

## Objectifs de la partie nettoyage 

* D'abord, nettoyer les bases une à une, renommer les colonnes, éviter les répitions et supprimer les lignes qui sont inutiles (comme nous avons scrappé tous les tableaux sur les pages étant donné que les tables ne suivent pas toujours le même schema)
* Créer une seule base à partir des tables nettoyées - et différencier deux types de compétitions - festivals et compétitions plus mainstream. 
Nous voulons récupérer ue base de données unique à la fin qui aura la forme suivante: {Name, Year, Dir_or_prod, Studio, Award_mains, Awards_mains_cat, Award_fest, Win} 
    * La colonne Name sera le nom du film
    * La colonne Year est l'année de sortie
    * La colonne Dir_or_prod est le réalisateur ou le producteur du film
    * La colonne Studio est le studio de production (si mentionné)
    * La colonne Award_mains est la variable qui enregistre si le film a été nominé ou a gagné à la compétition plus "mainstream", plus commune telle que Academy Awards ou le prix César. La variable prendra la valeur 0 si le film n'a pas été nominé ni a gagné, 1 s'il a été nominé et 2 s'il a gagné.
    * Award_mains_cat enregistre la catégorie dans laquelle le film a été nominé/qu'il a remporté
    * De même que pour Award_mains, Award_fest enregistre si le film a été nominé ou a gagné dans la compétition d'un des grands festivals - Cannes et Venise.
    


In [37]:
import pandas as pd
import re

In [2]:
base = pd.read_csv('../API/MoviesPopular.csv')
print(base.columns)

Index(['Unnamed: 0', 'adult', 'backdrop_path', 'belongs_to_collection',
       'budget', 'genres', 'homepage', 'id', 'imdb_id', 'original_language',
       'original_title', 'overview', 'popularity', 'poster_path',
       'production_companies', 'production_countries', 'release_date',
       'revenue', 'runtime', 'spoken_languages', 'status', 'tagline', 'title',
       'video', 'vote_average', 'vote_count'],
      dtype='object')


In [3]:
#Chargement des bases scrappées sur wikipédia pour nettoyage et fusion avec la base de données récupérée sur TMDB

#Academy award for best cinematography 
ac_bc = pd.read_csv('../wiki_scrap/academy_bc.csv')
# academy award for best film 
ac_bf = pd.read_csv('../wiki_scrap/academy_bf.csv')
#Academy award for best director 
ac_bd = pd.read_csv('../wiki_scrap/academy_bd.csv')
#Cannes Grand Prix
can_gp = pd.read_csv('../wiki_scrap/cannes_gp.csv')
#Cannes Jury prize
can_jr = pd.read_csv('../wiki_scrap/cannes_jury.csv')
#Cannes Palme d'or
can_po = pd.read_csv('../wiki_scrap/palme_or.csv')
#César Best director 
ces_bd = pd.read_csv('../wiki_scrap/cesar_bd.csv')
#Cesar Best Film 
ces_bf = pd.read_csv('../wiki_scrap/cesar_bf.csv')
#Venice Lion d'or
ven_lor = pd.read_csv('../wiki_scrap/lion_or.csv')
#Venice Lion d'argent 
ven_larg = pd.read_csv('../wiki_scrap/lion_argent.csv')
#Venice Grand Jury Prix
ven_gj = pd.read_csv('../wiki_scrap/venice_gj.csv')


In [4]:
#Pour vérifier si le chargement est bien réussi 

print(ac_bc.columns)
print(ac_bd.columns) 
print(ac_bf.columns) 

print(ces_bd.columns) 
print(ces_bf.columns) 

print(can_gp.columns)
print(can_jr.columns) 
print(can_po.columns)

print(ven_lor.columns) 
print(ven_larg.columns) 
print(ven_gj.columns)

Index(['Category', 'Name', 'Superlative', 'Year', 'Notes', 'Film', 'Nominees',
       'Awards', 'Nominations', 'Recipient'],
      dtype='object')
Index(['0', 'Year', 'Director(s)', 'Film', 'Ref.', 'Wins', 'Director',
       'Nominations', 'Record', 'Age'],
      dtype='object')
Index(['Year of Film Release', 'Film', 'Film Studio',
       'Film Studio/Producer(s)', 'Producer(s)', 'Production Company',
       'Nominations', 'Wins'],
      dtype='object')
Index(['Superlative', 'Men', 'Men.1', 'Women', 'Women.1', 'Year',
       'Winner and nominees', 'English title', 'Original title',
       'Winners and nominees', 'Wins', 'Director', 'Nominations'],
      dtype='object')
Index(['Year', 'English title', 'Original title', 'Director'], dtype='object')
Index(['('Year', '1960s', 'Awarded as "Grand Prix Spécial du Jury"')',
       '('English Title', '1960s', 'Awarded as "Grand Prix Spécial du Jury"')',
       '('Original Title', '1960s', 'Awarded as "Grand Prix Spécial du Jury"')',
       '('D

In [20]:
#Nettoyage et mise en conformité de la base de données Academy 

#Best-cinematography 

#Supprimer les 3 premières et 3 dernières colonnes et 13 premières lignes qui référent à un tableau qui ne nous intéresse pas dans notre code
ac_bc_cl = ac_bc.drop(['Category', 'Name', 'Superlative', 'Notes', 'Awards', 'Nominations', 'Recipient'], axis=1)

ac_bc_cl = ac_bc_cl.iloc[13:, :]


#suppression lignes avec seulement année 

ac_bc_cl['Year'] = ac_bc_cl['Year'].astype(str)

#conversion en type date de la colonne 'Year' 
ac_bc_cl['Year'] = ac_bc_cl['Year'].str.extract('(\d{4})', expand=False)
ac_bc_cl['Year'] = pd.to_datetime(ac_bc_cl['Year'], format='%Y', errors='coerce')
ac_bc_cl = ac_bc_cl.dropna(subset=['Film', 'Nominees'], how='all')

ac_bc_cl



Unnamed: 0,Year,Film,Nominees
13,1927-01-01,Sunrise: A Song of Two Humans,Charles Rosher Karl Struss
14,1927-01-01,The Devil Dancer,George Barnes
15,1927-01-01,The Magic Flame,George Barnes
16,1927-01-01,Sadie Thompson,George Barnes
18,1928-01-01,White Shadows in the South Seas,Clyde De Vinna
...,...,...,...
782,2022-01-01,All Quiet on the Western Front,James Friend
783,2022-01-01,"Bardo, False Chronicle of a Handful of Truths",Darius Khondji
784,2022-01-01,Elvis,Mandy Walker
785,2022-01-01,Empire of Light,Roger Deakins


In [23]:
ac_bd_cl = ac_bd.drop (['0', 'Ref.', 'Wins', 'Director', 'Nominations', 'Record', 'Age' ], axis=1)
ac_bd_cl = ac_bd_cl.iloc[:473, :]
#conversion de l'année en type date 
ac_bd_cl['Year'] = ac_bd_cl['Year'].astype(str)
ac_bd_cl['Year'] = ac_bd_cl['Year'].str.extract('(\d{4})', expand=False)
ac_bd_cl['Year'] = pd.to_datetime(ac_bd_cl['Year'], format='%Y', errors='coerce')
#renommer la colonne director
ac_bd_cl.rename(columns={'Director(s)': 'Directors'}, inplace=True)
#suppression des lignes inutiles (celles qui ne contiennent que l'année sans film
ac_bd_cl = ac_bd_cl.dropna(subset=['Directors', 'Film'], how='all')

ac_bd_cl



Unnamed: 0,Year,Director,Film
1,1927-01-01,Frank Borzage (Dramatic Picture),7th Heaven
2,1927-01-01,Herbert Brenon (Dramatic Picture),Sorrell and Son
3,1927-01-01,King Vidor (Dramatic Picture),The Crowd
4,1927-01-01,Lewis Milestone (Comedy Picture),Two Arabian Knights
5,1927-01-01,Ted Wilde (Comedy Picture),Speedy
...,...,...,...
468,2022-01-01,Daniel Kwan and Daniel Scheinert,Everything Everywhere All at Once
469,2022-01-01,Todd Field,Tár
470,2022-01-01,Martin McDonagh,The Banshees of Inisherin
471,2022-01-01,Ruben Östlund,Triangle of Sadness


In [52]:
ac_bf_cl=ac_bf

def extract_studio_producer(entry):
    if pd.notna(entry):
        match = re.match(r'(.+?)\s*\((.+)\)', str(entry))
        if match:
            return match.group(1).strip(), match.group(2).strip()
        else:
            return entry.strip(), None
    else:
        return entry, None

# Apply the function to create a new column 'Studio_Producers'
ac_bf_cl['Studio_Producers'] = ac_bf_cl['Film Studio/Producer(s)'].apply(extract_studio_producer)

# Extract only studio names from 'Film Studio'
ac_bf_cl['Film Studio'] = ac_bf_cl['Studio_Producers'].apply(lambda x: x[0] if x and pd.notna(x[0]) else None)

# Extract only producer names from 'Film Studio/Producer(s)'
ac_bf_cl['Producer(s)'] = ac_bf_cl['Studio_Producers'].apply(lambda x: x[1] if x and pd.notna(x[1]) else None)

# Drop the intermediate 'Studio_Producers' column
ac_bf_cl = ac_bf_cl.drop(columns=['Studio_Producers'])


ac_bf_cl.rename(columns={'Year of Film Release': 'Year'}, inplace=True)

ac_bf_cl['Year'] = ac_bf_cl['Year'].astype(str)
ac_bf_cl['Year'] = ac_bf_cl['Year'].str.extract('(\d{4})', expand=False)
ac_bf_cl['Year'] = pd.to_datetime(ac_bf_cl['Year'], format='%Y', errors='coerce')

ac_bf_cl = ac_bf_cl.dropna(subset=['Film'], how='all')


ac_bf_cl

Unnamed: 0,Year,Film,Film Studio,Film Studio/Producer(s),Producer(s),Production Company,Nominations,Wins,StudioName,Producer,Studio
1,1927-01-01,Wings,,,,,,,,,Famous Players–Lasky
2,1927-01-01,7th Heaven,,,,,,,,,Fox
3,1927-01-01,The Racket,,,,,,,,,The Caddo Company
5,1928-01-01,The Broadway Melody,,,,,,,,,Metro-Goldwyn-Mayer
6,1928-01-01,Alibi,,,,,,,,,Feature Productions
...,...,...,...,...,...,...,...,...,...,...,...
681,2022-01-01,The Fabelmans,,,,,,,,,
682,2022-01-01,Tár,,,,,,,,,
683,2022-01-01,Top Gun: Maverick,,,,,,,,,
684,2022-01-01,Triangle of Sadness,,,,,,,,,


In [74]:
can_gp_cl = can_gp
h = can_gp_cl.columns
#renommer les colonnes qui ont été mal scrappées
can_gp_cl.rename(columns={h[0]: 'Year', h[1] : 'English_title' , h[2]:'Original_title', h[3]:'Directors', h[4]:'Production_country' }, inplace=True)
#suppression lignes non voulues
decades_to_delete = [f"{decade}s" for decade in range(1960, 2030, 10)]
can_gp_cl = can_gp_cl.loc[~can_gp_cl['English_title'].isin(decades_to_delete)]
can_gp_cl = can_gp_cl.reset_index(drop=True)
#conversion en type date de la colonne year 





In [None]:
can_gp_cl['Year'] = can_gp_cl['Year'].astype(str)
can_gp_cl['Year'] = can_gp_cl['Year'].str.extract('(\d{4})', expand=False)
can_gp_cl['Year'] = pd.to_datetime(can_gp_cl['Year'], format='%Y', errors='coerce')
can_gp_cl.drop(['Number of Wins', 'Directors', 'Nationality', 'Films', 'Ref(s)'], axis=1)

can_gp_cl