# Nettoyage des différentes tables

## Nettoyage de la table : Title Basics

In [2]:
#Import des différents modules nécessaires : 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [37]:
#Appel de la base de données title_basics : 
title_basics = pd.read_csv('data_title_basics.tsv', sep = '\t', low_memory = False)

In [38]:
#Remplacement des '\N' par des NaN : 
title_basics.replace('\\N', np.nan, inplace= True)

In [39]:
#Changement du type de données pour les colonnes 'startYear' et 'endYear' d'object à float64 (Car il y a des NaN et se sont des Float)
title_basics['startYear'], title_basics['endYear'] = title_basics['startYear'].astype(np.float64), title_basics['endYear'].astype(np.float64)

In [40]:
#Découpage de la colonne 'genres' en trois colonnes
title_basics[['genre0', 'genre1', 'genre3']] = title_basics['genres'].str.split(',', expand = True)

In [42]:
#Retrait des lignes via 'endYear' ne passédant pas de date fin (car se sont exclusivement des séries)
title_basics = title_basics[title_basics['endYear'].isna()]

In [44]:
#Tranformation des trois colonne genre en une seule sous format liste pour compter les valeurs ensuite
title_basics['genre_concat'] = title_basics.apply(lambda row: [row['genre0'], row['genre1'], row['genre3']], axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  title_basics['genre_concat'] = title_basics.apply(lambda row: [row['genre0'], row['genre1'], row['genre3']], axis=1)


In [46]:
#Retrait des lignes via le 'runtimeMinutes' qui ne sont pas renseignées
title_basics = title_basics[title_basics['runtimeMinutes'].isna() == False]

In [48]:
#Retrait des lignes via le 'runtimeMinutes' dont la longueur est au dela de 4 chiffres (Permet d'éliminer le ligne avec une chaine de caractères et le filme trop longs)
title_basics = title_basics[title_basics['runtimeMinutes'].apply(lambda x : len(x) < 4) == True]

In [50]:
title_basics['runtimeMinutes'] = title_basics['runtimeMinutes'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  title_basics['runtimeMinutes'] = title_basics['runtimeMinutes'].astype(int)


In [51]:
#Retrait des lignes via le 'runtimeMinutes' dont la donnée est inférieur à 60min (short en majorité) et supérieur à 240min (Trop long pour un ciné)
title_basics = title_basics[title_basics['runtimeMinutes'].apply(lambda x : 60 < x < 240) == True]

In [53]:
#Retrait des lignes via le 'titleType' dont la donnée est différente de 'movies'
title_basics = title_basics[title_basics['titleType'] == 'movie']

In [55]:
#Retrait des lignes via 'isAdult' dont la donnée est 1
title_basics = title_basics[title_basics['isAdult'] == '0']

In [75]:
#Retrait des lignes contenant le genre 'Adult'
title_basics = title_basics[title_basics['genres'].str.contains('Adult') == False]

In [78]:
#Retrait des lignes ne contenant pas de genre
title_basics = title_basics[title_basics['genres'].isna() == False]

In [79]:
title_basics

Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres,genre0,genre1,genre3,genre_concat
144,tt0000147,movie,The Corbett-Fitzsimmons Fight,The Corbett-Fitzsimmons Fight,0,1897.0,,100,"Documentary,News,Sport",Documentary,News,Sport,"[Documentary, News, Sport]"
570,tt0000574,movie,The Story of the Kelly Gang,The Story of the Kelly Gang,0,1906.0,,70,"Action,Adventure,Biography",Action,Adventure,Biography,"[Action, Adventure, Biography]"
587,tt0000591,movie,The Prodigal Son,L'enfant prodigue,0,1907.0,,90,Drama,Drama,,,"[Drama, None, None]"
672,tt0000679,movie,The Fairylogue and Radio-Plays,The Fairylogue and Radio-Plays,0,1908.0,,120,"Adventure,Fantasy",Adventure,Fantasy,,"[Adventure, Fantasy, None]"
2002,tt0002026,movie,Anny - Story of a Prostitute,Anny - en gatepiges roman,0,1912.0,,68,"Drama,Romance",Drama,Romance,,"[Drama, Romance, None]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10243374,tt9916270,movie,Il talento del calabrone,Il talento del calabrone,0,2020.0,,84,Thriller,Thriller,,,"[Thriller, None, None]"
10243419,tt9916362,movie,Coven,Akelarre,0,2020.0,,92,"Drama,History",Drama,History,,"[Drama, History, None]"
10243503,tt9916538,movie,Kuambil Lagi Hatiku,Kuambil Lagi Hatiku,0,2019.0,,123,Drama,Drama,,,"[Drama, None, None]"
10243571,tt9916680,movie,De la ilusión al desconcierto: cine colombiano...,De la ilusión al desconcierto: cine colombiano...,0,2007.0,,100,Documentary,Documentary,,,"[Documentary, None, None]"


In [89]:
#Import de la base title_basics sous format csv pour l'importer plus facilement ensuite
title_basics.to_csv("title_basics.csv", index = False)

## Concaténation des tables Title_principal et Name_basics

In [None]:
#V1

In [None]:
#Appel de la base de données title_principal
title_principal = pd.read_csv('data_title_principal.tsv', sep = '\t')

In [None]:
#Appel de la base de données name_basics nettoyée
name_basics = pd.read_csv('data_name_basics.tsv', sep = '\t')

In [None]:
#Concaténation des bases title_principal et name_basics
principal_concat_name = pd.merge(title_principal, name_basics, how = 'left', left_on = 'nconst', right_on = 'nconst')
principal_concat_name

In [None]:
principal_concat_name_group = principal_concat_name.groupby('tconst').agg(lambda x: x.tolist()).reset_index()
principal_concat_name_group

In [None]:
principal_concat_name_group.drop(labels=['ordering','job'], axis=1,inplace=True)
principal_concat_name_group.head()

In [None]:
principal_concat_name_group.to_csv('princ_name_group.csv', index = False)

In [None]:
#V2

In [None]:
#Appel de la base de données title_principal
title_principal = pd.read_csv('data_title_principal.tsv', sep = '\t')

In [None]:
#Appel de la base de données name_basics nettoyée
name_basics = pd.read_csv('data_name_basics.tsv', sep = '\t')

In [None]:
#Concaténation des bases title_principal et name_basics
principal_concat_name = pd.merge(title_principal, name_basics, how = 'left', left_on = 'nconst', right_on = 'nconst')
principal_concat_name

In [None]:
#Regroupement des lignes contenant le même 'tconst'
pivoted_df2211 = principal_concat_name.pivot_table(index='tconst', columns='category', values='primaryName', aggfunc= lambda x : list(x)).reset_index()
pivoted_df2211

In [None]:
def to_list(cell):
    if isinstance(cell, list):
        return cell
    else:
        return [cell]

In [None]:
pivoted_df2211['actor']=pivoted_df2211['actor'].apply(to_list)
pivoted_df2211['actress']=pivoted_df2211['actress'].apply(to_list)

In [None]:
pivoted_df2211['actors'] = pivoted_df2211.apply(lambda row: row['actor'] + row['actress'], axis=1)

In [None]:
def remove_nan_from_list(lst):
    return [x for x in lst if pd.notna(x)]

In [None]:
pivoted_df2211['actor']=pivoted_df2211['actor'].apply(remove_nan_from_list)
pivoted_df2211['actress']=pivoted_df2211['actress'].apply(remove_nan_from_list)
pivoted_df2211['actors']=pivoted_df2211['actors'].apply(remove_nan_from_list)

In [None]:
pivoted_df2211 = pivoted_df2211[['tconst','actor','actress','director','actors']]

In [None]:
pivoted_df2211.to_csv('table_actors.csv', index = False)

## Nettoyage de la table : Title Akas

In [3]:
#Import de la base de données title akas
language_fr = pd.read_csv('data_title_akas.tsv', sep = '\t', low_memory=False)

In [5]:
#Remplacer les '\\N' par des np.nan
language_fr.replace('\\N',np.nan, inplace = True)

In [6]:
#Dans la colonne 'language' remplacer les NaN par les nom des régions
language_fr['language'].fillna(language_fr['region'].str.lower(), inplace = True)

In [9]:
#filtration du df par la colonne language pour une langue FR
language_fr = language_fr[language_fr['language'] == 'fr']

In [10]:
#Aggrégation des colonnes pour n'avoir qu'un seul titleId
language_fr= language_fr.groupby('titleId').agg(lambda x: x.tolist()).reset_index()

In [11]:
#Rédéfini la valeur de la colonne language pour n'avoir qu'un seul FR
language_fr['language'] = language_fr['language'].apply(lambda x: x[0])

In [12]:
#Supression des colonnes 'ordering','title','region', 'types', 'attributes' et 'isOriginalTitle'
language_fr.drop(labels=['ordering','region', 'types', 'attributes', 'isOriginalTitle'], axis=1,inplace=True)

In [15]:
language_fr['title'] = language_fr['title'].apply(lambda x: x[0])

In [16]:
language_fr

Unnamed: 0,titleId,title,language
0,tt0000002,Le clown et ses chiens,fr
1,tt0000003,Pauvre Pierrot,fr
2,tt0000004,Un bon bock,fr
3,tt0000010,La sortie de l'usine Lumière,fr
4,tt0000012,L'arrivée d'un train à La Ciotat,fr
...,...,...,...
4510001,tt9916844,Épisode #3.15,fr
4510002,tt9916846,Épisode #3.18,fr
4510003,tt9916848,Épisode #3.17,fr
4510004,tt9916850,Épisode #3.19,fr


In [17]:
#Import de la base language_fr sous format csv pour l'importer plus facilement ensuite
language_fr.to_csv("language_fr.csv", index = False)

## Nettoyage de la table : Complémentaire

In [4]:
#Import de la base de données complement
complement = pd.read_csv('tmdb_full.csv', sep = ',', low_memory=False)

In [7]:
complement.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 309572 entries, 0 to 309571
Data columns (total 25 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   adult                         309572 non-null  bool   
 1   backdrop_path                 151760 non-null  object 
 2   budget                        309572 non-null  int64  
 3   genres                        309572 non-null  object 
 4   homepage                      44262 non-null   object 
 5   id                            309572 non-null  int64  
 6   imdb_id                       309572 non-null  object 
 7   original_language             309572 non-null  object 
 8   original_title                309572 non-null  object 
 9   overview                      282512 non-null  object 
 10  popularity                    309572 non-null  float64
 11  poster_path                   264159 non-null  object 
 12  production_countries          309572 non-nul

In [102]:
#Supression des guillemets et crochet de la colonne genre
complement["genres"] = complement["genres"].str.replace("'","").str.replace("[","").str.replace("]","")

  complement["genres"] = complement["genres"].str.replace("'","").str.replace("[","").str.replace("]","")


In [104]:
#Division de le colonne 'genres' et création de 11 autres (un genre par colonne)
complement[['genre0', 'genre1', 'genre2', 'genre3', 'genre4', 'genre5', 'genre6', 'genre7', 'genre8', 'genre9', 'genre10']] = complement['genres'].str.split(',', expand = True)

In [106]:
#Concaténation des colonnes genres pour créer une liste de genres et pour pouvoir itérer dessus
complement['genre_concat'] = complement.apply(lambda row: [row['genre0'], row['genre1'], row['genre2'], row['genre3'], row['genre4'], row['genre5'], row['genre6'], row['genre7'], row['genre8'], row['genre9'], row['genre10']], axis=1)

In [108]:
#Remplacement des '\N' par des NaN
complement.replace('\\N', np.nan, inplace = True)

In [113]:
complement.head(20)

Unnamed: 0,adult,backdrop_path,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,genre2,genre3,genre4,genre5,genre6,genre7,genre8,genre9,genre10,genre_concat
0,False,/dvQj1GBZAZirz1skEEZyWH2ZqQP.jpg,0,Comedy,,3924,tt0029927,en,Blondie,Blondie and Dagwood are about to celebrate the...,...,,,,,,,,,,"[Comedy, None, None, None, None, None, None, N..."
1,False,,0,Adventure,,6124,tt0011436,de,Der Mann ohne Namen,,...,,,,,,,,,,"[Adventure, None, None, None, None, None, None..."
2,False,/uJlc4aNPF3Y8yAqahJTKBwgwPVW.jpg,0,"Drama, Romance",,8773,tt0055747,fr,L'Amour à vingt ans,Love at Twenty unites five directors from five...,...,,,,,,,,,,"[Drama, Romance, None, None, None, None, None..."
3,False,/hQ4pYsIbP22TMXOUdSfC2mjWrO0.jpg,0,"Drama, Comedy, Crime",,2,tt0094675,fi,Ariel,Taisto Kasurinen is a Finnish coal miner whose...,...,Crime,,,,,,,,,"[Drama, Comedy, Crime, None, None, None, Non..."
4,False,/l94l89eMmFKh7na2a1u5q67VgNx.jpg,0,"Drama, Comedy, Romance",,3,tt0092149,fi,Varjoja paratiisissa,"An episode in the life of Nikander, a garbage ...",...,Romance,,,,,,,,,"[Drama, Comedy, Romance, None, None, None, N..."
5,False,/c1BaOxC8bo5ACFYkYYxL0bBWRaq.jpg,4000000,"Crime, Comedy",https://www.miramax.com/movie/four-rooms/,5,tt0113101,en,Four Rooms,It's Ted the Bellhop's first night on the job....,...,,,,,,,,,,"[Crime, Comedy, None, None, None, None, None,..."
6,False,/bGMqHn0H2UY6SPZ5Vch4YJM2jDO.jpg,21000000,"Action, Crime, Thriller",,6,tt0107286,en,Judgment Night,"While racing to a boxing match, Frank, Mike, J...",...,Thriller,,,,,,,,,"[Action, Crime, Thriller, None, None, None, ..."
7,False,,42000,Documentary,http://lifeinloops.com,8,tt0825671,en,Life in Loops (A Megacities RMX),Timo Novotny labels his new project an experim...,...,,,,,,,,,,"[Documentary, None, None, None, None, None, No..."
8,False,,0,Drama,,9,tt0425473,de,Sonntag im August,,...,,,,,,,,,,"[Drama, None, None, None, None, None, None, No..."
9,False,/2w4xG178RpB4MDAIfTkqAuSJzec.jpg,11000000,"Adventure, Action, Science Fiction",http://www.starwars.com/films/star-wars-episod...,11,tt0076759,en,Star Wars,Princess Leia is captured and held hostage by ...,...,Science Fiction,,,,,,,,,"[Adventure, Action, Science Fiction, None, N..."


In [None]:
#Supressions des colonnes'adult','genres','id', 'original_title', 'runtime', 'spoken_languages', 'vote_average' et 'vote_count'
complement.drop(labels=['adult','genres','id', 'original_title', 'runtime', 'spoken_languages', 'vote_average', 'vote_count'], axis=1,inplace=True)

In [None]:
#Supression des colonnes 'title' et 'production_companies_country'
complement.drop(labels=['title','production_companies_country'], axis=1,inplace=True)

In [None]:
#Import de la base complement sous format csv pour l'importer plus facilement ensuite
complement.to_csv("complement.csv", index = False)

# Jointure

## Table : Title rating

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import plotly.express as px

In [None]:
#Appel de la table rating
rating = pd.read_csv('data_title_rating.tsv', sep = '\t')
rating

In [None]:
#Appel de la table Title_basics
title_basics = pd.read_csv('title_basics.csv', sep = ',')
title_basics

## Jointure de la table Title_basics avec la table title_rating

In [None]:
#############################  Jointure de la base title_basics avec rating  ###################################################

df_complet = pd.merge(title_basics, rating, how = 'left', left_on = 'tconst', right_on = 'tconst')
df_complet

## Jointure DF précédent avec la table akas

In [None]:
#Appel de la table akas nommée language_fr
language_fr = pd.read_csv('language_fr.csv', sep = ',')
language_fr

In [None]:
##########################################  Jointure df_complet précédent avec language_fr  ####################################

df_complet = pd.merge(df_complet, language_fr, how = 'inner', left_on = 'tconst', right_on = 'titleId')
df_complet

## Jointure du DF précédent avec la table princ_name_group (composée de title_principal et name_basics jointes et nettoyées)

In [None]:
#Apple de la base princ_name_group contenant Title_principal et name_basics nettoyées
princ_name_group = pd.read_csv('name_group_tcont.csv', sep = ',')
princ_name_group

In [None]:
################  Jointure du df_complet précédent avec title_principal et name_basics nettoyées  ##############################

df_complet = pd.merge(df_complet, princ_name_group, how = 'left', left_on = 'tconst', right_on = 'tconst')
df_complet

In [None]:
#Supression de la colonne 'titleId'
df_complet.drop(labels=['titleId'], axis=1,inplace=True)
df_complet

## Jointure du DF précédent avec la table complémentaire

In [None]:
#Appel de la base complémentaire
complement = pd.read_csv('complement.csv', sep = ',')
complement

In [None]:
df_complet = pd.merge(df_complet, complement, how = 'left', left_on = 'tconst', right_on = 'imdb_id')
df_complet

# Nettoyage du df_complet avec toutes les tables

In [None]:
#Remplacement des '\N' par des NaN
df_complet.replace('\\N', np.nan, inplace = True)
df_complet

In [None]:
#Supression de la colonne 'endYear'
df_complet.drop(labels=['endYear'], axis=1,inplace=True)
df_complet

In [None]:
#Supression de la colonne 'isAdult'
df_complet.drop(labels=['isAdult'], axis=1,inplace=True)
df_complet

In [None]:
#Supression des colonnes de split de la colonne genres
df_complet.drop(['genre0', 'genre1', 'genre3'], axis = 1, inplace = True)

In [None]:
#Supression des lignes qui n'ont pas de imdb_id
df_complet = df_complet[df_complet['imdb_id'].isna() == False]

In [None]:
#Remplacement des valeurs nulles
df_complet['averageRating'].fillna(df_complet['averageRating'].median(), inplace = True)
df_complet['numVotes'].fillna(0, inplace = True)
df_complet['backdrop_path'].fillna('Unknown', inplace = True)
df_complet['homepage'].fillna('Unknown', inplace = True)
df_complet['overview'].fillna('Unknown', inplace = True)
df_complet['tagline'].fillna('Unknown', inplace = True)
df_complet['poster_path'].fillna('Unknown', inplace = True)

In [None]:
#Supression des ligne ayant une startYear nulle
df_complet = df_complet[df_complet['startYear'].isna() == False]
df_complet

In [None]:
#Valeur manquantes dans releaseYear => comparaison avec l'année du startYear : 

In [None]:
df_complet['release_date'] = pd.to_datetime(df_complet['release_date'])

In [None]:
df_complet['releaseYear'] = df_complet['release_date'].dt.year

In [None]:
df_complet['ecart_date'] = df_complet['releaseYear'] - df_complet['startYear']

In [None]:
df_complet['ecart_date'].value_counts(normalize = True)*100

In [None]:
#Pas de grande différence entre releaseYear et startYear donc supression releaseYear

In [None]:
df_complet.drop(['releaseYear', 'release_date', 'ecart_date'], axis = 1, inplace = True)

In [None]:
#Conversion des colonnes stratYear et numVotes en int
df_complet['startYear'] = df_complet['startYear'].fillna(0).astype('int')
df_complet['numVotes'] = df_complet['numVotes'].fillna(0).astype('int')

In [None]:
#Colonne doublon avec le tconst et avec des valeurs manquantes
df_complet.drop('imdb_id', axis=1, inplace=True)

In [None]:
#après avoir fait une autovis nous avons découvert que sur les colonnes suivantes le taux de missing values était >90% 
#nous avons donc décidé de les supprimer
df_complet.drop(['archive_footage', 'archive_sound', 'production_designer', 'self'], axis=1, inplace=True)

In [None]:
# supression de cette colonne car nous avons filtrer que sur les movies
df_complet.drop('titleType', axis=1, inplace=True)

In [None]:
#supression de cette colonne car nous avons décidé de se baser sur l'average_rating
df_complet.drop('popularity', axis=1, inplace=True)

In [None]:
#Histogramme : Répartition des films par notes
import plotly.express as px
fig2 = px.histogram(df_complet, x= 'averageRating', title='repartition des films par note')
fig2.update_traces(marker_line_color='black', marker_line_width=1)

fig2.show()

In [None]:
#Supression des films ayant une note inférieure à 5
df_complet = df_complet[df_complet['averageRating']>5]

In [None]:
base_complete = df_complet

In [None]:
#MitoSheet : supprimer les lignes pour lesquelles la colonne 'genre_concat' contient News ou Talk ou Reality
base_complete = base_complete[~base_complete['genre_concat'].str.contains('News|Talk|Reality')]

In [None]:
#MitoSheet : supprimer les lignes pour lesquelles la colonne 'genre_concat' contient Sport ou Music ou Musical
base_complete = base_complete[~base_complete['genre_concat'].str.contains('Sport|Music|Musical')]

In [None]:
#MitoSheet : supprimer les lignes pour lesquelles la colonne 'statut'  ne contient pas Released
base_complete = base_complete[base_complete['status'] == 'Released']

In [None]:
#MitoSheet : supprimer les lignes pour lesquelles la colonne 'poster_path' contient unknown
base_complete = base_complete[~base_complete['poster_path'].str.contains('Unknown')]

In [None]:
#MitoSheet : supprimer les lignes pour lesquelles la colonne 'genre_concat' contient Documentary ou Horror
base_complete = base_complete[~base_complete['genre_concat'].str.contains('Documentary|Horror')]

In [None]:
#MitoSheet : supprimer les lignes pour lesquelles la colonne startYear est inferieur à 1945
base_complete = base_complete[base_complete['startYear'] >= 1945]

In [None]:
#MitoSheet : Pivoted base_complete into base_complete_pivot
tmp_df = base_complete[base_complete['numVotes'] == 0]
tmp_df = tmp_df[['primaryTitle', 'startYear']].copy()

pivot_table = tmp_df.pivot_table(
    index=['startYear'],
    values=['primaryTitle'],
    aggfunc={'primaryTitle': ['count']}
)

pivot_table = pivot_table.set_axis([flatten_column_header(col) for col in pivot_table.keys()], axis=1)
base_complete_pivot = pivot_table.reset_index()


#Pivoted base_complete into base_complete_pivot_1
base_complete_pivot_1 = pd.DataFrame(data={})

#Renamed base_complete_pivot to Pivot_films_0_votant
Pivot_films_0_votant = base_complete_pivot

In [None]:
#Histogramme nombre de films par année
fig = px.histogram(base_complete_pivot, x='startYear', y='primaryTitle count', nbins=25, histfunc='sum')
fig.update_layout(
        title='Repartition des films sans votant par année', 
        xaxis={
            "showgrid": True, 
            "rangeslider": {
                "visible": True, 
                "thickness": 0.05
            }
        }, 
        yaxis={'title' : 'Nombre de films',
            "showgrid": True
        }, 
        legend={
            "orientation": 'v'
        }, 
        barmode='group', 
        paper_bgcolor='#FFFFFF'
    )
fig.show(renderer="iframe")

In [None]:
#Histogramme : Répartitions des films par années
fig = px.histogram(base_complete, x= 'startYear', color = 'flag', barmode = 'group', title='repartition des films par année',nbins = 39)

fig.show()

In [None]:
#Histogramme : Répartition des films par année
#attention le graphique est par default regroupé tous les 2 ans
sns.histplot(base_complete, x="startYear", hue = 'flag', multiple="dodge")
plt.show()

In [None]:
#Boxplot sur la répartition de la longuers des films en minutes
fig = px.box(base_complete, x='runtimeMinutes', points='outliers')
fig.update_layout(
        title='runtimeMinutes box plot', 
        xaxis={
            "showgrid": True, 
            "rangeslider": {
                "visible": True, 
                "thickness": 0.05
            }
        }, 
        yaxis={
            "showgrid": True
        }, 
        legend={
            "orientation": 'v'
        }, 
        paper_bgcolor='#FFFFFF'
    )
fig.show(renderer="iframe")
---------------
base_complete["flag"] = "note<7"
base_complete.loc[base_complete['averageRating']>= 7, "flag"] = "note>=7"
base_complete

In [None]:
#Split de la colonne genre pour de la vis
data = base_complete
data['genres'] = data['genres'].str.split(',')
data

In [None]:
data = data.explode('genres')

In [None]:
#Répartition des films par genres
fig = px.histogram(data, x= 'genres', color = 'flag', barmode = 'group', title='repartition des films par genres',)

fig.update_xaxes(categoryorder = 'total descending')

fig.show()

In [None]:
#Réparation des films par notes
fig2 = px.histogram(base_complete, x= 'averageRating', title='repartition des films par note')
fig2.update_traces(marker_line_color='black', marker_line_width=1)

fig2.show()

In [None]:
#Répartition des notes
fig = px.box(base_complete, x='averageRating', points='outliers')
fig.show()

In [None]:
#Répartition du nombre de votants
fig = px.box(base_complete, x='numVotes', range_x = [0,20000], points = 'outliers', title = 'repartition du nombre de votants')
fig.show()

In [None]:
#Répartition du nombre de votants
fig2 = px.histogram(base_complete, x= 'numVotes', range_x = [0, 20000], nbins = 15000, title='repartition des films par nombre de votants')
fig2.update_traces(marker_line_color='black', marker_line_width=1)

fig2.show()

In [None]:
#Création d'une base test
base_test = base_complete

In [None]:
#supprimer les lignes uniquement si averageRating < 7 et si startYear < 2022
base_test = base_test[(base_test['averageRating'] >= 7) | (base_test['startYear'] >= 2022)]

In [None]:
base_test.drop(['genre_concat'], axis = 1, inplace = True)

In [None]:
#Définition de notre base complète par notre base test
base_complete = base_test

In [None]:
#Rest de l'index
base_complete = base_complete.reset_index(drop = True)

In [None]:
#Répartition des films par votants après le drop
fig2 = px.histogram(base_complete, x= 'numVotes', range_x = [0, 20000], nbins = 15000, title='repartition des films par nombre de votants')
fig2.update_traces(marker_line_color='black', marker_line_width=1)

fig2.show()

In [None]:
#Répartition des films par année après le drop
fig = px.histogram(base_complete, x= 'startYear', title='repartition des films par année',nbins = 39)
fig.update_traces(marker_line_color='black', marker_line_width=1)
fig.show()

In [None]:
#Création d'une base de test pour vis
data2 = base_complete
data2 = data2.explode('genres')
data2

In [None]:
#Répartiotion des films par genres
fig = px.histogram(data2, x= 'genres', title='repartition des films par genres')
fig.update_traces(marker_line_color='black', marker_line_width=1)
fig.update_xaxes(categoryorder = 'total descending')

fig.show()

In [None]:
#Répatition des films par notes
fig2 = px.histogram(base_complete, x= 'averageRating', title='repartition des films par note')
fig2.update_traces(marker_line_color='black', marker_line_width=1)

fig2.show()

In [None]:
#Suppression des lignes avec une stratYear inférieur à 1977
base_complete = base_complete[base_complete['startYear'] > 1976]

In [None]:
#Répartition des film par années
fig = px.histogram(base_complete, x= 'startYear', title='repartition des films par année',nbins = 39)
fig.update_traces(marker_line_color='black', marker_line_width=1)
fig.show()

In [None]:
#Supression des colonnes non utilisées
base_complete.drop(['flag', 'production_companies_name', 'revenue', 'production_countries', 'budget', 'writer', 'producer', 'editor', 'composer', 'cinematographer', 'primaryTitle', 'language', 'original_language', 'status', 'tagline'], axis = 1, inplace = True)

In [None]:
#Création de la colonne actors avec les colonnes actor et actress
base_complete['actors'] = base_complete.apply(lambda row: [row['actor'], row['actress']], axis=1)

In [None]:
#Création d'une fonction pour supprimer les nan dans une colonne contenant une liste
def remove_nan_from_list(lst):
    return [x for x in lst if pd.notna(x)]

In [None]:
#Suppression des nan dans la colonne actors
base_complete['actors'] = base_complete['actors'].apply(remove_nan_from_list)

In [None]:
#Suppression des colonne actor et actress
base_complete.drop(['actor', 'actress'], axis = 1, inplace = True)

In [None]:
#Transformation des listes en string dans la colonne genres
base_complete['genres'] = base_complete['genres'].apply(lambda x: ','.join(map(str, x)))

In [None]:
#Transformation des listes en string dans la colonne actors
base_complete['actors'] = base_complete['actors'].apply(lambda x: ','.join(map(str, x)))

In [None]:
#Reset de l'index
base_complete = base_complete.reset_index(drop=True)

In [None]:
#Répartition des film par année ou les director sont des NaN
fig = px.histogram(base_complete[base_complete['director'].isna()], x= 'startYear', title='repartition des films par année',nbins = 39)
fig.update_traces(marker_line_color='black', marker_line_width=1)
fig.show()

In [None]:
#Répartition des film par note ou les director sont des NaN
fig = px.histogram(base_complete[base_complete['director'].isna()], x= 'averageRating', title='repartition des films notes',nbins = 39)
fig.update_traces(marker_line_color='black', marker_line_width=1)
fig.show()

In [None]:
#Répartition des film par nombre de votants ou les director sont des NaN
fig = px.histogram(base_complete[base_complete['director'].isna()], x= 'numVotes', range_x = [0, 20000], title='repartition des films par votant',nbins = 15000)
fig.update_traces(marker_line_color='black', marker_line_width=1)
fig.show()

In [None]:
#Suppression des lignes ou le director est NaN
base_complete = base_complete[base_complete['director'].isna() == False]

In [None]:
#Reset de l'index
base_complete = base_complete.reset_index(drop=True)

In [None]:
#Suppression de la colonne originalTitle
base_complete.drop(['originalTitle'], axis = 1, inplace = True)

In [None]:
#Suppression des lignes ou les actors ne sont pas renseignés
base_complete = base_complete[base_complete['actors'] != '']

In [None]:
#Import de la base complète finale V1
base_complete.to_csv("base_complete_final.csv", index = False)

In [None]:
#Appel de la df_actor retravaillée (avec tous les acteurs et actrices)
df_actor = pd.read_csv('table_actors.csv', sep = ',')

In [None]:
#Appel de la base finale V1 créer précédemment
df_final = pd.read_csv('base_complete_finale.csv', sep = ',')

In [None]:
#Supression des colonnes director et actors
df_final= df_final.drop(['director', 'actors'], axis = 1)

In [None]:
#Jointure du df final et du df actor
df_complet = pd.merge(df_final, df_actor, how = 'left', left_on = 'tconst', right_on = 'tconst')

In [None]:
#Tokenisation de l'overview (non utilisé par la suite)

In [None]:
pip install spacy
import spacy
import nltk
import string

In [None]:
nltk.download('popular')

In [None]:
nlp = spacy.load('en_core_web_sm')

In [None]:
def clean(text):
    textlemma = " ".join([token.lemma for token in nlp(text)])
    tokens = nltk.word_tokenize(text_lemma.lower())

    tokens_clean = []
    for words in tokens:
        if words not in nltk.corpus.stopwords.words("english"):
            tokens_clean.append(words)
    tokens_sans_ponctuation = [mot for mot in tokens_clean if mot not in string.punctuation + "«»‘’“”"]
    lemma = ' '.join(tokens_sans_ponctuation)
    return lemma

In [None]:
df_complet['overview_lemma'] = df_complet['overview'].apply(clean)

In [None]:
df_complet['genres'] = df_complet['genres'].str.split(',')

In [None]:
df_complet['combined_features'] = (df_complet['genres'].apply(lambda x: ', '.join(map(str, x))) + ' ' + df_complet['title'] + ' ' + df_complet['director'] + ' ' + df_complet['actors'] + ' ' + df_complet['overview_lemma'])

In [None]:
df_complet.to_csv('base_complete_finale.csv', index = False)

# SYSTEME DE RECOMMANDATIONS

## Recommandation par titre

In [None]:
df_final = pd.read_csv('base_complete_finale.csv', sep = ',', low_memory=False)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestNeighbors
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

In [None]:
tfidf = TfidfVectorizer()

In [None]:
count_matrix = tfidf.fit_transform(df_final['combined_features'])
print(count_matrix)

In [None]:
X = count_matrix
nb = 10

In [None]:
NN = NearestNeighbors(metric='cosine', n_neighbors = nb+1)

In [None]:
NN.fit(X)

In [None]:
movie_user = "Titanic"

In [None]:
film_index = df_final[df_final['title'] == movie_user].index[0]

In [None]:
dist, indices = NN.kneighbors(count_matrix[film_index:film_index+1])

In [None]:
for index, distance in zip(indices[0][1:],dist[0][1:]): 

    print(df_final.iloc[index]['title'])
    print('Distance : ', round(distance,4))
    print('-----------------')

In [None]:
indices = indices.flatten()

In [None]:
recommended_films = df_final.iloc[indices[1:]]

In [None]:
recommended_films['distance'] = dist.flatten()[1:]

In [None]:
#Après des test nous avons choisi de retirer le feature overwiew.lemma_ car les recommandations nous paraissaient moins coherentes avec.

## Recommandation par acteur

In [None]:
count_matrix2 = tfidf.fit_transform(df_final['actors'])
print(count_matrix)

In [None]:
X2 = count_matrix2

In [None]:
NN2 = NearestNeighbors(metric='cosine', n_neighbors = nb+1)

In [None]:
NN2.fit(X2)

In [None]:
actor_user = 'Tom Hanks'

In [None]:
film_index2 = df_final[df_final['actors'].str.contains(actor_user)].index[0]

In [None]:
dist2, indices2 = NN2.kneighbors(count_matrix2[film_index2:film_index2+1])

In [None]:
for index, distance in zip(indices2[0][1:],dist2[0][1:]): 

    print(df_final.iloc[index]['title'])
    print('Distance : ', round(distance,4))
    print('-----------------')

In [None]:
indices2 = indices2.flatten()

In [None]:
recommended_films2 = df_final.iloc[indices2[1:]]

In [None]:
recommended_films2['distance'] = dist2.flatten()[1:]

## Import des images

In [None]:
import requests
from io import BytesIO
from IPython.display import Image

In [None]:
def show_image_from_url(url):
    try:
        response = requests.get(url)
        img = plt.imread(BytesIO(response.content), format='jpg')
        plt.imshow(img)
        plt.axis('off')
        plt.show()
    except Exception as e:
        print(f"Une erreur s'est produite lors du chargement de l'image : {e}")

In [None]:
#Afficher les images pour les X premiers films
for index, row in recommended_films.iterrows():
    print(row['title'])  # Affiche le titre du film
    url = f"https://image.tmdb.org/t/p/w500%7Brow['poster_path']%7D"  # Construit l'URL complet
    show_image_from_url(url)

## Import Bandes Annonces

In [None]:
from IPython.display import HTML

In [None]:
#Votre clé API TMDb
api_key = '2318d49dc7b23307a950da1ce4326e24'

In [None]:
for index, row in recommended_films.iterrows():
    print(row['title'])  # Affiche le titre du film
    
    url_videos = f"https://api.themoviedb.org/3/movie/%7Brow['tconst']%7D/videos?api_key={api_key}"
    response_videos = requests.get(url_videos)
    
    if response_videos.status_code == 200:
        videos_data = response_videos.json()
        for video in videos_data['results']:
            # Vérifier si la vidéo est une bande-annonce sur YouTube
            if video['site'] == "YouTube" and "Trailer" in video['type']:
                youtube_id = video['key']
                url = f"https://www.youtube.com/watch?v={youtube_id}"
                print(f"Bande-annonce YouTube : {url}")
                display(HTML(f'<iframe width="560" height="315" src="https://www.youtube.com/embed/%7Byoutube_id%7D" frameborder="0" allowfullscreen></iframe>'))
                break  # Arrêter après avoir trouvé la première bande-annonce
    else:
        print("Erreur lors de la requête API pour les vidéos")