# DataFrame d'informations `df_info`

## Introduction 
Ce notebook a pour objectif de construire un DataFrame nommé `df_info`, qui regroupera toutes les informations relatives aux films (titre, genre, durée, année, etc.).

Ce DataFrame servira de base pour afficher les informations des films dans l'interface Streamlit.

## Chargement des Datasets

In [1]:
import pandas as pd

### Dataset `Machine Learning`

- Obtenir la liste des films contenus dans l'algorithme du machine learning

### Dataset `Title.Basics`

- Récupérer les informations nécessaires pour `df_info`

In [7]:
title_basics = pd.read_csv('../../gitignore/title_basics_traite.csv')

title_basics.head()

Unnamed: 0,tconst,titleType,startYear,runtimeMinutes,genres,decade,Action,Adult,Adventure,Animation,...,Reality-TV,Romance,Sci-Fi,Short,Sport,Talk-Show,Thriller,War,Western,movie
0,tt0000009,movie,1894,45,Romance,1890,False,False,False,False,...,False,True,False,False,False,False,False,False,False,True
1,tt0000147,movie,1897,100,"Documentary,News,Sport",1890,False,False,False,False,...,False,False,False,False,True,False,False,False,False,True
2,tt0000502,movie,1905,100,\N,1900,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
3,tt0000574,movie,1906,70,"Action,Adventure,Biography",1900,True,False,True,False,...,False,False,False,False,False,False,False,False,False,True
4,tt0000591,movie,1907,90,Drama,1900,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True


In [10]:
# Garder uniquement les colonnes qui ne sont pas de type booléen
title_basics = title_basics.select_dtypes(exclude=['bool'])

# Vérification
title_basics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 688341 entries, 0 to 688340
Data columns (total 6 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   tconst          688341 non-null  object
 1   titleType       688341 non-null  object
 2   startYear       688341 non-null  int64 
 3   runtimeMinutes  688341 non-null  int64 
 4   genres          688341 non-null  object
 5   decade          688341 non-null  int64 
dtypes: int64(3), object(3)
memory usage: 31.5+ MB


In [11]:
# Vérification des valeurs manquantes
print(title_basics.isnull().sum())

tconst            0
titleType         0
startYear         0
runtimeMinutes    0
genres            0
decade            0
dtype: int64


In [12]:
# Comptage des occurrences de '\N' dans chaque colonne
for col in title_basics.columns:
    count_null_values = title_basics[col].eq(r'\N').sum()
    if count_null_values > 0:
        print(f"Colonne '{col}' contient {count_null_values} occurrences de '\\N'.")

Colonne 'genres' contient 75116 occurrences de '\N'.


In [13]:
# Remplacement des occurrences de '\N' par NaN
title_basics = title_basics.replace(r'\N', 'Non renseigné')

In [None]:
title_basics['genres'] 

genres
Drama                           129097
Documentary                     105204
Non renseigné                    75116
Comedy                           48220
Horror                           18716
                                 ...  
Sci-Fi,Sport,Thriller                1
Comedy,Documentary,Game-Show         1
Documentary,Sci-Fi,Thriller          1
Crime,Documentary,Romance            1
News,Sport,Talk-Show                 1
Name: count, Length: 1398, dtype: int64

### Dataset `TmdB.Full`

- Obtenir les informations `Affiches`, `Url`, `Synopsis`

### Merge des tables

- Lier les tables entre elles pour obtenir un seul `df_info`

### Vérification des données

- S'assurer qu'aucune donnée ne manque

### Export de `df_info`

- Finalisation et Export du df