## **Phase 1:** Nettoyage

**Gestion des valeurs manquantes :**
Identifier les valeurs manquantes dans les colonnes clés.
Déterminer si les valeurs manquantes peuvent être remplacées par des valeurs par défaut, interpolées à partir d'autres données ou si elles doivent être supprimées.

**Nettoyage des doublons :**
Identifier et supprimer les entrées en double, conserver l'entrée la plus pertinente ou la plus récente en fonction des critères de sélection.

**Validation des données :**
Vérifier la cohérence des données.
Examiner les champs tels que les durées des films, les budgets, les notes des utilisateurs, etc., pour détecter les valeurs aberrantes ou incohérentes.

**Normalisation des données :**
Harmoniser les valeurs des champs tels que les noms des genres, les noms des réalisateurs, etc., pour éviter les variations et les erreurs orthographiques.

**Gestion des formats de données :**
Convertir les données dans des formats appropriés, par exemple en convertissant les dates en objets de date/heure, en normalisant les noms de fichiers d'images, etc.

**Traitement des données textuelles :**
Prétraiter les données textuelles comme les descriptions de films, les critiques, etc., en supprimant la ponctuation, en normalisant la casse, en supprimant les mots vides, etc., pour faciliter l'analyse de texte.

**Gestion des données non structurées :**
Utiliser des techniques d'apprentissage automatique pour extraire des informations pertinentes et les intégrer dans votre analyse.

**Sécurité des données :**
Respecter les réglementations en matière de confidentialité des données, notamment en anonymisant les données personnelles des utilisateurs si nécessaire.

In [90]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [91]:
# Chargement du DataFrame
name_basics_path = 'D:\\Projo\\Projet-Data-IA\\movies_name_basics\\movies_name_basics.csv'
df_nameBasics = pd.read_csv(name_basics_path, sep=',', na_values='\\N')

In [92]:
#forme du dataframe
df_nameBasics.shape

(9211668, 6)

In [93]:
df_nameBasics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9211668 entries, 0 to 9211667
Data columns (total 6 columns):
 #   Column             Dtype  
---  ------             -----  
 0   nconst             object 
 1   primaryName        object 
 2   birthYear          float64
 3   deathYear          float64
 4   primaryProfession  object 
 5   knownForTitles     object 
dtypes: float64(2), object(4)
memory usage: 421.7+ MB


In [94]:
# Proportion (%) des valeurs nulles
df_nameBasics.isna().sum() / len(df_nameBasics) * 100

nconst                0.000000
primaryName           0.000000
birthYear            88.475399
deathYear            95.222440
primaryProfession     3.279916
knownForTitles        0.000000
dtype: float64

In [95]:
df_nameBasics.dtypes

nconst                object
primaryName           object
birthYear            float64
deathYear            float64
primaryProfession     object
knownForTitles        object
dtype: object

In [96]:
# Supprimer les deux premiers caractères de chaque valeur dans la colonne nconst
df_nameBasics['nconst'] = df_nameBasics['nconst'].str[2:]

# Convertir la colonne nconst en int16
df_nameBasics['nconst'] = df_nameBasics['nconst'].astype('int16')

In [97]:
# # Supprimer les deux premiers caractères de chaque valeur dans la colonne knownForTitles
# df_nameBasics['knownForTitles'] = df_nameBasics['knownForTitles'].str[2:]

# # Convertir la colonne knownForTitles en int32
# df_nameBasics['knownForTitles'] = df_nameBasics['knownForTitles'].astype('int64')


In [98]:
# Suppression des colonnes birthYear et deathYear
df_nameBasics.drop(columns=['birthYear', 'deathYear'], inplace=True)

In [99]:
# Suppression des lignes avec des valeurs nulles dans les colonnes primaryProfession et knownForTitles
df_nameBasics.dropna(subset=['primaryProfession', 'knownForTitles'], inplace=True)

In [100]:
# Convertir les valeurs non-chaînes en une liste vide
df_nameBasics['primaryProfession'] = df_nameBasics['primaryProfession'].apply(lambda x: [] if isinstance(x, float) else x)

# Diviser la chaîne en une liste et retirer les virgules
df_nameBasics['primaryProfession'] = df_nameBasics['primaryProfession'].apply(lambda x: [profession.strip() for profession in x.split(',')] if isinstance(x, str) else [])


In [101]:
# Convertir les valeurs non-chaînes en une liste vide
df_nameBasics['knownForTitles'] = df_nameBasics['knownForTitles'].apply(lambda x: [] if isinstance(x, float) else x)

# Diviser la chaîne en une liste et retirer les virgules
df_nameBasics['knownForTitles'] = df_nameBasics['knownForTitles'].apply(lambda x: [title.strip() for title in x.split(',')] if isinstance(x, str) else [])


In [102]:
# Proportion (%) des valeurs nulles
df_nameBasics.isna().sum() / len(df_nameBasics) * 100

nconst               0.0
primaryName          0.0
primaryProfession    0.0
knownForTitles       0.0
dtype: float64

In [103]:
# Afficher les premières lignes pour vérifier le résultat
df_nameBasics.head(20)

Unnamed: 0,nconst,primaryName,primaryProfession,knownForTitles
0,1,Fred Astaire,"[actor, miscellaneous, producer]",[tt0072308]
1,1,Fred Astaire,"[actor, miscellaneous, producer]",[tt0050419]
2,1,Fred Astaire,"[actor, miscellaneous, producer]",[tt0053137]
3,1,Fred Astaire,"[actor, miscellaneous, producer]",[tt0027125]
4,2,Lauren Bacall,"[actress, soundtrack, archive_footage]",[tt0037382]
5,2,Lauren Bacall,"[actress, soundtrack, archive_footage]",[tt0075213]
6,2,Lauren Bacall,"[actress, soundtrack, archive_footage]",[tt0117057]
7,2,Lauren Bacall,"[actress, soundtrack, archive_footage]",[tt0038355]
8,3,Brigitte Bardot,"[actress, music_department, producer]",[tt0057345]
9,3,Brigitte Bardot,"[actress, music_department, producer]",[tt0049189]


In [104]:
# Supprimer les doublons dans le DataFrame df_nameBasics
df_nameBasics.drop_duplicates(subset=['nconst'], inplace=True)


In [105]:
# Afficher les premières lignes pour vérifier le résultat
df_nameBasics.head(20)

Unnamed: 0,nconst,primaryName,primaryProfession,knownForTitles
0,1,Fred Astaire,"[actor, miscellaneous, producer]",[tt0072308]
4,2,Lauren Bacall,"[actress, soundtrack, archive_footage]",[tt0037382]
8,3,Brigitte Bardot,"[actress, music_department, producer]",[tt0057345]
12,4,John Belushi,"[actor, writer, music_department]",[tt0077975]
15,5,Ingmar Bergman,"[writer, director, actor]",[tt0050986]
19,6,Ingrid Bergman,"[actress, producer, soundtrack]",[tt0034583]
23,7,Humphrey Bogart,"[actor, producer, miscellaneous]",[tt0034583]
27,8,Marlon Brando,"[actor, director, writer]",[tt0078788]
31,9,Richard Burton,"[actor, producer, director]",[tt0061184]
35,10,James Cagney,"[actor, director, producer]",[tt0029870]


In [107]:
df_nameBasics.shape

(65536, 4)

#### **Export du DataFrame nettoyé**

In [106]:
# Enregistrement du DataFrame nettoyé dans un nouveau fichier
movies_cleaned_name_basics = df_nameBasics.to_csv('cleaned_name_basics.csv', index=False)