## **Phase 1:** Nettoyage

**Gestion des valeurs manquantes :**
Identifier les valeurs manquantes dans les colonnes clés.
Déterminer si les valeurs manquantes peuvent être remplacées par des valeurs par défaut, interpolées à partir d'autres données ou si elles doivent être supprimées.

**Nettoyage des doublons :**
Identifier et supprimer les entrées en double, conserver l'entrée la plus pertinente ou la plus récente en fonction des critères de sélection.

**Validation des données :**
Vérifier la cohérence des données.
Examiner les champs tels que les durées des films, les budgets, les notes des utilisateurs, etc., pour détecter les valeurs aberrantes ou incohérentes.

**Normalisation des données :**
Harmoniser les valeurs des champs tels que les noms des genres, les noms des réalisateurs, etc., pour éviter les variations et les erreurs orthographiques.

**Gestion des formats de données :**
Convertir les données dans des formats appropriés, par exemple en convertissant les dates en objets de date/heure, en normalisant les noms de fichiers d'images, etc.

**Traitement des données textuelles :**
Prétraiter les données textuelles comme les descriptions de films, les critiques, etc., en supprimant la ponctuation, en normalisant la casse, en supprimant les mots vides, etc., pour faciliter l'analyse de texte.

**Gestion des données non structurées :**
Utiliser des techniques d'apprentissage automatique pour extraire des informations pertinentes et les intégrer dans votre analyse.

**Sécurité des données :**
Respecter les réglementations en matière de confidentialité des données, notamment en anonymisant les données personnelles des utilisateurs si nécessaire.

In [36]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [37]:
# Chargement du DataFrame
name_basics_path = 'D:\\Projo\\Projet-Data-IA\\BDD_creuse\\name.basics.tsv'
df_nameBasics = pd.read_csv(name_basics_path, sep='\t', na_values='\\N')

In [38]:
#forme du dataframe
df_nameBasics.shape

(13387604, 6)

In [39]:
df_nameBasics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13387604 entries, 0 to 13387603
Data columns (total 6 columns):
 #   Column             Dtype  
---  ------             -----  
 0   nconst             object 
 1   primaryName        object 
 2   birthYear          float64
 3   deathYear          float64
 4   primaryProfession  object 
 5   knownForTitles     object 
dtypes: float64(2), object(4)
memory usage: 612.8+ MB


In [40]:
# Proportion (%) des valeurs nulles
df_nameBasics.isna().sum() / len(df_nameBasics) * 100

nconst                0.000000
primaryName           0.000418
birthYear            95.352395
deathYear            98.305186
primaryProfession    19.148721
knownForTitles       10.978529
dtype: float64

In [41]:
df_nameBasics.dtypes

nconst                object
primaryName           object
birthYear            float64
deathYear            float64
primaryProfession     object
knownForTitles        object
dtype: object

In [42]:
# Supprimer les deux premiers caractères de chaque valeur dans la colonne nconst
df_nameBasics['nconst'] = df_nameBasics['nconst'].str[2:]

# Convertir la colonne nconst en int64
df_nameBasics['nconst'] = df_nameBasics['nconst'].astype('int16')

In [43]:
df_nameBasics.drop(columns=['birthYear', 'deathYear'], inplace=True)

In [44]:
# Convertir les valeurs non-chaînes en une liste vide
df_nameBasics['primaryProfession'] = df_nameBasics['primaryProfession'].apply(lambda x: [] if isinstance(x, float) else x)

# Diviser la chaîne en une liste et retirer les virgules
df_nameBasics['primaryProfession'] = df_nameBasics['primaryProfession'].apply(lambda x: [profession.strip() for profession in x.split(',')] if isinstance(x, str) else [])


In [45]:
# Convertir les valeurs non-chaînes en une liste vide
df_nameBasics['knownForTitles'] = df_nameBasics['knownForTitles'].apply(lambda x: [] if isinstance(x, float) else x)

# Diviser la chaîne en une liste et retirer les virgules
df_nameBasics['knownForTitles'] = df_nameBasics['knownForTitles'].apply(lambda x: [title.strip() for title in x.split(',')] if isinstance(x, str) else [])


In [46]:
# Afficher les premières lignes pour vérifier le résultat
df_nameBasics.head(20)

Unnamed: 0,nconst,primaryName,primaryProfession,knownForTitles
0,1,Fred Astaire,"[actor, miscellaneous, producer]","[tt0072308, tt0050419, tt0053137, tt0027125]"
1,2,Lauren Bacall,"[actress, soundtrack, archive_footage]","[tt0037382, tt0075213, tt0117057, tt0038355]"
2,3,Brigitte Bardot,"[actress, music_department, producer]","[tt0057345, tt0049189, tt0056404, tt0054452]"
3,4,John Belushi,"[actor, writer, music_department]","[tt0072562, tt0077975, tt0080455, tt0078723]"
4,5,Ingmar Bergman,"[writer, director, actor]","[tt0050986, tt0083922, tt0050976, tt0069467]"
5,6,Ingrid Bergman,"[actress, producer, soundtrack]","[tt0034583, tt0036855, tt0038109, tt0038787]"
6,7,Humphrey Bogart,"[actor, producer, miscellaneous]","[tt0034583, tt0042593, tt0043265, tt0037382]"
7,8,Marlon Brando,"[actor, director, writer]","[tt0078788, tt0068646, tt0047296, tt0070849]"
8,9,Richard Burton,"[actor, producer, director]","[tt0061184, tt0087803, tt0059749, tt0057877]"
9,10,James Cagney,"[actor, director, producer]","[tt0029870, tt0031867, tt0042041, tt0035575]"


#### **Export du DataFrame nettoyé**

In [47]:
# Enregistrement du DataFrame nettoyé dans un nouveau fichier
df_nameBasics.to_csv('cleaned_name_basics.csv', index=False)

## **Phase 2:**   Analyse et Visualisation des données