# Title Principals



**Phase 1:** Nettoyage

**Gestion des valeurs manquantes :**
Identifier les valeurs manquantes dans les colonnes clés.
Déterminer si les valeurs manquantes peuvent être remplacées par des valeurs par défaut, interpolées à partir d'autres données ou si elles doivent être supprimées.

**Nettoyage des doublons :**
Identifier et supprimer les entrées en double, conserver l'entrée la plus pertinente ou la plus récente en fonction des critères de sélection.

**Validation des données :**
Vérifier la cohérence des données.
Examiner les champs tels que les durées des films, les budgets, les notes des utilisateurs, etc., pour détecter les valeurs aberrantes ou incohérentes.

**Normalisation des données :**
Harmoniser les valeurs des champs tels que les noms des genres, les noms des réalisateurs, etc., pour éviter les variations et les erreurs orthographiques.

**Gestion des formats de données :**
Convertir les données dans des formats appropriés, par exemple en convertissant les dates en objets de date/heure, en normalisant les noms de fichiers d'images, etc.

**Traitement des données textuelles :**
Prétraiter les données textuelles comme les descriptions de films, les critiques, etc., en supprimant la ponctuation, en normalisant la casse, en supprimant les mots vides, etc., pour faciliter l'analyse de texte.

**Gestion des données non structurées :**
Utiliser des techniques d'apprentissage automatique pour extraire des informations pertinentes et les intégrer dans votre analyse.

**Sécurité des données :**
Respecter les réglementations en matière de confidentialité des données, notamment en anonymisant les données personnelles des utilisateurs si nécessaire.

In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [20]:
movies_title_principals = "D:\\Projo\\Projet-Data-IA\\title_principals\\movies_title_principals.csv"  
movies_title_principals = pd.read_csv(movies_title_principals, sep=',', na_values='\\N')

In [21]:
# Forme du dataframe
movies_title_principals.shape

(7796028, 6)

In [22]:
movies_title_principals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7796028 entries, 0 to 7796027
Data columns (total 6 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   tconst      object
 1   ordering    int64 
 2   nconst      object
 3   category    object
 4   job         object
 5   characters  object
dtypes: int64(1), object(5)
memory usage: 356.9+ MB


In [23]:
movies_title_principals.describe()

Unnamed: 0,ordering
count,7796028.0
mean,8.218573
std,5.445857
min,1.0
25%,4.0
50%,7.0
75%,12.0
max,57.0


In [24]:
# Proportion (%) de valeurs nulle
movies_title_principals.isna().sum() / movies_title_principals.shape[0] * 100

tconst         0.000000
ordering       0.000000
nconst         0.000000
category       0.000000
job           80.989037
characters    60.301541
dtype: float64

In [25]:
movies_title_principals.dtypes

tconst        object
ordering       int64
nconst        object
category      object
job           object
characters    object
dtype: object

In [26]:
# # Supprimer les deux premiers caractères de chaque valeur dans la colonne nconst
# movies_title_principals['nconst'] = movies_title_principals['nconst'].str[2:]

# # Convertir la colonne nconst en int64
# movies_title_principals['nconst'] = movies_title_principals['nconst'].astype('int32')

# # Supprimer les deux premiers caractères de chaque valeur dans la colonne nconst
# movies_title_principals['tconst'] = movies_title_principals['tconst'].str[2:]

# # Convertir la colonne nconst en int64
# movies_title_principals['tconst'] = movies_title_principals['tconst'].astype('int16')


In [27]:
# Suppression des colonnes 
movies_title_principals.drop(columns=['job', 'characters'], axis=1, inplace=True)


In [28]:
movies_title_principals.head(20)

Unnamed: 0,tconst,ordering,nconst,category
0,tt0000009,1,nm0063086,actress
1,tt0000009,2,nm0183823,actor
2,tt0000009,3,nm1309758,actor
3,tt0000009,4,nm0085156,director
4,tt0000009,5,nm0085156,writer
5,tt0000009,6,nm0085156,producer
6,tt0000009,7,nm0085156,cinematographer
7,tt0000147,1,nm0179163,self
8,tt0000147,2,nm0280615,self
9,tt0000147,3,nm4082222,self


In [29]:
movies_title_principals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7796028 entries, 0 to 7796027
Data columns (total 4 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   tconst    object
 1   ordering  int64 
 2   nconst    object
 3   category  object
dtypes: int64(1), object(3)
memory usage: 237.9+ MB


In [30]:
# Proportion (%) de valeurs nulle
movies_title_principals.isna().sum() / movies_title_principals.shape[0] * 100

tconst      0.0
ordering    0.0
nconst      0.0
category    0.0
dtype: float64

In [31]:
# Supprimer les doublons dans le DataFrame dtitles_principals
movies_title_principals.drop(columns=['ordering'], inplace=True)

In [32]:
movies_title_principals.head(20)

Unnamed: 0,tconst,nconst,category
0,tt0000009,nm0063086,actress
1,tt0000009,nm0183823,actor
2,tt0000009,nm1309758,actor
3,tt0000009,nm0085156,director
4,tt0000009,nm0085156,writer
5,tt0000009,nm0085156,producer
6,tt0000009,nm0085156,cinematographer
7,tt0000147,nm0179163,self
8,tt0000147,nm0280615,self
9,tt0000147,nm4082222,self


In [33]:
movies_title_principals.shape

(7796028, 3)

#### **Export du DataFrame nettoyé**

In [34]:
# Enregistrement du DataFrame nettoyé dans un nouveau fichier
movies_title_principals_cleaned = movies_title_principals.to_csv('movies_title_principals_cleaned.csv', index=False)