# Title Principals



**Phase 1:** Nettoyage

**Gestion des valeurs manquantes :**
Identifier les valeurs manquantes dans les colonnes clés.
Déterminer si les valeurs manquantes peuvent être remplacées par des valeurs par défaut, interpolées à partir d'autres données ou si elles doivent être supprimées.

**Nettoyage des doublons :**
Identifier et supprimer les entrées en double, conserver l'entrée la plus pertinente ou la plus récente en fonction des critères de sélection.

**Validation des données :**
Vérifier la cohérence des données.
Examiner les champs tels que les durées des films, les budgets, les notes des utilisateurs, etc., pour détecter les valeurs aberrantes ou incohérentes.

**Normalisation des données :**
Harmoniser les valeurs des champs tels que les noms des genres, les noms des réalisateurs, etc., pour éviter les variations et les erreurs orthographiques.

**Gestion des formats de données :**
Convertir les données dans des formats appropriés, par exemple en convertissant les dates en objets de date/heure, en normalisant les noms de fichiers d'images, etc.

**Traitement des données textuelles :**
Prétraiter les données textuelles comme les descriptions de films, les critiques, etc., en supprimant la ponctuation, en normalisant la casse, en supprimant les mots vides, etc., pour faciliter l'analyse de texte.

**Gestion des données non structurées :**
Utiliser des techniques d'apprentissage automatique pour extraire des informations pertinentes et les intégrer dans votre analyse.

**Sécurité des données :**
Respecter les réglementations en matière de confidentialité des données, notamment en anonymisant les données personnelles des utilisateurs si nécessaire.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df_titlePrincipals = pd.read_csv("D:/Projo/Projet-Data-IA/BDD_creuse/title.principals.tsv",  sep='\t')
df_titlePrincipals.head()

Unnamed: 0,tconst,ordering,nconst,category,job,characters
0,tt0000001,1,nm1588970,self,\N,"[""Self""]"
1,tt0000001,2,nm0005690,director,\N,\N
2,tt0000001,3,nm0005690,producer,producer,\N
3,tt0000001,4,nm0374658,cinematographer,director of photography,\N
4,tt0000002,1,nm0721526,director,\N,\N


In [3]:
# Forme du dataframe
df_titlePrincipals.shape

(84893365, 6)

In [4]:
df_titlePrincipals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84893365 entries, 0 to 84893364
Data columns (total 6 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   tconst      object
 1   ordering    int64 
 2   nconst      object
 3   category    object
 4   job         object
 5   characters  object
dtypes: int64(1), object(5)
memory usage: 3.8+ GB


In [5]:
df_titlePrincipals.describe()

Unnamed: 0,ordering
count,84893360.0
mean,6.999683
std,5.142758
min,1.0
25%,3.0
50%,6.0
75%,10.0
max,75.0


In [6]:
# Proportion (%) de valeurs nulle
df_titlePrincipals.isna().sum() / df_titlePrincipals.shape[0] * 100

tconst        0.0
ordering      0.0
nconst        0.0
category      0.0
job           0.0
characters    0.0
dtype: float64

In [7]:
df_titlePrincipals.dtypes

tconst        object
ordering       int64
nconst        object
category      object
job           object
characters    object
dtype: object

In [8]:
# Supprimer les deux premiers caractères de chaque valeur dans la colonne nconst
df_titlePrincipals['nconst'] = df_titlePrincipals['nconst'].str[2:]

# Convertir la colonne nconst en int64
df_titlePrincipals['nconst'] = df_titlePrincipals['nconst'].astype('int32')

# Supprimer les deux premiers caractères de chaque valeur dans la colonne nconst
df_titlePrincipals['tconst'] = df_titlePrincipals['tconst'].str[2:]

# Convertir la colonne nconst en int64
df_titlePrincipals['tconst'] = df_titlePrincipals['tconst'].astype('int16')


df_titlePrincipals.head()

Unnamed: 0,tconst,ordering,nconst,category,job,characters
0,1,1,1588970,self,\N,"[""Self""]"
1,1,2,5690,director,\N,\N
2,1,3,5690,producer,producer,\N
3,1,4,374658,cinematographer,director of photography,\N
4,2,1,721526,director,\N,\N
