# Exploration du dataset
- Aperçu général: colonnes, valeurs manquantes, duplicats, types de données
- Vérification et nettoyage minimal (si nécéssaire)

In [49]:
import pandas as pd

df = pd.read_csv("data/netflix_titles.csv")

# Afficher les colonnes
print("Colonnes :", end=" ")
for c in df.columns:
    print(c.title(), end=", ")

# Compter les valeurs manquantes par colonne
print("\n\nValeurs manquantes par colonne :")
print(df.isna().sum())

# Afficher le nombre de duplcats
print("\nNombre de doublons :", df.duplicated().sum())

# Afficher les types de données
print("\nTypes de données :")
print(df.dtypes.groupby(df.dtypes).size())

# Nettoyer les données en supprimant les doublons
df_cleaned = df.drop_duplicates()
print("\nDonnées nettoyées, doublons supprimés.")

Colonnes : Show_Id, Type, Title, Director, Cast, Country, Date_Added, Release_Year, Rating, Duration, Listed_In, Description, 

Valeurs manquantes par colonne :
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64

Nombre de doublons : 0

Types de données :
int64      1
object    11
dtype: int64

Données nettoyées, doublons supprimés.


# Analyse des contenus
- Films vs séries : proportions, tendances par année.
- Genres principaux (listed_in) : regroupement, fréquences.
- Répartition géographique (country).
- Casting & réalisateurs : analyse simple (comptages, noms fréquents).

In [None]:
import pandas as pd

pd.set_option('display.max_rows', None)
df = pd.read_csv("data/netflix_titles.csv")

# Afficher le nombre total de films et son pourcentage
total_movies = df[df["type"] == "Movie"]
print("Nombre total de films :", len(total_movies), " (", round(len(total_movies) / len(df) * 100, 2), "%)")

# Afficher le nombre total de séries et son pourcentage
total_series = df[df["type"] == "TV Show"]
print("Nombre total de séries :", len(total_series), " (", round(len(total_series) / len(df) * 100, 2), "%)")

# Afficher le nombre de films et séries par année de sortie
print("\nNombre de films et séries par année de sortie :")
pivot_df = df.pivot_table(index='type', columns='release_year', values='show_id', aggfunc='count', fill_value=0)
#print(pivot_df)

# Afficher le nombre de films et séries par catégorie
df_listed_in = df.dropna(subset=['listed_in']).copy()
df_listed_in['listed_in'] = df_listed_in['listed_in'].str.split(', ') # Séparer les catégories
df_exploded = df_listed_in.explode('listed_in') # Exploser les lignes pour chaque catégorie
category_type_counts = df_exploded.groupby(['listed_in', 'type'])['show_id'].count().unstack(fill_value=0) # Grouper et compter
print("\nNombre de films et séries par catégorie :")
#print(category_type_counts)

# Afficher le nombre de films et séries par pays
df_countries = df.dropna(subset=['country']).copy()
df_countries['country'] = df_countries['country'].str.split(', ') # Séparer les pays
df_exploded = df_countries.explode('country') # Exploser les lignes pour chaque pays
country_type_counts = df_exploded.groupby(['country', 'type'])['show_id'].count().unstack(fill_value=0) # Grouper et compter le nombre de films et séries par pays
print("\nNombre de films et séries par pays (multi-pays comptés) :")
#print(country_type_counts)

# Afficher les 10 acteurs les plus fréquents
df_cast = df.dropna(subset=['cast']).copy()
df_cast['cast'] = df_cast['cast'].str.split(', ') # Séparer les acteurs
df_exploded = df_cast.explode('cast') # Exploser les lignes pour chaque acteur
actor_counts = df_exploded['cast'].value_counts().head(10) # Compter les acteurs les plus fréquents
print("\nLes 10 acteurs les plus fréquents :")
#print(actor_counts)

# Afficher les 10 réalisateurs les plus fréquents
df_directors = df.dropna(subset=['director']).copy()
df_directors['director'] = df_directors['director'].str.split(', ') # Séparer les réalisateurs
df_exploded = df_directors.explode('director') # Exploser les lignes pour chaque réalisateur
director_counts = df_exploded['director'].value_counts().head(10) # Compter les réalisateurs les plus fréquents
print("\nLes 10 réalisateurs les plus fréquents :")
#print(director_counts)

Nombre total de films : 6131  ( 69.62 %)
Nombre total de séries : 2676  ( 30.38 %)

Nombre de films et séries par année de sortie :

Nombre de films et séries par catégorie :

Nombre de films et séries par pays (multi-pays comptés) :

Les 10 acteurs les plus fréquents :

Les 10 réalisateurs les plus fréquents :
director
Rajiv Chilaka          22
Jan Suter              21
Raúl Campos            19
Marcus Raboy           16
Suhas Kadav            16
Jay Karas              15
Cathy Garcia-Molina    13
Martin Scorsese        12
Jay Chapman            12
Youssef Chahine        12
Name: count, dtype: int64


# Analyse temporelle
- Distribution par année de sortie (release_year).
- Analyse de la colonne date_added.

# Visualisation
- Représentations obligatoires :
- histogrammes, countplots, boxplots (Seaborn / Matplotlib)
- visualisations interactives (Plotly)
- Choix libres : nuages de mots, diagrammes circulaires, timelines, etc.

# Synthèse
- Résumé des observations principales.
- Tendances remarquables (contenus récents, pays dominants, genres populaires).