In [None]:
pip install pandas matplotlib seaborn

In [None]:
# Analyse Exploratoire — Dataset Netflix

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker


# CHARGEMENT


df = pd.read_csv(r"C:\Users\maath\notebook\netflix.csv")

print(f" Lignes × Colonnes : {df.shape}")
print(f" Colonnes : {list(df.columns)}")

#  NETTOYAGE


# Remplacer les valeurs manquantes
df['country'] = df['country'].fillna('Unknown')
df['rating']  = df['rating'].fillna('NR')

# Supprimer les lignes sans titre ou sans type
df = df.dropna(subset=['title', 'type'])

# Extraire la durée en nombre ("152 min" → 152 / "4 Seasons" → 4)
df['duree_num'] = df['duration'].str.split().str[0].astype(float)

print(f"\n Données nettoyées — {len(df)} contenus prêts.")

# STATISTIQUES

films  = df[df['type'] == 'Movie']
series = df[df['type'] == 'TV Show']

print(f"\n Films        : {len(films)}")
print(f" Séries       : {len(series)}")
print(f" Pays uniques : {df['country'].nunique()}")
print(f" Années       : {df['release_year'].min()} – {df['release_year'].max()}")
print(f"\n  Durée moyenne films  : {films['duree_num'].mean():.0f} min")
print(f" Saisons moyennes     : {series['duree_num'].mean():.1f} saisons")

print("\n Top 5 pays :")
print(df['country'].value_counts().head())

print("\n  Top ratings :")
print(df['rating'].value_counts().head())

#  HISTOGRAMMES


fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Analyse Netflix', fontsize=16, fontweight='bold')

rouge = '#E50914'

# -- Graphique 1 : Films vs Séries --
counts = df['type'].value_counts()
axes[0, 0].bar(counts.index, counts.values, color=[rouge, '#221F1F'])
axes[0, 0].set_title('Films vs Series')
axes[0, 0].set_ylabel('Nombre')

# -- Graphique 2 : Durée des films --
axes[0, 1].hist(films['duree_num'].dropna(), bins=15, color=rouge, edgecolor='white')
axes[0, 1].axvline(films['duree_num'].mean(), color='gold', linestyle='--',
                   label=f"Moyenne : {films['duree_num'].mean():.0f} min")
axes[0, 1].set_title('Duree des Films')
axes[0, 1].set_xlabel('Minutes')
axes[0, 1].legend()

# -- Graphique 3 : Contenus par année --
annees = df['release_year'].value_counts().sort_index()
axes[1, 0].bar(annees.index, annees.values, color=rouge, edgecolor='white')
axes[1, 0].set_title('Contenus par Annee')
axes[1, 0].set_xlabel('Annee')
plt.setp(axes[1, 0].get_xticklabels(), rotation=45)

# -- Graphique 4 : Top genres --
top_genres = df['listed_in'].value_counts().head(8)
axes[1, 1].barh(top_genres.index[::-1], top_genres.values[::-1], color=rouge)
axes[1, 1].set_title('Top Genres')
axes[1, 1].set_xlabel('Nombre')

plt.tight_layout()
plt.savefig('netflix_histogrammes.png', dpi=150, bbox_inches='tight')
print("\n Graphique sauvegarde : netflix_histogrammes.png")