In [2]:
#Import des librairies utilisees et chargement du fichier
import numpy as np
import pandas as pd
import matplotlib as plt
import seaborn as sbn
import plotly as px

df = pd.read_csv("netflix_titles.csv")


In [3]:
#Exploration initiale du dataset
print("5 premieres lignes du dataset\n")
print(df.head())
print()

print("5 dernieres lignes du dataset\n")
print(df.tail())
print()

print("Dimensions du dataset\n")
print(df.shape)
print()

print("Colonnes du dataset")
print(df.columns)
print()

print("Informations du dataset")
print(df.info())
print()

5 premieres lignes du dataset

  show_id     type                  title         director  \
0      s1    Movie   Dick Johnson Is Dead  Kirsten Johnson   
1      s2  TV Show          Blood & Water              NaN   
2      s3  TV Show              Ganglands  Julien Leclercq   
3      s4  TV Show  Jailbirds New Orleans              NaN   
4      s5  TV Show           Kota Factory              NaN   

                                                cast        country  \
0                                                NaN  United States   
1  Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...   South Africa   
2  Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...            NaN   
3                                                NaN            NaN   
4  Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...          India   

           date_added  release_year rating   duration  \
0  September 25, 2021          2020  PG-13     90 min   
1  September 24, 2021          2021  TV-MA  2 Seasons  

In [4]:
#Analyse nombre manquants et duplicats

#Nombre de valeurs manquantes avant
print("Nombre de valeurs manquantes")
print(df.isna().sum())
print()

#Nombre de duplicats avant
print("Nombre de duplicats")
print(df.duplicated().sum())
print()

Nombre de valeurs manquantes
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64

Nombre de duplicats
0



In [5]:
#Nettoyage du dataset

#Remplissage des valeurs manquantes par "Unknown"
cols_a_remplir = ["director", "cast", "country", "rating", "duration"]
df[cols_a_remplir] = df[cols_a_remplir].fillna("Unknown")

#Conversion des dates d'ajout vers le format datetime
df["date_added"] = pd.to_datetime(df["date_added"], errors="coerce")

#Nettoyage des chaines de caractere
df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)

#Nombre de valeurs manquantes apres
print("Nombre de valeurs manquantes")
print(df.isna().sum())
print()

Nombre de valeurs manquantes
show_id          0
type             0
title            0
director         0
cast             0
country          0
date_added      98
release_year     0
rating           0
duration         0
listed_in        0
description      0
dtype: int64



  df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)


In [12]:
#Analyse des proportions

#Proportion film vs serie
print(round(df["type"].value_counts(normalize=True) * 100, 2))

#Proportion des genres de film
genres = df['listed_in'].str.split(", ", expand=True).stack()
genre_prop = round(genres.value_counts(normalize=True) * 100, 2)
print("Proportions des 15 genres les plus frequents")
print(genre_prop)
print()

#Proportion des pays producteurs
countries = df['country'].str.split(", ", expand=True).stack()
country_prop = countries.value_counts(normalize=True) * 100
print("Proportions des 15 pays les plus frequents")
print(country_prop)
print()

#Nombre de films/series sortis par annee
print("Nombre de filma sortis par annee")
print(df.groupby(['release_year', 'type'])['show_id'].count().unstack(fill_value=0))
print()

type
Movie      69.62
TV Show    30.38
Name: proportion, dtype: float64
Proportions des 15 genres les plus frequents
International Movies            14.24
Dramas                          12.56
Comedies                         8.66
International TV Shows           6.99
Documentaries                    4.50
Action & Adventure               4.45
TV Dramas                        3.95
Independent Movies               3.91
Children & Family Movies         3.32
Romantic Movies                  3.19
TV Comedies                      3.01
Thrillers                        2.99
Crime TV Shows                   2.43
Kids' TV                         2.33
Docuseries                       2.04
Music & Musicals                 1.94
Romantic TV Shows                1.91
Horror Movies                    1.85
Stand-Up Comedy                  1.78
Reality TV                       1.32
British TV Shows                 1.31
Sci-Fi & Fantasy                 1.26
Sports Movies                    1.13
Anime Ser

In [14]:
#Analyse frequence realisateurs et acteurs

# Séparer les réalisateurs si plusieurs sont listés
directors = df['director'].str.split(", ", expand=True).stack()

# Compter les occurrences de chaque réalisateur
director_counts = directors.value_counts()

print("Nombre de films par directeurs")
print(director_counts)
print()

# Proportion des realisateurs
director_proportions = director_counts / len(df) * 100
print("Proportion des realisateurs")
print(director_proportions)
print()

# Séparer les acteurs si plusieurs sont listés
actors = df['cast'].str.split(", ", expand=True).stack()

# Compter les occurrences de chaque acteur
actor_counts = actors.value_counts()

print("15 acteurs les plus frequents\n")
print(actor_counts)
print()

# Proportion des acteurs
actor_proportions = actor_counts / len(df) * 100
print("Proportion des acteurs")
print(actor_proportions)
print()


Nombre de films par directeurs
Unknown                    2634
Rajiv Chilaka                22
Jan Suter                    21
Raúl Campos                  19
Suhas Kadav                  16
                           ... 
Mu Chu                        1
Chandra Prakash Dwivedi       1
Majid Al Ansari               1
Peter Hewitt                  1
Mozez Singh                   1
Name: count, Length: 4994, dtype: int64

Proportion des realisateurs
Unknown                    29.908028
Rajiv Chilaka               0.249801
Jan Suter                   0.238447
Raúl Campos                 0.215737
Suhas Kadav                 0.181674
                             ...    
Mu Chu                      0.011355
Chandra Prakash Dwivedi     0.011355
Majid Al Ansari             0.011355
Peter Hewitt                0.011355
Mozez Singh                 0.011355
Name: count, Length: 4994, dtype: float64

15 acteurs les plus frequents

Unknown             825
Anupam Kher          43
Shah Rukh Khan     