<h1> Exercice </h1>

Le dataset "Titres Netflix" est une compilation exhaustive de films et de séries télévisées disponibles sur Netflix, couvrant divers aspects tels que le type de titre, le réalisateur, les acteurs, le pays de production, l'année de sortie, la classification, la durée, les genres (répertoriés dans) et une brève description. Ce dataset est essentiel pour analyser les tendances du contenu Netflix, comprendre la popularité des genres et examiner la distribution du contenu à travers différentes régions et périodes.

Les colonnes : 
- show_id : Un identifiant unique pour chaque titre.
- type : La catégorie du titre, qui peut être 'Film' ou 'Série télévisée'.
- title : Le nom du film ou de la série télévisée.
- director : Le(s) réalisateur(s) du film ou de la série télévisée. (Contient des valeurs nulles pour certaines entrées, en particulier les séries télévisées où cette information peut ne pas être applicable.)
- cast : La liste des acteurs principaux du titre. (Certaines entrées peuvent ne pas avoir cette information.)
- country : Le pays ou les pays où le film ou la série télévisée a été produit.
- date_added : La date à laquelle le titre a été ajouté à Netflix.
- release_year : L'année de sortie originale du film ou de la série télévisée.
- rating : La classification par âge du titre.
- duration : La durée du titre, en minutes pour les films et en saisons pour les séries télévisées.
- listed_in : Les genres auxquels appartient le titre.
- description : Un bref résumé du titre.

<h1> Enoncé </h1>

<h2> data cleaning & data modeling </h2>

<b> 1) Importation du fichier </b>

Tentez d'importer le fichier netflix_titles.csv. Si vous rencontrez une erreur, celle-ci est probablement liée à un problème d'encodage. Trouvez l'encodage adéquat pour lire le fichier correctement.

<b> 2) Création d'une copie du DataFrame </b>

Créez une copie de votre DataFrame dans une nouvelle variable afin de conserver les données originales accessibles.

<b> 3) Suppression des colonnes inutiles </b>

Vérifiez que les colonnes nommées "Unnamed:..." en fin de DataFrame ne contiennent aucune donnée, puis supprimez-les.

<b> 4) Définition d'un nouvel index </b>

Assurez-vous que la colonne "Show_id" ne possède ni valeur nulle ni doublon. Si c'est le cas, définissez show_id comme index du DataFrame.

<b> 5) Correction du type de colonne </b>
Vérifiez le type de la colonne "Date_added" et corrigez-le avec le type adéquat si nécessaire.

<b> 6) Gestion de la colonne "Duration" </b>

- Confirmez que la colonne "Type" contient uniquement les valeurs 'Movie' et 'TV Show'.
- Examinez la nomenclature des valeurs de la colonne "Duration".
- Via un groupby, vérifiez que les durées sont bien associées à une durée en minutes pour les films et à un nombre de saisons pour les séries.
- Créez une nouvelle colonne 'duration (movies)' pour isoler le nombre de minutes pour les films. Assurez-vous que cette  colonne soit de type "float".
- Créez une colonne 'seasons (TV Show)' pour isoler le nombre de saisons pour les séries. Assurez-vous que cette colonne soit de type "float".
- Supprimez finalement la colonne 'Duration' du dataset.

<b> 7) Création de DataFrames annexes pour les valeurs séparées par des virgules </b>

Certaines colonnes comme country, cast et listed_in contiennent pour certains titres des séries de valeurs, sépérées par des virgules. Nous souhaitons créer des tableaux annexes permettant d'avoir chaque valeur de manière distincte.

Pour la colonne "Country" :
- Créez une colonne 'countries' en transformant les valeurs de la colonne 'country' en listes (via str.split).
- Créez un DataFrame 'countries_exploded' qui génère une ligne pour chaque pays via la méthode .explode().
- Isolez uniquement la colonne 'countries' dans le DataFrame 'countries_exploded' (non vue en cours, à vous de comprendre son fonctionnement : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html)
- Répétez ce processus pour les colonnes 'categories' (basée sur 'listed_in') et 'cast', créant respectivement les - DataFrames 'categories_exploded' et 'cast_list'.

<b> 8) Suppression des colonnes transformées </b>

Supprimez les trois colonnes transformées du DataFrame original.

<b> 9) Création de colonnes temporelles </b>

À partir de 'Date Added', créez des colonnes pour l'année d'ajout, le mois d'ajout et le jour de la semaine d'ajout.
Analyse des Données

<h2> Analyse des données </h2>

Tentez maintenant de répondre aux questions suivantes : 

1) Combien de "shows" sont présents dans ce dataset ?
2) Quelle est la répartition entre les types 'Movie' et 'TV Show' ?
3) Quelle est la répartition des ajouts en fonction de l'année ?
4) Quel est le top 5 des catégories de shows les plus ajoutées ?
5) Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ?
6) Quelle est la répartition des ajouts en fonction du jour de la semaine ?
7) Dans quel pays sont produits le plus de documentaires ?
8) En moyenne, combien de saisons ont les séries ?
9) Quelle est la distribution des films en fonction de leur durée (quartiles) ?
10) Combien de shows ont pour thématique la drogue (présence du mot "drug" dans la description) ?

In [22]:
#1 import des données avec le bon paramétrage
import pandas as pd

netflix = pd.read_csv('netflix_titles.csv' , encoding='latin1')
netflix.head(10)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,...,,,,,,,,,,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, JosÃ© Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,"September 24, 2021",2021,PG,91 min,...,,,,,,,,,,
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...","September 24, 2021",1993,TV-MA,125 min,...,,,,,,,,,,
8,s9,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom,"September 24, 2021",2021,TV-14,9 Seasons,...,,,,,,,,,,
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,...,,,,,,,,,,


<h1> Data Cleaning et data modeling</h1>

In [23]:
#2 Création d'une copie pour commencer le data cleaning
netflix_cleaning = netflix.copy()

In [24]:
#3 Gestion des colonnnes vides en fin de tableau

In [25]:
netflix_cleaning.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description',
       'Unnamed: 12', 'Unnamed: 13', 'Unnamed: 14', 'Unnamed: 15',
       'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18', 'Unnamed: 19',
       'Unnamed: 20', 'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23',
       'Unnamed: 24', 'Unnamed: 25'],
      dtype='object')

In [26]:
netflix_cleaning.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8809 entries, 0 to 8808
Data columns (total 26 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   show_id       8809 non-null   object 
 1   type          8809 non-null   object 
 2   title         8809 non-null   object 
 3   director      6175 non-null   object 
 4   cast          7984 non-null   object 
 5   country       7978 non-null   object 
 6   date_added    8799 non-null   object 
 7   release_year  8809 non-null   int64  
 8   rating        8805 non-null   object 
 9   duration      8806 non-null   object 
 10  listed_in     8809 non-null   object 
 11  description   8809 non-null   object 
 12  Unnamed: 12   0 non-null      float64
 13  Unnamed: 13   0 non-null      float64
 14  Unnamed: 14   0 non-null      float64
 15  Unnamed: 15   0 non-null      float64
 16  Unnamed: 16   0 non-null      float64
 17  Unnamed: 17   0 non-null      float64
 18  Unnamed: 18   0 non-null    

In [27]:
netflix_cleaning = netflix_cleaning[['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added','release_year', 'rating', 'duration', 'listed_in', 'description']]

netflix_cleaning.head(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [28]:
#4 définition d'un nouvel index avec show_id

In [29]:
netflix_cleaning.isnull().mean() * 100

show_id          0.000000
type             0.000000
title            0.000000
director        29.901237
cast             9.365422
country          9.433534
date_added       0.113520
release_year     0.000000
rating           0.045408
duration         0.034056
listed_in        0.000000
description      0.000000
dtype: float64

In [30]:
print(len(netflix_cleaning['show_id']))
print(netflix_cleaning['show_id'].nunique())

8809
8809


In [31]:
netflix_cleaning.set_index('show_id', inplace=True)
netflix_cleaning.head(3)

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...


In [32]:
#5 gestion des types de colonnes : date added

In [33]:
netflix_cleaning.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8809 entries, s1 to s8809
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   type          8809 non-null   object
 1   title         8809 non-null   object
 2   director      6175 non-null   object
 3   cast          7984 non-null   object
 4   country       7978 non-null   object
 5   date_added    8799 non-null   object
 6   release_year  8809 non-null   int64 
 7   rating        8805 non-null   object
 8   duration      8806 non-null   object
 9   listed_in     8809 non-null   object
 10  description   8809 non-null   object
dtypes: int64(1), object(10)
memory usage: 825.8+ KB


In [34]:
netflix_cleaning['date_added'] = pd.to_datetime(netflix_cleaning['date_added'].str.strip(), format='%B %d, %Y')
netflix_cleaning['date_added']

show_id
s1      2021-09-25
s2      2021-09-24
s3      2021-09-24
s4      2021-09-24
s5      2021-09-24
           ...    
s8805   2019-11-01
s8806   2020-01-11
s8807   2019-03-02
s8808   2024-04-05
s8809   2024-04-05
Name: date_added, Length: 8809, dtype: datetime64[ns]

In [35]:
#6 gestion des types de colonnes : duration
print(netflix_cleaning['type'].unique())
print(netflix_cleaning['duration'].unique())

['Movie' 'TV Show']
['90 min' '2 Seasons' '1 Season' '91 min' '125 min' '9 Seasons' '104 min'
 '127 min' '4 Seasons' '67 min' '94 min' '5 Seasons' '161 min' '61 min'
 '166 min' '147 min' '103 min' '97 min' '106 min' '111 min' '3 Seasons'
 '110 min' '105 min' '96 min' '124 min' '116 min' '98 min' '23 min'
 '115 min' '122 min' '99 min' '88 min' '100 min' '6 Seasons' '102 min'
 '93 min' '95 min' '85 min' '83 min' '113 min' '13 min' '182 min' '48 min'
 '145 min' '87 min' '92 min' '80 min' '117 min' '128 min' '119 min'
 '143 min' '114 min' '118 min' '108 min' '63 min' '121 min' '142 min'
 '154 min' '120 min' '82 min' '109 min' '101 min' '86 min' '229 min'
 '76 min' '89 min' '156 min' '112 min' '107 min' '129 min' '135 min'
 '136 min' '165 min' '150 min' '133 min' '70 min' '84 min' '140 min'
 '78 min' '7 Seasons' '64 min' '59 min' '139 min' '69 min' '148 min'
 '189 min' '141 min' '130 min' '138 min' '81 min' '132 min' '10 Seasons'
 '123 min' '65 min' '68 min' '66 min' '62 min' '74 min' '131 

In [36]:
netflix_cleaning.groupby(['type','duration'])['duration'].count()

type     duration 
Movie    10 min         1
         100 min      108
         101 min      116
         102 min      122
         103 min      114
                     ... 
TV Show  5 Seasons     65
         6 Seasons     33
         7 Seasons     23
         8 Seasons     17
         9 Seasons      9
Name: duration, Length: 220, dtype: int64

In [37]:
import numpy as np

netflix_cleaning['duration (movies)'] = np.nan
netflix_cleaning.loc[netflix_cleaning['type'] == 'Movie', 'duration (movies)'] = netflix_cleaning.loc[netflix_cleaning['type'] == 'Movie', 'duration'].str.replace(' min', '')
netflix_cleaning['duration (movies)'] = netflix_cleaning['duration (movies)'].astype(float)

netflix_cleaning['duration (movies)']

  netflix_cleaning.loc[netflix_cleaning['type'] == 'Movie', 'duration (movies)'] = netflix_cleaning.loc[netflix_cleaning['type'] == 'Movie', 'duration'].str.replace(' min', '')


show_id
s1        90.0
s2         NaN
s3         NaN
s4         NaN
s5         NaN
         ...  
s8805     88.0
s8806     88.0
s8807    111.0
s8808      NaN
s8809    110.0
Name: duration (movies), Length: 8809, dtype: float64

In [38]:
netflix_cleaning['seasons (TV Show)'] = np.nan
netflix_cleaning.loc[netflix_cleaning['type'] == 'TV Show', 'seasons (TV Show)'] = netflix_cleaning.loc[netflix_cleaning['type'] == 'TV Show', 'duration'].str.replace(' Seasons', '').str.replace(' Season','')

netflix_cleaning['seasons (TV Show)'] = netflix_cleaning['seasons (TV Show)'].astype(float)

netflix_cleaning['seasons (TV Show)']

  netflix_cleaning.loc[netflix_cleaning['type'] == 'TV Show', 'seasons (TV Show)'] = netflix_cleaning.loc[netflix_cleaning['type'] == 'TV Show', 'duration'].str.replace(' Seasons', '').str.replace(' Season','')


show_id
s1       NaN
s2       2.0
s3       1.0
s4       1.0
s5       2.0
        ... 
s8805    NaN
s8806    NaN
s8807    NaN
s8808    1.0
s8809    NaN
Name: seasons (TV Show), Length: 8809, dtype: float64

In [39]:
netflix_cleaning.drop(columns=['duration'], inplace=True)
netflix_cleaning.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8809 entries, s1 to s8809
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   type               8809 non-null   object        
 1   title              8809 non-null   object        
 2   director           6175 non-null   object        
 3   cast               7984 non-null   object        
 4   country            7978 non-null   object        
 5   date_added         8799 non-null   datetime64[ns]
 6   release_year       8809 non-null   int64         
 7   rating             8805 non-null   object        
 8   listed_in          8809 non-null   object        
 9   description        8809 non-null   object        
 10  duration (movies)  6129 non-null   float64       
 11  seasons (TV Show)  2677 non-null   float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(8)
memory usage: 1.1+ MB


In [40]:
#7 gestion des colonnes multi-valeurs : country
netflix_cleaning['country'].unique()

array(['United States', 'South Africa', nan, 'India',
       'United States, Ghana, Burkina Faso, United Kingdom, Germany, Ethiopia',
       'United Kingdom', 'Germany, Czech Republic', 'Mexico', 'Turkey',
       'Australia', 'United States, India, France', 'Finland',
       'China, Canada, United States',
       'South Africa, United States, Japan', 'Nigeria', 'Japan',
       'Spain, United States', 'France', 'Belgium',
       'United Kingdom, United States', 'United States, United Kingdom',
       'France, United States', 'South Korea', 'Spain',
       'United States, Singapore', 'United Kingdom, Australia, France',
       'United Kingdom, Australia, France, United States',
       'United States, Canada', 'Germany, United States',
       'South Africa, United States', 'United States, Mexico',
       'United States, Italy, France, Japan',
       'United States, Italy, Romania, United Kingdom',
       'Australia, United States', 'Argentina, Venezuela',
       'United States, United Kin

In [41]:
netflix_cleaning['countries'] = netflix_cleaning['country'].str.split(', ')
coutries_exploded = netflix_cleaning.explode('countries')
coutries_exploded = coutries_exploded['countries']
coutries_exploded.unique()

array(['United States', 'South Africa', nan, 'India', 'Ghana',
       'Burkina Faso', 'United Kingdom', 'Germany', 'Ethiopia',
       'Czech Republic', 'Mexico', 'Turkey', 'Australia', 'France',
       'Finland', 'China', 'Canada', 'Japan', 'Nigeria', 'Spain',
       'Belgium', 'South Korea', 'Singapore', 'Italy', 'Romania',
       'Argentina', 'Venezuela', 'Hong Kong', 'Russia', '', 'Ireland',
       'Nepal', 'New Zealand', 'Brazil', 'Greece', 'Jordan', 'Colombia',
       'Switzerland', 'Israel', 'Taiwan', 'Bulgaria', 'Algeria', 'Poland',
       'Saudi Arabia', 'Thailand', 'Indonesia', 'Egypt', 'Denmark',
       'Kuwait', 'Netherlands', 'Malaysia', 'Vietnam', 'Hungary',
       'Sweden', 'Lebanon', 'Syria', 'Philippines', 'Iceland',
       'United Arab Emirates', 'Norway', 'Qatar', 'Mauritius', 'Austria',
       'Cameroon', 'Palestine', 'Uruguay', 'United Kingdom,', 'Kenya',
       'Chile', 'Luxembourg', 'Cambodia', 'Bangladesh', 'Portugal',
       'Cayman Islands', 'Senegal', 'Serbia'

In [42]:
#gestion des colonnes multi-valeurs : listed_in (catégories)
netflix_cleaning['listed_in_list'] = netflix_cleaning['listed_in'].str.split(', ')
categories_exploded = netflix_cleaning.explode('listed_in_list')
categories_exploded = categories_exploded['listed_in_list']
categories_exploded.unique()

array(['Documentaries', 'International TV Shows', 'TV Dramas',
       'TV Mysteries', 'Crime TV Shows', 'TV Action & Adventure',
       'Docuseries', 'Reality TV', 'Romantic TV Shows', 'TV Comedies',
       'TV Horror', 'Children & Family Movies', 'Dramas',
       'Independent Movies', 'International Movies', 'British TV Shows',
       'Comedies', 'Spanish-Language TV Shows', 'Thrillers',
       'Romantic Movies', 'Music & Musicals', 'Horror Movies',
       'Sci-Fi & Fantasy', 'TV Thrillers', "Kids' TV",
       'Action & Adventure', 'TV Sci-Fi & Fantasy', 'Classic Movies',
       'Anime Features', 'Sports Movies', 'Anime Series',
       'Korean TV Shows', 'Science & Nature TV', 'Teen TV Shows',
       'Cult Movies', 'TV Shows', 'Faith & Spirituality', 'LGBTQ Movies',
       'Stand-Up Comedy', 'Movies', 'Stand-Up Comedy & Talk Shows',
       'Classic & Cult TV', 'Sci-fi', 'Horror', 'Action', 'Drama',
       'Romance', 'Thriller'], dtype=object)

In [43]:
# gestin des colonnes multi-valeurs : cast
netflix_cleaning['cast_list'] = netflix_cleaning['cast'].str.split(', ')
cast_list = netflix_cleaning.explode('cast_list')
cast_list = cast_list['cast_list']
cast_list.unique()

array([nan, 'Ama Qamata', 'Khosi Ngema', ..., 'Petr Drozda', 'John Comer',
       'Benedetta Degli Innocenti'], shape=(36467,), dtype=object)

In [44]:
coutries_exploded.to_csv('coutries_exploded.csv')
cast_list.to_csv('cast_list.csv')
categories_exploded.to_csv('categories_exploded.csv')

In [45]:
#8 cleaning des colonnes créées
netflix_cleaning.drop(columns=['countries','listed_in_list','cast_list'], inplace=True)
netflix_cleaning.head(3)

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration (movies),seasons (TV Show)
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,Documentaries,"As her father nears the end of his life, filmm...",90.0,
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,2.0
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,1.0


In [46]:
#9 creation des colonnes temporelles à partir de date added : Année d'ajout, Mois d'ajout, jour de la semaine d'ajout

In [47]:
netflix_cleaning['year added'] = netflix_cleaning['date_added'].dt.year
netflix_cleaning['month added'] = netflix_cleaning['date_added'].dt.month
netflix_cleaning['day of the week added'] = netflix_cleaning['date_added'].dt.dayofweek
netflix_cleaning.head(5)

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration (movies),seasons (TV Show),year added,month added,day of the week added
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,Documentaries,"As her father nears the end of his life, filmm...",90.0,,2021.0,9.0,5.0
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,2.0,2021.0,9.0,4.0
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,1.0,2021.0,9.0,4.0
s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,1.0,2021.0,9.0,4.0
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,2.0,2021.0,9.0,4.0


<h1> Analyse des données </h1>

In [48]:
#Combien de "show" sont présents dans ce dataset ?
len(netflix_cleaning)

8809

In [49]:
#Quelle est la répartition entre les types Movie et TV Show ?
netflix_cleaning['type'].value_counts()

type
Movie      6132
TV Show    2677
Name: count, dtype: int64

In [50]:
#Quelle est la répartition des ajouts en fonction de l'année ?
netflix_cleaning['year added'].value_counts()

year added
2019.0    2016
2020.0    1879
2018.0    1649
2021.0    1498
2017.0    1188
2016.0     429
2015.0      82
2014.0      24
2011.0      13
2013.0      11
2012.0       3
2009.0       2
2008.0       2
2024.0       2
2010.0       1
Name: count, dtype: int64

In [51]:
#Quel est le top 5 des catégories de show les plus ajoutés ?
categories_exploded.value_counts().head(5)

listed_in_list
International Movies      2752
Dramas                    2427
Comedies                  1674
International TV Shows    1351
Documentaries              869
Name: count, dtype: int64

In [52]:
#Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ?
merge_cast = pd.merge(cast_list, netflix_cleaning , how='inner', left_index=True, right_index=True)
merge_cast[merge_cast['country'].str.contains('United States') == True]['cast_list'].value_counts().head(5)

cast_list
Tara Strong          22
Samuel L. Jackson    22
Fred Tatasciore      21
Adam Sandler         20
James Franco         19
Name: count, dtype: int64

In [53]:
#6. Quelle est la répartition des ajouts en fonction du jour de la semaine ?
netflix_cleaning['day of the week added'].value_counts()

day of the week added
4.0    2500
3.0    1396
2.0    1288
1.0    1197
0.0     851
5.0     816
6.0     751
Name: count, dtype: int64

In [54]:
#7. Dans quel pays sont produits le plus de documentaires ?
merge_countries = pd.merge(coutries_exploded, netflix_cleaning , how='inner', left_index=True, right_index=True)
merge_countries[merge_countries['listed_in'].str.contains('Documentaries') == True]['countries'].value_counts().head(5)

countries
United States     511
United Kingdom    127
France             44
Canada             42
India              27
Name: count, dtype: int64

In [55]:
#8 En moyenne, combien de saisons ont une série ?
netflix_cleaning['seasons (TV Show)'].mean()

np.float64(1.7646619350018677)

In [56]:
#9
netflix_cleaning['duration (movies)'].describe()

count    6129.000000
mean       99.578887
std        28.288598
min         3.000000
25%        87.000000
50%        98.000000
75%       114.000000
max       312.000000
Name: duration (movies), dtype: float64

In [57]:
#10
drug_show = netflix_cleaning[netflix_cleaning['description'].str.contains('drug')]
print(len(drug_show))
drug_show.head(10)

158


Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration (movies),seasons (TV Show),year added,month added,day of the week added
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,1.0,2021.0,9.0,4.0
s18,TV Show,Falsa identidad,,"Luis Ernesto Franco, Camila Sodi, Sergio Goyri...",Mexico,2021-09-22,2020,TV-MA,"Crime TV Shows, Spanish-Language TV Shows, TV ...",Strangers Diego and Isabel flee their home in ...,,2.0,2021.0,9.0,2.0
s37,Movie,The Stronghold,CÃ©dric Jimenez,"Gilles Lellouche, Karim Leklou, FranÃ§ois Civi...",,2021-09-17,2021,TV-MA,"Action & Adventure, Dramas, International Movies","Tired of the small-time grind, three Marseille...",105.0,,2021.0,9.0,4.0
s135,Movie,Clear and Present Danger,Phillip Noyce,"Harrison Ford, Willem Dafoe, Anne Archer, Joaq...","United States, Mexico",2021-09-01,1994,PG-13,"Action & Adventure, Dramas","When the president's friend is murdered, CIA D...",142.0,,2021.0,9.0,2.0
s151,Movie,In Too Deep,Michael Rymer,"Omar Epps, LL Cool J, Nia Long, Stanley Tucci,...",United States,2021-09-01,1999,R,Thrillers,Rookie cop Jeffrey Cole poses as a drug dealer...,97.0,,2021.0,9.0,2.0
s311,TV Show,Cocaine Cowboys: The Kings of Miami,Billy Corben,,United States,2021-08-04,2021,TV-MA,"Crime TV Shows, Docuseries",Two childhood friends go from high school drop...,,1.0,2021.0,8.0,2.0
s319,Movie,Shiny_Flakes: The Teenage Drug Lord,"Eva MÃ¼ller, Michael Schmitt",Maximilian Schmidt,,2021-08-03,2021,TV-MA,"Documentaries, International Movies",Max S. reveals how he built a drug empire from...,97.0,,2021.0,8.0,1.0
s347,Movie,Pineapple Express,David Gordon Green,"Seth Rogen, James Franco, Danny McBride, Kevin...",United States,2021-08-01,2008,R,"Action & Adventure, Comedies","After witnessing a murder, a perpetually stone...",112.0,,2021.0,8.0,6.0
s468,Movie,Private Network: Who Killed Manuel BuendÃ­a?,Manuel AlcalÃ¡,Daniel GimÃ©nez Cacho,,2021-07-14,2021,TV-MA,"Documentaries, International Movies",A deep dive into the work of renowned Mexican ...,100.0,,2021.0,7.0,2.0
s497,Movie,Brick Mansions,Camille Delamarre,"Paul Walker, David Belle, RZA, Gouchy Boy, Cat...","France, Canada, United States, Spain",2021-07-07,2014,PG-13,"Action & Adventure, International Movies",An undercover police detective partners with a...,90.0,,2021.0,7.0,2.0
