<a href="https://colab.research.google.com/github/Mal-Lem/Pandas-pour-DS/blob/main/Atelier_1_Netflix_%C3%A9nonc%C3%A9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1> Exercice </h1>

Le dataset "Titres Netflix" est une compilation exhaustive de films et de séries télévisées disponibles sur Netflix, couvrant divers aspects tels que le type de titre, le réalisateur, les acteurs, le pays de production, l'année de sortie, la classification, la durée, les genres (répertoriés dans) et une brève description. Ce dataset est essentiel pour analyser les tendances du contenu Netflix, comprendre la popularité des genres et examiner la distribution du contenu à travers différentes régions et périodes.

Les colonnes :
- show_id : Un identifiant unique pour chaque titre.
- type : La catégorie du titre, qui peut être 'Film' ou 'Série télévisée'.
- title : Le nom du film ou de la série télévisée.
- director : Le(s) réalisateur(s) du film ou de la série télévisée. (Contient des valeurs nulles pour certaines entrées, en particulier les séries télévisées où cette information peut ne pas être applicable.)
- cast : La liste des acteurs principaux du titre. (Certaines entrées peuvent ne pas avoir cette information.)
- country : Le pays ou les pays où le film ou la série télévisée a été produit.
- date_added : La date à laquelle le titre a été ajouté à Netflix.
- release_year : L'année de sortie originale du film ou de la série télévisée.
- rating : La classification par âge du titre.
- duration : La durée du titre, en minutes pour les films et en saisons pour les séries télévisées.
- listed_in : Les genres auxquels appartient le titre.
- description : Un bref résumé du titre.

<h1> Enoncé </h1>

<h2> data cleaning & data modeling </h2>

<b> 1) Importation du fichier </b>

Tentez d'importer le fichier netflix_titles.csv. Si vous rencontrez une erreur, celle-ci est probablement liée à un problème d'encodage. Trouvez l'encodage adéquat pour lire le fichier correctement.

<b> 2) Création d'une copie du DataFrame </b>

Créez une copie de votre DataFrame dans une nouvelle variable afin de conserver les données originales accessibles.

<b> 3) Suppression des colonnes inutiles </b>

Vérifiez que les colonnes nommées "Unnamed:..." en fin de DataFrame ne contiennent aucune donnée, puis supprimez-les.

<b> 4) Définition d'un nouvel index </b>

Assurez-vous que la colonne "Show_id" ne possède ni valeur nulle ni doublon. Si c'est le cas, définissez show_id comme index du DataFrame.

<b> 5) Correction du type de colonne </b>
Vérifiez le type de la colonne "Date_added" et corrigez-le avec le type adéquat si nécessaire.

<b> 6) Gestion de la colonne "Duration" </b>

- Confirmez que la colonne "Type" contient uniquement les valeurs 'Movie' et 'TV Show'.
- Examinez la nomenclature des valeurs de la colonne "Duration".
- Via un groupby, vérifiez que les durées sont bien associées à une durée en minutes pour les films et à un nombre de saisons pour les séries.
- Créez une nouvelle colonne 'duration (movies)' pour isoler le nombre de minutes pour les films. Assurez-vous que cette  colonne soit de type "float".
- Créez une colonne 'seasons (TV Show)' pour isoler le nombre de saisons pour les séries. Assurez-vous que cette colonne soit de type "float".
- Supprimez finalement la colonne 'Duration' du dataset.

<b> 7) Création de DataFrames annexes pour les valeurs séparées par des virgules </b>

Certaines colonnes comme country, cast et listed_in contiennent pour certains titres des séries de valeurs, sépérées par des virgules. Nous souhaitons créer des tableaux annexes permettant d'avoir chaque valeur de manière distincte.

Pour la colonne "Country" :
- Créez une colonne 'countries' en transformant les valeurs de la colonne 'country' en listes (via str.split).
- Créez un DataFrame 'countries_exploded' qui génère une ligne pour chaque pays via la méthode .explode().
- Isolez uniquement la colonne 'countries' dans le DataFrame 'countries_exploded' (non vue en cours, à vous de comprendre son fonctionnement : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html)
- Répétez ce processus pour les colonnes 'categories' (basée sur 'listed_in') et 'cast', créant respectivement les - DataFrames 'categories_exploded' et 'cast_list'.

<b> 8) Suppression des colonnes transformées </b>

Supprimez les trois colonnes transformées du DataFrame original.

<b> 9) Création de colonnes temporelles </b>

À partir de 'Date Added', créez des colonnes pour l'année d'ajout, le mois d'ajout et le jour de la semaine d'ajout.
Analyse des Données

<h2> Analyse des données </h2>

Tentez maintenant de répondre aux questions suivantes :

1) Combien de "shows" sont présents dans ce dataset ?
2) Quelle est la répartition entre les types 'Movie' et 'TV Show' ?
3) Quelle est la répartition des ajouts en fonction de l'année ?
4) Quel est le top 5 des catégories de shows les plus ajoutées ?
5) Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ?
6) Quelle est la répartition des ajouts en fonction du jour de la semaine ?
7) Dans quel pays sont produits le plus de documentaires ?
8) En moyenne, combien de saisons ont les séries ?
9) Quelle est la distribution des films en fonction de leur durée (quartiles) ?
10) Combien de shows ont pour thématique la drogue (présence du mot "drug" dans la description) ?

<h1> Data Cleaning et data modeling</h1>

### Importation du fichier

In [None]:
import pandas as pd

url = '/content/netflix_titles.csv'
data = pd.read_csv(url,encoding='iso-8859-1')
data.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,...,,,,,,,,,,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,


### Création d'une copie du DataFrame

In [None]:
df = pd.DataFrame(data)
df_copy = df.copy()
df_copy.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,...,,,,,,,,,,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,


### Suppression des colonnes inutiles

In [None]:
df.columns.str.contains('Unnamed')
df.drop(df.columns[df.columns.str.contains('Unnamed')],axis=1,inplace=True)
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


### Définition d'un nouvel index

In [None]:
df['show_id'].isna().sum()
df['show_id'].duplicated().sum()
df.set_index('show_id',inplace=True)
df.head()

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


### Correction du type de colonne

In [None]:
df['date_added'].dtypes
df['date_added'] = pd.to_datetime(df['date_added'],format='%B %d, %Y',errors='coerce')
df['date_added'].dtype
df.head()

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


### Gestion de la colonne "Duration"

  Confirmez que la colonne "Type" contient uniquement les valeurs 'Movie'

et 'TV Show'.
  Examinez la nomenclature des valeurs de la colonne "Duration".
  Via un groupby, vérifiez que les durées sont bien associées à une durée en minutes pour les films et à un nombre de saisons pour les séries.
  Créez une nouvelle colonne 'duration (movies)' pour isoler le nombre de minutes pour les films. Assurez-vous que cette colonne soit de type "float".
  Créez une colonne 'seasons (TV Show)' pour isoler le nombre de saisons pour les séries. Assurez-vous que cette colonne soit de type "float".
  Supprimez finalement la colonne 'Duration' du dataset

In [None]:
df.type.unique()

array(['Movie', 'TV Show'], dtype=object)

In [None]:
df.duration.unique()

array(['90 min', '2 Seasons', '1 Season', '91 min', '125 min',
       '9 Seasons', '104 min', '127 min', '4 Seasons', '67 min', '94 min',
       '5 Seasons', '161 min', '61 min', '166 min', '147 min', '103 min',
       '97 min', '106 min', '111 min', '3 Seasons', '110 min', '105 min',
       '96 min', '124 min', '116 min', '98 min', '23 min', '115 min',
       '122 min', '99 min', '88 min', '100 min', '6 Seasons', '102 min',
       '93 min', '95 min', '85 min', '83 min', '113 min', '13 min',
       '182 min', '48 min', '145 min', '87 min', '92 min', '80 min',
       '117 min', '128 min', '119 min', '143 min', '114 min', '118 min',
       '108 min', '63 min', '121 min', '142 min', '154 min', '120 min',
       '82 min', '109 min', '101 min', '86 min', '229 min', '76 min',
       '89 min', '156 min', '112 min', '107 min', '129 min', '135 min',
       '136 min', '165 min', '150 min', '133 min', '70 min', '84 min',
       '140 min', '78 min', '7 Seasons', '64 min', '59 min', '139 min',
    

In [None]:
df.groupby('type')['duration'].unique()

Unnamed: 0_level_0,duration
type,Unnamed: 1_level_1
Movie,"[90 min, 91 min, 125 min, 104 min, 127 min, 67..."
TV Show,"[2 Seasons, 1 Season, 9 Seasons, 4 Seasons, 5 ..."


In [None]:
# extraire les minutes pour les films
df['duration (movies)'] = df.apply(
    lambda row: float(str(row['duration']).split()[0]) if row['type'] == 'Movie' else None,
    axis=1
)

# extraire les saisons pour les séries
df['seasons (TV Show)'] = df.apply(
    lambda row: float(str(row['duration']).split()[0]) if row['type'] == 'TV Show' else None,
    axis=1
)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8809 entries, s1 to s8809
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   type               8809 non-null   object        
 1   title              8809 non-null   object        
 2   director           6175 non-null   object        
 3   cast               7984 non-null   object        
 4   country            7978 non-null   object        
 5   date_added         8711 non-null   datetime64[ns]
 6   release_year       8809 non-null   int64         
 7   rating             8805 non-null   object        
 8   duration           8806 non-null   object        
 9   listed_in          8809 non-null   object        
 10  description        8809 non-null   object        
 11  duration (movies)  6129 non-null   float64       
 12  seasons (TV Show)  2677 non-null   float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(9)
memory usage

In [None]:
df.drop('duration',axis=1,inplace=True)
df.head()

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration (movies),seasons (TV Show)
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,Documentaries,"As her father nears the end of his life, filmm...",90.0,
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,2.0
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,1.0
s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,1.0
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,2.0


### Création de DataFrames annexes pour les valeurs séparées par des virgules

Certaines colonnes comme country, cast et listed_in contiennent pour certains titres des séries de valeurs, sépérées par des virgules. Nous souhaitons créer des tableaux annexes permettant d'avoir chaque valeur de manière distincte.

Pour la colonne "Country" :

  Créez une colonne 'countries' en transformant les valeurs de la colonne 'country' en listes (via str.split).
  Créez un DataFrame 'countries_exploded' qui génère une ligne pour chaque pays via la méthode .explode().
  Isolez uniquement la colonne 'countries' dans le DataFrame 'countries_exploded' (non vue en cours, à vous de comprendre son fonctionnement : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html)
  Répétez ce processus pour les colonnes 'categories' (basée sur 'listed_in') et 'cast', créant respectivement les - DataFrames 'categories_exploded' et 'cast_list'.


In [None]:
df['country'] = df['country'].str.split(',')
countries_exploded = df.explode('country')
countries_exploded.head(20)

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration (movies),seasons (TV Show)
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,Documentaries,"As her father nears the end of his life, filmm...",90.0,
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,2.0
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,1.0
s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,1.0
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,2.0
s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,2021-09-24,2021,TV-MA,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...,,1.0
s7,Movie,My Little Pony: A New Generation,"Robert Cullen, JosÃ© Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,91.0,
s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...",United States,2021-09-24,1993,TV-MA,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",125.0,
s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...",Ghana,2021-09-24,1993,TV-MA,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",125.0,
s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...",Burkina Faso,2021-09-24,1993,TV-MA,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",125.0,


In [None]:
df['listed_in'] = df['listed_in'].str.split(',')
df.head(20)
categories_exploded = df.explode('listed_in')
categories_exploded.head(20)

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration (movies),seasons (TV Show)
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,[United States],2021-09-25,2020,PG-13,Documentaries,"As her father nears the end of his life, filmm...",90.0,
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",[South Africa],2021-09-24,2021,TV-MA,International TV Shows,"After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",[South Africa],2021-09-24,2021,TV-MA,TV Dramas,"After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",[South Africa],2021-09-24,2021,TV-MA,TV Mysteries,"After crossing paths at a party, a Cape Town t...",,2.0
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,Crime TV Shows,To protect his family from a powerful drug lor...,,1.0
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,International TV Shows,To protect his family from a powerful drug lor...,,1.0
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,TV Action & Adventure,To protect his family from a powerful drug lor...,,1.0
s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,Docuseries,"Feuds, flirtations and toilet talk go down amo...",,1.0
s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,Reality TV,"Feuds, flirtations and toilet talk go down amo...",,1.0
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",[India],2021-09-24,2021,TV-MA,International TV Shows,In a city of coaching centers known to train I...,,2.0


In [None]:
df['cast'] = df['cast'].str.split(',')
cast_list = df.explode('cast')
cast_list.head(20)

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration (movies),seasons (TV Show)
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,[United States],2021-09-25,2020,PG-13,[Documentaries],"As her father nears the end of his life, filmm...",90.0,
s2,TV Show,Blood & Water,,Ama Qamata,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Khosi Ngema,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Gail Mabalane,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Thabang Molaba,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Dillon Windvogel,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Natasha Thahane,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Arno Greeff,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Xolile Tshabalala,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0
s2,TV Show,Blood & Water,,Getmore Sithole,[South Africa],2021-09-24,2021,TV-MA,"[International TV Shows, TV Dramas, TV Myste...","After crossing paths at a party, a Cape Town t...",,2.0


### 8) Suppression des colonnes transformées

Supprimez les trois colonnes transformées du DataFrame original.

In [None]:
df.drop(['country','listed_in','cast'],axis=1,inplace=True)
df.head()

Unnamed: 0_level_0,type,title,director,date_added,release_year,rating,description,duration (movies),seasons (TV Show)
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,2021-09-25,2020,PG-13,"As her father nears the end of his life, filmm...",90.0,
s2,TV Show,Blood & Water,,2021-09-24,2021,TV-MA,"After crossing paths at a party, a Cape Town t...",,2.0
s3,TV Show,Ganglands,Julien Leclercq,2021-09-24,2021,TV-MA,To protect his family from a powerful drug lor...,,1.0
s4,TV Show,Jailbirds New Orleans,,2021-09-24,2021,TV-MA,"Feuds, flirtations and toilet talk go down amo...",,1.0
s5,TV Show,Kota Factory,,2021-09-24,2021,TV-MA,In a city of coaching centers known to train I...,,2.0


### Création de colonnes temporelles

À partir de 'Date Added', créez des colonnes pour l'année d'ajout, le mois d'ajout et le jour de la semaine d'ajout

In [None]:
df['year_added'] = df['date_added'].dt.year
df['month_added'] = df['date_added'].dt.month
df['day_added'] = df['date_added'].dt.day_name()
df.head()

Unnamed: 0_level_0,type,title,director,date_added,release_year,rating,description,duration (movies),seasons (TV Show),year_added,month_added,day_added
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,2021-09-25,2020,PG-13,"As her father nears the end of his life, filmm...",90.0,,2021.0,9.0,Saturday
s2,TV Show,Blood & Water,,2021-09-24,2021,TV-MA,"After crossing paths at a party, a Cape Town t...",,2.0,2021.0,9.0,Friday
s3,TV Show,Ganglands,Julien Leclercq,2021-09-24,2021,TV-MA,To protect his family from a powerful drug lor...,,1.0,2021.0,9.0,Friday
s4,TV Show,Jailbirds New Orleans,,2021-09-24,2021,TV-MA,"Feuds, flirtations and toilet talk go down amo...",,1.0,2021.0,9.0,Friday
s5,TV Show,Kota Factory,,2021-09-24,2021,TV-MA,In a city of coaching centers known to train I...,,2.0,2021.0,9.0,Friday


<h1> Analyse des données </h1>

1) Combien de "shows" sont présents dans ce dataset ? 2) Quelle est la répartition entre les types 'Movie' et 'TV Show' ? 3) Quelle est la répartition des ajouts en fonction de l'année ? 4) Quel est le top 5 des catégories de shows les plus ajoutées ? 5) Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ? 6) Quelle est la répartition des ajouts en fonction du jour de la semaine ? 7) Dans quel pays sont produits le plus de documentaires ? 8) En moyenne, combien de saisons ont les séries ? 9) Quelle est la distribution des films en fonction de leur durée (quartiles) ? 10) Combien de shows ont pour thématique la drogue (présence du mot "drug" dans la description) ?

In [None]:
df.index.value_counts().sum()

np.int64(8809)

In [None]:
df['type'].value_counts()

Unnamed: 0_level_0,count
type,Unnamed: 1_level_1
Movie,6132
TV Show,2677


In [None]:
df['year_added'].value_counts()

Unnamed: 0_level_0,count
year_added,Unnamed: 1_level_1
2019.0,1999
2020.0,1878
2018.0,1625
2021.0,1498
2017.0,1164
2016.0,418
2015.0,73
2014.0,23
2011.0,13
2013.0,10


4) Quel est le top 5 des catégories de shows les plus ajoutées ?

In [None]:
top_5_categories = categories_exploded['listed_in'].value_counts().head(5)
top_5_categories

Unnamed: 0_level_0,count
listed_in,Unnamed: 1_level_1
International Movies,2624
Dramas,1600
Comedies,1210
Action & Adventure,859
Documentaries,829


Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ?

In [None]:
us_titles = cast_list[cast_list['country'].astype(str).str.contains('United States', na=False)]
com_titles = us_titles[us_titles['listed_in'].astype(str).str.contains('Comedy', na=False)]
top_actors_us = com_titles['cast'].value_counts().head(5)
top_actors_us


Unnamed: 0_level_0,count
cast,Unnamed: 1_level_1
Jeff Dunham,8
Kevin Hart,7
Jim Gaffigan,5
Bill Burr,5
Katt Williams,5


Quelle est la répartition des ajouts en fonction du jour de la semaine

In [None]:
df['day_added'].value_counts()

Unnamed: 0_level_0,count
day_added,Unnamed: 1_level_1
Friday,2478
Thursday,1387
Wednesday,1276
Tuesday,1182
Monday,845
Saturday,803
Sunday,740


Dans quel pays sont produits le plus de documentaires ?

In [None]:
# Dans quel pays sont produits le plus de documentaires ?
doc_titles = countries_exploded[countries_exploded['listed_in'].astype(str).str.contains('Documentaries', na=False)]
top_country_doc = doc_titles['country'].value_counts().head(1)
top_country_doc

Unnamed: 0_level_0,count
country,Unnamed: 1_level_1
United States,453


En moyenne, combien de saisons ont les séries ?

In [None]:
nbr_sais_moy = df['seasons (TV Show)'].mean()
int(nbr_sais_moy)

1

Quelle est la distribution des films en fonction de leur durée (quartiles)

In [None]:
dist_film = df[df['type'] == 'Movie']['duration (movies)']
dist_film.describe()

Unnamed: 0,duration (movies)
count,6129.0
mean,99.578887
std,28.288598
min,3.0
25%,87.0
50%,98.0
75%,114.0
max,312.0


Combien de shows ont pour thématique la drogue (présence du mot "drug" dans la description) ?

In [None]:
show_drug = df[df['description'].str.contains('drug', na=False)]
show_drug.index.value_counts().sum()

np.int64(158)