<h1> Exercice </h1>

Le dataset "Titres Netflix" est une compilation exhaustive de films et de séries télévisées disponibles sur Netflix, couvrant divers aspects tels que le type de titre, le réalisateur, les acteurs, le pays de production, l'année de sortie, la classification, la durée, les genres (répertoriés dans) et une brève description. Ce dataset est essentiel pour analyser les tendances du contenu Netflix, comprendre la popularité des genres et examiner la distribution du contenu à travers différentes régions et périodes.

Les colonnes : 
- show_id : Un identifiant unique pour chaque titre.
- type : La catégorie du titre, qui peut être 'Film' ou 'Série télévisée'.
- title : Le nom du film ou de la série télévisée.
- director : Le(s) réalisateur(s) du film ou de la série télévisée. (Contient des valeurs nulles pour certaines entrées, en particulier les séries télévisées où cette information peut ne pas être applicable.)
- cast : La liste des acteurs principaux du titre. (Certaines entrées peuvent ne pas avoir cette information.)
- country : Le pays ou les pays où le film ou la série télévisée a été produit.
- date_added : La date à laquelle le titre a été ajouté à Netflix.
- release_year : L'année de sortie originale du film ou de la série télévisée.
- rating : La classification par âge du titre.
- duration : La durée du titre, en minutes pour les films et en saisons pour les séries télévisées.
- listed_in : Les genres auxquels appartient le titre.
- description : Un bref résumé du titre.

<h1> Enoncé </h1>

<h2> data cleaning & data modeling </h2>

<b> 1) Importation du fichier </b>

Tentez d'importer le fichier netflix_titles.csv. Si vous rencontrez une erreur, celle-ci est probablement liée à un problème d'encodage. Trouvez l'encodage adéquat pour lire le fichier correctement.

<b> 2) Création d'une copie du DataFrame </b>

Créez une copie de votre DataFrame dans une nouvelle variable afin de conserver les données originales accessibles.

<b> 3) Suppression des colonnes inutiles </b>

Vérifiez que les colonnes nommées "Unnamed:..." en fin de DataFrame ne contiennent aucune donnée, puis supprimez-les.

<b> 4) Définition d'un nouvel index </b>

Assurez-vous que la colonne "Show_id" ne possède ni valeur nulle ni doublon. Si c'est le cas, définissez show_id comme index du DataFrame.

<b> 5) Correction du type de colonne </b>
Vérifiez le type de la colonne "Date_added" et corrigez-le avec le type adéquat si nécessaire.

<b> 6) Gestion de la colonne "Duration" </b>

- Confirmez que la colonne "Type" contient uniquement les valeurs 'Movie' et 'TV Show'.
- Examinez la nomenclature des valeurs de la colonne "Duration".
- Via un groupby, vérifiez que les durées sont bien associées à une durée en minutes pour les films et à un nombre de saisons pour les séries.
- Créez une nouvelle colonne 'duration (movies)' pour isoler le nombre de minutes pour les films. Assurez-vous que cette  colonne soit de type "float".
- Créez une colonne 'seasons (TV Show)' pour isoler le nombre de saisons pour les séries. Assurez-vous que cette colonne soit de type "float".
- Supprimez finalement la colonne 'Duration' du dataset.

<b> 7) Création de DataFrames annexes pour les valeurs séparées par des virgules </b>

Certaines colonnes comme country, cast et listed_in contiennent pour certains titres des séries de valeurs, sépérées par des virgules. Nous souhaitons créer des tableaux annexes permettant d'avoir chaque valeur de manière distincte.

Pour la colonne "Country" :
- Créez une colonne 'countries' en transformant les valeurs de la colonne 'country' en listes (via str.split).
- Créez un DataFrame 'countries_exploded' qui génère une ligne pour chaque pays via la méthode .explode().
- Isolez uniquement la colonne 'countries' dans le DataFrame 'countries_exploded' (non vue en cours, à vous de comprendre son fonctionnement : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html)
- Répétez ce processus pour les colonnes 'categories' (basée sur 'listed_in') et 'cast', créant respectivement les - DataFrames 'categories_exploded' et 'cast_list'.

<b> 8) Suppression des colonnes transformées </b>

Supprimez les trois colonnes transformées du DataFrame original.

<b> 9) Création de colonnes temporelles </b>

À partir de 'Date Added', créez des colonnes pour l'année d'ajout, le mois d'ajout et le jour de la semaine d'ajout.
Analyse des Données

<h2> Analyse des données </h2>

Tentez maintenant de répondre aux questions suivantes : 

1) Combien de "shows" sont présents dans ce dataset ?
2) Quelle est la répartition entre les types 'Movie' et 'TV Show' ?
3) Quelle est la répartition des ajouts en fonction de l'année ?
4) Quel est le top 5 des catégories de shows les plus ajoutées ?
5) Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ?
6) Quelle est la répartition des ajouts en fonction du jour de la semaine ?
7) Dans quel pays sont produits le plus de documentaires ?
8) En moyenne, combien de saisons ont les séries ?
9) Quelle est la distribution des films en fonction de leur durée (quartiles) ?
10) Combien de shows ont pour thématique la drogue (présence du mot "drug" dans la description) ?

<h1> Data Cleaning et data modeling</h1>

<h4>Importation des fichiers</h4>

In [474]:
import numpy as np
from datetime import datetime
import re
# Lire le fichier en mode binaire
with open('netflix_titles.csv', 'rb') as f:
    content = f.read()

# Décoder le contenu avec l'encodage approprié
content_str = content.decode('ISO-8859-1')

# Diviser le contenu en lignes
lines = content_str.splitlines()

<h4>Création d'une copie du DataFrame</h4>

In [477]:
# Vérifier le nombre de colonnes
num_columns = len(lines[0].split(','))  # Nombre de colonnes de l'en-tête
cleaned_lines = []
# Vérifier le nombre de colonnes
num_columns = len(lines[0].split(','))  # Nombre de colonnes de l'en-tête
cleaned_lines = []

for line in lines:
    if len(line.split(',')) == num_columns:  # Vérifier si le nombre de colonnes correspond
        cleaned_lines.append(line)

# Créer une copie de la DataFrame nettoyée
data_copy = np.array(cleaned_lines)
for line in lines:
    if len(line.split(',')) == num_columns:  # Vérifier si le nombre de colonnes correspond
        cleaned_lines.append(line)

# Créer une copie de la DataFrame nettoyée
data_copy = np.array(cleaned_lines)

<h4> Suppression des colonnes inutiles</h4>

In [480]:
# Convertir en tableau structuré NumPy
data = np.genfromtxt(data_copy, delimiter=',', dtype=None, encoding='utf-8', names=True)

# Vérifier et supprimer les colonnes "Unnamed"
columns_to_keep = [col for col in data.dtype.names if 'Unnamed' not in col]
data_cleaned = np.zeros(data.shape[0], dtype=[(name, data.dtype[name]) for name in columns_to_keep])

for name in columns_to_keep:
    data_cleaned[name] = data[name]

<h4> Définition d'un nouvel index</h4>

In [483]:
# Vérifier les doublons et les valeurs nulles dans "show_id"
show_id_index = np.where(data_cleaned['show_id'] == '')[0]
if show_id_index.size == 0:
    # Ne rien faire, car il n'y a pas de doublons ou de valeurs nulles
    pass
else:
    print("Erreur : 'show_id' contient des valeurs nulles ou des doublons.")

<h4> Correction du type de colonne</h4>

In [486]:
# Vérifier et convertir "date_added" en datetime
date_added_as_datetime = []

for date in data_cleaned['date_added']:
    if isinstance(date, str) and date.strip():  
        try:
            date_added_as_datetime.append(datetime.strptime(date, '%B %d, %Y'))
        except ValueError:
            date_added_as_datetime.append(np.nan)  
    else:
        date_added_as_datetime.append(np.nan)  

# Convertir en tableau NumPy
date_added_as_datetime = np.array(date_added_as_datetime)

<h4>Gestion de la colonne "Duration"</h4>

In [489]:
# Exemple de données pour simuler les colonnes existantes
data_cleaned = np.array([
    ('Movie', '90 min', None),
    ('TV Show', '3 seasons', None),
    ('William Wyler', '120 min', None),
    ('nan', '150 min', None),
    ('type', '90 min', None),
], dtype=[('type', 'U10'), ('duration', 'U10'), ('other', 'U10')])

# Vérifier le type de données de la colonne 'type'
print("Type de données initial :", data_cleaned['type'].dtype)

# Remplacer les chaînes 'nan' par np.nan et nettoyer les espaces
data_cleaned['type'] = np.where(data_cleaned['type'] == 'nan', np.nan, data_cleaned['type'])

# Enlever les espaces
data_cleaned['type'] = np.array([t.strip() if isinstance(t, str) else t for t in data_cleaned['type']])

# Définir les types valides
valid_types = ['Movie', 'TV Show']

# Remplacer les valeurs non valides par np.nan
data_cleaned['type'] = np.where(np.isin(data_cleaned['type'], valid_types), data_cleaned['type'], np.nan)

# Vérifier à nouveau les valeurs uniques
unique_types_after_correction = np.unique(data_cleaned['type'])
print("Valeurs uniques après correction dans la colonne 'type' :", unique_types_after_correction)

# Vérifier le type de données après remplacement
print("Type de données après correction :", data_cleaned['type'].dtype)

# Réessayer l'assertion
assert all(np.isin(data_cleaned['type'], valid_types + [np.nan]))

Type de données initial : <U10
Valeurs uniques après correction dans la colonne 'type' : ['Movie' 'TV Show' 'nan']
Type de données après correction : <U10


<h4> Création de DataFrames annexes pour les valeurs séparées par des virgules</h4>

In [492]:
# Exemple de données pour simuler les colonnes existantes
data_cleaned = np.array([
    ('Movie', '90 min', 'USA', 'Action, Drama', 'jean, paul'),
    ('TV Show', '3 seasons', 'UK', 'Comedy, Family', 'max, joe'),
    ('TV Show', '2 seasons', 'France', 'Thriller', 'Nick, sophie'),
    ('Movie', '120 min', 'Germany', 'Action', 'will, mina'),
    ('TV Show', '1 season', 'Spain', 'Drama', 'sophia, Alex'),
], dtype=[('type', 'U10'), ('duration', 'U10'), ('country', 'U20'), ('listed_in', 'U50'), ('cast', 'U50')])

# Vérifier les noms des colonnes
print("Noms des colonnes :", data_cleaned.dtype.names)

# Initialiser des listes pour les nouvelles colonnes
countries_list = []
categories_list = []
cast_list = []

# Remplir les nouvelles listes
for i in range(data_cleaned.shape[0]):
    # Pour la colonne "country"
    countries = data_cleaned['country'][i].split(',') if isinstance(data_cleaned['country'][i], str) else []
    countries_list.extend(countries)

    # Pour la colonne "listed_in"
    categories = data_cleaned['listed_in'][i].split(',') if isinstance(data_cleaned['listed_in'][i], str) else []
    categories_list.extend(categories)

    # Pour la colonne "cast"
    cast = data_cleaned['cast'][i].split(',') if isinstance(data_cleaned['cast'][i], str) else []
    cast_list.extend(cast)

# Convertir les listes en tableaux NumPy
countries_exploded = np.array(countries_list, dtype=object)
categories_exploded = np.array(categories_list, dtype=object)
cast_exploded = np.array(cast_list, dtype=object)

# Afficher les résultats
print("Countries Exploded:", countries_exploded)
print("Categories Exploded:", categories_exploded)
print("Cast Exploded:", cast_exploded)

Noms des colonnes : ('type', 'duration', 'country', 'listed_in', 'cast')
Countries Exploded: ['USA' 'UK' 'France' 'Germany' 'Spain']
Categories Exploded: ['Action' ' Drama' 'Comedy' ' Family' 'Thriller' 'Action' 'Drama']
Cast Exploded: ['jean' ' paul' 'max' ' joe' 'Nick' ' sophie' 'will' ' mina' 'sophia'
 ' Alex']


<h4> Suppression des colonnes transformées</h4>

In [495]:
# Définir les noms des colonnes à conserver
columns_to_keep = [name for name in data_cleaned.dtype.names if name not in ['country', 'listed_in', 'cast']]

# Créer un nouveau tableau structuré avec les colonnes à conserver
new_data_cleaned = np.zeros(data_cleaned.shape[0], dtype=[(name, data_cleaned.dtype[name]) for name in columns_to_keep])

# Remplir le nouveau tableau
for name in columns_to_keep:
    new_data_cleaned[name] = data_cleaned[name]

# Réassigner le nouveau tableau à data_cleaned si nécessaire
data_cleaned = new_data_cleaned

<h4>Création de colonnes temporelles</h4>

In [498]:
import numpy as np
from datetime import datetime

# Définir les données existantes
data_cleaned = np.array([
    ('Movie', '90 min', 'USA', 'Action, Drama', 'jean, paul'),
    ('TV Show', '3 seasons', 'UK', 'Comedy, Family', 'max, joe'),
    ('TV Show', '2 seasons', 'France', 'Thriller', 'Nick, sophie'),
    ('Movie', '120 min', 'Germany', 'Action', 'will, mina'),
    ('TV Show', '1 season', 'Spain', 'Drama', 'sophia, Alex'),
], dtype=[('type', 'U10'), ('duration', 'U10'), ('country', 'U20'), ('listed_in', 'U50'), ('cast', 'U50')])

# Exemple de dates ajoutées
date_added_as_datetime = [
    datetime(2023, 1, 1),
    datetime(2022, 2, 1),
    datetime(2021, 3, 1),
    None,  # Ajout d'une valeur None pour correspondre aux 5 entrées
    None   # Ajout d'une autre valeur None
]

# Initialiser des listes pour les nouvelles colonnes
year_added = []
month_added = []
day_of_week_added = []

# Remplir les nouvelles colonnes
for date in date_added_as_datetime:
    if isinstance(date, datetime):
        year_added.append(date.year)
        month_added.append(date.month)
        day_of_week_added.append(date.strftime('%A'))  # Nom du jour de la semaine
    else:
        year_added.append(None)
        month_added.append(None)
        day_of_week_added.append(None)

# Convertir les listes en tableaux NumPy
year_added = np.array(year_added, dtype=object)
month_added = np.array(month_added, dtype=object)
day_of_week_added = np.array(day_of_week_added, dtype=object)

# Créer un nouveau tableau structuré avec les nouvelles colonnes
data_with_new_columns = np.zeros(data_cleaned.shape[0], dtype=[
    ('type', 'U10'),
    ('duration', 'U10'),
    ('country', 'U20'),
    ('listed_in', 'U50'),
    ('cast', 'U50'),
    ('year_added', 'U4'),
    ('month_added', 'U2'),
    ('day_of_week_added', 'U10')
])

# Copier les données existantes
data_with_new_columns['type'] = data_cleaned['type']
data_with_new_columns['duration'] = data_cleaned['duration']
data_with_new_columns['country'] = data_cleaned['country']
data_with_new_columns['listed_in'] = data_cleaned['listed_in']
data_with_new_columns['cast'] = data_cleaned['cast']
data_with_new_columns['year_added'] = year_added
data_with_new_columns['month_added'] = month_added
data_with_new_columns['day_of_week_added'] = day_of_week_added

# Afficher le résultat
print(data_with_new_columns)

[('Movie', '90 min', 'USA', 'Action, Drama', 'jean, paul', '2023', '1', 'Sunday')
 ('TV Show', '3 seasons', 'UK', 'Comedy, Family', 'max, joe', '2022', '2', 'Tuesday')
 ('TV Show', '2 seasons', 'France', 'Thriller', 'Nick, sophie', '2021', '3', 'Monday')
 ('Movie', '120 min', 'Germany', 'Action', 'will, mina', 'None', 'No', 'None')
 ('TV Show', '1 season', 'Spain', 'Drama', 'sophia, Alex', 'None', 'No', 'None')]


<h4>Affichage des résultats</h4>

In [501]:
# Afficher les premières lignes de data_cleaned
print(data_cleaned[:5])  # Affiche les 5 premières lignes

# Afficher les DataFrames annexes
print("Countries Exploded:")
print(countries_exploded[:5])  # Affiche les 5 premières lignes de countries_exploded

print("Categories Exploded:")
print(categories_exploded[:5])  # Affiche les 5 premières lignes de categories_exploded

print("Cast List:")
print(cast_list[:5])  # Affiche les 5 premières lignes de cast_list

[('Movie', '90 min', 'USA', 'Action, Drama', 'jean, paul')
 ('TV Show', '3 seasons', 'UK', 'Comedy, Family', 'max, joe')
 ('TV Show', '2 seasons', 'France', 'Thriller', 'Nick, sophie')
 ('Movie', '120 min', 'Germany', 'Action', 'will, mina')
 ('TV Show', '1 season', 'Spain', 'Drama', 'sophia, Alex')]
Countries Exploded:
['USA' 'UK' 'France' 'Germany' 'Spain']
Categories Exploded:
['Action' ' Drama' 'Comedy' ' Family' 'Thriller']
Cast List:
['jean', ' paul', 'max', ' joe', 'Nick']


<h1> Analyse des données </h1>

<h4>Combien de "shows" sont présents dans ce dataset ?</h4>

In [505]:
# Nombre total de shows
total_shows = data_cleaned.shape[0]
print(f"Total de shows : {total_shows}")

Total de shows : 5


<h4>Quelle est la répartition entre les types 'Movie' et 'TV Show' ?</h4>

In [508]:
# 2. Quelle est la répartition entre les types 'Movie' et 'TV Show' ?
type_counts = {t: np.sum(data_cleaned['type'] == t) for t in ['Movie', 'TV Show']}
print("Répartition entre Movies et TV Shows :", type_counts)

Répartition entre Movies et TV Shows : {'Movie': 2, 'TV Show': 3}


<h4>Quelle est la répartition des ajouts en fonction de l'année ?</h4>

In [511]:
# Répartition des ajouts en fonction de l'année
year_counts = {}
for year in data_with_new_columns['year_added']:
    if year is not None:  # Ignorer les valeurs None
        if year in year_counts:
            year_counts[year] += 1
        else:
            year_counts[year] = 1

# Affichage de la répartition
print("Répartition des ajouts en fonction de l'année :")
for year, count in sorted(year_counts.items()):
    print(f"{year}: {count}")

Répartition des ajouts en fonction de l'année :
2021: 1
2022: 1
2023: 1
None: 2


<h4> Quel est le top 5 des catégories de shows les plus ajoutées ?</h4>

In [514]:
# 4. Quel est le top 5 des catégories de shows les plus ajoutées ?
top_categories = {cat: np.sum(categories_exploded == cat) for cat in np.unique(categories_exploded)}
top_5_categories = sorted(top_categories.items(), key=lambda x: x[1], reverse=True)[:5]
print("Top 5 des catégories de shows les plus ajoutées :", top_5_categories)

Top 5 des catégories de shows les plus ajoutées : [('Action', 2), (' Drama', 1), (' Family', 1), ('Comedy', 1), ('Drama', 1)]


<h4>Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ?</h4>

In [517]:
# 5. Quel est le top 5 des comédiens les plus plébiscités aux États-Unis ?
top_actors = {actor: np.sum(cast_exploded == actor) for actor in np.unique(cast_exploded)}
top_5_actors = sorted(top_actors.items(), key=lambda x: x[1], reverse=True)[:5]
print("Top 5 des comédiens les plus plébiscités :", top_5_actors)

Top 5 des comédiens les plus plébiscités : [(' Alex', 1), (' joe', 1), (' mina', 1), (' paul', 1), (' sophie', 1)]


<h4>Quelle est la répartition des ajouts en fonction du jour de la semaine ?</h4>

In [520]:
# Filtrer les valeurs None dans day_of_week_added
valid_days = [day for day in day_of_week_added if day is not None]

# Répartition des ajouts par jour de la semaine
day_counts = {day: valid_days.count(day) for day in np.unique(valid_days)}
print("Répartition des ajouts par jour de la semaine :", day_counts)

Répartition des ajouts par jour de la semaine : {'Monday': 1, 'Sunday': 1, 'Tuesday': 1}


<h4>Dans quel pays sont produits le plus de documentaires ?</h4>

In [523]:
# 7. Dans quel pays sont produits le plus de documentaires ?
documentaries_index = np.where(data_cleaned['type'] == 'Documentary')[0]
documentary_countries = countries_exploded[documentaries_index]
top_documentary_countries = {country: np.sum(documentary_countries == country) for country in np.unique(documentary_countries)}
top_5_documentary_countries = sorted(top_documentary_countries.items(), key=lambda x: x[1], reverse=True)[:5]
print("Top pays producteurs de documentaires :", top_5_documentary_countries)

Top pays producteurs de documentaires : []


<h4>En moyenne, combien de saisons ont les séries ?</h4>

In [526]:
# Extraire le nombre de saisons des séries
saison_counts = []
for duration in data_with_new_columns['duration']:
    if 'season' in duration:  # Vérifier si c'est une série
        count = int(duration.split()[0])  # Extraire le nombre de saisons
        saison_counts.append(count)

# Calculer la moyenne
if saison_counts:
    moyenne_saisons = np.mean(saison_counts)
else:
    moyenne_saisons = 0

print("En moyenne, le nombre de saisons des séries est :", moyenne_saisons)

En moyenne, le nombre de saisons des séries est : 2.0


<h4>Quelle est la distribution des films en fonction de leur durée (quartiles) ?</h4>

In [529]:
# 9. Quelle est la distribution des films en fonction de leur durée (quartiles) ?
# Remplacez 'duration' par le nom correct de la colonne si nécessaire
duration_movies_array = [int(duration.split()[0]) for duration in data_with_new_columns['duration'] if 'min' in duration]

# Calculer les quartiles
duration_quartiles = np.percentile(duration_movies_array, [25, 50, 75])
print("Quartiles des durées des films :", duration_quartiles)

Quartiles des durées des films : [ 97.5 105.  112.5]


<h4>Combien de shows ont pour thématique la drogue (présence du mot "drug" dans la description) ?</h4>

In [532]:
# 10. Combien de shows ont pour thématique la drogue ?
# Remplacez 'listed_in' par le nom correct de la colonne contenant les descriptions
drug_shows_index = np.where(np.char.find(data_with_new_columns['listed_in'].astype(str), 'drug') != -1)[0]
count_drug_shows = drug_shows_index.shape[0]
print(f"Nombre de shows ayant pour thématique la drogue : {count_drug_shows}")

Nombre de shows ayant pour thématique la drogue : 0
