<a href="https://colab.research.google.com/github/julieklaessens-dotcom/data-analyst-formation/blob/main/Notebook_Python_Project_Week_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Semaine 4 — Notebook Python (Projet Python mini-analyse)

*Auteur :* Julie Klaessens  
*Date :* 2025-10-27  
*Objectif :* Réaliser un projet soi-même en python avec une base de donnée de [Netflix](https://www.kaggle.com/datasets/shivamb/netflix-shows) disponible sur Kaggle. Réaliser le [tutoriel interactif](https://www.kaggle.com/learn/pandas) de Pandas sur Kaggle au préalable.

## 1. Introduction
Ce notebook compile mes exercices issus du tutoriel Pandas de **Kaggle** et de mon projet Netflix de **Kaggle** également.

## 2. Tutoriel Pandas

### 2.1 Creating, Reading and Writing


See exercise here : ["Exercise"](https://colab.research.google.com/drive/1VTYQBNkeVBmtXNemBNKR9ug-zU7_-XFL#scrollTo=XBeKcGS7w02T)

### 2.2 Indexing, Selecting & Assigning

See exercise here : ["Exercise"](https://colab.research.google.com/drive/1rN0gFG4qoUKTMlK4g102tX5Oml5M2068)

### 2.3 Summary Functions and Maps

### 2.4 Grouping and Sorting

### 2.5 Data Types and Missing Values

### 2.6 Renaming and Combining

## 3. Mini-projet Python / Pandas — Analyse Netflix 📺

Objectif : charger, nettoyer et analyser un dataset réel (Netflix Movies & Shows).

À la fin de ce notebook, je veux pouvoir répondre à :
- Combien de contenus sont des films vs des séries TV ?
- Quels sont les pays qui apparaissent le plus souvent ?
- Comment la production de contenu évolue dans le temps ?


### 3.1. Import des librairies & chargement des données

Étapes :
1. Importer `pandas` et `matplotlib.pyplot`
2. Charger le CSV Netflix
3. Vérifier les 5 premières lignes

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

from google.colab import drive
drive.mount('/content/drive')

df = pd.read_csv('/content/drive/MyDrive/Data/netflix_titles.csv')

# Aperçu des premières lignes
df.head()

Mounted at /content/drive


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


### 3.2. Comprendre la structure du dataset

Objectif : comprendre les colonnes et la qualité des données.

À faire :
- df.shape : dimensions
- df.columns : noms des colonnes
- df.info() : types des colonnes
- df.isna().sum() : valeurs manquantes

In [None]:
print("Shape (lignes, colonnes) :", df.shape)
print("Colonnes :", df.columns.tolist())

df.info()

df.isna().sum()

### 3.3. Nettoyage des données

Objectif : préparer les données pour l'analyse.

Idées :
- Supprimer les doublons
- Gérer les valeurs manquantes (country, release_year, etc.)
- Normaliser certaines colonnes texte si besoin


In [None]:
# 1. Supprimer les doublons exacts
df = df.drop_duplicates()

# 2. Vérifier les colonnes critiques pour l'analyse
colonnes_importantes = ['title', 'type', 'country', 'release_year']
df[colonnes_importantes].isna().sum()

# 3. Remplacer les pays manquants par 'Unknown'
df['country'] = df['country'].fillna('Unknown')

# 4. Aperçu après nettoyage
df.head()

### 3.4. Analyse descriptive : types de contenu

Questions :
- Films vs Séries TV, quelles proportions ?
- Visualisation basique


In [None]:
type_counts = df['type'].value_counts()
print("Comptage brut :")
print(type_counts)

type_prop = df['type'].value_counts(normalize=True) * 100
print("\nProportions (%):")
print(type_prop.round(2))

type_counts.plot(kind='bar')
plt.title("Répartition Films vs Séries TV")
plt.xlabel("Type de contenu")
plt.ylabel("Nombre de titres")
plt.show()

### 3.5. Analyse géographique : pays d'origine

Questions :
- Quels pays produisent le plus de contenu ?
- Top 10 pays

Remarque : la colonne `country` peut contenir plusieurs pays séparés par des virgules.
Pour simplifier, on prend juste le premier pays.


In [None]:
df['main_country'] = df['country'].str.split(',').str[0].str.strip()

top_countries = df['main_country'].value_counts().head(10)
print(top_countries)

top_countries.plot(kind='bar')
plt.title("Top 10 des pays les plus présents")
plt.xlabel("Pays")
plt.ylabel("Nombre de titres")
plt.show()

### 3.6. Analyse temporelle : année de sortie

Questions :
- Est-ce que Netflix publie plus de contenu récemment ?
- Comment ça évolue dans le temps ?


In [None]:
year_counts = df['release_year'].value_counts().sort_index()

print("Anciennes années :")
print(year_counts.head())
print("\nAnnées récentes :")
print(year_counts.tail())

year_counts.plot(kind='line')
plt.title("Évolution du nombre de sorties par année")
plt.xlabel("Année de sortie")
plt.ylabel("Nombre de titres")
plt.show()

### 3.7. Conclusion / Storytelling 📝

Dans cette cellule, j'explique mes résultats comme si je le présentais à un recruteur.

Exemple de choses à commenter :
- Part Films vs Séries
- Pays dominants
- Tendance dans le temps


In [None]:
resume = """
Résumé du dataset Netflix :

1. Répartition des types :
   ...

2. Pays dominants :
   ...

3. Évolution temporelle :
   ...

Conclusions :
   ...
"""
print(resume)