# 📊 Jour 2 : Premiers pas avec `pandas`

Dans ce cours, nous allons découvrir la bibliothèque **`pandas`**, essentielle pour la manipulation et l’analyse des données en Python. 
Vous apprendrez à charger des fichiers, explorer vos données et effectuer un nettoyage simple. `pandas` est l'équivalent des tables en STATA ou des DataFrames en R.

In [None]:
# 📦 Importation des bibliothèques
import pandas as pd
import numpy as np

## 📥 Chargement des données
Nous allons utiliser un dataset au format CSV. Si vous êtes sur Google Colab, vous pouvez charger le fichier depuis votre ordinateur ou un lien en ligne.

In [None]:
# Exemple avec un lien en ligne (dataset des passagers du Titanic)
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
df.head()  # aperçu des 5 premières lignes

## 🔍 Exploration des données
Comprendre la structure et les types de données, ainsi que repérer les valeurs manquantes ou incohérentes.

In [None]:
df.info()  # résumé des colonnes et types
df.describe()  # statistiques descriptives des colonnes numériques

## 📌 Accès aux colonnes et lignes
Vous pouvez accéder à une colonne comme ceci : `df['NomDeColonne']`. Voici quelques exemples :

In [None]:
df['Age'].head()  # accès à la colonne Age
df[['Sex', 'Survived']].head()  # accès à plusieurs colonnes

## 🧹 Nettoyage simple
Suppression ou remplacement des valeurs manquantes :

In [None]:
# Remplacer les valeurs manquantes dans Age par la moyenne
df['Age'].fillna(df['Age'].mean(), inplace=True)

# Supprimer les lignes avec des valeurs manquantes
# df.dropna(inplace=True)

## 🔎 Filtrage et sélection
Filtrer les données revient à poser des conditions comme en SQL ou STATA :

In [None]:
df[df['Sex'] == 'female'].head()  # Femmes uniquement
df[(df['Sex'] == 'male') & (df['Age'] < 18)].head()  # Garçons de moins de 18 ans

## ✅ À retenir
- `pandas` permet de charger, explorer, filtrer et nettoyer des données efficacement
- Les `DataFrames` sont des tableaux puissants similaires à ceux de STATA ou R
- Prenez l’habitude d’utiliser `.info()` et `.describe()` pour mieux connaître vos jeux de données

**Exercice proposé** : Charger un fichier CSV personnel et effectuer les étapes suivantes :
1. Afficher les 5 premières lignes
2. Afficher les colonnes et leur type
3. Nettoyer une colonne contenant des valeurs manquantes
4. Filtrer une sous-population