# Introduction à Pandas : Manipulation et Analyse de Données

Pandas est une bibliothèque Python essentielle pour l'analyse de données. Elle fournit des structures de données performantes et faciles à utiliser. Commençons par explorer sa structure de base : la Serie.

## 1. Les Series dans Pandas

Une Serie Pandas est comme une colonne de tableur "intelligent" : elle peut contenir des données (nombres, texte, dates...) et possède un index pour identifier chaque élément.

In [None]:
import pandas as pd  # Convention : on importe pandas sous l'alias pd
import numpy as np  # Nécessaire pour np.nan


### 1.1 Création d'une Serie simple
Une Serie se crée facilement à partir d'une liste Python. Par défaut, les éléments sont indexés de 0 à n-1.

In [None]:
# Création d'une Serie de nombres
notes = pd.Series([15, 12, 18, 14])
print("Notre première Serie :")
print(notes)
print("\nType de la structure :", type(notes))

### 1.2 Accès aux éléments
Comme les listes Python, on peut accéder aux éléments par leur position (index numérique) :

In [None]:
notes[0]

In [None]:
notes[2]

In [None]:
notes.iloc[-1]

In [None]:
print("Dernier élément :", notes.iloc[-1])  # Pour l'indexation négative, utiliser .iloc

In [None]:
# Différentes façons d'accéder aux éléments
print("Premier élément :", notes[0])
print("\nPlusieurs éléments (slice) :")
print(notes[1:3])  # Du deuxième au troisième élément

In [None]:
notes.size

In [None]:
notes.dtype

In [None]:
# Exploration de la Serie
print("Nombre d'éléments :", notes.size)
print("Type des données :", notes.dtype)
print("\nStatistiques descriptives :")
print(notes.describe())

### 1.4 Series avec index personnalisé
L'un des avantages des Series est la possibilité de définir un index personnalisé, rendant les données plus lisibles et accessibles.

In [None]:
# Création d'une Serie avec index personnalisé
temperatures = pd.Series([25, 24, 26, 23], 
                        index=['Lundi', 'Mardi', 'Mercredi', 'Jeudi'])
print("Températures de la semaine :")
print(temperatures)
print("\nTempérature de mercredi :", temperatures['Mercredi'])

### 1.5 Opérations et filtrage
Les Series permettent des opérations vectorisées et du filtrage conditionnel :

In [None]:
# Opérations sur la Serie
print("Températures en Fahrenheit :")
print(temperatures * 9/5 + 32)

print("\nJours chauds (>24°C) :")
print(temperatures[temperatures > 24])

### 1.6 Agrégations
Les Series incluent de nombreuses méthodes d'agrégation utiles pour l'analyse :

In [None]:
# Exemple d'agrégations
print("Statistiques des températures :")
print({
    'Moyenne': temperatures.mean(),
    'Maximum': temperatures.max(),
    'Minimum': temperatures.min(),
    'Écart-type': temperatures.std()
})

# Exemple avec .agg
print("\nPlusieurs agrégations d'un coup :")
print(temperatures.agg(['mean', 'min', 'max', 'std']))

### 1.7 Types de données dans une Serie
Une Serie peut contenir différents types de données, et Pandas adapte le type automatiquement :

In [None]:
# Démonstration des différents types de données
nombres = pd.Series([1, 2, 3, 4])
texte = pd.Series(['rouge', 'vert', 'bleu'])
mixte = pd.Series([1, 'deux', 3.0, True])

print("Type des nombres :", nombres.dtype)
print("Type du texte :", texte.dtype)
print("Type mixte :", mixte.dtype)  # Devient 'object' car contient différents types

### 1.8 Gestion des valeurs manquantes
Dans le monde réel, les données sont souvent incomplètes. Pandas gère nativement les valeurs manquantes avec NaN (Not a Number).

In [None]:

# Création d'une Serie avec des valeurs manquantes
donnees_incompletes = pd.Series([1, np.nan, 3, None, 5])
print("Données avec valeurs manquantes :")
print(donnees_incompletes)

print("\nDétection des valeurs manquantes :")
print(donnees_incompletes.isna())

print("\nSuppression des valeurs manquantes :")
print(donnees_incompletes.dropna())

print("\nRemplacement des valeurs manquantes :")
print(donnees_incompletes.fillna(0))

### 1.9 Opérations statistiques et méthodes d'agrégation avancées
Les Series offrent de nombreuses possibilités pour l'analyse statistique :

In [None]:
# Création d'une Serie de notes
notes = pd.Series([12, 15, 18, 10, 14, 16],
                 index=['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'])

# Statistiques de base
print("Statistiques descriptives :")
print(notes.describe())

# Agrégations personnalisées avec .agg
print("\nAgrégations personnalisées :")
stats = notes.agg({
    'Moyenne': 'mean',
    'Médiane': 'median',
    'Note max': 'max',
    'Note min': 'min',
    'Écart-type': 'std',
    'Nombre élèves > 14': lambda x: sum(x > 14)
})
print(stats)

### 1.10 Manipulation et filtrage avancés
On peut combiner plusieurs conditions pour filtrer nos données :

In [None]:
# Filtrage avec conditions multiples
print("Élèves avec notes entre 14 et 16 :")
print(notes[(notes >= 14) & (notes <= 16)])

# Tri des données
print("\nNotes triées par valeur :")
print(notes.sort_values(ascending=False))

print("\nNotes triées par nom d'élève :")
print(notes.sort_index())

### 1.11 Exercices pratiques
Pour consolider vos connaissances sur les Series Pandas, essayez ces exercices :

1. Créez une Serie contenant les températures de la semaine (7 jours) avec des noms de jours comme index
2. Calculez la température moyenne et l'écart-type
3. Identifiez les jours où la température dépasse la moyenne
4. Ajoutez 273.15 à toutes les températures pour les convertir en Kelvin
5. Gérez quelques valeurs manquantes (NaN) dans les données

In [None]:
# 1. Créer une Serie avec les températures de la semaine
temperatures_semaine = pd.Series(
    [20, 22, 21, np.nan, 23, 19, 24],
    index=['Lundi', 'Mardi', 'Mercredi', 'Jeudi', 'Vendredi', 'Samedi', 'Dimanche']
)
print("1. Températures de la semaine :")
print(temperatures_semaine)

In [None]:
# 2. Calculer la température moyenne et l'écart-type
moyenne = ...
ecart_type = ...
print("\n2. Statistiques :")
print(f"Température moyenne : {moyenne:.1f}°C")
print(f"Écart-type : {ecart_type:.1f}°C")

In [None]:
# 3. Identifier les jours où la température dépasse la moyenne
jours_chauds = ...
print("\n3. Jours au-dessus de la moyenne :")
print(jours_chauds)

In [None]:
# 4. Convertir en Kelvin (ajouter 273.15)
temperatures_kelvin = ...
print("\n4. Températures en Kelvin :")
print(temperatures_kelvin)

In [None]:
# 5. Gestion des valeurs manquantes
print("\n5. Gestion des valeurs manquantes :")
print("Nombre de valeurs manquantes :", ...)
print("\nDonnées sans valeurs manquantes :")
print(...)
print("\nRemplacement des NaN par la moyenne :")
print(...)

## 2. Les DataFrames 

Un DataFrame est une structure de données 2D (comme un tableur Excel) composée de plusieurs Series. C'est la structure la plus utilisée dans Pandas pour manipuler des données tabulaires.

### 2.1 Création d'un DataFrame
Il existe plusieurs façons de créer un DataFrame :

In [None]:
import pandas as pd
import numpy as np

# 1. À partir d'un dictionnaire
df1 = pd.DataFrame({
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Ville': ['Paris', 'Lyon', 'Marseille']
})
print("DataFrame créé à partir d'un dictionnaire :")
print(df1)

# 2. À partir de listes
donnees = [
    ['Alice', 25, 'Paris'],
    ['Bob', 30, 'Lyon'],
    ['Charlie', 35, 'Marseille']
]
df2 = pd.DataFrame(donnees, columns=['Nom', 'Age', 'Ville'])
print("\nDataFrame créé à partir de listes :")
print(df2)

### 2.2 Exploration d'un DataFrame
Pandas offre plusieurs méthodes utiles pour explorer rapidement nos données :

In [None]:
# Créons un DataFrame plus conséquent pour nos exemples
df = pd.DataFrame({
    'Nom': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 35, 28, 22],
    'Ville': ['Paris', 'Lyon', 'Paris', 'Marseille', 'Lyon'],
    'Salaire': [45000, 50000, 55000, 48000, 42000],
    'Departement': ['IT', 'HR', 'IT', 'Finance', 'HR']
})

In [None]:
# Aperçu des données
print("Les 2 premières lignes :")
print(df.head(2))

In [None]:
print("\nInformations sur le DataFrame :")
print(df.info())

In [None]:
print("\nStatistiques descriptives :")
print(df.describe())

In [None]:
print("\nNoms des colonnes :")
print(df.columns)

In [None]:
print("\nTypes des colonnes :")
print(df.dtypes)

### 2.3 Accès aux données
Un DataFrame permet différentes méthodes d'accès aux données :

In [None]:
# Accès à une colonne (renvoie une Serie)
print("Colonne Age :")
print(df['Age'])
# ou print(df.Age)  # Uniquement si le nom de colonne est un identifiant valide

In [None]:
# Accès à plusieurs colonnes
print("\nColonnes Nom et Age :")
print(df[['Nom', 'Age']])

In [None]:
# Accès par position avec iloc
print("\nPremière ligne, deuxième colonne :")
print(df.iloc[0, 1])


In [None]:
# Accès par label avec loc
print("\nLigne avec index 2, colonne 'Nom' :")
print(df.loc[2, 'Nom'])

### 2.4 Filtrage et agrégation avancée
Les DataFrames permettent des opérations complexes de filtrage et d'agrégation :

In [None]:
# Filtrage avec conditions
parisiens = df[df['Ville'] == 'Paris']
print("Employés de Paris :")
print(parisiens)


In [None]:
# Filtrage multi-conditions
print("\nEmployés IT de Paris :")
print(df[(df['Ville'] == 'Paris') & (df['Departement'] == 'IT')])

In [None]:
# Agrégations par groupe avec agg
resultats = df.groupby('Departement').agg({
    'Salaire': ['mean', 'min', 'max'],
    'Age': 'mean',
    'Nom': 'count'
}).round(2)

print("\nStatistiques par département :")
print(resultats)

### 2.5 Modification du DataFrame
On peut facilement modifier un DataFrame :

In [None]:
# Ajout d'une nouvelle colonne
df['Bonus'] = df['Salaire'] * 0.1

# Modification basée sur condition
df.loc[df['Departement'] == 'IT', 'Bonus'] *= 1.5

# Ajout d'une ligne
nouvelle_ligne = {
    'Nom': 'Frank',
    'Age': 31,
    'Ville': 'Lyon',
    'Salaire': 49000,
    'Departement': 'Finance',
    'Bonus': 4900
}
df = df.append(nouvelle_ligne, ignore_index=True)

print("DataFrame mis à jour :")
print(df)

### 2.6 Exercices pratiques sur les DataFrames

1. Créez un DataFrame contenant des informations sur des produits (nom, prix, catégorie, stock)
2. Calculez le prix moyen par catégorie
3. Identifiez les produits dont le stock est inférieur à 10
4. Ajoutez une colonne 'Valeur_Stock' qui calcule prix * stock
5. Créez un résumé montrant pour chaque catégorie :
   - Le nombre de produits
   - La valeur totale du stock
   - Le prix moyen
   - Le stock minimum

In [None]:
# 1. Création du DataFrame des produits
produits = pd.DataFrame({
    'Nom': ['Ordinateur', 'Souris', 'Clavier', 'Écran', 'Webcam', 'Casque', 'Imprimante', 'Tablette'],
    'Prix': [1200, 25, 45, 300, 50, 80, 150, 400],
    'Catégorie': ['Informatique', 'Accessoires', 'Accessoires', 'Informatique', 
                  'Accessoires', 'Audio', 'Informatique', 'Informatique'],
    'Stock': [5, 15, 8, 12, 20, 6, 4, 10]
})

print("1. DataFrame initial des produits :")
print(produits)

In [None]:
# 2. Prix moyen par catégorie
prix_moyen = ...
print("\n2. Prix moyen par catégorie :")
print(prix_moyen)

In [None]:
# 3. Produits avec stock faible
stock_faible = ...
print("\n3. Produits avec stock inférieur à 10 :")
print(stock_faible)

In [None]:
# 4. Ajout de la colonne Valeur_Stock
produits['Valeur_Stock'] = ...
print("\n4. DataFrame avec la valeur du stock :")
print(produits)

In [None]:
# 5. Résumé par catégorie avec agrégations multiples
resume = produits.groupby('Catégorie').agg({
    'Nom': 'count',  # Nombre de produits
    'Valeur_Stock': 'sum',  # Valeur totale du stock
    'Prix': 'mean',  # Prix moyen
    'Stock': 'min'   # Stock minimum
}).round(2)

# Renommage des colonnes pour plus de clarté
resume.columns = ['Nombre_Produits', 'Valeur_Totale_Stock', 'Prix_Moyen', 'Stock_Minimum']

print("\n5. Résumé par catégorie :")
print(resume)

# Bonus : Ajout de statistiques globales
print("\nBonus - Statistiques globales :")
print(f"Valeur totale de l'inventaire : {produits['Valeur_Stock'].sum():,.2f} €")
print(f"Nombre total de produits en stock : {produits['Stock'].sum()}")
print(f"Prix moyen tous produits confondus : {produits['Prix'].mean():.2f} €")

### 2.7 Cas pratique : Analyse de la consommation mondiale de boissons

Pour illustrer l'utilisation des DataFrames sur un cas réel, analysons un jeu de données sur la consommation de boissons par pays.

In [None]:
# Chargement des données
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv"
drinks = pd.read_csv(url)

# Aperçu des données
print("Aperçu des 5 premières lignes :")
print(drinks.head())

print("\nInformations sur le dataset :")
print(drinks.info())

Le dataset contient les informations suivantes pour chaque pays :
- beer_servings : Consommation de bière (verres par personne par an)
- spirit_servings : Consommation de spiritueux
- wine_servings : Consommation de vin
- total_litres_of_pure_alcohol : Consommation totale d'alcool pur

In [None]:
# Analyse par continent
stats_par_continent = drinks.groupby('continent').agg({
    'beer_servings': ['mean', 'min', 'max'],
    'wine_servings': ['mean', 'min', 'max'],
    'spirit_servings': ['mean', 'min', 'max'],
    'total_litres_of_pure_alcohol': 'mean'
}).round(1)

print("Statistiques de consommation par continent :")
print(stats_par_continent)

# Top 5 des pays consommateurs de bière
print("\nTop 5 des pays consommateurs de bière :")
print(drinks.nlargest(5, 'beer_servings')[['country', 'beer_servings']])

# Consommation moyenne par type de boisson
moyennes = drinks[['beer_servings', 'spirit_servings', 'wine_servings']].mean()
print("\nConsommation moyenne mondiale par type :")
print(moyennes)

# Pays sans alcool (total = 0)
pays_sans_alcool = drinks[drinks['total_litres_of_pure_alcohol'] == 0]
print(f"\nNombre de pays sans alcool : {len(pays_sans_alcool)}")
print("Liste des pays sans alcool :")
print(pays_sans_alcool['country'].tolist())

# Corrélations entre les différentes boissons
correlations = drinks[['beer_servings', 'spirit_servings', 'wine_servings']].corr()
print("\nCorrélations entre les types de boissons :")
print(correlations)

### 2.8 Exercices sur le dataset drinks

1. Trouvez le top 3 des pays pour chaque type de boisson
2. Calculez la consommation totale de boissons (beer + spirit + wine) par pays
3. Pour chaque continent, trouvez :
   - Le pays qui consomme le plus d'alcool total
   - Le ratio vin/bière moyen
4. Identifiez les pays où la consommation de vin est supérieure à celle de bière

## 3. Cas pratique : Analyse de la tragédie du Titanic

Le naufrage du Titanic est l'une des plus célèbres tragédies maritimes. Analysons les données des passagers pour comprendre les facteurs qui ont influencé la survie.

### 3.1 Chargement et exploration des données

In [None]:
# Chargement des données
url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv"
titanic = pd.read_csv(url)

# Aperçu des données
print("Aperçu des premières lignes :")
print(titanic.head())

print("\nInformations sur le dataset :")
print(titanic.info())

### 3.2 Exercices d'analyse

1. Analyse démographique de base :
   - Calculez l'âge moyen des passagers
   - Quelle est la répartition hommes/femmes ?
   - Quelle est la répartition par classe ?

2. Analyse de la survie :
   - Quel est le taux de survie global ?
   - Comparez les taux de survie par classe
   - Comparez les taux de survie homme/femme
   - Y a-t-il une corrélation entre l'âge et la survie ?

3. Analyse des cabines :
   - Combien de passagers ont une information de cabine ?
   - La présence d'une information de cabine est-elle corrélée à la survie ?
   - Quelle classe avait le plus de cabines assignées ?

4. Analyse familiale :
   - Calculez le nombre moyen de parents/enfants par passager
   - Les personnes voyageant en famille ont-elles eu plus de chances de survivre ?
   - Quel était le nombre idéal de membres de famille pour maximiser ses chances ?

5. Analyse des tarifs :
   - Quel était le tarif moyen par classe ?
   - Existe-t-il une corrélation entre le tarif et la survie ?
   - Identifiez les outliers dans les tarifs

6. Créez un résumé statistique complet montrant :
   - Pour chaque classe : taux de survie, âge moyen, tarif moyen
   - Pour chaque port d'embarquement : nombre de passagers et taux de survie
   - Pour chaque taille de famille : nombre de passagers et taux de survie

In [None]:
# Voici quelques fonctions utiles pour l'analyse :

def taux_survie(groupe):
    """Calcule le taux de survie pour un groupe donné"""
    return (groupe['survived'].mean() * 100).round(1)

def resume_par_groupe(df, colonne):
    """Crée un résumé statistique pour une colonne donnée"""
    return df.groupby(colonne).agg({
        'survived': ['count', 'mean'],
        'age': ['mean', 'median'],
        'fare': ['mean', 'median']
    }).round(2)

### 3.3 Solutions :

In [None]:
import pandas as pd
import numpy as np

# Chargement des données
url = ...
titanic = ...

In [None]:
# 1. Analyse démographique de base
print("1. ANALYSE DÉMOGRAPHIQUE")

# Âge moyen (en gérant les valeurs manquantes)
age_moyen = ...
print(f"\nÂge moyen des passagers : {age_moyen:.1f} ans")

# Répartition homme/femme
repartition_sexe = ...
pourcentage_sexe = titanic['sex'].value_counts(normalize=True).round(3) * 100
print("\nRépartition par sexe:")
print(f"Nombre absolu:\n{repartition_sexe}")
print(f"Pourcentage:\n{pourcentage_sexe}")

# Répartition par classe
repartition_classe = ...
pourcentage_classe = titanic['class'].value_counts(normalize=True).round(3) * 100
print("\nRépartition par classe:")
print(f"Nombre absolu:\n{repartition_classe}")
print(f"Pourcentage:\n{pourcentage_classe}")

In [None]:
# 2. Analyse de la survie
print("\n2. ANALYSE DE LA SURVIE")

# Taux de survie global


# Taux de survie par classe
survie_classe = ...
...
print(survie_classe)

# Taux de survie par sexe
survie_sexe = ...
...
print("\nTaux de survie par sexe :")
print(survie_sexe)

# Corrélation âge/survie
# On crée des groupes d'âge pour mieux analyser
titanic['age_group'] = ...
survie_age = ...
print("\nTaux de survie par groupe d'âge :")
print(survie_age)

In [None]:
# 3. Analyse des cabines
print("\n3. ANALYSE DES CABINES")

# Nombre de passagers avec information de cabine


# Corrélation cabine/survie


# Cabines par classe


In [None]:

# 4. Analyse familiale
print("\n4. ANALYSE FAMILIALE")

# Création d'une colonne taille_famille


# Survie selon taille de la famille


In [None]:
# 5. Analyse des tarifs



In [None]:
# 6. Résumé statistique complet
