# Introduction à Pandas : Manipulation et Analyse de Données

Pandas est une bibliothèque Python essentielle pour l'analyse de données. Elle fournit des structures de données performantes et faciles à utiliser. Commençons par explorer sa structure de base : la Serie.

## 1. Les Series dans Pandas

Une Serie Pandas est comme une colonne de tableur "intelligent" : elle peut contenir des données (nombres, texte, dates...) et possède un index pour identifier chaque élément.

In [1]:
import pandas as pd  # Convention : on importe pandas sous l'alias pd
import numpy as np  # Nécessaire pour np.nan


### 1.1 Création d'une Serie simple
Une Serie se crée facilement à partir d'une liste Python. Par défaut, les éléments sont indexés de 0 à n-1.

In [2]:
# Création d'une Serie de nombres
notes = pd.Series([15, 12, 18, 14])
print("Notre première Serie :")
print(notes)
print("\nType de la structure :", type(notes))

Notre première Serie :
0    15
1    12
2    18
3    14
dtype: int64

Type de la structure : <class 'pandas.core.series.Series'>


### 1.2 Accès aux éléments
Comme les listes Python, on peut accéder aux éléments par leur position (index numérique) :

In [10]:
notes[0]

15

In [13]:
notes[2]

18

In [18]:
notes.iloc[-1]

14

In [17]:
print("Dernier élément :", notes.iloc[-1])  # Pour l'indexation négative, utiliser .iloc

Dernier élément : 14


In [6]:
# Différentes façons d'accéder aux éléments
print("Premier élément :", notes[0])
print("\nPlusieurs éléments (slice) :")
print(notes[1:3])  # Du deuxième au troisième élément

Premier élément : 15

Plusieurs éléments (slice) :
1    12
2    18
dtype: int64


In [7]:
notes.size

4

In [8]:
notes.dtype

dtype('int64')

In [9]:
# Exploration de la Serie
print("Nombre d'éléments :", notes.size)
print("Type des données :", notes.dtype)
print("\nStatistiques descriptives :")
print(notes.describe())

Nombre d'éléments : 4
Type des données : int64

Statistiques descriptives :
count     4.00
mean     14.75
std       2.50
min      12.00
25%      13.50
50%      14.50
75%      15.75
max      18.00
dtype: float64


### 1.4 Series avec index personnalisé
L'un des avantages des Series est la possibilité de définir un index personnalisé, rendant les données plus lisibles et accessibles.

In [15]:
# Création d'une Serie avec index personnalisé
temperatures = pd.Series([25, 24, 26, 23], 
                        index=['Lundi', 'Mardi', 'Mercredi', 'Jeudi'])
print("Températures de la semaine :")
print(temperatures)
print("\nTempérature de mercredi :", temperatures['Mercredi'])

Températures de la semaine :
Lundi       25
Mardi       24
Mercredi    26
Jeudi       23
dtype: int64

Température de mercredi : 26


### 1.5 Opérations et filtrage
Les Series permettent des opérations vectorisées et du filtrage conditionnel :

In [16]:
# Opérations sur la Serie
print("Températures en Fahrenheit :")
print(temperatures * 9/5 + 32)

print("\nJours chauds (>24°C) :")
print(temperatures[temperatures > 24])

Températures en Fahrenheit :
Lundi       77.0
Mardi       75.2
Mercredi    78.8
Jeudi       73.4
dtype: float64

Jours chauds (>24°C) :
Lundi       25
Mercredi    26
dtype: int64


### 1.6 Agrégations
Les Series incluent de nombreuses méthodes d'agrégation utiles pour l'analyse :

In [19]:
# Exemple d'agrégations
print("Statistiques des températures :")
print({
    'Moyenne': temperatures.mean(),
    'Maximum': temperatures.max(),
    'Minimum': temperatures.min(),
    'Écart-type': temperatures.std()
})

# Exemple avec .agg
print("\nPlusieurs agrégations d'un coup :")
print(temperatures.agg(['mean', 'min', 'max', 'std']))

Statistiques des températures :
{'Moyenne': 24.5, 'Maximum': 26, 'Minimum': 23, 'Écart-type': 1.2909944487358056}

Plusieurs agrégations d'un coup :
mean    24.500000
min     23.000000
max     26.000000
std      1.290994
dtype: float64


### 1.7 Types de données dans une Serie
Une Serie peut contenir différents types de données, et Pandas adapte le type automatiquement :

In [21]:
# Démonstration des différents types de données
nombres = pd.Series([1, 2, 3, 4])
texte = pd.Series(['rouge', 'vert', 'bleu'])
mixte = pd.Series([1, 'deux', 3.0, True])

print("Type des nombres :", nombres.dtype)
print("Type du texte :", texte.dtype)
print("Type mixte :", mixte.dtype)  # Devient 'object' car contient différents types

Type des nombres : int64
Type du texte : object
Type mixte : object


### 1.8 Gestion des valeurs manquantes
Dans le monde réel, les données sont souvent incomplètes. Pandas gère nativement les valeurs manquantes avec NaN (Not a Number).

In [24]:

# Création d'une Serie avec des valeurs manquantes
donnees_incompletes = pd.Series([1, np.nan, 3, None, 5])
print("Données avec valeurs manquantes :")
print(donnees_incompletes)

print("\nDétection des valeurs manquantes :")
print(donnees_incompletes.isna())

print("\nSuppression des valeurs manquantes :")
print(donnees_incompletes.dropna())

print("\nRemplacement des valeurs manquantes :")
print(donnees_incompletes.fillna(0))

Données avec valeurs manquantes :
0    1.0
1    NaN
2    3.0
3    NaN
4    5.0
dtype: float64

Détection des valeurs manquantes :
0    False
1     True
2    False
3     True
4    False
dtype: bool

Suppression des valeurs manquantes :
0    1.0
2    3.0
4    5.0
dtype: float64

Remplacement des valeurs manquantes :
0    1.0
1    0.0
2    3.0
3    0.0
4    5.0
dtype: float64


### 1.9 Opérations statistiques et méthodes d'agrégation avancées
Les Series offrent de nombreuses possibilités pour l'analyse statistique :

In [25]:
# Création d'une Serie de notes
notes = pd.Series([12, 15, 18, 10, 14, 16],
                 index=['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'])

# Statistiques de base
print("Statistiques descriptives :")
print(notes.describe())

# Agrégations personnalisées avec .agg
print("\nAgrégations personnalisées :")
stats = notes.agg({
    'Moyenne': 'mean',
    'Médiane': 'median',
    'Note max': 'max',
    'Note min': 'min',
    'Écart-type': 'std',
    'Nombre élèves > 14': lambda x: sum(x > 14)
})
print(stats)

Statistiques descriptives :
count     6.000000
mean     14.166667
std       2.857738
min      10.000000
25%      12.500000
50%      14.500000
75%      15.750000
max      18.000000
dtype: float64

Agrégations personnalisées :
Moyenne               14.166667
Médiane               14.500000
Note max              18.000000
Note min              10.000000
Écart-type             2.857738
Nombre élèves > 14     3.000000
dtype: float64


### 1.10 Manipulation et filtrage avancés
On peut combiner plusieurs conditions pour filtrer nos données :

In [26]:
# Filtrage avec conditions multiples
print("Élèves avec notes entre 14 et 16 :")
print(notes[(notes >= 14) & (notes <= 16)])

# Tri des données
print("\nNotes triées par valeur :")
print(notes.sort_values(ascending=False))

print("\nNotes triées par nom d'élève :")
print(notes.sort_index())

Élèves avec notes entre 14 et 16 :
Bob      15
Eve      14
Frank    16
dtype: int64

Notes triées par valeur :
Charlie    18
Frank      16
Bob        15
Eve        14
Alice      12
David      10
dtype: int64

Notes triées par nom d'élève :
Alice      12
Bob        15
Charlie    18
David      10
Eve        14
Frank      16
dtype: int64


### 1.11 Exercices pratiques
Pour consolider vos connaissances sur les Series Pandas, essayez ces exercices :

1. Créez une Serie contenant les températures de la semaine (7 jours) avec des noms de jours comme index
2. Calculez la température moyenne et l'écart-type
3. Identifiez les jours où la température dépasse la moyenne
4. Ajoutez 273.15 à toutes les températures pour les convertir en Kelvin
5. Gérez quelques valeurs manquantes (NaN) dans les données

In [28]:
# 1. Créer une Serie avec les températures de la semaine
temperatures_semaine = pd.Series(
    [20, 22, 21, np.nan, 23, 19, 24],
    index=['Lundi', 'Mardi', 'Mercredi', 'Jeudi', 'Vendredi', 'Samedi', 'Dimanche']
)
print("1. Températures de la semaine :")
print(temperatures_semaine)

# 2. Calculer la température moyenne et l'écart-type
moyenne = temperatures_semaine.mean()
ecart_type = temperatures_semaine.std()
print("\n2. Statistiques :")
print(f"Température moyenne : {moyenne:.1f}°C")
print(f"Écart-type : {ecart_type:.1f}°C")

# 3. Identifier les jours où la température dépasse la moyenne
jours_chauds = temperatures_semaine[temperatures_semaine > moyenne]
print("\n3. Jours au-dessus de la moyenne :")
print(jours_chauds)

# 4. Convertir en Kelvin (ajouter 273.15)
temperatures_kelvin = temperatures_semaine + 273.15
print("\n4. Températures en Kelvin :")
print(temperatures_kelvin)

# 5. Gestion des valeurs manquantes
print("\n5. Gestion des valeurs manquantes :")
print("Nombre de valeurs manquantes :", temperatures_semaine.isna().sum())
print("\nDonnées sans valeurs manquantes :")
print(temperatures_semaine.dropna())
print("\nRemplacement des NaN par la moyenne :")
print(temperatures_semaine.fillna(temperatures_semaine.mean()))

1. Températures de la semaine :
Lundi       20.0
Mardi       22.0
Mercredi    21.0
Jeudi        NaN
Vendredi    23.0
Samedi      19.0
Dimanche    24.0
dtype: float64

2. Statistiques :
Température moyenne : 21.5°C
Écart-type : 1.9°C

3. Jours au-dessus de la moyenne :
Mardi       22.0
Vendredi    23.0
Dimanche    24.0
dtype: float64

4. Températures en Kelvin :
Lundi       293.15
Mardi       295.15
Mercredi    294.15
Jeudi          NaN
Vendredi    296.15
Samedi      292.15
Dimanche    297.15
dtype: float64

5. Gestion des valeurs manquantes :
Nombre de valeurs manquantes : 1

Données sans valeurs manquantes :
Lundi       20.0
Mardi       22.0
Mercredi    21.0
Vendredi    23.0
Samedi      19.0
Dimanche    24.0
dtype: float64

Remplacement des NaN par la moyenne :
Lundi       20.0
Mardi       22.0
Mercredi    21.0
Jeudi       21.5
Vendredi    23.0
Samedi      19.0
Dimanche    24.0
dtype: float64


## 2. Les DataFrames 

Un DataFrame est une structure de données 2D (comme un tableur Excel) composée de plusieurs Series. C'est la structure la plus utilisée dans Pandas pour manipuler des données tabulaires.

### 2.1 Création d'un DataFrame
Il existe plusieurs façons de créer un DataFrame :

In [29]:
import pandas as pd
import numpy as np

# 1. À partir d'un dictionnaire
df1 = pd.DataFrame({
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Ville': ['Paris', 'Lyon', 'Marseille']
})
print("DataFrame créé à partir d'un dictionnaire :")
print(df1)

# 2. À partir de listes
donnees = [
    ['Alice', 25, 'Paris'],
    ['Bob', 30, 'Lyon'],
    ['Charlie', 35, 'Marseille']
]
df2 = pd.DataFrame(donnees, columns=['Nom', 'Age', 'Ville'])
print("\nDataFrame créé à partir de listes :")
print(df2)

DataFrame créé à partir d'un dictionnaire :
       Nom  Age      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   35  Marseille

DataFrame créé à partir de listes :
       Nom  Age      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   35  Marseille


### 2.2 Exploration d'un DataFrame
Pandas offre plusieurs méthodes utiles pour explorer rapidement nos données :

In [30]:
# Créons un DataFrame plus conséquent pour nos exemples
df = pd.DataFrame({
    'Nom': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 35, 28, 22],
    'Ville': ['Paris', 'Lyon', 'Paris', 'Marseille', 'Lyon'],
    'Salaire': [45000, 50000, 55000, 48000, 42000],
    'Departement': ['IT', 'HR', 'IT', 'Finance', 'HR']
})

# Aperçu des données
print("Les 2 premières lignes :")
print(df.head(2))

print("\nInformations sur le DataFrame :")
print(df.info())

print("\nStatistiques descriptives :")
print(df.describe())

print("\nNoms des colonnes :")
print(df.columns)

print("\nTypes des colonnes :")
print(df.dtypes)

Les 2 premières lignes :
     Nom  Age  Ville  Salaire Departement
0  Alice   25  Paris    45000          IT
1    Bob   30   Lyon    50000          HR

Informations sur le DataFrame :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Nom          5 non-null      object
 1   Age          5 non-null      int64 
 2   Ville        5 non-null      object
 3   Salaire      5 non-null      int64 
 4   Departement  5 non-null      object
dtypes: int64(2), object(3)
memory usage: 328.0+ bytes
None

Statistiques descriptives :
             Age       Salaire
count   5.000000      5.000000
mean   28.000000  48000.000000
std     4.949747   4949.747468
min    22.000000  42000.000000
25%    25.000000  45000.000000
50%    28.000000  48000.000000
75%    30.000000  50000.000000
max    35.000000  55000.000000

Noms des colonnes :
Index(['Nom', 'Age', 'Ville', 'Salaire',

### 2.3 Accès aux données
Un DataFrame permet différentes méthodes d'accès aux données :

In [31]:
# Accès à une colonne (renvoie une Serie)
print("Colonne Age :")
print(df['Age'])
# ou print(df.Age)  # Uniquement si le nom de colonne est un identifiant valide

# Accès à plusieurs colonnes
print("\nColonnes Nom et Age :")
print(df[['Nom', 'Age']])

# Accès par position avec iloc
print("\nPremière ligne, deuxième colonne :")
print(df.iloc[0, 1])

# Accès par label avec loc
print("\nLigne avec index 2, colonne 'Nom' :")
print(df.loc[2, 'Nom'])

Colonne Age :
0    25
1    30
2    35
3    28
4    22
Name: Age, dtype: int64

Colonnes Nom et Age :
       Nom  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   28
4      Eve   22

Première ligne, deuxième colonne :
25

Ligne avec index 2, colonne 'Nom' :
Charlie


### 2.4 Filtrage et agrégation avancée
Les DataFrames permettent des opérations complexes de filtrage et d'agrégation :

In [32]:
# Filtrage avec conditions
parisiens = df[df['Ville'] == 'Paris']
print("Employés de Paris :")
print(parisiens)

# Filtrage multi-conditions
print("\nEmployés IT de Paris :")
print(df[(df['Ville'] == 'Paris') & (df['Departement'] == 'IT')])

# Agrégations par groupe avec agg
resultats = df.groupby('Departement').agg({
    'Salaire': ['mean', 'min', 'max'],
    'Age': 'mean',
    'Nom': 'count'
}).round(2)

print("\nStatistiques par département :")
print(resultats)

Employés de Paris :
       Nom  Age  Ville  Salaire Departement
0    Alice   25  Paris    45000          IT
2  Charlie   35  Paris    55000          IT

Employés IT de Paris :
       Nom  Age  Ville  Salaire Departement
0    Alice   25  Paris    45000          IT
2  Charlie   35  Paris    55000          IT

Statistiques par département :
            Salaire                Age   Nom
               mean    min    max mean count
Departement                                 
Finance       48000  48000  48000   28     1
HR            46000  42000  50000   26     2
IT            50000  45000  55000   30     2


### 2.5 Modification du DataFrame
On peut facilement modifier un DataFrame :

In [33]:
# Ajout d'une nouvelle colonne
df['Bonus'] = df['Salaire'] * 0.1

# Modification basée sur condition
df.loc[df['Departement'] == 'IT', 'Bonus'] *= 1.5

# Ajout d'une ligne
nouvelle_ligne = {
    'Nom': 'Frank',
    'Age': 31,
    'Ville': 'Lyon',
    'Salaire': 49000,
    'Departement': 'Finance',
    'Bonus': 4900
}
df = df.append(nouvelle_ligne, ignore_index=True)

print("DataFrame mis à jour :")
print(df)

DataFrame mis à jour :
       Nom  Age      Ville  Salaire Departement   Bonus
0    Alice   25      Paris    45000          IT  6750.0
1      Bob   30       Lyon    50000          HR  5000.0
2  Charlie   35      Paris    55000          IT  8250.0
3    David   28  Marseille    48000     Finance  4800.0
4      Eve   22       Lyon    42000          HR  4200.0
5    Frank   31       Lyon    49000     Finance  4900.0


### 2.6 Exercices pratiques sur les DataFrames

1. Créez un DataFrame contenant des informations sur des produits (nom, prix, catégorie, stock)
2. Calculez le prix moyen par catégorie
3. Identifiez les produits dont le stock est inférieur à 10
4. Ajoutez une colonne 'Valeur_Stock' qui calcule prix * stock
5. Créez un résumé montrant pour chaque catégorie :
   - Le nombre de produits
   - La valeur totale du stock
   - Le prix moyen
   - Le stock minimum

In [35]:
# 1. Création du DataFrame des produits
produits = pd.DataFrame({
    'Nom': ['Ordinateur', 'Souris', 'Clavier', 'Écran', 'Webcam', 'Casque', 'Imprimante', 'Tablette'],
    'Prix': [1200, 25, 45, 300, 50, 80, 150, 400],
    'Catégorie': ['Informatique', 'Accessoires', 'Accessoires', 'Informatique', 
                  'Accessoires', 'Audio', 'Informatique', 'Informatique'],
    'Stock': [5, 15, 8, 12, 20, 6, 4, 10]
})

print("1. DataFrame initial des produits :")
print(produits)

# 2. Prix moyen par catégorie
prix_moyen = produits.groupby('Catégorie')['Prix'].mean().round(2)
print("\n2. Prix moyen par catégorie :")
print(prix_moyen)

# 3. Produits avec stock faible
stock_faible = produits[produits['Stock'] < 10]
print("\n3. Produits avec stock inférieur à 10 :")
print(stock_faible)

# 4. Ajout de la colonne Valeur_Stock
produits['Valeur_Stock'] = produits['Prix'] * produits['Stock']
print("\n4. DataFrame avec la valeur du stock :")
print(produits)

# 5. Résumé par catégorie avec agrégations multiples
resume = produits.groupby('Catégorie').agg({
    'Nom': 'count',  # Nombre de produits
    'Valeur_Stock': 'sum',  # Valeur totale du stock
    'Prix': 'mean',  # Prix moyen
    'Stock': 'min'   # Stock minimum
}).round(2)

# Renommage des colonnes pour plus de clarté
resume.columns = ['Nombre_Produits', 'Valeur_Totale_Stock', 'Prix_Moyen', 'Stock_Minimum']

print("\n5. Résumé par catégorie :")
print(resume)

# Bonus : Ajout de statistiques globales
print("\nBonus - Statistiques globales :")
print(f"Valeur totale de l'inventaire : {produits['Valeur_Stock'].sum():,.2f} €")
print(f"Nombre total de produits en stock : {produits['Stock'].sum()}")
print(f"Prix moyen tous produits confondus : {produits['Prix'].mean():.2f} €")

1. DataFrame initial des produits :
          Nom  Prix     Catégorie  Stock
0  Ordinateur  1200  Informatique      5
1      Souris    25   Accessoires     15
2     Clavier    45   Accessoires      8
3       Écran   300  Informatique     12
4      Webcam    50   Accessoires     20
5      Casque    80         Audio      6
6  Imprimante   150  Informatique      4
7    Tablette   400  Informatique     10

2. Prix moyen par catégorie :
Catégorie
Accessoires      40.0
Audio            80.0
Informatique    512.5
Name: Prix, dtype: float64

3. Produits avec stock inférieur à 10 :
          Nom  Prix     Catégorie  Stock
0  Ordinateur  1200  Informatique      5
2     Clavier    45   Accessoires      8
5      Casque    80         Audio      6
6  Imprimante   150  Informatique      4

4. DataFrame avec la valeur du stock :
          Nom  Prix     Catégorie  Stock  Valeur_Stock
0  Ordinateur  1200  Informatique      5          6000
1      Souris    25   Accessoires     15           375
2     Clav

### 2.7 Cas pratique : Analyse de la consommation mondiale de boissons

Pour illustrer l'utilisation des DataFrames sur un cas réel, analysons un jeu de données sur la consommation de boissons par pays.

In [36]:
# Chargement des données
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv"
drinks = pd.read_csv(url)

# Aperçu des données
print("Aperçu des 5 premières lignes :")
print(drinks.head())

print("\nInformations sur le dataset :")
print(drinks.info())

Aperçu des 5 premières lignes :
       country  beer_servings  spirit_servings  wine_servings  \
0  Afghanistan              0                0              0   
1      Albania             89              132             54   
2      Algeria             25                0             14   
3      Andorra            245              138            312   
4       Angola            217               57             45   

   total_litres_of_pure_alcohol continent  
0                           0.0        AS  
1                           4.9        EU  
2                           0.7        AF  
3                          12.4        EU  
4                           5.9        AF  

Informations sur le dataset :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   country                       193 non-null    object 
 

Le dataset contient les informations suivantes pour chaque pays :
- beer_servings : Consommation de bière (verres par personne par an)
- spirit_servings : Consommation de spiritueux
- wine_servings : Consommation de vin
- total_litres_of_pure_alcohol : Consommation totale d'alcool pur

In [37]:
# Analyse par continent
stats_par_continent = drinks.groupby('continent').agg({
    'beer_servings': ['mean', 'min', 'max'],
    'wine_servings': ['mean', 'min', 'max'],
    'spirit_servings': ['mean', 'min', 'max'],
    'total_litres_of_pure_alcohol': 'mean'
}).round(1)

print("Statistiques de consommation par continent :")
print(stats_par_continent)

# Top 5 des pays consommateurs de bière
print("\nTop 5 des pays consommateurs de bière :")
print(drinks.nlargest(5, 'beer_servings')[['country', 'beer_servings']])

# Consommation moyenne par type de boisson
moyennes = drinks[['beer_servings', 'spirit_servings', 'wine_servings']].mean()
print("\nConsommation moyenne mondiale par type :")
print(moyennes)

# Pays sans alcool (total = 0)
pays_sans_alcool = drinks[drinks['total_litres_of_pure_alcohol'] == 0]
print(f"\nNombre de pays sans alcool : {len(pays_sans_alcool)}")
print("Liste des pays sans alcool :")
print(pays_sans_alcool['country'].tolist())

# Corrélations entre les différentes boissons
correlations = drinks[['beer_servings', 'spirit_servings', 'wine_servings']].corr()
print("\nCorrélations entre les types de boissons :")
print(correlations)

Statistiques de consommation par continent :
          beer_servings          wine_servings          spirit_servings      \
                   mean min  max          mean min  max            mean min   
continent                                                                     
AF                 61.5   0  376          16.3   0  233            16.3   0   
AS                 37.0   0  247           9.1   0  123            60.8   0   
EU                193.8   0  361         142.2   0  370           132.6   0   
OC                 89.7   0  306          35.6   0  212            58.4   0   
SA                175.1  93  333          62.4   1  221           114.8  25   

               total_litres_of_pure_alcohol  
           max                         mean  
continent                                    
AF         152                          3.0  
AS         326                          2.2  
EU         373                          8.6  
OC         254                          3.4  


### 2.8 Exercices sur le dataset drinks

1. Trouvez le top 3 des pays pour chaque type de boisson
2. Calculez la consommation totale de boissons (beer + spirit + wine) par pays
3. Pour chaque continent, trouvez :
   - Le pays qui consomme le plus d'alcool total
   - Le ratio vin/bière moyen
4. Identifiez les pays où la consommation de vin est supérieure à celle de bière

In [38]:
import pandas as pd

# Rechargement des données pour être sûr
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv"
drinks = pd.read_csv(url)

# 1. Top 3 des pays pour chaque type de boisson
print("1. Top 3 par type de boisson :")

print("\nTop 3 - Bière :")
print(drinks.nlargest(3, 'beer_servings')[['country', 'beer_servings']])

print("\nTop 3 - Spiritueux :")
print(drinks.nlargest(3, 'spirit_servings')[['country', 'spirit_servings']])

print("\nTop 3 - Vin :")
print(drinks.nlargest(3, 'wine_servings')[['country', 'wine_servings']])

# 2. Consommation totale de boissons par pays
drinks['total_servings'] = drinks['beer_servings'] + drinks['spirit_servings'] + drinks['wine_servings']
print("\n2. Top 5 des pays par consommation totale de boissons :")
print(drinks.nlargest(5, 'total_servings')[['country', 'total_servings']])

# 3. Analyse par continent
# Pays avec le plus d'alcool total par continent
max_par_continent = drinks.loc[drinks.groupby('continent')['total_litres_of_pure_alcohol'].idxmax()]
print("\n3a. Pays avec le plus d'alcool total par continent :")
print(max_par_continent[['continent', 'country', 'total_litres_of_pure_alcohol']])

# Calcul du ratio vin/bière moyen par continent
# On ajoute 1 à beer_servings pour éviter la division par zéro
drinks['wine_beer_ratio'] = drinks['wine_servings'] / (drinks['beer_servings'] + 1)
ratio_moyen = drinks.groupby('continent')['wine_beer_ratio'].mean().round(2)
print("\n3b. Ratio vin/bière moyen par continent :")
print(ratio_moyen)

# 4. Pays où la consommation de vin > bière
pays_plus_vin = drinks[drinks['wine_servings'] > drinks['beer_servings']]
print("\n4. Pays où on boit plus de vin que de bière :")
print(pays_plus_vin[['country', 'wine_servings', 'beer_servings']].sort_values(by='wine_servings', ascending=False))

# Bonus : Quelques statistiques intéressantes supplémentaires
print("\nBONUS - Statistiques supplémentaires :")

# Pourcentage de pays par type de boisson dominant
drinks['boisson_dominante'] = drinks[['beer_servings', 'spirit_servings', 'wine_servings']].idxmax(axis=1)
drinks['boisson_dominante'] = drinks['boisson_dominante'].str.replace('_servings', '')
dominance = drinks['boisson_dominante'].value_counts(normalize=True).round(3) * 100
print("\nPourcentage de pays par boisson dominante :")
print(dominance)

# Moyenne de consommation par continent avec agg
stats_detaillees = drinks.groupby('continent').agg({
    'beer_servings': ['mean', 'std'],
    'wine_servings': ['mean', 'std'],
    'spirit_servings': ['mean', 'std'],
    'total_litres_of_pure_alcohol': ['mean', 'std']
}).round(1)

print("\nStatistiques détaillées par continent :")
print(stats_detaillees)

1. Top 3 par type de boisson :

Top 3 - Bière :
            country  beer_servings
117         Namibia            376
45   Czech Republic            361
62            Gabon            347

Top 3 - Spiritueux :
    country  spirit_servings
68  Grenada              438
15  Belarus              373
73    Haiti              326

Top 3 - Vin :
      country  wine_servings
61     France            370
136  Portugal            339
3     Andorra            312

2. Top 5 des pays par consommation totale de boissons :
                country  total_servings
3               Andorra             695
45       Czech Republic             665
68              Grenada             665
61               France             648
141  Russian Federation             646

3a. Pays avec le plus d'alcool total par continent :
    continent             country  total_litres_of_pure_alcohol
124        AF             Nigeria                           9.1
141        AS  Russian Federation                          11.5


## 3. Cas pratique : Analyse de la tragédie du Titanic

Le naufrage du Titanic est l'une des plus célèbres tragédies maritimes. Analysons les données des passagers pour comprendre les facteurs qui ont influencé la survie.

### 3.1 Chargement et exploration des données

In [39]:
# Chargement des données
url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv"
titanic = pd.read_csv(url)

# Aperçu des données
print("Aperçu des premières lignes :")
print(titanic.head())

print("\nInformations sur le dataset :")
print(titanic.info())

Aperçu des premières lignes :
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                              Heikkinen, Miss Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            37345

### 3.2 Exercices d'analyse

1. Analyse démographique de base :
   - Calculez l'âge moyen des passagers
   - Quelle est la répartition hommes/femmes ?
   - Quelle est la répartition par classe ?

2. Analyse de la survie :
   - Quel est le taux de survie global ?
   - Comparez les taux de survie par classe
   - Comparez les taux de survie homme/femme
   - Y a-t-il une corrélation entre l'âge et la survie ?

3. Analyse des cabines :
   - Combien de passagers ont une information de cabine ?
   - La présence d'une information de cabine est-elle corrélée à la survie ?
   - Quelle classe avait le plus de cabines assignées ?

4. Analyse familiale :
   - Calculez le nombre moyen de parents/enfants par passager
   - Les personnes voyageant en famille ont-elles eu plus de chances de survivre ?
   - Quel était le nombre idéal de membres de famille pour maximiser ses chances ?

5. Analyse des tarifs :
   - Quel était le tarif moyen par classe ?
   - Existe-t-il une corrélation entre le tarif et la survie ?
   - Identifiez les outliers dans les tarifs

6. Créez un résumé statistique complet montrant :
   - Pour chaque classe : taux de survie, âge moyen, tarif moyen
   - Pour chaque port d'embarquement : nombre de passagers et taux de survie
   - Pour chaque taille de famille : nombre de passagers et taux de survie

In [40]:
# Voici quelques fonctions utiles pour l'analyse :

def taux_survie(groupe):
    """Calcule le taux de survie pour un groupe donné"""
    return (groupe['survived'].mean() * 100).round(1)

def resume_par_groupe(df, colonne):
    """Crée un résumé statistique pour une colonne donnée"""
    return df.groupby(colonne).agg({
        'survived': ['count', 'mean'],
        'age': ['mean', 'median'],
        'fare': ['mean', 'median']
    }).round(2)

### 3.3 Solutions :

In [None]:
import pandas as pd
import numpy as np

# Chargement des données
url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv"
titanic = pd.read_csv(url)

# 1. Analyse démographique de base
print("1. ANALYSE DÉMOGRAPHIQUE")

# Âge moyen (en gérant les valeurs manquantes)
age_moyen = titanic['age'].mean()
print(f"\nÂge moyen des passagers : {age_moyen:.1f} ans")

# Répartition homme/femme
repartition_sexe = titanic['sex'].value_counts()
pourcentage_sexe = titanic['sex'].value_counts(normalize=True).round(3) * 100
print("\nRépartition par sexe:")
print(f"Nombre absolu:\n{repartition_sexe}")
print(f"Pourcentage:\n{pourcentage_sexe}")

# Répartition par classe
repartition_classe = titanic['class'].value_counts()
pourcentage_classe = titanic['class'].value_counts(normalize=True).round(3) * 100
print("\nRépartition par classe:")
print(f"Nombre absolu:\n{repartition_classe}")
print(f"Pourcentage:\n{pourcentage_classe}")

# 2. Analyse de la survie
print("\n2. ANALYSE DE LA SURVIE")

# Taux de survie global
taux_survie_global = (titanic['survived'].mean() * 100).round(1)
print(f"\nTaux de survie global : {taux_survie_global}%")

# Taux de survie par classe
survie_classe = titanic.groupby('class')['survived'].agg(['count', 'mean'])
survie_classe['mean'] = survie_classe['mean'] * 100
print("\nTaux de survie par classe :")
print(survie_classe)

# Taux de survie par sexe
survie_sexe = titanic.groupby('sex')['survived'].agg(['count', 'mean'])
survie_sexe['mean'] = survie_sexe['mean'] * 100
print("\nTaux de survie par sexe :")
print(survie_sexe)

# Corrélation âge/survie
# On crée des groupes d'âge pour mieux analyser
titanic['age_group'] = pd.cut(titanic['age'], 
                             bins=[0, 12, 18, 35, 50, 100],
                             labels=['Enfant', 'Adolescent', 'Jeune adulte', 'Adulte', 'Senior'])
survie_age = titanic.groupby('age_group')['survived'].mean() * 100
print("\nTaux de survie par groupe d'âge :")
print(survie_age)

# 3. Analyse des cabines
print("\n3. ANALYSE DES CABINES")

# Nombre de passagers avec information de cabine
a_cabine = titanic['cabin'].notna().sum()
print(f"\nNombre de passagers avec information de cabine : {a_cabine}")
print(f"Pourcentage : {(a_cabine/len(titanic)*100):.1f}%")

# Corrélation cabine/survie
survie_cabine = titanic.groupby(titanic['cabin'].isna())['survived'].agg(['count', 'mean'])
survie_cabine['mean'] = survie_cabine['mean'] * 100
print("\nTaux de survie selon présence d'une cabine :")
print(survie_cabine)

# Cabines par classe
cabines_classe = titanic.groupby('class')['cabin'].notna().agg(['count', 'sum'])
cabines_classe['pourcentage'] = (cabines_classe['sum'] / cabines_classe['count'] * 100).round(1)
print("\nPourcentage de cabines assignées par classe :")
print(cabines_classe)

# 4. Analyse familiale
print("\n4. ANALYSE FAMILIALE")

# Création d'une colonne taille_famille
titanic['taille_famille'] = titanic['sibsp'] + titanic['parch']
moyenne_famille = titanic['taille_famille'].mean()
print(f"\nNombre moyen de membres de famille par passager : {moyenne_famille:.2f}")

# Survie selon taille de la famille
survie_famille = titanic.groupby('taille_famille')['survived'].agg(['count', 'mean'])
survie_famille['mean'] = survie_famille['mean'] * 100
print("\nTaux de survie par taille de famille :")
print(survie_famille)

# 5. Analyse des tarifs
print("\n5. ANALYSE DES TARIFS")

# Tarif moyen par classe
tarifs_classe = titanic.groupby('class')['fare'].agg(['mean', 'min', 'max']).round(2)
print("\nAnalyse des tarifs par classe :")
print(tarifs_classe)

# Corrélation tarif/survie
# On crée des groupes de tarifs pour mieux analyser
titanic['fare_group'] = pd.qcut(titanic['fare'], 
                               q=4, 
                               labels=['Économique', 'Modéré', 'Élevé', 'Luxe'])
survie_tarif = titanic.groupby('fare_group')['survived'].mean() * 100
print("\nTaux de survie par groupe tarifaire :")
print(survie_tarif)

# 6. Résumé statistique complet
print("\n6. RÉSUMÉ STATISTIQUE COMPLET")

# Résumé par classe
resume_classe = titanic.groupby('class').agg({
    'survived': 'mean',
    'age': 'mean',
    'fare': 'mean'
}).round(2)
resume_classe['survived'] = resume_classe['survived'] * 100
print("\nRésumé par classe :")
print(resume_classe)

# Résumé par port d'embarquement
resume_port = titanic.groupby('embarked').agg({
    'survived': ['count', 'mean']
}).round(3)
resume_port[('survived', 'mean')] *= 100
print("\nRésumé par port d'embarquement :")
print(resume_port)

# Résumé par taille de famille
resume_famille = titanic.groupby('taille_famille').agg({
    'survived': ['count', 'mean']
}).round(3)
resume_famille[('survived', 'mean')] *= 100
print("\nRésumé par taille de famille :")
print(resume_famille)