<a href="https://colab.research.google.com/github/A-Mahla/serda-formation-python/blob/main/exercices/google_colab/Introduction_%C3%A0_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Introduction à Pandas

## 1.1 Qu'est-ce que Pandas ?

[Pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html) est une bibliothèque open-source pour Python, principalement utilisée pour l'analyse et la manipulation de données. Elle permet de travailler avec des structures de données faciles à utiliser et efficaces.
## 1.2 Pourquoi utiliser Pandas ?

- Facilite la manipulation de données complexes.
- Permet de lire et écrire différents formats de fichiers (CSV, Excel, SQL, etc.).
- Offre des outils puissants pour le nettoyage des données, l'analyse et la visualisation.

# 2. Création et manipulation des DataFrames

## 2.1 Création d'un DataFrame

Un DataFrame est une structure de données bidimensionnelle avec des étiquettes pour les lignes et les colonnes.

In [None]:
import pandas as pd

# Création d'un DataFrame à partir d'un dictionnaire
data = {
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Ville': ['Paris', 'Lyon', 'Marseille']
}

df = pd.DataFrame(data)
print('df :', df, '\n')
print('df.head(): ', df.head(), '\n')
print('df.info(): ', df.info(), '\n')
print('Toutes les colonnes du DataFrame: ', df.columns.values)

> *Aller plus loin dans la compréhension : [What kind of data does pandas handle?](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)*

## 2.2 Sélectionner des données dans un DataFrame

- Sélectionner une colonne :

In [None]:
# Sélectionner la colonne 'Nom'
print(df['Nom'])

- Sélectionner plusieurs colonnes :

In [None]:
# Sélectionner les colonnes 'Nom' et 'Âge'
print(df[['Nom', 'Age']])

- Sélectionner des lignes par index :

In [None]:
# Sélectionner la première ligne
print(df.iloc[0])

- Sélectionner des lignes par condition :

In [None]:
# Sélectionner les lignes où l'âge est supérieur à 30
print(df[df['Age'] > 30])
print()

# Sélectionner les colonnes ' les lignes où l'âge est supérieur à 30
print(df.loc[df['Age'] > 30, ['Nom', 'Ville']])

# Filtrer pour obtenir les noms des personnes de plus de 30 ans et vivant à Marseille
print(df.loc[(df['Age'] > 30) & (df['Ville'] == 'Marseille'), ['Nom']])

# Filtrer pour obtenir les noms et villes des personnes de plus de 30 ans ou s'appelant Alice
print(df.loc[(df['Age'] > 30) | (df['Nom'] == 'Alice'), ['Nom', 'Ville']])

# Note: Les conditions doivent être entre parenthèses.

> Aller plus loin dans la compréhension :
- https://moncoachdata.com/blog/filtrer-un-dataframe-pandas/
- [How do I select a subset of a DataFrame?](https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html)

## Exercices: DataFrame Filtering

In [None]:
# Dataset pour les exercices (executer ce code pour loader le DataFrame)

import pandas as pd

# DataFrame de départ
df = pd.DataFrame({
    'name': ['Noah', 'Jon', 'Tom', 'Alba', 'Emilie', 'Coco', 'Anna'],
    'cat': ['A', 'C', 'B', 'A', 'B', 'C', 'B'],
    'val1': [0.58, 0.76, 0.96, 0.09, 0.27, 0.45, 0.17],
    'val2': [2, 1, 3, 6, 4, 4, 2]
})

### Exercice 1

 Sélectionnez et affichez toutes les lignes où `val1` est supérieure à `0.75` et `val2` est inférieure ou égale à `2`.

In [None]:
# Your code ...



### Exercice 2

Trouvez les lignes où le nom est soit `Jon`, soit `Noah` et où `val1` est inférieure à `0.5` ou `val2` est égale à `3`.

In [None]:
# Your code ...



### Exercice 3

Sélectionnez les lignes où le nom est soit `Jon`, soit `Noah`, mais `val1` doit être supérieure à `0.5`.



In [None]:
# Your code ...



### Exercice 4

Sélectionnez toutes les lignes où le nom n'est ni `Jon` ni `Noah` et `val2` est supérieure à `2`. Utilisez l'opérateur tilde (~).

In [None]:
# Your code ...



### Exercice 5

Utilisez loc pour sélectionner les lignes où `val1` est supérieure à `0.3` et `val2` est égale à `4`.

In [None]:
# Your code ...



### Exercice 6

Sélectionnez avec loc les lignes où `val2` est supérieure à `1` et `val1` est inférieure à `0.2`.

In [None]:
# Your code ...



# 3. Importation et exportation des données

## 3.1 Importer des données depuis un fichier CSV

In [None]:
# Lire un fichier CSV
df = pd.read_csv('chemin/vers/fichier.csv')
print(df.head())  # Afficher les premières lignes du DataFrame

In [None]:
# Lire un fichier SPSS
df = pd.read_spss('/path/to/your/datafile.sav')

# Lire un fichier CSV
df = pd.read_csv('/path/to/your/datafile.csv')

# Lire un fichier Excel
df = pd.read_excel('/path/to/your/datafile.xlsx')

## 3.2 Exporter des données vers un fichier CSV

In [None]:
# Écrire un DataFrame dans un fichier CSV
df.to_csv('chemin/vers/fichier.csv', index=False)

In [None]:
# Écrire un DataFrame dans un fichier SPSS
df = pd.to_spss('/path/to/your/datafile.sav')

# Écrire un DataFrame dans un fichier CSV
df = pd.to_csv('/path/to/your/datafile.csv')

# Écrire un DataFrame dans un fichier Excel
df = pd.to_excel('/path/to/your/datafile.xlsx')

> *Aller plus loin dans la compréhension : [How do I read and write tabular data?](https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html)*

# 4. Opérations de base sur les DataFrames

## 4.1 Ajouter une colonne

In [None]:
# Ajouter une colonne 'Salaire'
df['Salaire'] = [50000, 60000, 70000]
print(df)

## 4.2 Supprimer une colonne

In [None]:
# Supprimer la colonne 'Ville'
df = df.drop(columns=['Ville'])
print(df)

## 4.3 Création de colonnes à partir d'autres

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# Création d'une nouvelle colonne C en ajoutant A et B
df['C'] = df['A'] + df['B']
print(df)

## 4.4 Application de Fonctions sur tous les élément d'une colonnes

Pour appliquer des fonctions à des valeurs de colonnes, Pandas offre plusieurs méthodes, dont `.apply()`, qui permet d'appliquer une fonction à chaque élément d'une colonne :

In [None]:
# Application d'une fonction pour doubler chaque valeur de la colonne A
df['Doubled A'] = df['A'].apply(lambda x: x * 2)
print(df)

> `lambda x: x * 2` est une manière de créer une fonction sans la nommer. C'est ce qu'on appelle une fonction lambda ou une fonction anonyme.  La syntaxe d'une fonction lambda est la suivante :
>
> - Mot-clé `lambda` : Cela indique le début de la fonction anonyme.
> - Paramètres : Juste après le mot-clé lambda, vous pouvez définir un ou plusieurs paramètres séparés par des virgules. Dans l'exemple `lambda x`, `x` est le paramètre.
> - Colon : Un deux-points `:` suit les paramètres.
> - Expression : Après le deux-points, vous écrivez une expression qui retourne une valeur. Cette expression est le corps de la fonction `lambda`. Dans l'exemple, `x * 2` est l'expression qui sera évaluée et renvoyée chaque fois que la fonction lambda est appelée.
>
> Vous pouvez tout à fait utiliser une fonction que vous avez créée.

## 4.5 Grouper les données

In [None]:
# Grouper par 'Âge' et calculer la moyenne du 'Salaire'
grouped_df = df.groupby('Âge').mean()
print(grouped_df)

## 4.6 Fusionner deux DataFrames

In [None]:
# Créer un autre DataFrame
data2 = {
    'Nom': ['Alice', 'Bob', 'David'],
    'Département': ['HR', 'Finance', 'IT']
}

df2 = pd.DataFrame(data2)

# Fusionner les deux DataFrames sur la colonne 'Nom'
merged_df = pd.merge(df, df2, on='Nom', how='inner')
print(merged_df)

## Exercices: Operations de base

### Exercice 01
À partir d'un DataFrame contenant les colonnes Temperature (C) et Humidity, créez une nouvelle colonne Comfort Index qui est calculée comme le produit de la température par l'humidité.

In [None]:
# Données pour l'Exercice 1
df1 = pd.DataFrame({
    'Temperature (C)': [22, 25, 28],
    'Humidity': [0.5, 0.55, 0.6]
})

# Your Code ...

### Exercice 02

À partir d'un DataFrame avec une colonne 'Points', ajoutez une colonne 'Qualifié' au DataFrame qui indique 'Oui' si le joueur a plus de 85 points et 'Non' autrement.

In [None]:
data = {
    'Nom': ['Arthur', 'Léa', 'Simon'],
    'Sport': ['Football', 'Tennis', 'Basketball'],
    'Points': [88, 92, 75]
}
df = pd.DataFrame(data)

# Your code ...

### Exercice 03

 À partir d'un DataFrame avec une colonne Ages, appliquez une fonction qui catégorise l'âge en child (moins de 18 ans), adult (18 à 65 ans), et senior (plus de 65 ans). Stockez les résultats dans une nouvelle colonne Age Group.

In [None]:
df2 = pd.DataFrame({
    'Ages': [10, 22, 70]
})

# Your Code ...

### Exercice 04

À partir d'un DataFrame fourni:

1. regrouper les données par produit et calculez la somme totale des ventes pour chaque produit.
2. regroupez les données par ville et calculez la moyenne des ventes pour chaque ville.

In [None]:

# Création du DataFrame
data = {
    'Produit': [
        'Ordinateur', 'Téléphone', 'Ordinateur', 'Téléphone', 'Tablette',
        'Ordinateur', 'Tablette', 'Téléphone', 'Ordinateur', 'Téléphone',
        'Tablette', 'Ordinateur', 'Tablette', 'Téléphone', 'Ordinateur',
        'Téléphone', 'Tablette', 'Ordinateur', 'Tablette', 'Téléphone'
    ],
    'Ville': [
        'Paris', 'Paris', 'Lyon', 'Lyon', 'Paris', 'Marseille', 'Lyon', 'Marseille',
        'Paris', 'Paris', 'Lyon', 'Marseille', 'Lyon', 'Marseille', 'Paris',
        'Paris', 'Marseille', 'Lyon', 'Marseille', 'Paris'
    ],
    'Vente': [
        900, 800, 850, 780, 450, 950, 500, 900, 870, 760, 430, 970, 510, 890,
        880, 840, 450, 860, 520, 800
    ]
}
df = pd.DataFrame(data)


# Your code ...


