---

<center>

# **Python pour la Data Science**

### *Introduction aux DataFrames*

</center>

---


---

<center>

## **📖 Introduction**

</center>

---


Le module **pandas** a été développé pour apporter à Python les outils nécessaires à la manipulation et à l’analyse de grands volumes de données.  

Pandas introduit la **classe DataFrame**, une structure de données semblable à un tableau, mais bien plus puissante que les tableaux NumPy.  

---

### Principales fonctionnalités de pandas :  
- 📂 Charger des données depuis des fichiers (CSV, Excel, etc.).  
- ✏️ Manipuler ces données (ajouter/supprimer, modifier, nettoyer).  
- 📊 Réaliser rapidement des analyses statistiques et des visualisations.  

---

### 🎯 Objectifs de ce notebook :  
1. Comprendre la structure d’un **DataFrame**.  
2. Créer un premier **DataFrame**.  
3. Explorer un jeu de données avec pandas.


<center>

### **🔍 Exemple : Importer le module pandas**

</center>

---

- (a) Importer le module pandas

In [None]:
# TODO

---

<center>

## **📖 Format d’un DataFrame**

</center>

---


Un **DataFrame** ressemble à une matrice où chaque ligne et chaque colonne possède un index.  
En général, les colonnes sont indexées par leurs **noms**.  

👉 Un DataFrame est utilisé pour stocker des bases de données.  
- Les lignes = **entrées** de la base (personnes, animaux, objets, etc.).  
- Les colonnes = **caractéristiques** de ces entrées.  

---

### Exemple :  
|   | Nom    | Sexe | Taille | Âge |  
|---|--------|------|--------|-----|  
| 0 | Robert | M    | 174    | 23  |  
| 1 | Marc   | M    | 182    | 40  |  
| 2 | Aline  | F    | 169    | 56  |  

- Ici nous avons **3 lignes** → 3 individus.  
- Et **4 colonnes** → Nom, Sexe, Taille, Âge.  

---

### 📌 La colonne d’index
L’index est la colonne tout à gauche qui numérote les lignes.  
Ce n’est **pas une colonne comme les autres** du jeu de données.  

On peut :  
- Utiliser l’**index par défaut** (0, 1, 2 …).  
- Indexer avec une des colonnes (par ex. *Nom*).  
- Indexer avec une **liste personnalisée** que l’on fournit.  

---

### Exemples :

#### Index par défaut :
|   | Nom    | Sexe | Taille | Âge |  
|---|--------|------|--------|-----|  
| 0 | Robert | M    | 174    | 23  |  
| 1 | Marc   | M    | 182    | 40  |  
| 2 | Aline  | F    | 169    | 56  |  

#### Indexé par "Nom" :
|        | Sexe | Taille | Âge |  
|--------|------|--------|-----|  
| Robert | M    | 174    | 23  |  
| Marc   | M    | 182    | 40  |  
| Aline  | F    | 169    | 56  |  

#### Indexé par une liste personnalisée :
|            | Nom    | Sexe | Taille | Âge |  
|------------|--------|------|--------|-----|  
| personne_1 | Robert | M    | 174    | 23  |  
| personne_2 | Marc   | M    | 182    | 40  |  
| personne_3 | Aline  | F    | 169    | 56  |

---

<center>

## **📖 Créer un DataFrame à partir d’un dictionnaire**

</center>

---


Il est possible de créer un DataFrame en utilisant un **dictionnaire Python**.  

- Les colonnes peuvent contenir des **types différents** (nombres, chaînes de caractères, etc.).  
- Les noms des colonnes sont **définis dès la création** du DataFrame.

### Exemple :

```python
my_dic = {'A': [1, 5, 9],
          'B': [2, 6, 10],
          'C': [3, 7, 11],
          'D': [4, 8, 12]}

# Create a DataFrame
df = pd.DataFrame(data = my_dic,
                  index = ['i_1', 'i_2', 'i_3'])
>>>
      A   B    C    D
i_1   1   2    3    4
i_2   5   6    7    8
i_3   9   10   11   12
```

<center>

### **🔍 Exemple : Création d'un DataFrame à partir d'un dictionnaire**

</center>

---

Le gérant d'une épicerie suit le stock des aliments suivants :  
  - **100 pots de miel**, date de péremption : 10/08/2025, prix : 2€ chacun.  
  - **55 sacs de farine**, date de péremption : 25/09/2024, prix : 3€ chacun.  
  - **1800 bouteilles de vin**, date de péremption : 15/10/2023, prix : 10€ chacune.

Tâche :  
- (a) En utilisant un **dictionnaire Python**, créer et afficher un DataFrame `df` contenant pour chaque produit :  
  - Nom du produit  
  - Date de péremption  
  - Quantité  
  - Prix unitaire

In [None]:
# TODO

---

<center>

## **📖 Création d'un DataFrame à partir d'un fichier de données**

</center>

---

Le plus souvent, les DataFrames sont créés directement à partir de fichiers de données tels que **CSV, Excel ou fichiers texte**.  

👉 Le format le plus courant est **CSV** (Comma-Separated Values, valeurs séparées par des virgules), qui représente un tableau similaire à une feuille de calcul où les valeurs sont séparées par un délimiteur (`,` par défaut, mais parfois `;` est utilisé).

**Exemple de fichier CSV** :

A,B,C,D

1,2,3,4

5,6,7,8

9,10,11,12

In this format:


Dans ce format :

- **La première ligne contient les noms des colonnes**, mais parfois les noms de colonnes **ne sont pas fournis**.
- Chaque **ligne** correspond à une entrée dans la **base de données**.
- Les valeurs sont **séparées par un délimiteur**. Dans cet exemple, c'est `','` mais cela pourrait aussi être `';'`.

Pour importer ces données dans un DataFrame, on utilise ensuite la fonction pandas `read_csv`, dont l’en-tête est le suivant :

```python
pd.read_csv(filepath_or_buffer , sep = ',', header = 0, index_col = 0 ... )
```
Les arguments clés de la fonction `pd.read_csv` à connaître sont :

- `filepath_or_buffer` : Le chemin vers le fichier .csv par rapport à l'environnement d'exécution.  
  Si le fichier se trouve dans le même dossier que votre environnement Python, vous pouvez simplement fournir le nom du fichier  
  (par exemple, `'mon_dataframe.csv'`). Ce chemin doit être fourni sous forme de chaîne de caractères.

- `sep` : Le caractère utilisé dans le fichier .csv pour séparer les colonnes. Cet argument doit être spécifié comme un caractère.

- `header` : Le numéro de la ligne contenant les noms des colonnes.  
  Par exemple, si les noms des colonnes se trouvent dans la première ligne du fichier .csv, spécifiez `header=0`.  
  Si les noms de colonnes ne sont pas présents, utilisez `header=None`.

- `index_col` : Le nom ou le numéro de la colonne à utiliser comme étiquettes des lignes du DataFrame.  
  Si les entrées sont indexées par la première colonne, définissez `index_col=0`.  
  Sinon, si les lignes sont indexées par une colonne nommée "Id", vous pouvez spécifier `index_col="Id"`.

Cette fonction retourne un objet `DataFrame` contenant toutes les données du fichier.

<center>

### **🔍 Exemple : Charger des données dans un DataFrame**

</center>

---
- (a) Charger les données du fichier `transactions.csv` dans un DataFrame nommé `transactions` :
    - Le fichier se trouve dans le même dossier que cet environnement de notebook.
    - Les colonnes sont séparées par une virgule.
    - Les noms des colonnes sont fournis dans la première ligne du fichier.
    - Les lignes sont indexées par la colonne "transaction_id", qui est également la première colonne.

In [None]:
# TODO

**Chargement d’un jeu de données réel : `transactions.csv`**

Nous venons de charger le fichier **`transactions.csv`** dans un DataFrame pandas nommé **`transactions`**.  
Ce jeu de données contient l’historique des transactions financières effectuées entre **2011 et 2014**.

**Pourquoi utiliser un jeu de données ?**

Travailler sur un jeu de données réel permet de :
- S’exercer au **chargement** et à **nettoyage des données**.  
- Explorer la **structure d’un DataFrame**.  
- Réaliser des **analyses statistiques** et des **visualisations**.  

**Rappel**

Nous chargeons généralement un fichier CSV avec :

```python
import pandas as pd

# Load CSV file into a DataFrame
transactions = pd.read_csv("transactions.csv")

# Display the first rows of the dataset
transactions.head()
```
Dans la section suivante, nous allons explorer le jeu de données afin de comprendre sa structure, ses colonnes et son contenu.

---

<center>

## **📖 Première exploration d'un jeu de données avec `pandas.DataFrame`**

</center>

---


Maintenant que nous avons chargé le jeu de données dans un DataFrame (`transactions`),  
explorons-le en utilisant quelques **méthodes de base** fournies par la bibliothèque `pandas`.

**Aperçu rapide des données**

- **`head()`** → Affiche les 5 premières lignes (par défaut).  
- **`.columns`** → Liste les noms des colonnes.  
- **`.shape`** → Renvoie le nombre de lignes et de colonnes.

```python
# Display the first 5 rows
transactions.head()

# Display the list of column names
transactions.columns

# Display the dimensions of the DataFrame (rows, columns)
transactions.shape
```

**Sélection de données**

Il existe deux principales façons d'accéder aux lignes/colonnes dans un DataFrame :

- **`.loc[]`** → Sélection par étiquettes (noms des lignes/colonnes).  
- **`.iloc[]`** → Sélection par indices (positions des lignes/colonnes).

```python
# Select one row by index (first row)
transactions.iloc[0]

# Select multiple rows (first 3 rows)
transactions.iloc[0:3]

# Select a specific column by label
transactions.loc[:, "amount"]

# Select a specific row and column by label
transactions.loc[80712190438, "Store_type"]
```

**Aperçu statistique rapide**

- **`describe()`** → Génère des statistiques résumées (moyenne, écart-type, min, max, quartiles).  

- **`value_counts()`** → Compte le nombre d’occurrences de chaque valeur unique dans une colonne.

---

<center>

## **📖 Aperçu d’un DataFrame : `head()`, `tail()`, `columns` et `shape`**

</center>

---

Vous pouvez obtenir un aperçu rapide d’un jeu de données en affichant seulement les premières lignes d’un DataFrame.

- Utilisez la méthode `head()` pour afficher les premières lignes. Vous pouvez passer en argument le nombre de lignes que vous souhaitez afficher (par défaut 5) :

```python
transactions.head(10)  # Display the first 10 rows
```

- De même, utilisez `tail()` pour afficher les dernières lignes du DataFrame :

```python
transactions.tail(20)  # Display the last 20 rows
```

- Pour voir les noms des colonnes d’un DataFrame, utilisez l’attribut `columns` :

```python
transactions.columns
```

- Pour vérifier la taille du DataFrame (nombre de lignes et de colonnes), utilisez l’attribut `shape` :

```python
transactions.shape
```
Ces outils sont très utiles pour comprendre rapidement la structure et le contenu de votre jeu de données.

Nous allons pratiquer quelques méthodes de base pour explorer un DataFrame avec le jeu de données **`transactions`**.

- (a) Affichez les 20 premières lignes du DataFrame.
- (b) Affichez les 10 dernières lignes du DataFrame.
- (c) Affichez les dimensions (nombre de lignes et de colonnes) du DataFrame ainsi que le nom de la 5ᵉ colonne.  
💡 *Rappel : en Python, l'indexation commence à 0 !*

In [None]:
# TODO

---
<center>

## **📖 Sélection des colonnes dans un DataFrame**

</center>

---

Extraire des colonnes d'un **DataFrame** est très similaire à l'extraction de données depuis un dictionnaire.

---

- Extraction d'une seule colonne

Pour extraire une colonne, indiquez son nom entre crochets :

```python
# Display the column 'cust_id'
print(transactions['cust_id'])
```

- Extraction de plusieurs colonnes

Pour extraire plusieurs colonnes, passez une liste de noms de colonnes entre les crochets (il faut donc utiliser des crochets doubles) :

```python
# Extract the columns 'cust_id' and 'Qty' from transactions
cust_id_qty = transactions[["cust_id", "Qty"]]
```
`cust_id_qty` est maintenant un nouveau DataFrame ne contenant que les colonnes `'cust_id'` et `'Qty'`.

Exemple de résultat (3 premières lignes) :

```python
cust_id_qty.head(3)
>>>
```

| transactions_id | cust_id | Qty |
|-----------------|---------|-----|
| 80712190438     | 270351  | -5  |
| 29258453508     | 270384  | -5  |
| 51750724947     | 273420  | -2  |

**Variables catégorielles vs variables quantitatives**

Lors de la préparation d’un jeu de données, il est important de séparer les variables catégorielles des variables quantitatives.

- Variable catégorielle → contient des catégories ou des étiquettes, sans ordre naturel.  
Exemple : couleur préférée, pays, nationalité.

  👉 Dans notre DataFrame `transactions`, les variables catégorielles sont :  
  `['cust_id', 'tran_date', 'prod_subcat_code', 'prod_cat_code', 'Store_type']`

  - `cust_id` → L’ID du client (identifiant unique pour chaque client).  
  - `tran_date` → La date de la transaction (quand l’achat ou le retour a eu lieu).  
  - `prod_subcat_code` → Le code de la sous-catégorie du produit (ex. : “Pantalons” si la catégorie principale est “Vêtements”).  
  - `prod_cat_code` → Le code de la catégorie du produit (ex. : “Vêtements”).  
  - `Store_type` → Le type de magasin où la transaction a eu lieu (ex. : Boutique en ligne, Supermarché, Magasin spécialisé).  

- Variable quantitative → mesure une quantité numérique, avec un ordre.  
Exemple : taille, poids, âge.

  👉 Dans notre DataFrame `transactions`, les variables quantitatives sont :  
  `['Qty', 'Rate', 'Tax', 'total_amt']`

  - `Qty` → La quantité achetée (peut être négative si le produit a été retourné).  
  - `Rate` → Le prix unitaire du produit (hors taxe).  
  - `Tax` → Le montant de la taxe appliquée à la transaction.  
  - `total_amt` → Le montant total de la transaction (= quantité × prix unitaire + taxe).  

⚠️ Pourquoi est-ce important ?

Certaines opérations de base (comme calculer une moyenne) n’ont de sens que pour les variables quantitatives.

<center>

### **🔍 Exemple : Séparer les variables catégorielles et quantitatives**

</center>

---

Nous allons maintenant nous entraîner à séparer notre jeu de données en variables catégorielles et variables quantitatives.

- (a) Dans un DataFrame nommé **`cat_vars`**, stockez les variables catégorielles de `transactions`.  
- (b) Dans un DataFrame nommé **`num_vars`**, stockez les variables quantitatives de `transactions`.  
- (c) Affichez les 5 premières lignes de chaque DataFrame.


In [None]:
# TODO

---

<center>

## **📖 Sélection des lignes dans un DataFrame : `loc` et `iloc`**

</center>

---


Pour extraire une ou plusieurs lignes d’un DataFrame, nous utilisons la méthode **`loc`**.

Cette méthode est spéciale car les arguments sont placés **entre crochets `[]`** au lieu de parenthèses `()`.

- **Exemple 1** : Sélection d’une seule ligne avec `loc`  
Si nous voulons récupérer la ligne avec l’index `80712190438` :

  ```python
  # Get row with index 80712190438 from num_vars DataFrame
  num_vars.loc[80712190438]
  >>>
  ```
  | transaction_id | Qty |  Rate  |   Tax  | total_amt |
|----------------|-----|--------|--------|-----------|
| 80712190438    | -5  | -772.0 | 405.3  | -4265.3   |
| 80712190438    |  5  |  772.0 | 405.3  |  4265.3   |

- **Exemple 2** : Sélection de plusieurs lignes avec `loc`  
Nous pouvons passer :  
  - une liste d’indices  
  - ou utiliser le découpage (slicing) (`start:end`).

  ```python
  # Select multiple rows using their indices
  num_vars.loc[[80712190438, 29258453508, 51750724947]]
  >>>
  ```

- **Exemple 3** : Sélection simultanée de lignes et de colonnes avec `loc`  
Nous pouvons également préciser quelles colonnes extraire.

  ```python
  # Select only 'Tax' and 'total_amt' for two transactions
  transactions.loc[[80712190438, 29258453508], ['Tax', 'total_amt']]
  >>>
  ```
 | transaction_id | Tax     | total_amt |
|----------------|---------|-----------|
| 80712190438    | 405.300 | -4265.300 |
| 80712190438    | 405.300 |  4265.300 |
| 29258453508    | 785.925 | -8270.925 |
| 29258453508    | 785.925 |  8270.925 |

- **Exemple 4** : Utilisation de `iloc`  

La méthode `iloc` fonctionne comme les tableaux NumPy :  
nous utilisons uniquement des indices numériques pour les lignes et les colonnes.

  ```python
  # Extract the first 4 rows and the first 3 columns
  transactions.iloc[0:4, 0:3]
  >>>
  ```
| transaction_id | cust_id |  tran_date  | prod_subcat_code |
|----------------|---------|-------------|-----------------|
| 80712190438    | 270351  | 28/02/2014  | 1.0             |
| 29258453508    | 270384  | 27/02/2014  | 5.0             |
| 51750724947    | 273420  | 24/02/2014  | 6.0             |
| 93274880719    | 271509  | 24/02/2014  | 11.0            |

- Résumé  
  - `loc` → sélection par étiquettes (noms de lignes/colonnes).  
  - `iloc` → sélection par positions numériques (indices de lignes/colonnes).  

Si le DataFrame utilise l’index entier par défaut (0, 1, 2, ...), alors `loc` et `iloc` donnent souvent le même résultat.


---

<center>

## **📖 Indexation conditionnelle d’un DataFrame**

</center>

---


Nous pouvons utiliser **l’indexation conditionnelle** pour extraire les lignes d’un DataFrame qui satisfont une condition donnée.  

Dans l’exemple suivant, nous sélectionnons les lignes du DataFrame `df` où la colonne **col 2** est égale à `3`.  

Il existe deux syntaxes pour l’indexation conditionnelle :

```python
# Select rows where column 'col 2' equals 3
df[df['col 2'] == 3]

# Alternative using loc
df.loc[df['col 2'] == 3]
```
⚠️ Important :

Si nous voulons attribuer une nouvelle valeur à ces entrées, il faut absolument utiliser la méthode `.loc`.  
L’utilisation de la syntaxe `df[df['col 2'] == 3]` ne renvoie qu’une copie des entrées et ne donne pas accès à l’emplacement mémoire d’origine des données.

<center>

### **🔍 Exemple : Filtrer les transactions par type de magasin**

</center>

---
Le responsable des transactions enregistrées dans le DataFrame `transactions` souhaite accéder aux **ID des clients** ayant effectué un achat en ligne (c’est-à-dire dans un `"e-Shop"`) ainsi qu’aux **dates de transaction** correspondantes.

Nous disposons des informations suivantes sur les colonnes de `transactions` :

| Nom de colonne | Description                                         |
|----------------|-----------------------------------------------------|
| `cust_id`      | ID des clients                                      |
| `Store_type`   | Type de magasin où la transaction a eu lieu        |
| `tran_date`    | Date des transactions                               |

---

- (a) Créez un nouveau DataFrame nommé `transactions_eshop` contenant uniquement les transactions ayant eu lieu dans un `"e-Shop"`.  

- (b) Créez un autre DataFrame nommé `transactions_id_date` qui stocke les **ID des clients** et les **dates des transactions** à partir du DataFrame `transactions_eshop`.  

- (c) Affichez les 5 premières lignes de `transactions_id_date`.


In [None]:
# TODO

<center>

### **🔍 Exemple : Sélection conditionnelle et agrégation**

</center>

---
Le responsable du magasin souhaite maintenant se concentrer sur un client spécifique.

- (a) Créez un DataFrame nommé `transactions_client_268819` contenant toutes les transactions où l’ID du client est `268819`.  

- (b) Une colonne d’un DataFrame peut être parcourue comme une liste dans une boucle `for`. En utilisant une boucle sur la colonne `'total_amt'`, calculez et affichez le montant total des transactions pour le client `268819`.

In [None]:
# TODO

---

<center>

## **📖 Étude statistique rapide d’un DataFrame**

</center>

---


La méthode `describe()` d’un DataFrame renvoie un résumé des statistiques descriptives (minimum, maximum, moyenne, quantiles, etc.) pour ses variables numériques.

C’est un outil très utile pour visualiser rapidement le type et la distribution de ces variables.

```python
# Display descriptive statistics of the numerical variables
print(num_vars.describe())
```

Pour les variables catégorielles, il est souvent préférable de commencer par la méthode `value_counts()`, qui renvoie le nombre d’occurrences de chaque catégorie.

⚠️ Remarque : la méthode `value_counts()` ne peut pas être utilisée directement sur un DataFrame entier, mais uniquement sur une seule colonne, car elle fonctionne sur des objets de type `pd.Series`.

```python
# Count the number of transactions per store type
print(transactions["Store_type"].value_counts())
```

<center>

### **🔍 Exemple : Étude statistique rapide d’un DataFrame**

</center>

---
- (a) Utilisez la méthode `describe()` sur le DataFrame `transactions`.  
- (b) Les variables numériques sont : `Qty`, `Rate`, `Tax` et `total_amt`. Par défaut, les statistiques produites par la méthode `describe()` sont-elles calculées uniquement sur les variables numériques ?  
- (c) Affichez le nombre d’occurrences de chaque catégorie de la variable `Store_type` en utilisant la méthode `value_counts`.


In [None]:
# TODO

Interprétation de `describe()` sur des variables catégorielles

La méthode `describe()` a calculé des statistiques sur les colonnes `cust_id`, `prod_subcat_code` et `prod_cat_code` même si ce sont des variables catégorielles.

Ces statistiques n’ont pas de sens pour des données catégorielles. La méthode les a traitées comme quantitatives car les valeurs sont numériques.

⚠️ À retenir : soyez toujours prudent lors de l’interprétation des résultats de `describe()`. Assurez-vous de comprendre le type de chaque variable dans votre DataFrame avant de tirer des conclusions.

<center>

### **🔍 Exemple : Résumé rapide des transactions**

</center>

---
Le responsable souhaite générer un rapport rapide sur les transactions. En particulier, il s’intéresse au `montant moyen` dépensé et à la `quantité maximale` achetée.

(a) Quel est le `montant total moyen` dépensé ? Concentrez-vous sur la colonne `total_amt` du DataFrame `transactions`.  

(b) Quelle est la `quantité maximale achetée` ? Concentrez-vous sur la colonne `Qty` du DataFrame `transactions`.

In [None]:
# TODO

Certaines transactions ont des montants négatifs.  
Celles-ci correspondent à des transactions annulées qui ont été remboursées au client.

Ces montants négatifs peuvent fausser la distribution de la variable `total_amt`, entraînant des estimations inexactes de la moyenne et des quantiles.

Il est donc important de filtrer ou de traiter ces cas avant de réaliser une analyse statistique.

<center>

### **🔍 Exemple : Moyenne des transactions positives**

</center>

---
- (a) Calculez la moyenne de la colonne `total_amt` pour les transactions dont le montant est positif.

In [None]:
# TODO

---

<center>

## **📖 Conclusion et résumé**

</center>

---


La classe DataFrame de pandas sera votre structure de données de référence pour explorer, analyser et traiter des jeux de données.

Dans cette brève introduction, vous avez appris à :

- Créer un DataFrame à partir d’un dictionnaire en utilisant `pd.DataFrame`.  
- Créer un DataFrame à partir d’un fichier `.csv` en utilisant `pd.read_csv`.  
- Prévisualiser les premières et dernières lignes d’un DataFrame avec les méthodes `head` et `tail`.  
- Sélectionner une ou plusieurs colonnes d’un DataFrame en indiquant leur nom entre crochets, de manière similaire à un dictionnaire.  
- Sélectionner une ou plusieurs lignes d’un DataFrame en précisant leurs indices avec `loc` et `iloc`.  
- Filtrer les lignes d’un DataFrame qui satisfont une condition spécifique grâce à l’indexation conditionnelle.  
- Effectuer un aperçu statistique rapide des variables quantitatives d’un DataFrame avec la méthode `describe`.  

En pratique, les jeux de données sont rarement parfaitement propres : valeurs manquantes, doublons ou entrées incohérentes sont fréquents.  
Dans la section suivante, nous apprendrons à nettoyer et prétraiter les jeux de données avec pandas, une étape cruciale avant toute analyse significative.