# **Dev-Data Pratique : Essentiel Pandas**

# <h2 style = " color: blue">**Auteur** : Sokhna Diarra </h2>

# **Objectifs pédagogiques**
- Comprendre les structures de données Series et DataFrame
- Savoir importer, explorer, filtrer et transformer des données tabulaires
- Appliquer les fonctions d’agrégation, de nettoyage et de jointure 


<h4 style = "color : green"> <b>importation</b> </h4>

In [1]:
# importer pandas

import pandas as pd


## **Partie 1** – Création et lecture de DataFrames 


1. Créons une Series manuellement et l'afficher


In [6]:
# series sans étiquettes personnalisées (index)
series = pd.Series([13, 10, 6, 8])
print(series)

# avec équittes 
series_personnalisees = pd.Series([13, 10, 6, 8], index=['j', 'm', 'p', 'f'])
print(series_personnalisees)

0    13
1    10
2     6
3     8
dtype: int64
j    13
m    10
p     6
f     8
dtype: int64


2. Créons un DataFrame à partir d'un dictionnaire Python


In [7]:
# Dictionnaire sur les voitures
voitures = {
    'Marque' : ['Audi', 'Mercedes', 'BMW', 'Mitsubishi', 'Hyndai'],
    'Modèle' : ['A4 e-tron', 'Mercedes-AMG','Set BMW i8', 'ASX', 'i20'],
    'Prix (£)'   : [35000, 42000, 39000, 37000, 25000]
}

# Créer DataFrame
df_voitures = pd.DataFrame(voitures)

#Affichons
print(df_voitures)

       Marque        Modèle  Prix (£)
0        Audi     A4 e-tron     35000
1    Mercedes  Mercedes-AMG     42000
2         BMW    Set BMW i8     39000
3  Mitsubishi           ASX     37000
4      Hyndai           i20     25000


3. Lire un fichier CSV avec pd.read_csv()


In [8]:
# lire un fichier CSV
fichier_csv = pd.read_csv('Clients.csv')

fichier_csv

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M
...,...,...,...,...
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F


4. Afficher les 5 premières et dernières lignes (head(), tail())


In [9]:
# affichons les 5 premières lignes : .head()

fichier_csv.head()


Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [10]:
#affichons les 5 dernières lignes : .tail()

fichier_csv.tail()

Unnamed: 0,identifiant,email,nom,genre
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F
227,227,FrancisMasse@jourrapide.com,Francis Masse,M


5. Afficher les informations générales (info(), shape, dtypes)


<h4 style= "color:red"><b>info</b> : </h4>Permet de vérifier la forme de notre tableau Exemple: <br>
            Avec tableau2.shape nous aurons (3,3) : 3 lignes et 3 colonnes

<h4 style= "color:red"><b>shape</b> : </h4>Permet de connaitre combien de lignes comportent un data frame ? Et combien de colonnes ? Exemple: <br>
            Avec le fichier_csv.shape nous avons (228,4) : 228 lignes et 4 colonnes <br>


In [11]:
fichier_csv.shape

(228, 4)

<h4 style= "color:red"><b>dtypes</b> : </h4>Permet de connaître les types de chacune de nos variables.<br>
            Avec fichier_csv.dtype nous avons <b>int64</b> : entiers de 64 bits, <b>object</b> : en Pandas Objet correspond à une colonne de type chîne de caractères (string)

In [12]:
fichier_csv.dtypes

identifiant     int64
email          object
nom            object
genre          object
dtype: object


## **Partie 2** – Accès aux données et filtrage


1. Accéder à une colonne (df["col"]) ou plusieurs (df[["col1", "col2"]])


2. Accéder à une ligne par index (loc, iloc)


3. Filtrer les lignes avec une condition logique (df[df["col"] > valeur])


4. Appliquer plusieurs conditions combinées (&, |)



## **Partie 3** – Nettoyage des données


1. Détecter et supprimer les doublons (drop_duplicates())


2. Gérer les valeurs manquantes : isna(), fillna(), dropna()


3. Modifier les types de colonnes (astype())


4. Renommer les colonnes (rename())



## **Partie 4** – Transformation et calculs


1. Créer une nouvelle colonne à partir d’une opération entre colonnes


2. Appliquer une fonction à une colonne (apply(), lambda)


3. Grouper les données par catégorie (groupby() + sum(), mean()...)


4. Trier les données par valeurs (sort_values())



## **Partie 5** – Fusion, jointure et reshape


1. Fusionner deux DataFrames avec merge()


2. Concaténer avec concat() (horizontale et verticale)


3. Transformer les données avec pivot(), melt()



## **Partie 6** – Mini-challenge Pandas


Contexte : Analyse d’un jeu de données de ventes (clients, produits, 

commandes).
- Calculer le chiffre d’affaires total et par client


- Afficher les 5 meilleurs clients


- Calculer le panier moyen par commande


- Détecter les produits les moins vendus


- Produire un DataFrame final prêt à être visualisé