# 📌 Exercices Pandas – Manipulation de Données  

## 💡 Exercice 1 : Création et Exploration d'un DataFrame  
1️⃣ Crée un DataFrame contenant les informations suivantes :  
   - **Nom** : Alice, Bob, Charlie, David  
   - **Âge** : 25, 30, 35, 40  
   - **Ville** : Paris, Lyon, Marseille, Toulouse  
2️⃣ Affiche les 2 premières lignes du DataFrame.  
3️⃣ Affiche les statistiques descriptives du DataFrame.  

---

## 💡 Exercice 2 : Manipulation et Filtres  
1️⃣ Ajoute une colonne **Salaire** avec les valeurs : 2500, 3000, 4000, 3500.  
2️⃣ Filtre les personnes ayant un âge supérieur à 30.  
3️⃣ Trie le DataFrame par ordre décroissant de salaire.  

---

## 💡 Exercice 3 : Importation et Analyse de Données  
1️⃣ Charge un fichier CSV contenant des données de ventes.  
2️⃣ Affiche les premières lignes et la taille du DataFrame.  
3️⃣ Calcule la somme des ventes par produit.  

---

## 💡 Exercice 4 : Gestion des valeurs manquantes  
1️⃣ Remplace les valeurs manquantes par la moyenne de la colonne concernée.  
2️⃣ Supprime les lignes contenant des valeurs manquantes.  

---

## 💡 Exercice 5 : Groupement et Agrégation  
1️⃣ Charge un DataFrame contenant des transactions.  
2️⃣ Regroupe les données par catégorie de produit et calcule la somme des ventes.  
3️⃣ Affiche les 5 produits les plus vendus.  

🚀 **Objectif : Apprendre à manipuler des données avec Pandas pour l'analyse et la visualisation !**  


### 📌 Exercice 1 : Création et Exploration d'un DataFrame 

In [2]:
import pandas as pd

In [None]:
 
# 1️⃣ Création du DataFrame
data = {
    "Nom": ["Alice", "Bob", "Charlie", "David"],
    "Âge": [25, 30, 35, 40],
    "Ville": ["Paris", "Lyon", "Marseille", "Toulouse"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nom,Âge,Ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille
3,David,40,Toulouse


In [5]:
# 2️⃣ Affichage des 2 premières lignes
print(df.head(2))

     Nom  Âge  Ville
0  Alice   25  Paris
1    Bob   30   Lyon


In [6]:
# 3️⃣ Affichage des statistiques descriptives
print(df.describe())

             Âge
count   4.000000
mean   32.500000
std     6.454972
min    25.000000
25%    28.750000
50%    32.500000
75%    36.250000
max    40.000000


### 📌 Exercice 2 : Manipulation et Filtres 

In [7]:
 # 1️⃣ Ajout d'une colonne "Salaire"
df["Salaire"] = [2500, 3000, 4000, 3500]
df

Unnamed: 0,Nom,Âge,Ville,Salaire
0,Alice,25,Paris,2500
1,Bob,30,Lyon,3000
2,Charlie,35,Marseille,4000
3,David,40,Toulouse,3500


In [8]:
# 2️⃣ Filtrer les personnes ayant un âge supérieur à 30
df_filtre = df[df["Âge"] > 30]
print(df_filtre)

       Nom  Âge      Ville  Salaire
2  Charlie   35  Marseille     4000
3    David   40   Toulouse     3500


In [9]:
# 3️⃣ Trier le DataFrame par ordre décroissant de salaire
df_sorted = df.sort_values(by="Salaire", ascending=False)
print(df_sorted)

       Nom  Âge      Ville  Salaire
2  Charlie   35  Marseille     4000
3    David   40   Toulouse     3500
1      Bob   30       Lyon     3000
0    Alice   25      Paris     2500


### 📌 Exercice 3 : Importation et Analyse de Données  

In [12]:
import pandas as pd

# 1️⃣ Création d'un DataFrame fictif
data = {
    "Produit": ["Ordinateur", "Smartphone", "Tablette", "Casque", "Souris"],
    "Ventes": [150, 300, 200, 120, 180],
    "Prix_Unitaire": [1000, 800, 500, 150, 50]
}

df_ventes = pd.DataFrame(data)
df_ventes

Unnamed: 0,Produit,Ventes,Prix_Unitaire
0,Ordinateur,150,1000
1,Smartphone,300,800
2,Tablette,200,500
3,Casque,120,150
4,Souris,180,50


In [13]:
# 2️⃣ Sauvegarde du DataFrame en fichier CSV
df_ventes.to_csv("ventes.csv", index=False)

- df_ventes.to_csv("C:/Users/TonNom/Documents/ventes.csv", index=False)  # Sur Windows
- df_ventes.to_csv("/home/tonnom/Documents/ventes.csv", index=False)  # Sur Linux/Mac

In [15]:
# 3️⃣ Lecture du fichier CSV
dfv = pd.read_csv("ventes.csv")
dfv

Unnamed: 0,Produit,Ventes,Prix_Unitaire
0,Ordinateur,150,1000
1,Smartphone,300,800
2,Tablette,200,500
3,Casque,120,150
4,Souris,180,50


In [17]:
# 4️⃣ Affichage des premières lignes du fichier
print(dfv.head())

      Produit  Ventes  Prix_Unitaire
0  Ordinateur     150           1000
1  Smartphone     300            800
2    Tablette     200            500
3      Casque     120            150
4      Souris     180             50


In [18]:
# 5️⃣ Calcul du chiffre d'affaires par produit (Ventes * Prix_Unitaire)
dfv["Chiffre_Affaires"] = dfv["Ventes"] * dfv["Prix_Unitaire"]
print(dfv)

      Produit  Ventes  Prix_Unitaire  Chiffre_Affaires
0  Ordinateur     150           1000            150000
1  Smartphone     300            800            240000
2    Tablette     200            500            100000
3      Casque     120            150             18000
4      Souris     180             50              9000


In [19]:
# 6️⃣ Produit avec le plus grand chiffre d'affaires
produit_max = dfv.loc[dfv["Chiffre_Affaires"].idxmax()]
print("Produit avec le plus grand chiffre d'affaires :", produit_max["Produit"])

Produit avec le plus grand chiffre d'affaires : Smartphone


### 📌 Décomposition :

1. dfv["Chiffre_Affaires"] → Sélectionne la colonne "Chiffre_Affaires"
2. idxmax() → Renvoie l'index de la ligne où "Chiffre_Affaires" est le plus grand
3. dfv.loc[...] → Sélectionne la ligne correspondant à cet index

## 📌 Différence entre `.loc[]` et `.iloc[]` en Pandas

La différence entre .loc[] et .iloc[] en Pandas concerne la manière dont tu accèdes aux données dans un DataFrame :

### 1️⃣ **`.loc[]` : Sélection par label (nom)**
- Utilisé pour sélectionner des lignes ou des colonnes en fonction de **leurs noms** (index ou étiquettes).
- **Syntaxe :**  
  df.loc[row_label, column_label]

- **Exemple :**
 **df.loc[2, "Produit"] :** Accède à la valeur dans la ligne d'index 2 et la colonne "Produit"

### 2️⃣ **`.iloc[]` : Sélection par position (indice numérique)**
- Utilisé pour sélectionner des lignes ou des colonnes en fonction de leurs positions numériques.
- **Syntaxe :**
 df.iloc[row_index, column_index]

- **Exemple :**
 **df.iloc[2, 1] :** Accède à la valeur de la 3e ligne (index 2) et la 2e colonne (index 1)

---



### 💡 Exercice : Manipulation de DataFrame avec Pandas

## 🔹 Objectifs :
1️⃣ Créer un DataFrame Pandas avec les colonnes `"Nom"`, `"Âge"`, et `"Ville"`.  
2️⃣ Ajouter une nouvelle colonne `"Score"` avec des valeurs de votre choix.  
3️⃣ Afficher les statistiques du DataFrame avec `.describe()`.  

In [3]:
# 1️⃣ Création du DataFrame
data = {
    "Nom": ["Alice", "Bob", "Charlie", "David", "Emma"],
    "Âge": [25, 30, 35, 40, 22],
    "Ville": ["Paris", "Lyon", "Marseille", "Toulouse", "Bordeaux"]
}
df = pd.DataFrame(data)

In [4]:
# 2️⃣ Ajout de la colonne "Score"
df["Score"] = [85, 90, 78, 92, 88]

In [5]:
# 3️⃣ Affichage des statistiques du DataFrame
print(df.describe())

             Âge      Score
count   5.000000   5.000000
mean   30.400000  86.600000
std     7.300685   5.458938
min    22.000000  78.000000
25%    25.000000  85.000000
50%    30.000000  88.000000
75%    35.000000  90.000000
max    40.000000  92.000000


| Statistique | Signification |
|-------------|--------------|
| `count` | Nombre total de valeurs (nombres valides) |
| `mean` | Moyenne |
| `std` | Écart-type |
| `min` | Valeur minimale |
| `25%` | 1er quartile (Q1 : 25% des valeurs en dessous) |
| `50%` | Médiane (Q2 : 50% des valeurs en dessous) |
| `75%` | 3e quartile (Q3 : 75% des valeurs en dessous) |
| `max` | Valeur maximale |
