<a href="https://colab.research.google.com/github/RMoulla/PBD_Octobre/blob/main/Exercices_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TP Python : Analyse de données clients avec Pandas et NumPy**

## Objectifs du TP

* Manipuler les structures de données Python (listes, dictionnaires)
* Utiliser les boucles et les conditionnels
* Maîtriser les bases de Pandas pour l'analyse de données
* Effectuer des calculs avec NumPy
* Créer des visualisations simples

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Partie 1 : Chargement et exploration des données
### Exercice 1.1 : Lecture du fichier CSV

In [3]:
# Chargement du dataset
df = pd.read_csv('Mall_Customers.csv')

# Afficher les 5 premières lignes
df.head()

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


### Exercice 1.2 : Statistiques descriptives

In [4]:
# Calculer les statistiques descriptives de base
print(df.describe())

# Afficher le nombre de clients par genre
print(df['Genre'].value_counts())

       CustomerID         Age  Annual Income (k$)  Spending Score (1-100)
count  200.000000  200.000000          200.000000              200.000000
mean   100.500000   38.850000           60.560000               50.200000
std     57.879185   13.969007           26.264721               25.823522
min      1.000000   18.000000           15.000000                1.000000
25%     50.750000   28.750000           41.500000               34.750000
50%    100.500000   36.000000           61.500000               50.000000
75%    150.250000   49.000000           78.000000               73.000000
max    200.000000   70.000000          137.000000               99.000000
Genre
Female    112
Male       88
Name: count, dtype: int64


## Partie 2 : Les structures de contrôle
### Exercice 2.1 : Boucle et conditionnels

In [6]:
# 1. Filtrage par genre
df_femmes = df[df['Genre'] == 'Female']

# 2. Âge moyen par genre
age_moyen = df.groupby('Genre')['Age'].mean()

# 3. Client avec le score max
client_max_score = df.loc[df['Spending Score (1-100)'].idxmax()]

# 4. Filtrage multiple
clients_premium = df[
    (df['Annual Income (k$)'] > 50) &
    (df['Spending Score (1-100)'] > 50)
]

### Exercice 2.2 : Utilisation de NumPy

Convertir la colonne des revenus en tableau NumPy.
Calculer l'écart-type des revenus.
Normaliser les scores de dépense (ramener entre 0 et 1).
Calculer la matrice de corrélation entre l'âge, le revenu et le score de dépense.

In [7]:
# 1. Conversion en array NumPy
revenus = df['Annual Income (k$)'].to_numpy()

# 2. Écart-type
ecart_type = np.std(revenus)

# 3. Normalisation
scores = df['Spending Score (1-100)'].to_numpy()
scores_norm = (scores - scores.min()) / (scores.max() - scores.min())

# 4. Matrice de corrélation
colonnes_num = ['Age', 'Annual Income (k$)', 'Spending Score (1-100)']
correlation = np.corrcoef(df[colonnes_num].T)

### Exercice 2.3 : Challenge final

Créez une fonction qui prend en paramètre le DataFrame et retourne un dictionnaire contenant :

Le nombre total de clients
Le revenu moyen par genre
Le pourcentage de clients dans chaque catégorie
L'âge médian des clients VIP (score > 75)

In [10]:
def analyser_clients(df):
    resultats = {
        'total_clients': len(df),
        'revenu_moyen_par_genre': df.groupby('Genre')['Annual Income (k$)'].mean().to_dict(),
        'pourcentage_par_categorie': (df['Catégorie'].value_counts() / len(df) * 100).to_dict(),
        'age_median_vip': df[df['Spending Score (1-100)'] > 75]['Age'].median()
    }
    return resultats

# Test de la fonction
resultats = analyser_clients(df)
print(resultats)

{'total_clients': 200, 'revenu_moyen_par_genre': {'Female': 59.25, 'Male': 62.22727272727273}, 'pourcentage_par_categorie': {'Élevé': 48.5, 'Moyen': 34.5, 'Faible': 17.0}, 'age_median_vip': 30.0}
