# S3 — NumPy & pandas : fondamentaux (M1 ECAP)

Objectifs de la séance (**4h**): compréhension rapide de NumPy, fondamentaux pandas (chargement, nettoyage, agrégations), reshape et export.

## 0) Imports & réglages d'affichage

In [None]:
import numpy as np # pour les tableaux et les calculs numériques
import pandas as pd # pour la manipulation de données en table
import os # pour la gestion des fichiers et des dossiers dans le système d'explocitation

pd.set_option("display.max_rows", 10) # pour afficher plus de lignes dans les DataFrames
pd.set_option("display.max_columns", None) # pour afficher toutes les colonnes
pd.set_option("display.width", 120) # pour ajuster la largeur d'affichage

DATA_PATH = "data/donnees_economiques_exemple.csv"  # chemin vers le fichier de données
OUT_DIR = "outputs" # dossier de sortie pour les résultats
os.makedirs(OUT_DIR, exist_ok=True) # créer le dossier de sortie s'il n'existe pas
DATA_PATH # affichage en sortie de cellule du chemin vers le fichier de données

'data/donnees_economiques_exemple.csv'

## 1) NumPy express

In [None]:
a = np.array([1,2,3,4,5]) # création d'un tableau numpy avec 5 éléments
b = np.array([10,20,30,40,50]) # création d'un autre tableau numpy avec 5 éléments
a+b, a.mean(), a.std() # opérations sur les tableaux numpy : addition, moyenne, écart-type

(array([11, 22, 33, 44, 55]), np.float64(3.0), np.float64(1.4142135623730951))

In [3]:
M = np.arange(12).reshape(3,4) # création d'une matrice 3x4 avec des valeurs de 0 à 11.
# reshape(3,4) : création d'une matrice 3x4 avec des valeurs de 0 à 11.
print(M) # affichage de la matrice
M  + 10 # addition de 10 à chaque élément de la matrice
print(M) # affichage de la matrice originale pour vérifier qu'elle n'a pas changé
M = M + 10 # mise à jour de M avec la nouvelle matrice
print(M) # affichage de la matrice mise à jour
v = np.array([100,200,300,400]) # création d'un tableau numpy avec 4 éléments
M + v # addition de v à chaque ligne de la matrice M

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]


array([[110, 211, 312, 413],
       [114, 215, 316, 417],
       [118, 219, 320, 421]])

### NumPy — slicing 

Exemples courants de slicing pour les tableaux NumPy :

- Sélection 1D : `a[start:stop:step]` (stop exclu). Ex : `a[1:5]`, `a[::-1]` pour inverser.
- Indices négatifs : `a[-1]` dernier élément, `a[-3:-1]` tranche depuis la fin.
- 2D (lignes, colonnes) : `M[ligne_debut:ligne_fin, col_debut:col_fin]`.
- Sélection de lignes entières : `M[1]` ou `M[1,:]` (même chose pour récupérer la ligne 1).
- Nouvelle dimension : `a[:, None]` ou `a[np.newaxis, :]` pour ajuster les shapes.
- Fancy indexing : `a[[0,2,5]]` sélectionne des indices spécifiques (retourne une copy).
- Boolean masking : `a[a > 0]` sélectionne éléments selon une condition (retourne une copie).
- View vs copy : les slices réguliers (`:`) retournent souvent une vue (attention aux modifications in-place), tandis que le fancy indexing et le masking retournent une copie.

Les exemples code ci-dessous montrent ces cas et les différences importantes à connaître.

In [4]:
# Exemples de slicing NumPy
import numpy as np
a = np.arange(10)
print('a =', a)
print('a[1:6] =', a[1:6])
print('a[::-1] (inversé) =', a[::-1])
print('a[-3:] =', a[-3:])

M = np.arange(12).reshape(3,4)
print('M =', M)
M
print('ligne 1 (M[1]) =', M[1])
print('M[0:2, 1:3] =', M[0:2, 1:3])

# newaxis / reshape rapide
print('a[:, None] shape ->', a[:, None].shape)
print('a[np.newaxis, :] shape ->', a[np.newaxis, :].shape)

# indexation par liste (fancy indexing) (copie) vs tranche (slice) (vue)
fancy = a[[1,3,5]]
slice_v = a[1:6:2]
print('sélection par liste (indices [1,3,5]) =', fancy)
print('tranche (1:6:2) =', slice_v)

# modifier une vue (slice) affecte l'original
b = np.arange(6)
view_b = b[1:4]
view_b[:] = 99
print('\nb après modification de la vue (slice) ->', b)

# modifier une indexation par liste (copie) ne modifie pas l'original
c = np.arange(6)
f = c[[1,3]]
f[:] = -1
print("c après modification de l'indexation par liste (copie) ->", c)

# masque booléen (copie)
d = np.arange(10)
mask = d % 2 == 0
print('mask =', mask)
print('d[mask] =', d[mask])

a = [0 1 2 3 4 5 6 7 8 9]
a[1:6] = [1 2 3 4 5]
a[::-1] (inversé) = [9 8 7 6 5 4 3 2 1 0]
a[-3:] = [7 8 9]
M = [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
ligne 1 (M[1]) = [4 5 6 7]
M[0:2, 1:3] = [[1 2]
 [5 6]]
a[:, None] shape -> (10, 1)
a[np.newaxis, :] shape -> (1, 10)
sélection par liste (indices [1,3,5]) = [1 3 5]
tranche (1:6:2) = [1 3 5]

b après modification de la vue (slice) -> [ 0 99 99 99  4  5]
c après modification de l'indexation par liste (copie) -> [0 1 2 3 4 5]
mask = [ True False  True False  True False  True False  True False]
d[mask] = [0 2 4 6 8]


### Exercice d'application — slicing NumPy

Utilisez un tableau NumPy `x = np.arange(20)` et écrivez du code pour :

1. Extraire les éléments d'indices pairs (0,2,4,...) et stocker dans `pairs`.
2. Extraire les 5 derniers éléments en ordre inverse et stocker dans `derniers_inv`.
3. Créer une matrice `A` de shape (4,5) à partir de `x` et extraire la sous-matrice composée des lignes 1..2 et colonnes 2..4.
4. Utiliser un masque booléen pour sélectionner les éléments > 10 et compter combien ils sont.
5. Expliquer rapidement (une phrase) si vos opérations ont renvoyé une vue ou une copie et pourquoi (tests fournis).


In [4]:
# Votre code

import numpy as np

x = np.arange(20)

# 1. Éléments d'indices pairs
pairs = x[::2]

# 2. 5 derniers éléments inversés
derniers_inv = x[-1:-6:-1]

# 3. Matrice 4x5 et sous-matrice
A = x.reshape(4,5)
sousA = A[1:3, 2:5]

# 4. Masque et sélection > 10
mask = x > 10
sel_gt10 = x[mask]
count_gt10 = sel_gt10.size


## 2) pandas : chargement & inspection

In [5]:
df = pd.read_csv(DATA_PATH, sep=';', encoding='utf-8')
# inspection rapide : shape, premières et dernières lignes, et un échantillon aléatoire reproductible
print('shape =', df.shape)
df.head()  # premières 5 lignes

NameError: name 'pd' is not defined

In [None]:
df.tail() # dernières 5 lignes

In [None]:
df.sample(5, random_state=42)  # 5 lignes au hasard (reproductible)

In [None]:
df.info()

In [None]:
df.describe(include='all')

## 3) Nettoyage vectorisé (%, €, séparateurs)

In [2]:
def s_clean_monetaire(ser: pd.Series) -> pd.Series: #-> signifie qu'on attend un pd.Series en retour
    ''' Nettoie une série de données monétaires en supprimant les espaces insécables, les symboles monétaires,
        et en convertissant les valeurs en nombres flottants.
        Les valeurs non convertibles sont remplacées par NaN.
    '''
    s = ser.astype(str).str.strip()
    s = s.str.replace('\u202f', ' ', regex=False).str.replace('€','',regex=False)
    s = s.str.replace(' ', '', regex=False).str.replace(',', '.', regex=False).str.replace('M€','',regex=False)
    s = s.replace({'': None, '-': None, '—': None, '?': None, 'n/a': None, 'na': None})
    return pd.to_numeric(s, errors='coerce') # errors='coerce' pour convertir les erreurs en NaN

def s_clean_pourcent(ser: pd.Series) -> pd.Series:
    ''' Nettoie une série de pourcentages en supprimant le symbole '%' et en convertissant les valeurs en nombres flottants.
        Les valeurs non convertibles sont remplacées par NaN.
    '''
    return s_clean_monetaire(ser.astype(str).str.replace('%','',regex=False))

clean = df.copy()
clean['annee'] = pd.to_numeric(clean['annee'], errors='coerce').astype('Int64') # Int64 gère les NaN, errors='coerce' pour convertir les erreurs en NaN
clean['pib_millions'] = s_clean_monetaire(clean['pib_millions'])
clean['population'] = s_clean_monetaire(clean['population'])
clean['revenu_median'] = s_clean_monetaire(clean['revenu_median'])
clean['chomage_pourcent'] = s_clean_pourcent(clean['chomage_pourcent'])
clean['indice_prix'] = s_clean_monetaire(clean['indice_prix'])
clean['ventes_k€'] = s_clean_monetaire(clean['ventes_k€'])
clean['taux_inflation'] = s_clean_pourcent(clean['taux_inflation'])
clean.dtypes

NameError: name 'pd' is not defined

In [None]:
clean.isna().sum().sort_values(ascending=False).head(10) # compter les valeurs manquantes par colonne, trier et afficher les 10 premières

In [None]:
clean.info() # résumé des informations sur le DataFrame nettoyé

In [None]:
clean.describe() # résumé statistique des colonnes numériques du DataFrame nettoyé

## 4) Agrégations & KPIs

In [None]:
resume = (clean
    .groupby(['region','annee'], as_index=False) # grouper par région et année. as_index=False pour garder les colonnes de groupement.
    .agg(pib_moyen=('pib_millions','mean'),
         population_moy=('population','mean'),
         revenu_median_moy=('revenu_median','mean'),
         chomage_moy=('chomage_pourcent','mean'),
         indice_prix_moy=('indice_prix','mean'),
         ventes_total=('ventes_k€','sum'),
         inflation_moy=('taux_inflation','mean')))
resume.head(10)

NameError: name 'clean' is not defined

In [None]:
top_regions = (clean.groupby('region', as_index=False)
    .agg(ventes_total=('ventes_k€','sum'))
    .sort_values('ventes_total', ascending=False)
    .head(3))
top_regions

## 5) Reshape & plot simple

In [None]:
pivot_chom = (clean.groupby(['region','annee'])['chomage_pourcent'].mean().unstack('annee')) # créer un pivot avec les années en colonnes.
# unstack('annee')) sert à transformer les valeurs uniques de la colonne 'annee' en colonnes distinctes.
pivot_chom.head()

In [None]:
import matplotlib.pyplot as plt
serie = clean.groupby('annee')['taux_inflation'].mean().sort_index() # série temporelle de l'inflation moyenne par année 
plt.figure()
serie.plot(kind='line', marker='o', title='Inflation moyenne par année') # tracer une ligne avec des marqueurs pour chaque année
plt.xlabel('Année'); plt.ylabel('Inflation moyenne (%)')
plt.show()

## 6) Export

In [None]:
os.makedirs(OUT_DIR, exist_ok=True) # créer le dossier de sortie s'il n'existe pas
out_path = os.path.join(OUT_DIR, 'S3_resume_par_region_annee.csv') # chemin complet du fichier de sortie
resume.to_csv(out_path, index=False, encoding='utf-8') # sauvegarder le résumé dans un fichier CSV
out_path

## 7) Exercices
- E1: KPIs par **secteur, annee** (revenu_median_moy, chomage_moy)
- E2: Ajoutez `pib_par_habitant` et sortez le top‑5 des régions par moyenne, export `outputs/top5_pib_habitant.csv`
- E3 (bonus): `pivot_chom` → long avec `.melt`, export `outputs/chomage_long.csv`

In [15]:
import pandas as pd

# Chargement des données
chemin_fichier = r"C:\Users\User\Documents\evalactif\seance1eval\donnees_economiques_exemple (2).csv"
df = pd.read_csv(chemin_fichier)

# Affichage des noms de colonnes
print("Colonnes du fichier :")
print(df.columns.tolist())

# Nettoyage rapide des colonnes (suppression des espaces avant/après)
df.columns = df.columns.str.strip()
print("\nColonnes après strip :")
print(df.columns.tolist())
import pandas as pd
import os

# -----------------------------
# 0. Chargement des données
# -----------------------------
chemin_fichier = r"C:\Users\User\Documents\evalactif\seance1eval\donnees_economiques_exemple (2).csv"
df = pd.read_csv(chemin_fichier)

print("Aperçu des données :")
print(df.head())
print(df.columns)

# -----------------------------
# E1 : KPIs par secteur et année
# -----------------------------
# Calcul : revenu médian, revenu moyen, chômage moyen
kpix_secteur_annee = df.groupby(['secteur', 'annee']).agg(
    revenu_median_moy=('revenu', 'median'),
    revenu_moy=('revenu', 'mean'),
    chomage_moy=('chomage', 'mean')
).reset_index()

print("\nE1 - KPIs par secteur et année :")
print(kpix_secteur_annee.head())

Colonnes du fichier :
['region;annee;secteur;pib_millions;chomage_pourcent;revenu_median;population;indice_prix;ventes_k€;taux_inflation']

Colonnes après strip :
['region;annee;secteur;pib_millions;chomage_pourcent;revenu_median;population;indice_prix;ventes_k€;taux_inflation']
Aperçu des données :
                                                                                     region;annee;secteur;pib_millions;chomage_pourcent;revenu_median;population;indice_prix;ventes_k€;taux_inflation
Île-de-France;2019;Industrie;24 135;7        6 %;25 610 €;2 350 991;107 2;475   7;2                                                  8                                                               
Île-de-France;2019;Services;23 395;7         5 %;26 405 €;2 116 148;115 0;1 014 2;2                                                  5                                                               
Île-de-France;2019;Agriculture;20 570;5      5 %;26 862 €;2 655 540;108 2;823   4;3                      

KeyError: 'secteur'

### Exercice d'application — slicing NumPy

Utilisez un tableau NumPy `x = np.arange(20)` et écrivez du code pour :

1. Extraire les éléments d'indices pairs (0,2,4,...) et stocker dans `pairs`.
2. Extraire les 5 derniers éléments en ordre inverse et stocker dans `derniers_inv`.
3. Créer une matrice `A` de shape (4,5) à partir de `x` et extraire la sous-matrice composée des lignes 1..2 et colonnes 2..4.
4. Utiliser un masque booléen pour sélectionner les éléments > 10 et compter combien ils sont.
5. Expliquer rapidement (une phrase) si vos opérations ont renvoyé une vue ou une copie et pourquoi (tests fournis).


In [16]:
# E2 — Votre code ici# E2 : PIB par habitant et top‑5 régions
# -----------------------------
# Création de la colonne PIB par habitant
df['pib_par_habitant'] = df['pib'] / df['population']

# Calcul du top-5 régions par PIB par habitant moyen
top5_pib_habitant = df.groupby('region')['pib_par_habitant'].mean() \
                      .sort_values(ascending=False).head(5).reset_index()

# Création du dossier outputs si nécessaire
os.makedirs('outputs', exist_ok=True)
top5_pib_habitant.to_csv('outputs/top5_pib_habitant.csv', index=False)

print("\nE2 - Top 5 régions par PIB par habitant :")
print(top5_pib_habitant)

KeyError: 'pib'

In [17]:
# E3 — Vot# E3 (bonus) : Pivot chômage long
# -----------------------------
# Identification des colonnes de chômage
chom_cols = [col for col in df.columns if 'chom' in col]

# Passage en format long
chom_long = df.melt(
    id_vars=['region'],
    value_vars=chom_cols,
    var_name='annee',
    value_name='chomage'
)

# Nettoyage de la colonne 'annee' (ex : 'chom_2018' -> 2018)
chom_long['annee'] = chom_long['annee'].str.extract('(\d+)').astype(int)

# Export CSV
chom_long.to_csv('outputs/chomage_long.csv', index=False)

print("\nE3 - Tableau chômage long :")
print(chom_long.head())re code ici

  chom_long['annee'] = chom_long['annee'].str.extract('(\d+)').astype(int)


SyntaxError: invalid syntax (3981608085.py, line 21)