# Semaine 9 : Manipulation de données expérimentales avec Python

## Objectifs de la leçon

Apprendre à :
- Lire un fichier CSV contenant des données expérimentales.
- Nettoyer et sauvegarder un nouveau fichier corrigé.
- Manipuler un DataFrame Pandas (sélection, ajout, statistiques).
- Transformer les colonnes en tableaux NumPy pour des calculs scientifiques.
- Visualiser les données sous forme de nuage de points.


## Lecture d’un fichier CSV avec `pandas.read_csv()`

On importe d'abord la bibliothèque **pandas**, puis on lit un fichier CSV.  
Les fichiers CSV européens utilisent souvent la **virgule comme séparateur** et la **virgule comme décimale**.

Pour les lire correctement :
- `delimiter` ou `sep` → définit le séparateur (`;` ou `,`)
- `decimal` → définit le symbole décimal (`','` ou `'.'`)

Exemple avec un petit jeu de données appelé `mesures.csv` :
NB: Le fichier doit se trouver dans le même dossier que le fichier .ipynb et ce dernier doit être ouvert via VS Code (Fichier > Ouvrir > Dossier_contenant_les_deux_fichiers)

In [None]:
import pandas as pd

# Lecture du fichier CSV avec des paramètres adaptés
df = pd.read_csv("mesures.csv", delimiter=";", decimal=",", encoding="utf-8")

# Affichage du DataFrame (NaN pour les valeurs manquantes)
#df

# Affichage des 5 premières lignes
#df.head()

# Affichage des 5 dernières lignes
#df.tail()

# Identification des valeurs manquantes
# df.isna()

## Exportation du fichier corrigé avec `to_csv()`

On peut sauvegarder un **nouveau fichier nettoyé ou corrigé** (par exemple, après conversion ou suppression de lignes invalides).

In [None]:
# Suppression des lignes contenant des valeurs manquantes
# df_corrige = df.dropna()

# OU

# Remplacement des valeurs manquantes par la moyenne de Solubilité
moyenne = df["v"].mean()
df_corrige = df.fillna(moyenne)

# Exportation du fichier nettoyé
df_corrige.to_csv("mesures_corrigees.csv", index=False)
print("Fichier nettoyé enregistré sous 'mesures_corrigees.csv'")

## Manipulation de DataFrames (Pandas)

### Sélection d’une colonne
On peut accéder à une colonne du DataFrame à l’aide des crochets : `df["nom_colonne"]`

In [None]:
# Sélection de colonnes
x = df_corrige["x"]
v = df_corrige["v"]

print(x.head())
print(v.head())

### Création d’une nouvelle colonne
On peut créer une nouvelle colonne à partir d’un calcul simple :

In [None]:
# Création d'une colonne énergie cinétique (E = 0.5 * m * v²)
m = 0.25  # masse en kg
df_corrige["E"] = 0.5 * m * (df_corrige["v"] ** 2)
df_corrige.head()

### Affichage de statistiques rapides

In [None]:
df_corrige.describe()

## Manipulation de tableaux NumPy

Il est fréquent de convertir une colonne Pandas en tableau **NumPy** pour des calculs scientifiques plus rapides.

In [None]:
import numpy as np

# Conversion des colonnes en tableaux NumPy
x_np = df_corrige["x"].to_numpy()
v_np = df_corrige["v"].to_numpy()

print(type(x_np))
print(x_np[:5])

## Visualisation : Nuage de points

On utilise **matplotlib.pyplot** pour visualiser les données expérimentales.

In [None]:
import matplotlib.pyplot as plt

plt.scatter(x_np, v_np)
plt.xlabel('Position x (m)')
plt.ylabel('Vitesse v (m/s)')
plt.title('Relation entre position et vitesse')
plt.show()