# Mémo — Fonctions Python essentielles en statistiques (avec commentaires)

Ce mémo regroupe les **fonctions Python utilisées dans le cours**
avec une **explication claire de leur rôle**.
Il sert de **boîte à outils opérationnelle**.

---

## 1. NumPy — Calcul numérique et simulation

### Création et manipulation
- `np.array(liste)`  
  → créer un tableau numérique à partir d’une liste de mesures

- `np.random.normal(mu, sigma, n)`  
  → simuler `n` mesures suivant une loi normale (moyenne `mu`, écart-type `sigma`)

- `np.random.uniform(a, b, n)`  
  → simuler `n` valeurs uniformément réparties entre `a` et `b`

- `np.append(x, valeur)`  
  → ajouter une valeur à un tableau existant

---

### Statistiques descriptives
- `np.mean(x)`  
  → calculer la moyenne de l’échantillon

- `np.median(x)`  
  → calculer la médiane (valeur centrale)

- `np.var(x, ddof=1)`  
  → calculer la variance **échantillon** (divisée par `n-1`)

- `np.std(x, ddof=1)`  
  → calculer l’écart-type **échantillon**

---

### Calculs utiles
- `np.sqrt(x)`  
  → racine carrée (utilisée dans erreurs standards, IC)

- `np.linspace(a, b, n)`  
  → créer une grille régulière (utile pour tracer une droite de régression)

- `np.polyfit(x, y, 1)`  
  → ajuster une droite $y = a + bx$ (calcul rapide des coefficients)

---

## 2. Pandas — Données structurées (DataFrame / Series)

### Chargement des données
- `pd.read_csv("fichier.csv")`  
  → charger des données expérimentales depuis un fichier CSV

- `pd.read_excel("fichier.xlsx")`  
  → charger des données depuis Excel

---

### Inspection rapide (réflexe obligatoire)
- `df.head()` / `df.tail()`  
  → afficher les premières / dernières lignes

- `df.shape`  
  → obtenir le nombre de lignes et de colonnes

- `df.columns`  
  → afficher les noms des variables

- `df.info()`  
  → vérifier types de données et valeurs manquantes

---

### Accès aux données
- `df["colonne"]`  
  → extraire une variable (Series)

- `df[["col1", "col2"]]`  
  → extraire plusieurs variables

- `df.iloc[i]`  
  → accéder à une ligne par position

- `df.loc[i]`  
  → accéder à une ligne par index

---

### Statistiques descriptives
- `df.describe()`  
  → résumé statistique automatique (moyenne, quartiles, etc.)

- `df.mean()`  
  → moyennes par colonne

- `df.std(ddof=1)`  
  → écarts-types échantillon

- `df.min()` / `df.max()`  
  → valeurs extrêmes

- `df.quantile(q)`  
  → quantiles (ex : 0.25, 0.5, 0.75)

---

### Statistiques bivariées
- `df.cov()`  
  → matrice de covariance entre variables

- `df.corr()`  
  → matrice de corrélation linéaire (Pearson)

---

## 3. Matplotlib — Visualisation (indispensable avant tout test)

### Graphiques univariés
- `plt.hist(x, bins=20)`  
  → visualiser la distribution d’une variable

- `plt.boxplot(x)`  
  → visualiser dispersion et valeurs atypiques

---

### Graphiques bivariés
- `plt.scatter(x, y)`  
  → nuage de points (rechercher une relation)

- `plt.plot(x, y)`  
  → tracer une courbe ou une droite

---

### Mise en forme
- `plt.xlabel("...")`  
  → nom de l’axe horizontal

- `plt.ylabel("...")`  
  → nom de l’axe vertical

- `plt.title("...")`  
  → titre du graphique

- `plt.legend()`  
  → afficher la légende

- `plt.show()`  
  → afficher le graphique

---

## 4. Tests statistiques — SciPy

### Test t de Student (1 échantillon)
- `stats.ttest_1samp(x, popmean=mu0)`  
  → tester si la moyenne de `x` est différente de `mu0`

---

### Test t de Welch (2 échantillons indépendants)
- `stats.ttest_ind(x, y, equal_var=False)`  
  → comparer deux moyennes sans supposer variances égales

---

### Test t apparié (avant / après)
- `stats.ttest_rel(after, before)`  
  → tester si la différence moyenne avant/après est nulle

---

### Corrélation de Pearson
- `stats.pearsonr(x, y)`  
  → calculer le coefficient de corrélation `r`  
  → tester $H_0 : \rho = 0$

---

## 5. Intervalles de confiance

### Quantile de Student
- `stats.t.ppf(1 - alpha/2, df=n-1)`  
  → valeur critique de Student pour un IC

---

### IC 95 % de la moyenne
Formule :
$$
\bar{x} \pm t_{0.975, n-1} \cdot \frac{s}{\sqrt{n}}
$$

Implémentation :
```python
tcrit = stats.t.ppf(0.975, df=n-1)
ci = (mean - tcrit*s/np.sqrt(n), mean + tcrit*s/np.sqrt(n))
