# TP 1 PHY3051 - Ajustement d'une droite à des données et programmation orientée objet

Ajuster une droite à des données est un peu le "hello world" de l'analyse de données.
Nous allons en faire un exemple très simple aujourd'hui.

Le but est de se rafraîchir la mémoire sur les bases de Python et de l'analyse de données.
À la fin du notebook, j'ai également inclut une brève présentation de la programmation orientée objet, qui sera utile lorsque nous verrons les réseaux de neurones artificiels.

## Petite note sur les _notebooks_ Jupyter

J'utiliserai des _notebooks_ Jupyter tout au long de la session pour les TPs.
Je suggère également de remettre vos laboratoires dans ce format: il permet de combiner le code et la discussion et de remettre un seul fichier.
Ceci dit, vous pouvez également remettre un rapport LaTeX avec les codes en pièce jointe.

Personnellement, j'aime bien éditer les _notebooks_ dans mon éditeur de texte au lieu d'utiliser JupyterLab.
Si c'est votre cas, je vous suggère d'utiliser [Jupytext](https://jupytext.readthedocs.io/en/latest/) pour convertir les notebooks
en fichiers ".py" compatibles avec Spyder, Sublime Text, Vim, etc.

## Ajustement d'une droite

Pour cette section, on s'intéressera uniquement à la simulation d'un jeu de données simple et à l'ajustement d'une droite par minimisation du $\chi^2$. On ne couvrira pas le calcul des incertitudes sur nos paramètres, la comparaison de modèle ou la convergence de l'optimisation. Ces sujets seront présentés plus tard dans le cours.

### Simulation d'un jeu de données

Pour ajuster une droite à des données, il nous faut des données. Commençons par simuler un jeu de données simples,
en assumant un bruit gaussien, indépendant entre les points, et avec des barres d'erreurs identiques.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from scipy.optimize import minimize

In [None]:
# "Nouvelle" interface pour les nombres aléatoires avec Numpy
rng = np.random.default_rng(seed=3051)

Dans la prochaine cellule, nous définissons une fonction pour notre modèle de droite $y = m x + b$.
Elle servira à simuler des données et à ajuster le modèle.

Remarquez que j'utilise des "_type hints_" pour indiquer le type de mes variables (`np.ndarray[float]` signifie un tableau Numpy dont les éléments sont des `float`s).
Ils ne sont pas requis, mais aident à améliorer la clarté du code (et permettent à certains éditeurs de texte de fournir de meilleures suggestions de code).

**À faire: Ajoutez le calcul de la droite et retournez le**

In [None]:
def linear_model(p: np.ndarray[float], x: np.ndarray[float]) -> np.ndarray[float]:
    """Modèle linéaire y = m * x + b

    :param p: Tableau contenant les paramètres m et b, dans ce ordre
    :param x: Tableau de valeurs x
    :return: Valeurs y pour le modèle de droite
    """
    # TODO: retourner mx+b

On peut ensuite générer des valeurs X aléatoires (attention de bien les ordonner avec `sort`) et utiliser notre modèle pour générer le
vrai signal Y.
On ajoute du bruit au signal Y pour simuler des données expérimentales. Ici, toutes nos barres d'erreur ont la même valeur (`noise_level`).
L'erreur ajoutée aux données est tirée d'une distribution normale centrée à 0 avec un écart-type égal à `noise_level`

N'hésitez pas à changer ces valeurs pour tester différents scénarios.

**À faire: simulez des barres d'erreurs ayant une valeur constante égale à `noise_level` injectez un bruit gaussien dont l'amplitude est égale à `yerr`**

**À faire: affichez un graphique des données et du vrai signal sous-jacent**

In [None]:
N = 100  # Nombre de points
m_true, b_true = 6, 2
p_true = np.array([m_true, b_true])
noise_level = 2  # Écrat-type du bruit gaussien

x = np.sort(rng.uniform(0, 10, size=N))
y_true = linear_model(p_true, x)

# Bruit gaussien indépendant avec barres d'erreur uniformes
# TODO: Compléter yerr et y
yerr = 
y = 

# TODO: Afficher un graphique

Voilà, on voit que les données sont assez proches du vrai signal, donc il ne devrait pas être trop difficile d'ajuster une droite
et d'arriver à la bonne réponse.

### Ajustement du modèle
Pour l'ajustement du modèle, nous effectuerons une simple minimisation du $\chi^2$ avec `scipy.optimize.minimize`.

Les fonctions données à `minimize` doivent avoir un premier argument `p` qui est un tableau contenant les paramètres du modèle.

**À faire: codez la fonction chi2**

In [None]:
def chi2_fun(
    p: np.ndarray[float],
    x: np.ndarray[float],
    y: np.ndarray[float],
    yerr: np.ndarray[float],
) -> float:
    """Chi2 pour un modèle linéaire

    :param p: Paramètres du modèle, m et b
    :param x: Valeurs X des données
    :param y: Valeurs Y des données
    :param yerr: Incertitude en Y sur les données
    :return: $\chi^2$ pour l'ensemble des données
    """
    # TODO: Compléter chi2

En plus de la fonction `chi2_fun`, nous aurons besoin d'un estimé initial des paramètres, $m = 5$ et $b = 6$ semblent fournir une droite plutôt réaliste.

**À faire: définissez un estimé initial des paramètres et affichez le avec les données pour s'assurer qu'il est réaliste**

In [None]:
# TODO: Définir p_guess
p_guess = 

plt.plot(x, linear_model(p_guess, x), label="Initial guess")
plt.errorbar(x, y, yerr=yerr, fmt="k.", label="Data")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.show()

On peut maintenant optimiser la fonction

**À faire**:

- Utiliser `scipy.optimize.minimize()` pour minimiser le chi2
- Afficher le résultat de l'optimisation (valeurs des paramètres, succes, nombre d'évaluation) avec `print()`
- Calculer le modèle optimisé et les résidus
- Afficher le modèle optimisé sur un graphique avec les données et la vraie valeur
- Afficher un histogramme des résidus

Je vais maintenant sauvegarder le résultat. Le but ici est simplement d'ajouter des fichiers dans le répertoire Git qui devront être ignorés.
Vous pouvez ajouter les deux noms à `.gitignore` pour que Git les ignore et ne tente pas de les publier sur GitHub.

In [None]:
# Save the output
np.savetxt("top_secret_data.txt", np.vstack([x, y, yerr]).T)
np.savetxt("top_secret_model.txt", best_mod)