# Hello MAPIE !

Dans ce premier exercice, nous allons estimer nos premières incertitudes avec MAPIE sur un jeu de données linéaire uni-dimensionnel.

In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
import plotly.graph_objects as go

**Exercice.** Importons le régresseur de MAPIE `MapieRegressor` ainsi que la fonction `coverage_score` permettant d'estimer le taux de couverture.

In [3]:
from mapie.regression import MapieRegressor
from mapie.metrics import regression_coverage_score

Créons nos données linéaires bruitées avec scikit-learn.

In [4]:
regressor = LinearRegression()
X, y = make_regression(n_samples=500, n_features=1, noise=20, random_state=59)

**Exercice.** Initialisons `MapieRegressor` avec la méthode "plus" puis entraînons le modèle sur nos données générées.

In [13]:
mapie = MapieRegressor(regressor, method="plus", cv=5)  # correction
mapie.fit(X, y)  # correction

MapieRegressor(cv=5, estimator=LinearRegression())

**Exercice.** Calculons nos prédictions sans définir le paramètre `alpha`. 

In [14]:
y_pred = mapie.predict(X)  # correction

**Question.** Quel est l'objet retourné par `MapieRegressor` et quelle est sa taille ?

In [15]:
print(type(y_pred), y_pred.shape)  # correction

<class 'numpy.ndarray'> (500,)


**Exercice.** Estimons maintenant les incertitudes pour deux valeurs de alpha (0.32 et 0.05). Pour ce faire, ajouter le paramètre `alpha` comme argument dans le `predict` en tant que liste.

In [16]:
alpha = [0.32, 0.05]  # correction
y_preds = mapie.predict(X, alpha=alpha)  # correction

**Question.** Quel est l'objet retourné par `MapieRegressor` ? 

In [17]:
print(type(y_preds), len(y_preds))  # correction

<class 'tuple'> 2


**Exercice.** Calculons maintenant le taux de couverture pour les deux valeurs de alpha.

In [18]:
coverage_scores = [  # correction
    regression_coverage_score(y, y_preds[1][:, 0, i], y_preds[1][:, 1, i])  # correction
    for i, _ in enumerate(alpha)  # correction
]  # correction

Visualisons enfin les intervalles de prédiction estimés.

In [25]:
fig = go.Figure()

# lower/upper bounds
order = np.argsort(X[:, 0])
fig.add_trace(go.Scatter(
    name="lower bound",
    x=X[order].ravel(),
    y=y_preds[1][:, 0, 0][order],
    mode="lines",
    line=dict(color="#ff7f0e", dash='solid')
))
fig.add_trace(go.Scatter(
    name="upper bound",
    x=X[order].ravel(),
    y=y_preds[1][:, 1, 0][order],
    mode="lines",
    fill="tonexty",
    line=dict(color="#ff7f0e", dash='solid')
))

# predictions
fig.add_trace(go.Scatter(
    name="predictions",
    x=X.ravel(),
    y=y_preds[0],
    mode="lines",
    line=dict(color="#ff7f0e", dash='solid')
))

# data
fig.add_trace(go.Scatter(
    name="data",
    x=X.ravel(),
    y=y,
    mode="markers",
    marker=dict(color="#1f77b4", size=4),
))
fig.update_layout(
    autosize=False,
    width=600,
    height=500,
    xaxis_title="x",
    yaxis_title="y",
    hovermode="x",
    showlegend=False
)
fig.show()