# Scikit-learn y Machine Learning

Inspirado por el curso de Xavier Dupré

Integrantes: **AGREGUEN SUS NOMBRES COMPLETOS**

## Instrucciones

1.  Trabajen en equipos de dos personas. Salvo excepciones, no se corregirá entregas con menos de dos integrantes.

2.  Modifique este archivo `.ipynb` agregando sus respuestas donde corresponda.

3.  Para cada pregunta **incluya el código fuente que utilizó para llegar a su respuesta. Respuestas sin código no recibirán puntaje.**.

4.  El formato de entrega para esta actividad es un archivo **html**. **Genere un archivo HTML usando Jupyter** y súbalo a U-Cursos. Basta con que un/a integrante haga la entrega. Si ambos/as hacen una entrega en U-Cursos, se revisará cualquiera de éstas.


#### **Se recomienda fuertemente que no usen ChatGPT para resolver la actividad, ya que la experiencia de aprendizaje es mucho mayor si lo hacen por su cuenta.**

In [1]:
%matplotlib inline

## Datos Sintéticos

Simulamos un dataset de datos aleatorios con una distribución uniforme $\mathcal{U}_{(0,1)}$.

In [2]:
from numpy import random
n = 1000
X = random.rand(n, 2)
X[:5]

array([[0.69270202, 0.90180288],
       [0.11078339, 0.5872793 ],
       [0.04881203, 0.30842256],
       [0.27894601, 0.24958187],
       [0.38654803, 0.57929299]])

Creemos un modelo inicial: $Y = 3 X_1 - 2 X_2^2 + \epsilon$.

Necesitamos aproximar $Y$ usando descriptores $X_1$ y $X_2$.

$\epsilon $~$ \mathcal{U}_{(0,1)}$ es una fuente de ruido que no podemos controlar.

In [3]:
y = X[:, 0] * 3 - 2 * X[:, 1] ** 2 + random.rand(n)
y[:5]

array([0.49224144, 0.45588586, 0.92163658, 0.86701042, 0.75140983])

## Ejercicio 1: Dividiendo en datos de entrenamiento y testeo

Debemos testear nuestro modelo con datos distintos a los usados para entrenarlo **para poder medir su capacidad de generalización**. Como hemos visto, el riesgo empírico en un conjunto de datos dado no es representativo del riesgo general, y podemos observar un fenómeno de sobreaprendizaje (overfitting) en el conjunto de entrenamiento.

En nuestro caso, queremos que el modelo aprenda la ley $3 X_1 - 2 X_2^2$ y **el sobreaprendizaje equivaldría a memorizar el vector de ruido $\epsilon$** que solo corresponde a variaciones en $Y$ independientes de nuestro modelo.

Simple [train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

In [4]:
# to fill
from sklearn.model_selection import train_test_split

X_train, X_val_and_test, y_train, y_val_and_test = train_test_split(X, y, test_size=0.7, random_state=0)
X_val, X_test, y_val, y_test = train_test_split(X_val_and_test, y_val_and_test, test_size=0.5, random_state=0)


## Ejercicio 2: Entrenar una regresión lineal

Encuentre los parámetros $\theta = \begin{pmatrix}
           \theta_{1} \\
           \theta_{2}
         \end{pmatrix}$ solución de $\underset{\theta}{\arg\max} \sum_{i=1}^{n}|Y_i-f_{\theta}(\mathbf{X}_i)|^2$
         
Donde $f_{\theta}(\mathbf{X}) = \theta_0 + \sum_{d=1}^{D}\theta_d X_d$ en el caso $D=2$

Calcule el coeficiente $R^2$.
$$R^2=1-\frac{\sum_{i=1}^{n}|Y_i-f(\mathbf{X}_i)|^2}{\sum_{i=1}^{n}|Y_i-\overline{Y}|^2}$$

Donde $\mathbf{X} = \begin{pmatrix}
           X_{1} \\
           X_{2}
         \end{pmatrix}$ et $\overline{Y}=\frac{1}{n}\sum_{i=1}^{n}Y_i$

Use : [LinearRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html), [r2_score](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html).

In [59]:
# to fill
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

reg = LinearRegression().fit(X_train, y_train)
theta1 = reg.coef_[0]
theta2 = reg.coef_[1]
print(f"thetha1 = {theta1} theta2 = {theta2}")

y_pred = reg.predict(X_test)
r2 = r2_score(y_test, y_pred)
print(f"r2_score = {r2}")


thetha1 = 2.9713711336079673 theta2 = -2.0295424026888367
r2_score = 0.9046052354127478


## Ejercicio 3: Mejorando el modelo aplicando una transformación apropiada

El modelo inicial es: $Y = 3 X_1 - 2 X_2^2 + \epsilon$. Simplemente agregue carecterísticas polinómicas con [PolynomialFeatures](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html).

Tomando el parámetro :
```python
degree=2
```
El descriptor original $\mathbf{X} = \begin{pmatrix} X_{1} \\ X_{2} \end{pmatrix}$
Ahora será $\mathbf{X} = \begin{pmatrix} 1 \\ X_{1} \\ X_{2} \\ X_{1}^2 \\ X_{1}X_{2} \\ X_{2}^2 \end{pmatrix}$ lo que nos da:

$$f_{\theta}(\mathbf{X}) = \theta'_0 + \theta_1 X_1 + \theta_2 X_2 + \theta_3 X_1^2 + \theta_4 X_1X_2 + \theta_5 X_2^2$$

In [60]:
# to fill
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.fit_transform(X_test)

print(f"Train poly:{X_train_poly}")
print(f"Test poly: {X_test_poly}")

Train poly:[[1.         0.93358105 0.08464687 0.87157358 0.07902471 0.00716509]
 [1.         0.52992892 0.77177915 0.28082466 0.40898809 0.59564306]
 [1.         0.76096529 0.36372399 0.57906817 0.27678133 0.13229514]
 ...
 [1.         0.33459686 0.84252262 0.11195506 0.28190542 0.70984437]
 [1.         0.74714455 0.78077889 0.55822497 0.58335469 0.60961567]
 [1.         0.26296244 0.24235879 0.06914924 0.06373126 0.05873778]]
Test poly: [[1.         0.93845134 0.42834468 0.88069091 0.40198064 0.18347917]
 [1.         0.80962445 0.16776211 0.65549174 0.1358243  0.02814412]
 [1.         0.64198065 0.19814688 0.41213915 0.12720646 0.03926219]
 ...
 [1.         0.84911609 0.23878287 0.72099813 0.20275437 0.05701726]
 [1.         0.92064891 0.59197797 0.84759442 0.54500387 0.35043791]
 [1.         0.38746084 0.63171403 0.1501259  0.24476445 0.39906261]]


## Ejercicio 4: entrenar un Random Forest

Use: [RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html)

In [61]:
from sklearn.ensemble import RandomForestRegressor
clf = RandomForestRegressor()
# learning classifier
clf.fit(X_train, y_train)
# scoring classifier
clf.score(X_test, y_test)

0.894207808544904

Veamos ahora las características polinómicas...

In [64]:
# to fill
from sklearn.ensemble import RandomForestRegressor

clf.fit(X_train_poly, y_train)

clf.score(X_test_poly, y_test)


0.893632021750373

## Ejercicio 5: Un poco de matemáticas

Compare ambos modelos con los siguientes datos. De qué se puede percatar? Por qué?

In [65]:
X_test2 = random.rand(n, 2) + 0.5
y_test2 = X_test2[:, 0] * 3 - 2 * X_test2[:, 1] ** 2 + random.rand(n)

In [None]:
# to fill

## Ejercicio 6: Ilustrando el overfitting con un árbol de decisión

A medida que la complejidad del modelo aumenta, el overfitting ocurre. Análogamente, el modelo usando solo $X_1$ y $X_2$ no está necesariamente adaptado al problema y cae en un caso underfitting. Grafique cómo evoluciona la R2 según la profundidad del decision tree.

In [None]:
from sklearn.tree import DecisionTreeRegressor

res = []
for md in range(1, 20):
    # to fill

    res.append(dict(profondeur=md, r2_train=r2_train, r2_test=r2_test))

df = pandas.DataFrame(res)
df.head(10)

In [None]:
ax = df.plot(x='profondeur', y=['r2_train', 'r2_test'])
ax.set_title("Evolution du R2 selon la profondeur");