# Ejercicio de regresión

En este ejercicio se pide que cargues la base de datos [California Housing](https://www.kaggle.com/datasets/darshanprabhu09/california-housing-dataset) sobre precios de casas en California y que escribas código para realizar las siguientes tareas:

1. Realices la carga de datos de la base de datos y pre-proceses los datos para normalizar las características predictivas.

2. Crees unas particiones de *train* y *test*.

3. Entrenes un regresor lineal.

4. Implementes una figura de mérito para evaluar la bondad del método.

5. Estudies la influencia del parámetro *k* que define la cantidad de vecinos a utilizar.


Para evaluar la bondad del método utilizarás el "error absoluto promedio" (en inglés, *Mean Absolute Error* o *MAE*). Para un conjunto de datos, esta métrica se define como:

$ \mbox{MAE} = \frac{1}{n}\sum_{i=1}^{n}{\left|y[i] - \hat{y}[i]\right|} $

done $n$ representa la cantidad de muestras, $y$ los valores esperados e $\hat{y}$ el vector de predicciones.
<br>

### Especificaciones:
* La base de datos California Housing será la que incluye Google Colab en la ruta '/content/sample_data/california_housing_test.csv'.
 * El valor a predecir es la columna *median_house_value*.
 * El resto de columnas representa las características.
* Las características deberán normalizarse de manera que queden en el rango [0,1] (método `MinMaxScaler()` de `sklearn`).
* La función que calcule la tasa de acierto deberá llamarse `MAE` y tener como parámetros las clases objetivo (`y_true`) y las clases predichas (`y_pred`), es decir: `def MAE(y_true, y_pred)`

<br>

En primera instancia realizamos la carga de datos y dividimos los datos entre entrenamiento y mostramos la tabla para tener cierta idea de cómo son:

In [None]:
# Añade aquí el código
import pandas as pd
import numpy as np

# Cargamos los datos y los mostramos:
data = pd.read_csv('/content/sample_data/california_housing_test.csv')
display(data)

Separamos ahora entre atributos (X) y objetivo (Y):

In [None]:
# Separamos entre atributos y valor esperado, y transformamos a Numpy:
Y = np.asarray( data.loc[:,'median_house_value'] )
X = np.asarray( data.loc[:,'longitude':'median_income'] )

Aplicamos el proceso de normalización de datos:

In [None]:
# Normalizamos los datos:
from sklearn.preprocessing import MinMaxScaler

sc = MinMaxScaler()
X_scaled = sc.fit_transform(X)

Realizamos las particiones de *train* y *test*:

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(X_scaled, Y,
                                                    test_size=0.2,
                                                    random_state=1,
                                                    shuffle=True)

Definimos la métrica MAE:

In [None]:
def MAE(y_true, y_pred):
  sum = 0

  for idx in range(y_pred.shape[0]):
    sum += abs(y_pred[idx] - y_true[idx])

  return sum/y_pred.shape[0]

Importamos el modelo de regresión y lo entrenamos:

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)

Realizamos la predicción con el modelo entrenado y mostramos el error (MAE) obtenido:

In [None]:
# Obtenemos la predicción:
y_pred = model.predict(x_test)

# Calculamos el valor de MAE:
print("MAE: {}".format(MAE(y_true = y_test, y_pred = y_pred)))

-------
Propuesta de trabajo **futuro**: utilizar modelos regularizados como *Lasso*, *Ridge* o *ElasticSearch*