# Regresión lineal simple: Ajuste por mínimos cuadrados

## ¿Qué vamos a hacer?
- Importar datasets en el entorno de trabajo
- Ajustar una regresión lineal simple por mínimos cuadrados de forma manual
- Resolver dicha regresión usando funciones matemáticas de Numpy
- Visualizar la regresión con Matplotlib

## Tarea 1: Importar datasets

Para este ejercicio debemos importar los siguientes datasets al entorno local, que usamos en un ejercicio anterior y estarán disponibles en dicha unidad:
- modulo1-unidad1-ejercicio1-dataset-tarea2.csv
- modulo1-unidad1-ejercicio1-dataset-tarea3.csv

En función de tu entorno de trabajo, tendrás que seguir pasos diferentes para importarlos. Puedes importarlos tanto en Google Colab como en tu VM, usando la interfaz de JupyterLab o usando las funcionalidades de tu VM.
Como los entornos son tan diferentes, no incluimos instrucciones paso a paso para ello, pero no debes tener dificultad ninguna para hacerlo :).

Tómate este tiempo para familiarizarte con tu entorno de trabajo y descubrir las opciones para importar datasets locales.

**Nota:** Asegúrate de que los importas o que los mueves posteriormente al directorio de soluciones, en la carpeta para esta unidad/sesión.

## Tarea 2: Ajustar la regresión lineal simple por mínimos cuadrados

Para esta tarea, vamos a ajustar la regresión paso a paso, calculando cada valor con Numpy para familiarizarnos con sus funciones.

**Nota:** Vamos a utilizar únicamente la función de suma de Numpy. En la siguiente tarea usaremos las funciones para calcular directamente la media de un array, desviaciones típicas o covarianza.

In [None]:
import numpy as np

### Importar el dataset en Numpy

Ejecuta la siguiente celda para importar el dataset com un array de Numpy, asegurándote de que el nombre del dataset es correcto y que el archivo se encuentra en el mismo directorio que el notebook.

In [None]:
import csv

with open('modulo1-unidad1-ejercicio1-dataset-tarea2.csv') as csvfile:
    #dataset1 = np.asarray(list(csv.reader(csvfile))[1:])
    read_csv = list(csv.reader(csvfile))
    
# Eliminar cabecera
read_csv = read_csv[1:]

# Cambiar caracter decimal de comas a puntos
for line in read_csv:
    for i in [0, 1]:
        line[i] = line[i].replace(',', '.')
    
    
# Cargar como array de Numpy
dataset1 = np.asarray(read_csv).astype(np.float)

print(dataset1)

Ya disponemos de los datos en un array 2D de Numpy.

Ahora, completa el código de las siguientes celdas para ajustar la regresión lineal:

In [None]:
## TODO: Crea 2 arrays 1D a partir del dataset importado que correspondan a las columnas X e Y del CSV

X = [...]
Y = [...]

In [None]:
## TODO: Antes de entrenar el modelo, representa los datos en una gráfica de puntos de Matplotlib

import matplotlib.pyplot as plt

# Puedes usar la función scatter()

plt.show()

Recuerda las ecuaciones de la regresión lineal:
$Y = m \times X + b$

$m=\frac{\sum xy-\frac{(\sum x)(\sum y)}{n}}{\sum x^2-\frac{(\sum x)^2}{n}}$

$b=\overline{y}-m\times\overline{x}$

In [None]:
## TODO: Calcula m usando la función np.sum(ndarray) o ndarray.sum(), donde ndarray es el array a sumar
n = [...]
XY = [...]    # Recuerda, es una multiplicación de vectores elemento-a-elemento. Usa la función np.multiply()
X2 = [...]

m = [...]

In [None]:
## TODO: Calcula b

# TODO: Sustituye "sum_y" y "sum_x" por el código o variables correspondientes
y_avg = sum_y / n
x_avg = sum_x / n

b = [...]

Evalúa el modelo calculando su R2.

Recuerda las ecuaciones para calcular el coeficiente de correlación:

$R^2 = \frac{\sigma_{xy}}{\sigma_x \cdot \sigma_y}$

$\sigma_{xy} = \frac{\overline{x \cdot y}}{n}$

$\sigma_x = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}$

In [None]:
## TODO: Calcula r2

x_std = [...]
y_std = [...]
cov_xy = [...]

r2 = [...]

Calcula las predicciones de Y como *y_pred* para los valores de X originales, con los coeficientes del modelo ajustado:

$y\_pred = m \times X + b$

In [None]:
## TODO: Calcula y_pred
y_pred = [...]

In [None]:
# TODO: Representa con Matplotlib una gráfica con 2 series en colores diferentes: Y vs X, y_pred vs X

[...]

## Tarea 3: Ajustar la regresión lineal usando las funciones matemáticas de Numpy

Ahora, repite los pasos anteriores para ajustar la regresión lineal aprovechando todas las capacidades de Numpy: sus funciones para calcular las suma, media, desviación típica y covarianza de arrays.

In [None]:
## TODO: Resuelve la regresión lineal con las funciones avanzadas de Numpy
## Usa nuevos nombres de variables como np_x_avg, np_x_std, np_r2, etc.

np_m = [...]
np_b = [...]
np_r2 = [...]

## Tarea 4: Calcula los residuos y realiza predicciones

Calcula los residuos de tu modelo:

$residuos = Y - Y\_pred$

In [None]:
## TODO: Calcula los residuos y represéntalos con Matplotlib en una gráfica de puntos vs X

res = [...]

# Gráfica de Matplotlib

Realiza predicciones para 2 (o más) valores nuevos de X, 1 valor para interpolación y 1 valor para extrapolación.

In [None]:
# TODO: Realiza predicciones con el modelo ajustado

x_interpol = [...]
y_interpol = [...]

x_extrapol = [...]
y_extrapol = [...]

## Tarea 5: Resolución con Scikit-learn

*¿Te atreves a resolver una regresión lineal simple usando Scikit-learn? ¿Y a evalularla y realizar predicciones?*

Revisa el código de este notebook y adáptalo para usar nuestros datos: https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html

In [None]:
# TODO: Resuelve la regresión lineal simple usando Scikit-learn a partir de dicho ejemplo