# Regresión Lineal

Los objetivos de aprendizaje son:

1. ¿Qué es regresión?
2. ¿Cuándo necesitamos una regresión?
3. Regresión Lineal
    - Formulación del problema
    - Performance 
    - Regresión lineal simple
    - Regresión Lineal múltiple
    - Regresión polinómica
    - Underfitting and Overfitting
4. Scikit-learn
    - Regresión lineal
    - Regresión polinómica

## ¿Qué es regresión?

**La regresión busca relaciones entre variables.**

Por ejemplo, los salarios dependen de características como:

- Experiencia
- Nivel de educación
- Rol
- Ciudad, 
- etc.

La presunción es que la experiencia, la educación, el rol y la ciudad son características independientes, mientras que el salario depende de ellas.


Siguiendo el supuesto de que al menos una de las características depende de las demás, se intenta establecer una relación entre ellas.

>De manera más formal, buscamos una función que mapee algunas variables a otra lo suficientemente bien.

Las características dependientes se denominan:

- variables dependientes
- Outputs
- Respuestas

Las características independientes se denominan:

- variables independientes
- Inputs
- Regresores
- Predictores.

Los problemas de regresión tienen una variable dependiente numérica. Sin embargo, los regresores pueden ser datos continuos, discretos o incluso categóricos, como género, nacionalidad o provincia.

Es una práctica común denotar a la variable respuesta como $y$ y los regresores como $x$.

Si hay dos o más regresores, se pueden representar como el vector **x** $ = (x_1, x_2, x_3, ... x_r)$, donde $r$ es el número de observaciones.

## ¿Cuándo necesitamos una regresión?

Por lo general podemos usarla para dos cosas:

1. **Inferencia**: Para determinar el grado de dependencia de la variable respuesta y uno o más regresores. En este casos formulamos una hipótesis y la comprobamos con los datos.


2. **Pronosticar**: Si para una nueva observación sólo tenemos los regresores y no la variable respuesta podemos utilizar los regresores para estimar la variable respuesta.

## Regresión Lineal

Es probablemente una de las técnicas de regresión más importantes y ampliamente utilizadas. Es uno de los métodos de regresión más simples. Una de sus principales ventajas es la facilidad de interpretación de los resultados.


### Formulación del problema

Dado:

- $y$ la variable respuesta.
- **x**$ = (x_1, x_2, ...,x_r)$ el conjunto re regresores.
- $r$ El número de regresores

Asumiremos una relación lineal entre $y$ y **x** tal que:

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_rx_r + \epsilon$$

Donde

- $\beta_0, \beta_1, \beta_2, ..., \beta_r$ son los coeficientes de regresión
- $\epsilon$ es el error aleatorio.

La regresión lineal estimará los coeficientes de regresión, denotados como 𝑏₀, 𝑏₁, …, 𝑏ᵣ. Estos estimadores definen la función de regresión estimada:

$$ f(x) = b_0 + b_1x_1 + b_2x_2 + ... + b_rx_r $$

Esta función debería capturar las dependencias entre los regresores **x** y la variable respuesta $y$ suficientemente bien.

Es decir $f(x_i)$ debe estar lo más cerca posible de $y_i$.

Las diferencias $y_i - f(x_i)$ se llaman residuos.

La regresión consiste en encontrar los mejores valores de 𝑏₀, 𝑏₁, …, 𝑏ᵣ tal que los residuos sean lo más posible pequeños.

Para obtener los mejores pesos, generalmente minimizamos la suma de los residuos cuadrados 

$$ SSR = \sum \limits_{i=1} ^{n} (y_i - f(x_i))^2$$

> Este enfoque se llama el método de los mínimos cuadrados ordinarios.

## Performance 

La varianza de la variable respuesta $y_i$, $i = 1, 2, ..., n$ se debe en parte a la dependencia de los regresores $x_i$. Sin embargo, también hay una variación inherente adicional:

- Error de precisión en la medición.
<br>

- Dependencia de otras variables que no han sido registradas.


El **coeficiente de determinación**, denotado como $R^2$, nos indica la cantidad de variación en $y$ que se puede explicar por la dependencia de $x$, usando el modelo de regresión particular. 


- Un $R^2 \epsilon [0, 1]$

- Un $R^2$ más grande indica un mejor ajuste


#### Regresión lineal simple

Es el caso más simple de regresión lineal, tiene una sola variable independiente, 𝐱 = 𝑥.

La siguiente figura ilustra la regresión lineal simple:

![image.png](attachment:image.png)


En este caso tenemos un conjunto de observaciones $(x, y)$. Estos pares son tus observaciones, que se muestran como círculos verdes en la figura.


La función de regresión **estimada**, representada por la línea negra, tiene la ecuación 𝑓(𝑥) = 𝑏₀ + 𝑏₁𝑥.


### Regresión Lineal múltiple

Es un caso de regresión lineal con dos o más variables independientes.

Por ejemplo, si solo hay dos variables independientes, entonces la función de regresión estimada es 𝑓(𝑥₁, 𝑥₂) = 𝑏₀ + 𝑏₁𝑥₁ + 𝑏₂𝑥₂, y representa un plano de regresión en un espacio tridimensional.


### Regresión polinómica

Puedemos considerarla como un caso generalizado de regresión lineal. Se asume la dependencia polinomial entre $y$ y $x$.

Por ejemplo, además de términos lineales como 𝑏₁𝑥₁, la función de regresión 𝑓 puede incluir términos no lineales como:

- 𝑏₂𝑥₁²
<br>

- 𝑏₃𝑥₁³ 
<br>

- 𝑏₄𝑥₁𝑥₂
<br>

- 𝑏₅𝑥₁²𝑥₂.

Un ejemplo simple $f(x) = b_0 + b_1*x_1 + b_2*x_1^2$.

Dado que podemos re-expresar la ecuación como $f(x) = b_0 + b_1*x_1 + b_2*x_2$, $x_2 = x_1^2$, podremos usar los mismo métodos para encontrar los valores óptimos de $b_0, b_1 y b_2$ que con la regresión lineam múltiple.


### Underfitting and Overfitting


**¿Cómo elegir el grado óptimo de la función de regresión polinomial?**

No hay una regla sencilla para hacer esto. Depende del caso. Sin embargo hay que tener en cuenta:

- **Underfitting**: Ocurre cuando un modelo no puede capturar con precisión las dependencias entre los datos, generalmente como consecuencia de su propia simplicidad. Suele producir un $R^2$ bajo.
<br>

- **Overfitting**: Sucede cuando un modelo captura tanto las dependencias de datos como las fluctuaciones aleatorias.

![image-2.png](attachment:image-2.png)


## Scikit-learn

Es un paquete de Python ampliamente utilizado para hacer machine learning, está construido sobre NumPy y algunos otros paquetes.

Proporciona medios para preprocesar datos, reducir la dimensionalidad, ajustar modelos de regresión, clasificación, etc.

Esta página contiene la documentación del módulo [linear-models](https://scikit-learn.org/stable/modules/linear_model.html).

Otra opción es [`statsmodels`](https://www.statsmodels.org/stable/index.html), que implementa funcionalidades estadísticas más avanzadas.


### Regresión lineal

Por el momento sólo exploraremos las funcionalidades de la clase `LinearRegression`.

#### Paso 1: Importamos las dependencias

In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression

#### Paso 2: Generemos algunos datos:

In [2]:
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([5, 20, 14, 32, 22, 38])

Hemos usado el método `reshape()` para hacer un `array` de dos dimensones, i.e una columna y 6 renglones.

La tupla `(-1, 1)` Se usa para definir el nuevo formato, la primera entrada representa el número de renglones y la segunda el número de columnas. El valor `-1` indica an numpy crear tantos renglones como sea posible.

#### Paso 3: Instanciar un objeto de la clase `LinearRegression`

Podemos especificar parámetros opcionales como:

- `fit_intercept`: `True` si queremos estimar el valor $b_0$.

- `normalize`: `True` si queremos normalizar los datos de entrada.

- `n_jobs`: El número de hilos de proceso en paralelo para ajustar el modelo. 

In [3]:
model = LinearRegression()

#### Paso 4: Ajustar el modelo.

El método `.fit()` calcula los valores optimo de $b_0$ y $b_1$ dados los datos.

In [4]:
model.fit(x, y)

#### Paso 5: Obtener resultados.

Podemos obtener el coeficiente de determinación con el método `.score()`

In [5]:
r_sq = model.score(x, y)
print(f"coefficiente de determinación: {r_sq}")

coefficiente de determinación: 0.7158756137479542


Podemos obtener los valores de $b_0 y b_1$

In [6]:
print(f"b0: {model.intercept_}")
print(f"b1: {model.coef_}")

b0: 5.633333333333329
b1: [0.54]


Podemos usar el método `.predict()` para hacer inferencia sobre nuevas observaciones.

In [7]:
x_new = np.array([10]).reshape((-1,1))
y_pred = model.predict(x_new)
y_pred

array([11.03333333])

### Regresión polinómica


Es posible transformar la matriz de entrada de varias maneras, e.g. usar `np.insert()`. Pero la clase `PolynomialFeatures` nos ayuda a crear un `pipeline` más limpio.


In [10]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([5, 20, 14, 32, 22, 38])

transformer = PolynomialFeatures(degree=2, include_bias=False)
transformer.fit(x)
x_ = transformer.transform(x)

model = LinearRegression().fit(x_, y)


r_sq = model.score(x_, y)
print(f"coeficiente de determinación: {r_sq}")

print(f"b0: {model.intercept_}")


print(f"b1 y b2: {model.coef_}")


coeficiente de determinación: 0.7178963893249607
b0: 4.438392857142851
b1 y b2: [ 0.65785714 -0.00196429]


Usando la clase `PolynomialFeatures` podemos genear predicciones de manera más sencilla.

In [11]:
x_new = np.array([10]).reshape((-1,1))
transformer.transform(x_new)

array([[ 10., 100.]])

In [12]:
model.predict(transformer.transform(x_new))

array([10.82053571])