# Aprendizaje automático. Práctica 2
## Marta Venegas Pardo

## Índice de contenidos:
* [Entrega 1](#first-E)
    * [Regresión lineal simple](#RLS)
        * [Paso 1: Instalación de librerías](#RLS-1)
        * [Paso 2: Carga de datos](#RLS-2)
        * [Paso 3: Creación del modelo y ajuste](#RLS-3)
        * [Paso 4: Obtención de los resultados](#RLS-4)
        * [Paso 5: Cálculo de prediccciones](#RLS-5)
    * [Regresión lineal múltiple](#RLM)
        * [Paso 1 y 2: Librerías y carga de datos](#RLM-1-2)
        * [Paso 3: Creación y entrenamiento del modelo](#RLM-3)
        * [Paso 4: Obtención de las métricas y coeficientes del modelo](#RLM-4)
        * [Paso 5: Predicción de la respuesta](#RLM-5)
* [Entrega2](#second-E)
    * [Regresión polinómica](#RP)
        * [Paso 1: Carga de librerías](#RP-1)
        * [Paso 2: Carga de datos y transformación](#RP-2)
        * [Paso 3: Creación y entrenamiento del modelo](#RP-3)
        * [Paso 4: Obtención de los resultados](#RP-4)
        * [Paso 5: Predicciones](#RP-5)
    * [Regresión lineal avanzada con *statsmodels*](#SM)
        * [Paso 1: Importación y carga de librerías](#SM-1)
        * [Paso 2: Carga de datos](#SM-2)
        * [Paso 3: Creación y entrenamiento del modelo](#SM-3)
        * [Paso 4: Resultados del modelado](#SM-4)
    * [Ejemplos de regresión lineal](#EJ)
        * [Regresión lineal simple](#EJ-1)
        * [Regresión lineal múltiple](#EJ-2)
        * [Regresión polinómica](#EJ-3)

## Entrega 2.1<a class="anchor" id="first-E"></a>

<h3>Simple Linear Regression- Regresión lineal simple</h3><a class="anchor" id="RLS"></a>

<h4>Paso 1: Instalación de librerías</h4><a class="anchor" id="RLS-1"></a>

In [1]:
## Instalación de librerías
import numpy as np 
import pandas as pd
# import sklearn
# Modelo de regresión lineal
from sklearn.linear_model import LinearRegression
# Gráficas
import matplotlib.pyplot as plt

In [2]:
# LinearRegression: fit_intercept, normalize

<h4>Paso 2: Carga de datos</h4><a class="anchor" id="RLS-2"></a>

In [3]:
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1)) # Variable explicativa
y = np.array([5, 20, 14, 32, 22, 38]) # Variable objetivo/respuesta

In [4]:
print('Regresor,x:\n',x,'\nDimensiones: ',x.shape,'\n\nRespuesta,y:\n',y,'\nDimensiones:',y.shape)

Regresor,x:
 [[ 5]
 [15]
 [25]
 [35]
 [45]
 [55]] 
Dimensiones:  (6, 1) 

Respuesta,y:
 [ 5 20 14 32 22 38] 
Dimensiones: (6,)


<h4>Paso 3: Creación del modelo y ajuste</h4><a class="anchor" id="RLS-3"></a>

In [5]:
# Definición del modelo
modelo = LinearRegression() # No añadimos hiperparámetros (fit_intercept: t independiente beta0, normalize: normalizar datos, n_jobs)

In [6]:
# Ajuste del modelo
modelo.fit(x,y) 

LinearRegression()

**Modelo**

Con el argumento *.fit* estamos calculando los la estimaación de los coeficientes de regresión $\beta_0$ y $\beta_1$, obteniendo así $\hat\beta_0$ y $\hat\beta_1$ . 

Es decir, la ecuación de regresión linear simple es la siguiente:

<center>$Y = \beta_0 + \beta_1 x + \epsilon$</center>

Donde:
- $\beta_0$ es el término independiente, y se trata del valor esperado de la respuesta Y cuando $x_1=0$
- $\beta_1$ mide el cambio en Y por cada modificación unitaria en x 
- $\epsilon$ es el error de observación cometido debido a la aleatoriedad

Y en el caso de la estimación:

<center>$\hat y = \hat\beta_0 + \hat\beta_1 x$</center>

In [7]:
# Otra forma más rápida:
model = LinearRegression().fit(x, y)

<h4>Paso 4: Obtención de los resultados</h4><a class="anchor" id="RLS-4"></a>

In [8]:
r_sq = model.score(x, y)
print(f"Coeficiente de determinación: {r_sq}")

Coeficiente de determinación: 0.715875613747954


Este coeficiente es una medida de la bondad de ajuste del modelo, en otras palabras, se trata de una medida de la bondad de ajuste de la recta a los datos. Se tiene que $R^2  = 0.716$, es decir, el modelo (la recta) explica casi un $72\%$ de la varaibilidad total de la variable respuesta.

Los coeficientes del modelo son los siguientes:

In [9]:
print(f"intercept: {modelo.intercept_}") # Intercept es un número

print(f"slope: {modelo.coef_}") # Slope es un array

intercept: 5.633333333333329
slope: [0.54]


Y por tanto, la ecuación de la recta de regresión es la siguiente: 
<center>$\hat y = 5,63+0,54x$</center>

Se tiene que: 

- El valor de $\beta_0 = 5,63$ indica que la varaible respuesta es 5,63 cuando $x=0$
- $\beta_0 = 0,54$ significa que el valor de y aumenta 0,54 cuando x aumenta en una unidad.

Ahora vamos a introducir $y$ como un array bidimensional, al igual que $x$, obteniendo así el mismo modelo:

In [10]:
Modelo2 = LinearRegression().fit(x, y.reshape((-1, 1)))
print(f"intercept: {Modelo2.intercept_}")

print(f"slope: {Modelo2.coef_}")

# Son ambos arrays (unidimensional y bidimensional, respectivamente)

intercept: [5.63333333]
slope: [[0.54]]


<h4>Paso 5: Cálculo de predicciones</h4><a class="anchor" id="RLS-5"></a>

In [11]:
y_pred = modelo.predict(x)
print(f"Predicciones:\n{y_pred}") # Array unidimensional

Predicciones:
[ 8.33333333 13.73333333 19.13333333 24.53333333 29.93333333 35.33333333]


Otra manera de realizar predicciones es sustituyendo los valores en la recta de regresión calculada, como vemos a continuación.

In [12]:
# Otra forma, utilizando beta0 y beta1

y_pred = modelo.intercept_ + modelo.coef_ * x
print(f"Respuesta:\n{y_pred}") # Array bidimensional 

Respuesta:
[[ 8.33333333]
 [13.73333333]
 [19.13333333]
 [24.53333333]
 [29.93333333]
 [35.33333333]]


In [13]:
# Otra forma, utilizando beta0 y beta1

y_pred = modelo.intercept_ + modelo.coef_ *  x.flatten()
print(f"Respuesta:\n{y_pred}") # Array bidimensional 

Respuesta:
[ 8.33333333 13.73333333 19.13333333 24.53333333 29.93333333 35.33333333]


Vamos ahora a utilizar el modelo en datos nuevos para así predecir el valor de Y para cada valor de x.

In [14]:
x_new = np.arange(5).reshape((-1, 1))
x_new

array([[0],
       [1],
       [2],
       [3],
       [4]])

Los valores de Y para estos valores de X son:

In [15]:
y_new = model.predict(x_new)
y_new

array([5.63333333, 6.17333333, 6.71333333, 7.25333333, 7.79333333])

In [16]:
x_new = x_new.ravel().tolist()
lista = list(zip(x_new,y_new))

In [17]:
print('x','\t','y_pred')
print('-'*30)
for i in lista:
    print(i)

x 	 y_pred
------------------------------
(0, 5.633333333333329)
(1, 6.173333333333329)
(2, 6.713333333333329)
(3, 7.25333333333333)
(4, 7.7933333333333294)


<h3>Multiple Linear Regression - Regresión lineal múltiple</h3><a class="anchor" id="RLM"></a>

<h4>Pasos 1 y 2: Librerías y carga de datos</h4><a class="anchor" id="RLM-1-2"></a>

In [18]:
# Cargamos las librerías
import numpy as np
from sklearn.linear_model import LinearRegression

In [19]:
# Datos
x = [[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)

In [20]:
print('Variables predictoras, x_1 y x_2:\n',x,'\n\nVariable respuesta:\n',y)

Variables predictoras, x_1 y x_2:
 [[ 0  1]
 [ 5  1]
 [15  2]
 [25  5]
 [35 11]
 [45 15]
 [55 34]
 [60 35]] 

Variable respuesta:
 [ 4  5 20 14 32 22 38 43]


**Modelo**

Nuestro objetivo ahora será estimar el valor de la respuesta y en función de las variables independientes $x_1$ y $x_2$ de la siguiente forma: 

<center>$Y=f(x_1,x_2) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon$ </center>

Donde:
- $\beta_0$ es el término independiente, y se trata del valor esperado de la respuesta Y cuando $x_1=x_2=0$
- $\beta_1$ mide el cambio en Y por cada modificación unitaria en x , manteniendo X2 constante
- $\epsilon$ es el error de observación cometido debido a la aleatoriedad


El objetivo principal será estimar los valores de los coeficientes de regresión $\beta_0 , \beta_1 \text{ y } \beta_2$ por $\hat\beta_0 , \hat\beta_1 \text{ y } \hat\beta_2$ a partir de la muestra y de tal modo que se minimicen las distancias a los valores de la respuesta Y, es decir, minimizando la súma de los cuadrados de los resíduos.

<h4>Paso 3: Creación y entrenamiendo del modelo</h4><a class="anchor" id="RLM-3"></a>

In [21]:
# Definimos el modelo y lo entrenamos con fit
modelo = LinearRegression().fit(x, y)

<h4>Paso 4: Obtención de las métricas y coeficientes del modelo</h4><a class="anchor" id="RLM-4"></a>

In [22]:
r_sq = modelo.score(x, y) # R2
print('Métricas:\n')
print(f"Coeficiente de determinación: {r_sq}")
print(f"Término independiente: {modelo.intercept_}")
print(f"Coeficientes beta: {modelo.coef_}")

Métricas:

Coeficiente de determinación: 0.8615939258756775
Término independiente: 5.52257927519819
Coeficientes beta: [0.44706965 0.25502548]


Con estos resultados, podemos afirmar que nuestro modelo explica el 86.16$\%$ de la variabilidad de la respuesta Y.

La ecuación del modelo es la siguiente:

<center>$\hat{f(x_1,x_2)}=5.52+0.44 x_1 + 0.25 x_2$</center>

Es decir, cuando ambos valores de $x_1$ y $x_2$ son nulos, el valor de la respuesta será 5.52. Además, si mantenemos constantes el resto de variables, podemos afirmar que un aumento en una unidad del valor de la variable $x_1$ supone un amento de la respuesta en 0.44 unidades. Ocurre lo mismo con la variable $x_2$. Un aumento de ésta en una unidad, y manteniendo el resto de variables constantes, supone un aumento de laa respuesta en un valor de 0.25.

<h4>Paso 5: Predicción de la respuesta</h4><a class="anchor" id="RLM-5"></a>

A partir de los valores de x y trás haber entrenado el modelo, vamos a calcular el valor de la respuesta:

In [23]:
Predicciones = modelo.predict(x)
print(f"Predicciones:\n{Predicciones}")

Predicciones:
[ 5.77760476  8.012953   12.73867497 17.9744479  23.97529728 29.4660957
 38.78227633 41.27265006]


También podemos calcular estos valores a partir de los coeficientes individuales de varias formas diferentes:

In [24]:
y_pred = modelo.intercept_ + np.sum(modelo.coef_ * x, axis=1)
print(f"Predicción de la respuesta:\n{y_pred}")

Predicción de la respuesta:
[ 5.77760476  8.012953   12.73867497 17.9744479  23.97529728 29.4660957
 38.78227633 41.27265006]


In [25]:
#modelo.intercept_ + x[0][0]*modelo.coef_[0] +x[0][1]*modelo.coef_[1]  

In [26]:
res = []
print('x1,x2: \t Predicción y')
for i in x:
    res_i = modelo.intercept_ + i[0]*modelo.coef_[0] +i[1]*modelo.coef_[1] 
    res.append(modelo.intercept_ + i[0]*modelo.coef_[0] +i[1]*modelo.coef_[1]  )
    print(i, ':',res_i)

x1,x2: 	 Predicción y
[0 1] : 5.777604756511893
[5 1] : 8.012953001132505
[15  2] : 12.738674971687429
[25  5] : 17.974447904869763
[35 11] : 23.975297281993207
[45 15] : 29.46609569648924
[55 34] : 38.78227633069082
[60 35] : 41.27265005662514


Vamos a observar ahora una comparación de los valores reales y las predicciones:

In [27]:
print('Predicción y \t\t y \t Error absoluto e_i:')
print('-'*50)
err = []
for i in list(zip(res,y)):
    print(i[0],'\t',i[1],'\t',i[0]-i[1])
    err.append(abs(i[0]-i[1]))

Predicción y 		 y 	 Error absoluto e_i:
--------------------------------------------------
5.777604756511893 	 4 	 1.7776047565118933
8.012953001132505 	 5 	 3.012953001132505
12.738674971687429 	 20 	 -7.261325028312571
17.974447904869763 	 14 	 3.9744479048697627
23.975297281993207 	 32 	 -8.024702718006793
29.46609569648924 	 22 	 7.466095696489241
38.78227633069082 	 38 	 0.78227633069082
41.27265005662514 	 43 	 -1.7273499433748611


In [28]:
print('El error absoluto medio cometido es de :',sum(err)/len(err),'unidades.')

El error absoluto medio cometido es de : 4.253344422423556 unidades.


In [29]:
#### Predicción con datos nuevos:
x_newData = np.arange(10).reshape((-1, 2))
print(x_newData)

y_new = modelo.predict(x_newData)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [30]:
print('Respuesta: ', y_new)

Respuesta:  [ 5.77760476  7.18179502  8.58598528  9.99017554 11.3943658 ]


## Entrega 2.2<a class="anchor" id="first-E"></a>

<h3>Polynomial Regression With scikit-learn</h3><a class="anchor" id="RP"></a>


<h4>Paso 1: Carga de librerías</h4><a class="anchor" id="RP-1"></a>

In [31]:
# Librerías
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

<h4>Paso 2a: Carga de datos</h4><a class="anchor" id="RP-2"></a>

In [32]:
# Entradas
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
# Respuesta / target
y = np.array([15, 11, 2, 8, 25, 32])

<h4>Paso 2b: Transformación de los datos</h4><a class="anchor" id="RP-2"></a>

En este tipo de refresión, necesitamos los términos al cuadrado de las variables de entrada, por lo que haremos uso de la función *PolynomialFeatures* para transformar los datos.

In [33]:
transformer = PolynomialFeatures(
                        degree=2, # Grado de la transformación
                        include_bias=False) # SESGO

In [34]:
transformer

PolynomialFeatures(include_bias=False)

In [35]:
transformer.fit(x)

PolynomialFeatures(include_bias=False)

In [36]:
x_ = transformer.transform(x) # Aplicamos la transformación al vector de las x

In [37]:
print('\t x \t x^2')
x_ # Obtenemos el cuadrado de cada x

	 x 	 x^2


array([[   5.,   25.],
       [  15.,  225.],
       [  25.,  625.],
       [  35., 1225.],
       [  45., 2025.],
       [  55., 3025.]])

In [38]:
x_ = PolynomialFeatures(degree=2, include_bias=False).fit_transform(x) # idem con un solo bloque de códgio

<h4>Paso 3: Creación y entrenamiento del modelo</h4><a class="anchor" id="RP-3"></a>

**Modelo**
Nuestro objetivo ahora será estimar el valor de la respuesta en función de las variables independientes a través de una función cuadrática (parábola) de la siguiente forma: 

<center>$Y = \beta_0 + \beta_1 x + \beta_2 x^2 + \epsilon$  </center>

El objetivo principal será estimar los valores de los coeficientes de regresión $\beta_0 , \beta_1 \text{ y } \beta_2$ por $\hat\beta_0 , \hat\beta_1 \text{ y } \hat\beta_2$ de tal modo que se minimicen las distancias a los valores de la respuesta Y, es decir, minimizando la súma de los cuadrados de los resíduos.

In [39]:
modelo = LinearRegression().fit(x_, y)

<h4>Paso 4: Obtención de los resultados</h4><a class="anchor" id="RP-4"></a>

In [40]:
r_sq_poli = modelo.score(x_, y)
print(f"Coeficiente de determinación: {r_sq_poli}")


print(f"Término independiente: {modelo.intercept_}")


print(f"Coeficientes: {modelo.coef_}")

Coeficiente de determinación: 0.8908516262498564
Término independiente: 21.372321428571425
Coeficientes: [-1.32357143  0.02839286]


Con estos resultados, podemos afirmar que nuestro modelo explica el 89$\%$ de la variabilidad de la respuesta Y.

La ecuación del modelo ajustado es la siguiente:

<center>$\hat{y}=21.37-1.32 x + 0.028 x^2$</center>

Se tiene que los coeficientes que vemos arriba indican lo siguiente:

- $\hat\beta_0 = 21.37$: Para un valor de x = 0 tenemos que la respuesta tendrá un valor de 21.73
- $\hat\beta_1=-1.32$: Un aumento en una unidad de la variable x supone una disminución de la respuesta en un valor de 1.32
- $\hat\beta_2=0.028$: Un aumento en una unidad de la variable x se traduce en un aumento de la respuesta en un valor de 0.028, a penas afecta en la respuesta


<h4>Paso 5: Predicciones</h4><a class="anchor" id="RP-5"></a>

In [41]:
y_pred = modelo.predict(x_)
print(f"Predicción :\n{y_pred}")

Predicción :
[15.46428571  7.90714286  6.02857143  9.82857143 19.30714286 34.46428571]


In [42]:
print('Predicción y \t\t y \t Error absoluto e_i:')
print('-'*50)
err = []
for i in list(zip(y_pred,y)):
    print(i[0],'\t',i[1],'\t',i[0]-i[1])
    err.append(abs(i[0]-i[1]))

Predicción y 		 y 	 Error absoluto e_i:
--------------------------------------------------
15.464285714285712 	 15 	 0.46428571428571175
7.907142857142855 	 11 	 -3.092857142857145
6.028571428571421 	 2 	 4.028571428571421
9.828571428571415 	 8 	 1.828571428571415
19.307142857142843 	 25 	 -5.692857142857157
34.464285714285694 	 32 	 2.464285714285694


</h4>Ejemplo con mayor número de variables</h4>

In [43]:
# Paso 1: paquetes y librerías
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
# Paso 2a: Datos
print('Datos')
x = [[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)
print('x:\n',x,'\n\ny:\n',y)
# Paso 2b: Transformación de los datos
print('\nTransformación de los datos\n')
print('\tx1\tx2\tx1^2\t x1x2\t\t x2^2')
x_ = PolynomialFeatures(degree=2, include_bias=False).fit_transform(x) # Polinomios de grado 2 y transformamos a entrada polinómica con fit_trans
print(x_)
# Paso 3: Creación del modelo y entrenamiento
print('\nModelo\n')
model = LinearRegression().fit(x_, y)
print(modelo)
# Paso 4: Resultados, métricas y coeficientes del modelo
print('\nMétricas')
r_sq_poli2 = model.score(x_, y)
print('\nEl modelo explica un ',round(100*r_sq_poli2,2),'% de la variabilidad total de la respuesta Y.')
intercept, coefficients = model.intercept_, model.coef_
print('Coeficientes del modelo:')
print('\t-Término independiente:',intercept,'\n\t-Coeficientes beta:' ,coefficients)
# Paso 5: Predicción de la respuesta
y_pred = model.predict(x_)
print('\nPredicciones')
print('\nPredicción y \t\t y ')
print('-'*30)
for i in list(zip(y_pred,y)):
    print(i[0],'\t',i[1])

Datos
x:
 [[ 0  1]
 [ 5  1]
 [15  2]
 [25  5]
 [35 11]
 [45 15]
 [55 34]
 [60 35]] 

y:
 [ 4  5 20 14 32 22 38 43]

Transformación de los datos

	x1	x2	x1^2	 x1x2		 x2^2
[[0.000e+00 1.000e+00 0.000e+00 0.000e+00 1.000e+00]
 [5.000e+00 1.000e+00 2.500e+01 5.000e+00 1.000e+00]
 [1.500e+01 2.000e+00 2.250e+02 3.000e+01 4.000e+00]
 [2.500e+01 5.000e+00 6.250e+02 1.250e+02 2.500e+01]
 [3.500e+01 1.100e+01 1.225e+03 3.850e+02 1.210e+02]
 [4.500e+01 1.500e+01 2.025e+03 6.750e+02 2.250e+02]
 [5.500e+01 3.400e+01 3.025e+03 1.870e+03 1.156e+03]
 [6.000e+01 3.500e+01 3.600e+03 2.100e+03 1.225e+03]]

Modelo

LinearRegression()

Métricas

El modelo explica un  94.54 % de la variabilidad total de la respuesta Y.
Coeficientes del modelo:
	-Término independiente: 0.8430556452395734 
	-Coeficientes beta: [ 2.44828275  0.16160353 -0.15259677  0.47928683 -0.4641851 ]

Predicciones

Predicción y 		 y 
------------------------------
0.5404740795478036 	 4
11.36340283393609 	 5
16.078096218033522 	 20
15.79

La estimación de los coeficientes del modelo es la siguiente:

- $\beta_0=0.84$
- $\beta_1=2.44$
- $\beta_2=0.16$
- $\beta_3=-0.15$
- $\beta_4=0.47$
- $\beta_5=-0.46$

Por tanto, obtenemos la siguiente función: $f(x_1,x_2)=\beta_0+\beta_1 x_1+\beta_2 x_2+\beta_3 x_1^2+\beta_4 x_1x_2+\beta_5 x_2^2=0.84+2.44 x_1+0.16 x_2-0.15 x_1^2+0.47 x_1x_2-0.46 x_2^2$

Observando los resultados, parece que el modelo tiende a predecir mejor la respuesta cuando es un valor más alto, ya que el error cometido es bastante mayor para valores bajos de Y.

<h3>Advanced Linear Regression With statsmodels</h3><a class="anchor" id="SM"></a>

Vamos a crear un modelo de regresión lineal múltiple haciendo uso de la librería *statsmodels*. El modelo será el siguiente:

<center>$f(x_1,x_2)=\beta_0+\beta_1 x_1+\beta_2 x_2$</center>
Trataremos de crear el modelo de regresión para estimar los valores de estos coeficientes $\beta$ y poder realizar predicciones.

<h4>Paso 1: Importación y carga de librerías</h4><a class="anchor" id="SM-1"></a>

In [44]:
# Librerías
import numpy as np
import statsmodels.api as sm

<h4>Paso 2: Carga de datos</h4><a class="anchor" id="SM-2"></a>

In [45]:
x = [
  [0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]
]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)

Para calcular el término independiente $\beta_0$ con la librería statsmodels es necesario añadir al array con la X un vector con unos de la siguiente forma:

In [46]:
x = sm.add_constant(x)
print('x:\n',x,'\ny:\n',y)

x:
 [[ 1.  0.  1.]
 [ 1.  5.  1.]
 [ 1. 15.  2.]
 [ 1. 25.  5.]
 [ 1. 35. 11.]
 [ 1. 45. 15.]
 [ 1. 55. 34.]
 [ 1. 60. 35.]] 
y:
 [ 4  5 20 14 32 22 38 43]


Tenemos dos variables independientes $x_1$ y $x_2$ además del vector de unos para calcular término independiente del modelo.
<h4>Paso 3: Creación y entrenamiento del modelo</h4><a class="anchor" id="SM-3"></a>

In [47]:
modelo_4 = sm.OLS(y, x) # creo el modelo

La función *OLS* calculará los parámetros del modelo de regresión lineal basándose en el criterio de mínimos cuadrados.

In [48]:
results4 = modelo_4.fit() # entrenamiento del modelo

<h4>Paso 4: Resultados del modelado</h4><a class="anchor" id="SM-4"></a>

In [49]:
print('Resultados del modelo:\n')
print(results4.summary())

Resultados del modelo:

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.862
Model:                            OLS   Adj. R-squared:                  0.806
Method:                 Least Squares   F-statistic:                     15.56
Date:                Wed, 16 Nov 2022   Prob (F-statistic):            0.00713
Time:                        19:43:11   Log-Likelihood:                -24.316
No. Observations:                   8   AIC:                             54.63
Df Residuals:                       5   BIC:                             54.87
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          5.5226      4



Esta tabla nos proporciona mucha información acerca del modelo y repasaremos ahora los aspectos más importantes de éste.

- **Coeficiente de correónlaci**: $R^2=0.862$, es decir, el modelo explica un 86.2% de la variabilidad total de la respuesta Y
- **Resultados del test-F**, donde contrastamos la siguiente hipótesis nula: $H_0: \beta_0=\beta_1=\beta_2=0$. El p-valor del test es $0.00713<\alpha=0.05$, concluyendo así que no existen evidencias significativas para afirmar que los coeficientes son nulos, rechazamos la hipótesis nula a favor de la alternativa: $H_1 : \exists i \setminus \beta_i \neq 0 \quad \forall i = 0,1,2$
- **AIC, BIC**: Respectivamente, criterio de información de Akaike y criterio de información Bayesiano. Si tuvieramos otro modelo, podriamos comparar estos valores con el valor correspondiente del mismo criterio en el otro modelo y así poder seleccionar el mejor modelo, que será aquel con un valor de AIC o BIC (en función del criterio elegido) más bajo.
- **Término independiente**: $\beta_0 = 5.22$, es decir, si $x_1 = x_2 = 0$ el valor de la respuesta $Y=5.22$
- **$\beta_1=0.45$**: Un aumento de la variable $x_1$ en una unidad, manteniendo el resto de variables constantes, haría que la respuesta incrementara en un valor de 0.45 
- **$\beta_2=0.25$**: Un aumento de la variable $x_2$ en una unidad, manteniendo el resto de variables constantes, haría que la respuesta incrementara en un valor de 0.25 

- **Contrastes individuales sobre los coeficientes**: En la columna $P>|t|$ podemos ver los valores de los p-valores de cada contraste individual. 
Los contrastes sirven para averiguar que variables son significativas en el modelo a la hora de explicar el valor de y. Los contrastes realizados son los siguientes:
<center>$\left\{
\begin{array}{ll}
H_{0}: &  \beta_i = 0 \quad \forall i=0,1,2\\
H_{1}: & \beta_i \neq 0
\end{array}
\right.$</center>
Como podemos ver, en los tres casos se cumple que $p-valor_i > \alpha = 0.05, \quad \forall i = 0,1,2$ y por tanto, podemos concluir que no existen evidencias significativas para afirmar que los coeficientes $\beta_i \neq 0$, es decir, ninguna de las variables explica el valor de la respuesta y.ás,
Además, en los tres casos encontramos que el intervalo de confianza incluye al 0, y por tanto, en caso de ser el coeficiente significativo, habría que sacarlo del modelo.

**Nota importante**: Los resultados obtenidos de este modelo eran esperables, ya que tenemos muy pocos valores de entrada y por tanto, estadísticamente el modelo no tiene sentido, ha sido creado únicamente para ilustrar el modelo de regresión lineal múltiple.

Vamos ahora a extraer los paráametros de interés del modelo:

In [50]:
print(f"Coeficiente de determinación: {results4.rsquared}")


print(f"Coeficiente de determinación ajustado: {results4.rsquared_adj}")


print(f"Coeficientes de regresión: {results4.params}")

Coeficiente de determinación: 0.8615939258756777
Coeficiente de determinación ajustado: 0.8062314962259488
Coeficientes de regresión: [5.52257928 0.44706965 0.25502548]


También podemos obtener predicciones para datos nuevos con el modelo entrenado:

In [51]:
x_new4 = sm.add_constant(np.arange(10).reshape((-1, 2)))
print('Valores de entrada, X:')
print(x_new4)
y_new4 = results4.predict(x_new4)
print('\nPredicción de la respuesta,y:')
print(y_new4)

Valores de entrada, X:
[[1. 0. 1.]
 [1. 2. 3.]
 [1. 4. 5.]
 [1. 6. 7.]
 [1. 8. 9.]]

Predicción de la respuesta,y:
[ 5.77760476  7.18179502  8.58598528  9.99017554 11.3943658 ]


<h2>Ejemplos de regresión lineal</h2><a class="anchor" id="EJ"></a>

<h3>Caso 1: Regresión lineal simple</h3><a class="anchor" id="EJ-1"></a>


- **Objetivo**: Estimar la nota de un alumno en función de las horas de estudio de éste

- **Variable independiente, X**: Número de horas de estudio (numérica)
- **Variable objetivo o respuesta, Y**: Nota numérica del alumno

- **Modelo**: $Y=\beta_0 + \beta_1 x_1 + \epsilon \longrightarrow Nota=\beta_0 + \beta_1 Horas_estudio  + \epsilon$ 

<h3>Caso 2: Regresión lineal múltiple</h3><a class="anchor" id="EJ-2"></a>

- **Objetivo**: Estimar la densidad de una especie de parásitos a partir de diferentes variables: temperatura y humedad.

- **Variables independientes, X1 y X2**: temperatura en celsius (numérica) y % de humedad  (numérica)
- **Variable objetivo o respuesta, Y**: Número de parásitos 

- **Modelo**: $Y=\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon \longrightarrow Num insectos=\beta_0 + \beta_1 Temperatura + \beta_2 Humedad + \epsilon$ 

<h3> Caso 3: Regresión lineal polinómica</h3><a class="anchor" id="EJ-3"></a>

- **Objetivo**: Estimar el salario en función de la edad

- **Variable independiente, X**: Edad (numérica, continua)
- **Variable objetivo o respuesta, Y**: Salario

- **Modelo**: $Y=\beta_0 + \beta_1 x + \beta_2 x^2 + \epsilon \longrightarrow Salario=\beta_0 + \beta_1 Edad + \beta_2 Edad^2  + \epsilon$ 