# Regresión lineal




Ajustaremos con una línea recta a un conjunto de observaciones (de datos discretos) definidos por los puntos:


$$(x_1, y_1), (x_2, y_2), (x_3, y_3), \dots, (x_n, y_n);$$


por lo que, la ecuación de la recta que debe de aproximar el conjunto de datos es:


\begin{equation}
	y = a_0 + a_1 x + e,
\end{equation}


donde $a_0$ y $a_1$ son los coeficiente que representan la intersección con el eje $y$ y la pendiente de la recta, asimismo, $e$ es el error, es decir, la diferencia entre el modelo y las observaciones, entonces:


\begin{equation*}
	e = y - a_0 - a_1x.
\end{equation*}


Entonces la estrategia es minimizar la suma de todos los errores de aproximación con la recta lineal y el valor de la medicion, entonces tenemos la siguiente función por minimizar:


\begin{equation}
	E = \sum_{i = 1}^n e_i^2 = \sum_{i =1}^n \left( y_i - \overline{y}_i \right)^2 = \sum_{i =1}^n \left( y_i - a_0 - a_1 x_i \right)^2,
\end{equation}


Así que los coeficientes del modelo son


\begin{equation}
	\begin{split}
		a_1 & = \frac{n\sum_{i =1}^n y_i x_i  - \left(\sum_{i = 1}^n x_i\right)\left(\sum_{i = 1}^n y_i\right)}{n\sum_{i =1}^n x^2_i - \left(\sum_{i =1}^n x_i \right)^2} \\
		a_0 & = \overline{y} - a_1 \overline{x}
	\end{split}
\end{equation}


Por ultimo describimos el coeficiente de bondad $r^2$


\begin{equation}
	r^2 = \left(\frac{n\sum_{i =1}^n x_i y_i - \left(\sum_{i =1}^n x_i\right)\left(\sum_{i =1}^n y_i\right)}{\sqrt{n\sum_{i =1}x_i^2 - \left(\sum_{i =1}^n x_i\right)^2}\sqrt{n\sum_{i =1}y_i^2 - \left(\sum_{i =1}^n y_i\right)^2}}\right)^2.
\end{equation}

In [None]:
# A fin de facilitar la carga de los datos emplearemos la libreria de pandas
import pandas as pd

# Importamos numpy en caso de ocuparlo
import numpy as np

# Libreria para graficar
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns

# Configuramos los warnings
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Importamos la información mediante un archivo en csv
data = pd.read_csv('Ejemplo1.csv')

# Visualizamos la información
data

In [None]:
# Ahora procederemos a determinar el modelo, por lo que,
# determinamos la longitud de los datos
n = len(data)

In [None]:
# Calculamos la suma de datos en x
data.sum()

In [None]:
# Asignamos la suma de 'x' y de 'y'
sumx = data.sum()['x']
sumy = data.sum()['y']

In [None]:
# Calculamos el cuadrado del dataframe
datacuadrado = data ** 2

In [None]:
# Imprimimos el cuadrado
datacuadrado

In [None]:
# Asignamos la suma
sumxx = datacuadrado.sum()['x']
sumyy = datacuadrado.sum()['y']

In [None]:
# Calculamos el producto cruzado
data['x'] * data['y']

In [None]:
# Calculamos y asignamos el cuadrado
sumxy = (data['x'] * data['y']).sum()

In [None]:
# Con todos los valores, determinamos los coeficientes
a1 = (n * sumxy - sumx * sumy) / (n * sumxx - sumx ** 2)
a0 = (sumy / n) - a1 * (sumx / n)

# Imprimimos los coeficientes
print('El coeficiente de la pendiente es {} y el de la intersección es {}'.format(a1, a0))

In [None]:
# Ahora calculamos las estimaciones con el modelo
estimados = a0 + a1 * data['x']

# Imprimimos los estimados
print(estimados)

In [None]:
# Ahora calculamos los errores
E = ((estimados - data['y']) ** 2).sum()

In [None]:
# Estandarizamos el error
S = np.sqrt(E / (n - 2))

# Imprimimos el valor del error estandarizado
print(S)

In [None]:
# Calculamos el coeficiente de la bondad
bondad = ((n * sumxy - sumx * sumy) / (np.sqrt(n * sumxx - sumx ** 2) * np.sqrt(n * sumyy - sumy ** 2))) ** 2

# Imprimimos el coeficiente de bondad
print('El coeficiente de bondad es: ', bondad)

In [None]:
# Ahora sistematizaremos el procedo anterior
def regresionlineal(data):
    
    # Calculamos el numero de datos
    n = len(data)
    
    # Calculamos los coeficientes de las sumas necesarios
    sumx = data.sum()['x']
    sumy = data.sum()['y']
    
    # Asignamos la suma de los cuadrados
    sumxx = datacuadrado.sum()['x']
    sumyy = datacuadrado.sum()['y']
    
    # Asignamos la suma cruzada
    sumxy = (data['x'] * data['y']).sum()
    
    # Calculamos los coeficientes
    a1 = (n * sumxy - sumx * sumy) / (n * sumxx - sumx ** 2)
    a0 = (sumy / n) - a1 * (sumx / n)
    
    # Imprimimos los coeficientes
    print('El coeficiente de la pendiente es {} y el de la intersección es {}'.format(a1, a0))
    
    # Ahora calculamos las estimaciones con el modelo
    estimados = a0 + a1 * data['x']
    
    # Ahora calculamos los errores
    E = ((estimados - data['y']) ** 2).sum()
    
    # Estandarizamos el error
    S = np.sqrt(E / (n - 2))
    
    # Imprimimos el valor del error estandarizado
    print('El error estandarizado del modelo de regresion lineal es: ',S)
    
    # Calculamos el coeficiente de la bondad
    bondad = ((n * sumxy - sumx * sumy) / (np.sqrt(n * sumxx - sumx ** 2) * np.sqrt(n * sumyy - sumy ** 2))) ** 2

    # Imprimimos el coeficiente de bondad
    print('El coeficiente de bondad es: ', bondad)
    
    return a0, a1, S, bondad

In [None]:
# Llamamos los datos
a0, a1, S, bondad = regresionlineal(data)

In [None]:
# Ahora analizaremos como se efectua de forma directa con el código de python

# Importamos la libreria de modelos estadisticos
import statsmodels.api as sm

In [None]:
# Asignamos las variables
x = data[['x']]
y = data['y']

# Variable para predecir
x1 = data[['x']]

# Agregamos una constante al conjunto x
x = sm.add_constant(x, prepend = True)

# Ajustamos el modelo
modelo = sm.OLS(y,x)

# Ajustamos el modelo
modelo = modelo.fit()

# Imprimimos el resumen del modelo
print(modelo.summary())

In [None]:
# Imprimimos los coeficientes del modelo
print("Coeficiente de intersección: ", modelo.params[0]) # Pendiente 
print("Coeficiente de la pendiente: ", modelo.params[1]) # coeficiente de la intersección 

In [None]:
 # Predicciones con intervalo de confianza del 85%
# ============================================================================== 
predicciones = modelo.get_prediction(x).summary_frame(alpha=0.15)
predicciones['x'] = x1
predicciones['y'] = y
predicciones = predicciones.sort_values('x')
# Gráfico del modelo
# ============================================================================== 
fig, ax = plt.subplots(figsize = (12, 6.84))
ax.scatter(predicciones['x'], predicciones['y'], marker='o', color = "gray")
ax.plot(predicciones['x'], predicciones["mean"], linestyle='-', label="OLS")
# ax.plot(predicciones['x'], predicciones["mean_ci_lower"], linestyle='--', color='red', label="85% CI")
# ax.plot(predicciones['x'], predicciones["mean_ci_upper"], linestyle='--', color='red')
#ax.fill_between(predicciones['x'], predicciones["mean_ci_lower"], predicciones["mean_ci_upper"], alpha=0.1)
ax.legend();