# Regresión lineal simple en Python
<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestra un ejemplo de como usar Python para ajustar un modelo de regresión lineal simple. 

In [None]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf

import matplotlib.pyplot as plt

## Ingresando los datos

Los datos **softdrink** corresponden al tiempo $Y$ que un empleado demora para revisar y surtir una máquina dispensadora en función de la cantidad de cajas $X_1$ que surte a la máquina y de la distancia $X_2$ entre la máquina dispensadora y el camión repartidor. Como este es un ejemplo de regresión lineal simple se utilizará solo la covariable $X_1$ para explicar la respuesta $Y$.

Abajo una figura ilustrativa de la situación.

![Figura ilustrativa](maquina_dispensadora.png)

Para leer los datos usaremos la función `read_csv` de pandas.

In [None]:
file = 'https://raw.githubusercontent.com/fhernanb/Python-para-estadistica/master/03%20Regression/Regresi%C3%B3n%20lineal%20simple/softdrink.csv'
dt = pd.read_csv(file)

Para mostrar la parte inicial de los datos usamos `head()`

In [None]:
dt.head()

## Diagrama de dispersión

Para crear el diagrama de dispersión usamos la función `plot`.

In [None]:
dt.plot(kind='scatter', x='x1', y='y');

## 1. Creando el modelo de regresión usando `statsmodels.api`

In [None]:
X = dt["x1"]            ## X usually means our input variables (or independent variables)
X = sm.add_constant(X)  ## let's add an intercept (beta_0) to our model
y = dt["y"]             ## Y usually means our output/dependent variable

# To fit the model
mod1 = sm.OLS(y, X).fit() ## sm.OLS(output, input)
predictions = mod1.predict(X)

Para obtener un resumen del modelo ajustado usamos el siguiente código.

In [None]:
# Print out the statistics
mod1.summary()

## 2. Ajustando el modelo por medio de fórmulas con `statsmodels.formula.api`

In [None]:
# Fit regression model (using the natural log of one of the regressors)
mod2 = smf.ols('y ~ x1', data=dt).fit()

Para obtener un resumen del modelo ajustado usamos el siguiente código.

In [None]:
print(mod2.summary())

## 3. ¿Cómo agregar la recta de regresión estimada?

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(dt["x1"] , dt["y"] , 'o', label="Data")
ax.plot(dt["x1"], mod2.fittedvalues, 'r--.', label="Predicted")
legend = ax.legend(loc="best")

<div class="alert alert-info">
  <strong>Tarea</strong> <br>
    - Replicar este ejemplo con R y comparar. <br>
    - Hacer otros ejercicios con Python.
</div>