# Regresión lineal simple en Python
<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestra un ejemplo de como usar Python para ajustar un modelo de regresión lineal simple. 

In [1]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf

  from pandas.core import datetools


## Ingresando los datos

Los datos softdrink corresponden al tiempo (y) que un empleado demora para revisar y surtir una máquina dispensadora en función de la cantidad de cajas (x1) que surte a la máquina y de la distancia (x2) entre la máquina dispensadora y el camión repartidor, abajo una figura ilustrativa de la situación.

![Figura ilustrativa](maquina_dispensadora.png)

Para leer los datos usaremos la función `read_csv` de pandas.

In [2]:
fname = 'softdrink.csv'
dt = pd.read_csv(fname)

Para mostrar la parte inicial de los datos usamos `head()`

In [3]:
dt.head()

Unnamed: 0,Obs,y,x1,x2
0,1,16.68,7,560
1,2,11.5,3,220
2,3,12.03,3,340
3,4,14.88,4,80
4,5,13.75,6,150


## Diagrama de dispersión

Para crear el diagrama de dispersión usamos la función `plot`.

In [4]:
dt.plot(kind='scatter', x='x1', y='y')

<matplotlib.axes._subplots.AxesSubplot at 0x22c8b36ef60>

## Creando el modelo de regresión usando `statsmodels.api`

In [5]:
X = dt["x1"]            ## X usually means our input variables (or independent variables)
X = sm.add_constant(X)  ## let's add an intercept (beta_0) to our model
y = dt["y"]             ## Y usually means our output/dependent variable

# To fit the model
model = sm.OLS(y, X).fit() ## sm.OLS(output, input)
predictions = model.predict(X)

# Print out the statistics
model.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.93
Model:,OLS,Adj. R-squared:,0.927
Method:,Least Squares,F-statistic:,307.8
Date:,"Mon, 17 Sep 2018",Prob (F-statistic):,8.22e-15
Time:,15:12:40,Log-Likelihood:,-70.197
No. Observations:,25,AIC:,144.4
Df Residuals:,23,BIC:,146.8
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,3.3208,1.371,2.422,0.024,0.484,6.157
x1,2.1762,0.124,17.546,0.000,1.920,2.433

0,1,2,3
Omnibus:,2.383,Durbin-Watson:,0.946
Prob(Omnibus):,0.304,Jarque-Bera (JB):,1.037
Skew:,0.388,Prob(JB):,0.595
Kurtosis:,3.627,Cond. No.,18.2


## Ajustando el modelo por medio de fórmulas con `statsmodels.formula.api`

In [6]:
# Fit regression model (using the natural log of one of the regressors)
mod = smf.ols('y ~ x1', data=dt).fit()

In [7]:
print(mod.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.930
Model:                            OLS   Adj. R-squared:                  0.927
Method:                 Least Squares   F-statistic:                     307.8
Date:                Mon, 17 Sep 2018   Prob (F-statistic):           8.22e-15
Time:                        15:12:40   Log-Likelihood:                -70.197
No. Observations:                  25   AIC:                             144.4
Df Residuals:                      23   BIC:                             146.8
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      3.3208      1.371      2.422      0.0