In [37]:
class RegresionLineal:  
    
    def __init__(self, path=None, y=None, **kwargs):
        self.path = path
        self.y = y
        self.kwargs = kwargs
        print('Se creo la regresión lineal')
        
    def predictors_vars(self):
        # Esta función almacena y coloca en una lista todas las variables predictoras
        l = []
        for i in self.kwargs:
            l.append(i)
        return l
        
    def join_predictors_vars(self):
        # Esta función junta las variables predictoras para agregarlas en el modelo_multiple
        var_x = self.predictors_vars()
        modelo_variables = '+'.join(var_x)
        return modelo_variables
    
    def model(self):
        
        import pandas as pd
        import statsmodels.formula.api as smf
        
        data = pd.read_csv(self.path)     
        variables_x = self.y + '~' + self.join_predictors_vars()
        lm = smf.ols(formula = variables_x, data = data).fit()
        return lm             
        
    def parameters_pvalues_rsquared(self):
        model = self.model()
        print('Parametros del modelo:\n{}\n-----------'.format(model.params))
        print('P_valores del modelo:\n{}\n-----------'.format(model.pvalues))
        print('R_cuadrada del modelo:\n{}\n-----------'.format(model.rsquared))
        print('R_cuadrada ajustada del modelo:\n{}\n-----------'.format(model.rsquared_adj))
        #print('Según el modelo: Sales = {} + {}*"TV" + {}*"Newspaper" '.format(model.params[0], model.params[1], model.params[2]))
       
    def prediccion_y(self):
        
        import pandas as pd
        
        """
         Llamamos a la función 'variables_x()' para obtener los nombre de
         las variables x y pasarlas por la función 'predict'.         
        """
        model = self.model()
        data = pd.read_csv(self.path)
        y_pred = model.predict(data[self.predictors_vars()])
        return y_pred
    
    def error(self):
        
        import pandas as pd
        import numpy as np
        
        count_var   = len(self.predictors_vars())
        data        = pd.read_csv(self.path) 
        SSD         = sum((data[self.y]-self.prediccion_y())**2)
        RSE         = np.sqrt(SSD/(len(data)-count_var-1))
        e           = RSE / np.mean(data[self.y])
        # La salida de esta función, detalla el porcentaje de error que no puede explicar el modelo, entre menor sea es mejor para el modelo.
        return e
    
    def multicolinealidad(self, com=None, **kwargs):
        
        l = []
        for i in kwargs:
            l.append(i)
          
        j = '+'.join(l)
        
        var = com + '~' + j
        
        import pandas as pd
        import statsmodels.formula.api as smf
        
        data = pd.read_csv(self.path)
        f = smf.ols(formula=var, data = data).fit()
        VIF = 1/(1-f.rsquared)
        
        if VIF == 1:
            print('Las variables no están correlacionadas')
        elif VIF < 5:
            print('Las variables tienen una correlación moderada y se pueden quedar en el modelo')
        elif VIF > 5:
            print('Las variables están altamente correlacionadas y deben desaparecer del modelo')
        return 'El factor inflación de la varianza es de: {}'.format(VIF)
    
    # Regresión lineal con la librería de sklearn
    
    def seleccion_variables(self):
        
        import pandas as pd
        
        data = pd.read_csv(self.path)  
        
        X = data[self.predictors_vars()]
        Y = data[self.y]
        
        from sklearn.feature_selection import RFE
        from sklearn.svm import SVR
        
        import numpy as np
        
        estimator = SVR(kernel="linear")
        # El numero dos es un indice que elige la cantidad de variables que debería tomar el modelo
        selector = RFE(estimator, 2, step=1)
        selector = selector.fit(X,Y)
        
        return self.predictors_vars(), selector.support_, selector.ranking_ 
        
        
        

## Ejemplo de regresión lineal

## 1. Alimentár función
Se alimenta la función con tres tipos de parametros
* path: se agrega la ruta donde se encuentra el archivo que se quiere análizar, es recomendable usar un documento con ext .csv, la función que se usa para analizar el archuivo es read_csv de la librería de pandas.
* y: Este argumento recibe el nombre de la variable "y" o la variable respuesta.
* **kwargs: este argumento recibe las variables predictoras o las variables "x". 

In [38]:
path = 'https://raw.githubusercontent.com/joanby/python-ml-course/master/datasets/ads/Advertising.csv'
rl = RegresionLineal(path, y = 'Sales', TV='TV', Radio='Radio')
rl

Se creo la regresión lineal


<__main__.RegresionLineal at 0x1f11dc4c668>

In [39]:
rl.seleccion_variables()

(['TV', 'Radio'], array([ True,  True]), array([1, 1]))

## 2. Funciónes de soporte
Las funciones de soporte son necesarías para mostrar los resultados finales de la regresión lineal

#### predictors_vars
Se encarga de poner en una lista las variables predictoras

In [40]:
rl.predictors_vars()

['TV', 'Radio']

#### join_predictors_vars
Esta función junta las variables predictoras para agregarlas en el modelo_multiple

In [41]:
rl.join_predictors_vars()

'TV+Radio'

#### modelo
Crea la función de modelo, agregando el modelo summary() se puede ver el detalle de la estadistica del dataset

In [43]:
rl.model().summary()

0,1,2,3
Dep. Variable:,Sales,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,859.6
Date:,"Sun, 16 Dec 2018",Prob (F-statistic):,4.83e-98
Time:,10:58:28,Log-Likelihood:,-386.2
No. Observations:,200,AIC:,778.4
Df Residuals:,197,BIC:,788.3
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.9211,0.294,9.919,0.000,2.340,3.502
TV,0.0458,0.001,32.909,0.000,0.043,0.048
Radio,0.1880,0.008,23.382,0.000,0.172,0.204

0,1,2,3
Omnibus:,60.022,Durbin-Watson:,2.081
Prob(Omnibus):,0.0,Jarque-Bera (JB):,148.679
Skew:,-1.323,Prob(JB):,5.19e-33
Kurtosis:,6.292,Cond. No.,425.0


#### parameters_pvalues_rsquared
Muestra un detalle de los valores mas importantes del modelo

In [44]:
rl.parameters_pvalues_rsquared()

Parametros del modelo:
Intercept    2.921100
TV           0.045755
Radio        0.187994
dtype: float64
-----------
P_valores del modelo:
Intercept    4.565557e-19
TV           5.436980e-82
Radio        9.776972e-59
dtype: float64
-----------
R_cuadrada del modelo:
0.8971942610828956
-----------
R_cuadrada ajustada del modelo:
0.8961505479974428
-----------


#### prediccion_y
Esta función predice tomando las variables predictors la variable respuesta

In [45]:
rl.prediccion_y().head()

0    20.555465
1    12.345362
2    12.337018
3    17.617116
4    13.223908
dtype: float64

#### error
La salida de esta función, detalla el porcentaje de error que no puede explicar el modelo, entre menor sea es mejor para el modelo.

In [46]:
rl.error()

0.1199045043685506

#### multicolinealidad

Factor Inflación de la Varianza

    VIF = 1 : Las variables no están correlacionadas
    VIF < 5 : Las variables tienen una correlación moderada y se pueden quedar en el modelo
    VIF > 5 : Las variables están altamente correlacionadas y deben desaparecer del modelo.


In [47]:
rl.multicolinealidad(com='Newspaper', TV='TV', Radio='Radio')

Las variables tienen una correlación moderada y se pueden quedar en el modelo


'El factor inflación de la varianza es de: 1.1451873787239286'