# Apuntes Cursada Regresion Avanzada

In [None]:
# Fecha Creacion: 02/06/23
# Autor: Andres Montes de Oca

# Instalacion de Paquetes
# !pip install pingouin
# !pip install scipy
# !pip install statsmodels
# !pip install rpy2

# Cargamos Librerias y Datos
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pingouin as pg
from scipy import stats as st
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.tools.tools as smt
# import rpy2.robjects as robjects
# from rpy2.robjects.packages import importr

# Asthetics
sns.set(style='ticks', context='notebook', palette='colorblind', font_scale=1, color_codes=True)      

## Cargas de Datasets

In [None]:
# Iris para probar las Key Assumptions
dataI = sns.load_dataset('iris')

# Grasa de Cerdos
dataC = pd.read_excel('Data/grasacerdos.xlsx', index_col='Obs') # Cargamos el Dataset
dataC = dataC.replace(to_replace=',', value='.', regex=True) # Reemplazo , por .
dataC = dataC.astype('float') # Transformo en float

# Damascos
# dataD = pd.read_csv('Data/Damascos.csv', index_col='VARIEDAD') # Incompleto

# Dataset para Regresion Lineal
dataP = pd.read_excel('Data/peso_edad_colest.xlsx')

# Modelo Lineal para ejemplos (se en detalle ma abajo)
dataP = sm.add_constant(dataP)
model_colest = smf.ols('colest ~ edad', data=dataP).fit()

# Modelo para Box-Cox usando dataset de cars
dataCars = pd.read_csv('Data/cars.csv')
model_cars = smf.ols('dist ~ speed', data=dataCars).fit()

# Ejemplos vistos en clases

## Clase #1 (30/06/23)

In [None]:
# Cargamos IMCInfantil
data = pd.read_excel('Data/IMCInfantil.xlsx')
data.head()

In [None]:
# PairPlot para ver las relacioes a ojo
sns.pairplot(data[['EDAD', 'PESO', 'TALLA', 'IMC', 'CC']])
plt.show()

In [None]:
# BoxPlot de CC, filtrando por CatPeso
sns.boxplot(data=data, y='CC', x='CatPeso', order=['D', 'N', 'SO', 'OB'])
plt.show()

In [None]:
# Verificamos Normalidad mirando el Histograma
sns.histplot(data=data, x='PESO') # Usando Seaborn

# Alternativas de ploteo usando Matplotlib
# data['PESO'].plot(kind='hist')
# plt.hist(x=data['PESO'])

plt.show()

In [None]:
# Verificamos la normalidad usando un QQ Plot
st.probplot(data['PESO'], plot=plt)
st.probplot(data['CC'], plot=plt)
plt.show()

In [None]:
# Verificamos normalidad usando Shapiro test
print('Peso:', st.shapiro(data['PESO']))
print('CC:', st.shapiro(data['CC']))

In [None]:
# Normalidad bivariada usando HZ test
pg.multivariate_normality(data[['PESO', 'CC']])

In [None]:
# Correlacion segun metodo Pearson
display(pg.corr(data.PESO, data.CC))

# Como el suspuesto de normalidad bivariada no es cumplido, usamos Spearman
display(pg.corr(data.PESO, data.CC, method='spearman'))

# Indice de correlacion
print('R2:', data['CC'].corr(data['PESO']))

In [None]:
# Matriz de Correlacion sencilla
data.corr()

In [None]:
# Misma matriz de correlacion, pero mas facil de leer
f, ax = plt.subplots(figsize=(12, 9)) # Para ver el HeatMap completo
sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2,annot_kws={'size':8}, vmin=-1, vmax=1)
plt.show()

In [None]:
# Cambiamos al Dataset de Gorriones
dataG = pd.read_excel('Data/gorriones.xlsx', index_col='pajaro')
data=dataG

# Renombramos las variables
data.rename(columns=
            {'largototal':'Largo', 'extension ':'Alas', 'cabeza':'Cabeza', 
             'humero':'Pata', 'esternon':'Cuerpo', 'sobrevida ':'Target'}, 
            inplace=True)
data.head()

In [None]:
# Verificacion visual de relaciones, Pairplot
sns.pairplot(data)
plt.show()

In [None]:
# Verificacion de correlaciones
sns.heatmap(data.corr(), cmap='RdYlGn', vmin=-1, vmax=1, annot=True)
plt.show()

In [None]:
# Tests de Normalidad
print('Cabeza:', st.shapiro(data['Cabeza']))
print('Alas:', st.shapiro(data['Alas']))
print('Multivariate:', pg.multivariate_normality(data[['Cabeza', 'Alas']]))

In [None]:
# Correlacion entre dos variables
pg.corr(data['Cabeza'], data['Alas'])

In [None]:
# Modelo Regresion Lineal con Scikit-Learn (approach mas "pragmatico")
from sklearn.linear_model import LinearRegression
X = data[['Alas', 'Cabeza', 'Pata', 'Cuerpo']] # el Input tiene que estar en 2d, por eso los dobles corchetes
y = data['Largo']

model = LinearRegression().fit(X, y)

print('R2:', model.score(X, y))
print('Coef:', model.coef_)
print('Intercepto:', model.intercept_)

#### Modelamos con Statsmodel

In [None]:
# Probando Statsmodel
import statsmodels.formula.api as smf
import statsmodels.tools.tools as smt

# Creamos el modelo usando Formula en lugar de Arrays
data = smt.add_constant(data)
model_gorr = smf.ols(formula = 'Largo ~ Alas + Cabeza + Pata + Cuerpo', data=data).fit()

print(model_gorr.summary())

#### Test de Wald pendiente

In [None]:
# Test de Wald para verificar la significatividad de las variables.H0 indica que no aporta

print('Extension:', model_gorr.wald_test('(Alas  = 0)', use_f=False ))
print('Cabeza:', model_gorr.wald_test('(Cabeza = 0)', use_f=False))
print('Humero:', model_gorr.wald_test('(Pata = 0)', use_f=False))
print('Esternon:', model_gorr.wald_test('(Cuerpo = 0)', use_f=False))

# No funciona como en R

## Clase #2 (06/06/23)

In [None]:
# Cambiamos al Dataset de Gorriones
data = pd.read_excel('Data/gorriones.xlsx', index_col='pajaro')

# Renombramos las variables
data.rename(columns=
            {'largototal':'Largo', 'extension ':'Alas', 'cabeza':'Cabeza', 
             'humero':'Pata', 'esternon':'Cuerpo', 'sobrevida ':'Target'}, 
            inplace=True)
data.head()

In [None]:
# Probando Statsmodel
import statsmodels.formula.api as smf
import statsmodels.tools.tools as smt

# Creamos el modelo usando Formula en lugar de Arrays
data = smt.add_constant(data)
model = smf.ols(formula = 'Largo ~ Alas + Cabeza + Pata + Cuerpo', data=data).fit()
residuos = model.resid

print(model.summary())

In [None]:
# Normalidad de residuos - Analitico
display(pg.normality(residuos)) # Shapiro
print('Andrson-Darling:', sm.stats.diagnostic.normal_ad(residuos)) # Andrson-Darling

# Normalidad de residuos - Grafico
pg.qqplot(residuos)
plt.show()

In [None]:
# Independencia de Residuos Analitico - Durbin-Watson Test
print('Durbin-Watson:', sm.stats.stattools.durbin_watson(residuos)) # ~2: Ind, ~0: Neg, ~4: Pos

# Analisis Grafico
plt.scatter(residuos.index, residuos.values)
plt.xlabel('Index')
plt.ylabel('Residuo')
plt.title('Independencia de Residuos')
plt.axhline(color='grey', linestyle='dashed', alpha=0.5)
plt.show()
# No se observa ninguna estructura

In [None]:
# Homosedasticidad de Residuos Analitico - Breusch-Pagan Test
print('p-value:', sm.stats.diagnostic.het_breuschpagan(residuos, X)[1])

# Grafico
plt.scatter(model_gorr.predict(), residuos)
plt.xlabel('Predicciones')
plt.ylabel('Residuos')
plt.axhline(color='grey', linestyle='dashed', alpha=0.5)
plt.title('Homosedasticidad')
plt.show()

In [None]:
# Linear Regresion with Pingouin
pg_results = pg.linear_regression(X=X, y=y, as_dataframe=True)
display(pg_results)

In [None]:
# Deteccion de Outliers y valores Influyentes

# Bonferroni
# Leverage
# Distancia de Cook
# DFFITS

In [None]:
# Cargamos la base de Madera
data = pd.read_csv('Data/madera.csv')
data.drop(columns='Unnamed: 0', inplace=True)
data.head()

# los datos no son los mismos que el ejemplo de la clase

In [None]:
# Modelo Lineal
import statsmodels.formula.api as smf

# Creamos el modelo usando Formula en lugar de Arrays
data = smt.add_constant(data)
model = smf.ols(formula = 'resist ~ madera', data=data).fit()
residuos = model.resid

print(model.summary())

In [None]:
# Verificamos la no-linealidad en la relacion
sns.regplot(data=data, x='madera', y='resist')
plt.show()

In [None]:
# verificamos los residuos
display(pg.normality(residuos))

# Independeica
print('Independencia p-value:', sm.stats.stattools.durbin_watson(residuos))

# Homosedasticidad
print('Homosedasticidad p-value:', sm.stats.het_breuschpagan(residuos, data)[1])

# Independencia Grafica
pg.qqplot(residuos)
plt.show()

In [None]:
# Volvemos al Dataset de Gorriones con todas las variables
data = dataG
print(model_gorr.summary())

In [None]:
# Creamos un modelo solo con Largo ~ Alas
model_gorr_Alas = smf.ols(formula='Largo ~ Alas', data=data).fit()

print(model_gorr_Alas.summary())

In [None]:
# Recta de Regresion
sns.regplot(data=data, x='Alas', y='Largo')
plt.show()

In [None]:
# Creamos una Serie de nuevos valores random para Alas y predecimos
import random
data_alas_new = pd.Series([random.uniform(data.Alas.min(), data.Alas.max()) for _ in range(len(data))], name='Alas').sort_values().reset_index()

# Guardamos las predicciones utilizando el modelo existente
pred_alas = pd.Series(model_gorr_Alas.predict(data_alas_new), name='Pred')

# Calcuamos una prediccion puntual para Alas de 280cm (ojo, fuera del dominio de estudio)
print('Prediccion para Alas = 280:\n', model_gorr_Alas.predict(pd.Series(280, name='Alas')))

# Calculamos el IC de las predicciones
pred_alas_IC_array = model_gorr_Alas.get_prediction(data_alas_new).conf_int()

# Le damos forma de DataFrame
pred_alas_IC = pd.DataFrame(pred_alas_IC_array).rename(columns={0:'Min', 1:'Low'})

# Mostramos
display(pred_alas.to_frame().head())
display(pred_alas_IC.head())

In [None]:
# Analisis de Diagnostico modelo completo (model_gorr)
st.probplot(model_gorr.resid, plot=plt)
plt.show()

print('Normality:', st.shapiro(model_gorr.resid))

In [None]:
# Homocedasticidad

print('Breusch-Pagan p-value:', sm.stats.diagnostic.het_breuschpagan(model_gorr.resid, data))
plt.scatter(x=model_gorr.predict(), y=model_gorr.resid)
plt.xlabel( 'Prediccion')
plt.ylabel('Residuo')
plt.title('Distribucion de Residuos')
plt.axhline(color='grey', linestyle='dashed', alpha=0.5)
plt.show()

In [None]:
# No se observa estructura
plt.scatter(x=data.index, y=model_gorr.resid)
plt.xlabel( 'Index')
plt.ylabel('Residuo')
plt.title('Correlacion de Residuos')
plt.axhline(color='grey', linestyle='dashed', alpha=0.5)
plt.show()

# Durbin-Watson Test: 2=No Correlacion (Independecia?)| 0=Correlacion Pos | 4=Correlacion Neg
print('Durbin-Watson:', sm.stats.stattools.durbin_watson(resids=model_gorr.resid)) # Sin validacion Estadistica

### Transformacion de Variables

In [None]:
data = pd.read_csv('Data/cars.csv')
y = data['dist']
data.head()

In [None]:
# Modelo Cars
data = sm.add_constant(data)

model_cars = smf.ols('dist ~ speed', data=data).fit()
print(model_cars.summary())

# Normalidad de residuos
print(pg.normality(model_cars.resid))

In [None]:
pg.qqplot(model_cars.resid)
plt.show()

In [None]:
maxlog = st.boxcox(y)[1]
st.boxcox_normplot(y, -2, 2, plt)
plt.axvline(maxlog)
plt.show()

In [None]:
y_trans = pd.Series(y**maxlog, name='dist_trans')

In [None]:
data = pd.concat([data, y_trans], axis=1)
data = sm.add_constant(data)
data.head()

In [None]:
model_cars_transformed = smf.ols('dist_trans ~ speed', data=data).fit()

print(model_cars_transformed.summary())

In [None]:
print(pg.normality(model_cars_transformed.resid))
pg.qqplot(model_cars_transformed.resid)
plt.show()

In [None]:
model_cars_transformed.get_prediction(data)


In [None]:
# Cargamos el Dataset de University
dataU = pd.read_csv('Data/University.csv')
data = dataU[['nassets', 'stfees']]
y = data['nassets']
data.head()

# nassets: Activos netos de la Universidad | stfees: Cuotas de los estudiantes

In [None]:
model_univ = smf.ols('nassets ~ stfees', data=data).fit()
print(model_univ.summary())

In [None]:
y = data['nassets']

y_transformed, maxlog, (min_ci, max_ci) = st.boxcox(x=y, alpha=.05)
st.boxcox_normplot(y, -2, 2, plt)
plt.axvline(maxlog)
plt.show()

In [None]:
nassets_trans = pd.Series(np.log10(data['nassets']),name='nassets_trans')

In [None]:
data = pd.concat([data, nassets_trans], axis=1)
data.head()

In [None]:
model_univ_trans = smf.ols('nassets_trans ~ stfees', data=data).fit()
print(model_univ_trans.summary())

In [None]:
print(st.shapiro(model_univ_trans.resid))