# Práctica

El archivo *b10_acsi2015* contiene una muestra de la encuesta recopilada para el índice de satisfacción del cliente estadounidense (ACSI: American Customer Satisfaction Index). La encuesta original recopila los datos de más de 400,000 consumidores de más de 400 empresas dentro de aproximadamente 50 industrias en Estados Unidos. La muestra en el archivo incluye cuatro industrias (alimentos procesados, aerolíneas comerciales, proveedores de servicios de internet y bancos comerciales). El tamaño de la muestra es de 8239 consumidores. Las industrias en esta muestra son:

+ 1001="Processed Food (Nondurables)
+ 3003="Commercial Airlines (Transportation)"
+ 3013="Internet Service Providers (Telecommunications)"
+ 5001="Commercial Banks (Finance)"

La descripción de las variables es la siguiente:


|VARIABLE	|LABEL	|VALUE|
|-------------|--------|----------|
|INDUSTRY	|Industry Code	| Industry Code|
|YEAR	|Year in which data collected	|Year|
|SATIS	|Overall Customer Satisfaction	|1="Very dissatisfied"; 10="Very satisfied"|
|CONFIRM	|Confirmation to Expectations	|1="Falls short of expectations"; 10="Exceeds expectations"|
|IDEAL	|Close to ideal product/service	|1="Not very close to ideal"; 10="Very close to ideal"|
|OVERALLX	|Expectation about overall quality	|1="Not very high"; 10="Very high"|
|CUSTOMX	|Expectations about customization	|1="Not very high"; 10="Very high"|
|WRONGX	|Expectation about reliability	|1="Not very high"; 10="Very high"|
|OVERALLQ	|Overall Quality	|1="Not very good"; 10="Very good"|
|CUSTOMQ	|Meeting personal requirement (Customization)	|1="Not very good"; 10="Very good"|
|WRONGQ	|Things went wrong (Reliability)	|1="Not very good"; 10="Very good"|
|PQ	|Price given Quality	|1="Not very good price given quality"; 10="Very good price given quality"|
|QP	|Quality given Price	|1="Not very good quality given price"; 10="Very good quality given price"|
|COMP	|Customer complaints	|1="Yes"; 0="No"|
|REPUR	|Repurchase Intention	|1="Not very likely"; 10="Very likely"|
|AGE	|Age	|Age|
|EDUCAT	|Education	|1=Less than high school; 2=High school; 3=Some college or associate degree; 4=College graduate; 5=Post-graduate|
|HISPANIC	|Hispanic	|1="Yes"; 0="No"|
|RACE_1	|Race_1	|1="White"; 2="Black/African-American"; 3="American Indian/Alaskan Native"; 4="Asian"; 5="Native Hawaiian or Pacific Islander"; 6="Other Race"|
|INCOME	|Income	|1="Under 20K"; 2="20K to 30K"; 3="30K to 40K"; 4="40K to 60K"; 5="60K to 80K"; 6="80K to 100K"; 7="100K or More"|
|GENDER	|Gender	|1="Male"; 2="Female"|
|ZIPCODE	|Zip code	|Respondent zip code|


Realiza un análisis de regresión para explicar la satisfacción de los clientes ('SATIS') en función de las variables "INDUSTRY', 'OVERALLX', 'QP' y 'COMP'. Selecciona una variable independiente adicional al modelo que pueda estar relacionada con la satisfacción. Se evaluará que se cumpla con al menos los siguientes lineamientos:

1. *Preparación de los datos*: Elimina las filas con valores perdidos.
2. *Tamaño muestral*: Verifica que el tamaño de la muestra sea la mínima apropiada. 
3. *Estadística descriptiva*: Obtén la estadística descriptiva de las variables cuantitativas
4. *Transfomación de variables categóticas*:Transforma las variables categóricas en variables dicotómicas (dummy)
5. *Selección de modelo*: Realiza una regresión por pasos con eliminación hacia atrás.
6. *Evaluación del ajuste del modelo*: Identificación e interpretación de la R cuadrada
7. *Evaluación de la significancia del modelo*: Interpretación del p-valor del estadístico F.
8. *Evaluación de la significancia de los coeficientes de regresión*: Interpretación de los p-valores del estadístico t correspondiente a cada variable.
9. *Interpretación de resultados*: Interpretación de los coeficientes de regresión de cada variable.
10. *Evaluación de supuestos*: Evaluación del supuesto de normalidad en los errores.

### Importar librerias y Datos

In [30]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from stepwise_regression import step_reg

In [31]:
# Cargar los datos
df = pd.read_excel('data/b10_acsi2015.xlsx', usecols=['SATIS', 'INDUSTRY','OVERALLX','QP','COMP'])

 ## 1. *Preparación de los datos* & 2. *Verificar Tamaño muestral*

In [32]:
# Revisar las variables
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8239 entries, 0 to 8238
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   INDUSTRY  8239 non-null   int64  
 1   SATIS     8232 non-null   float64
 2   OVERALLX  7904 non-null   float64
 3   QP        7977 non-null   float64
 4   COMP      7962 non-null   float64
dtypes: float64(4), int64(1)
memory usage: 322.0 KB


In [33]:
#quitar valores perdidos
df.dropna(inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7736 entries, 0 to 8238
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   INDUSTRY  7736 non-null   int64  
 1   SATIS     7736 non-null   float64
 2   OVERALLX  7736 non-null   float64
 3   QP        7736 non-null   float64
 4   COMP      7736 non-null   float64
dtypes: float64(4), int64(1)
memory usage: 362.6 KB


## 3. *Estadística descriptiva*

In [35]:
# Obtener la estadística descriptiva
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
INDUSTRY,7736.0,3155.172699,1454.344468,1001.0,3003.0,3013.0,5001.0,5001.0
SATIS,7736.0,7.836091,2.101317,1.0,7.0,8.0,10.0,10.0
OVERALLX,7736.0,8.275595,1.659294,1.0,7.0,8.5,10.0,10.0
QP,7736.0,7.638314,2.148164,1.0,7.0,8.0,9.0,10.0
COMP,7736.0,0.176836,0.381554,0.0,0.0,0.0,0.0,1.0


### 4. *Transfomación de variables categóticas*:Transforma las variables categóricas en variables dicotómicas (dummy)

In [36]:
# Crear variables dicotómicas
dummy_vars = pd.get_dummies(df['INDUSTRY'], prefix='INDUSTRY', dtype=int, drop_first=True)
dummy_vars.head(3)

Unnamed: 0,INDUSTRY_3003,INDUSTRY_3013,INDUSTRY_5001
0,1,0,0
1,1,0,0
2,1,0,0


In [37]:
# Agregar las variables dummy al DataFrame original
df = pd.concat([df, dummy_vars], axis=1)
# Quitar variable categórica original
df = df.drop(columns=['INDUSTRY'])

In [38]:
X = df[['INDUSTRY_3003', 'INDUSTRY_3013', 'INDUSTRY_5001', 'OVERALLX', 'QP', 'COMP']]  

In [39]:
# Añadir una columna de unos para el intercepto
X = sm.add_constant(X)
y = df['SATIS']

In [40]:
from stepwise_regression import step_reg

In [41]:
# Modelo completo con todos los predictores
var_ind = ['INDUSTRY_3003', 'INDUSTRY_3013', 'INDUSTRY_5001', 'OVERALLX', 'QP', 'COMP']
X = df[var_ind]
X = sm.add_constant(X)
y = df['SATIS']

In [42]:
backselect = step_reg.backward_regression(X, y, 0.05,verbose=False)
backselect

['const', 'INDUSTRY_3013', 'INDUSTRY_5001', 'OVERALLX', 'QP', 'COMP']

In [43]:
backselect.remove('const')
X_backselect = df[backselect]
# add a constant 
X_backselect = sm.add_constant(X_backselect)
# define the model and fit it
backres = sm.OLS(y, X_backselect).fit()
backres.summary()

0,1,2,3
Dep. Variable:,SATIS,R-squared:,0.761
Model:,OLS,Adj. R-squared:,0.761
Method:,Least Squares,F-statistic:,4936.0
Date:,"Sun, 17 Mar 2024",Prob (F-statistic):,0.0
Time:,22:11:26,Log-Likelihood:,-11177.0
No. Observations:,7736,AIC:,22370.0
Df Residuals:,7730,BIC:,22410.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.9918,0.066,15.097,0.000,0.863,1.121
INDUSTRY_3013,-0.1882,0.030,-6.246,0.000,-0.247,-0.129
INDUSTRY_5001,-0.1015,0.028,-3.618,0.000,-0.156,-0.047
OVERALLX,0.1690,0.008,21.010,0.000,0.153,0.185
QP,0.7369,0.007,109.550,0.000,0.724,0.750
COMP,-0.5678,0.033,-17.151,0.000,-0.633,-0.503

0,1,2,3
Omnibus:,702.695,Durbin-Watson:,1.889
Prob(Omnibus):,0.0,Jarque-Bera (JB):,3946.069
Skew:,-0.243,Prob(JB):,0.0
Kurtosis:,6.465,Cond. No.,66.2
