In [None]:
# Análisis Estadístico de Satisfacción de Clientes
**Objetivo:** Evaluar la relación entre el uso de la aplicación y la tasa de abandono, validando hipótesis mediante pruebas estadísticas rigurosas.

from google.colab import files

# Subir el archivo Excel
uploaded = files.upload()


In [None]:
import pandas as pd

# Leer el archivo Excel
df = pd.read_excel('E4Prob.xlsx')

# Ver las primeras filas para verificar la carga
df.head()


In [None]:
# Eliminar columnas innecesarias
columnas_a_eliminar = [
    'ID', 'Hora de inicio', 'Hora de finalización',
    'Correo electrónico', 'Nombre', 'Hora de la última modificación'
]

df_limpio = df.drop(columns=columnas_a_eliminar)

# Verificar resultado
df_limpio.head()


In [None]:
df_limpio.rename(columns={
    'Edad': 'edad',
    'Sexo': 'sexo',
    '¿Cuál es tu ocupación actual?': 'ocupacion',
    '¿Cuál es tu nivel de satisfacción general con las aplicaciones bancarias?': 'satisfaccion',
    '¿Cuántas veces utilizaste la aplicación la ultima semana?': 'uso_semana',
    '¿Cuál fue tu motivo de abandono de una aplicación bancaria?': 'motivo_abandono'
}, inplace=True)

# Comprobamos
df_limpio.columns


In [None]:
# Mostrar todo el DataFrame limpio si es pequeño
df_limpio


In [None]:
# Guardar Excel limpio para entregar al docente
df_limpio.to_excel("E4Prob_limpio.xlsx", index=False)

# Descargar
files.download("E4Prob_limpio.xlsx")


In [None]:
# Estadísticos básicos
df_limpio['edad'].describe()


In [None]:
#opcional: medidas adicionales
print("Moda:", df_limpio['edad'].mode()[0])
print("Varianza:", df_limpio['edad'].var())
print("Desviación estándar:", df_limpio['edad'].std())


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histograma con KDE
sns.histplot(df_limpio['edad'], kde=True, bins=10)
plt.title('Distribución de Edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

# Boxplot
sns.boxplot(x=df_limpio['edad'])
plt.title('Boxplot de Edad')
plt.show()


In [None]:
#Tabla de frecuecias sexo
df_limpio['sexo'].value_counts()


In [None]:
df_limpio['sexo'].value_counts(normalize=True) * 100


In [None]:
sns.countplot(data=df_limpio, x='sexo')
plt.title('Distribución por Sexo')
plt.xlabel('Sexo')
plt.ylabel('Cantidad')
plt.show()


In [None]:
#Tabla de frecuencias Ocupación
df_limpio['ocupacion'].value_counts()


In [None]:
plt.figure(figsize=(8,4))
sns.countplot(data=df_limpio, y='ocupacion', order=df_limpio['ocupacion'].value_counts().index)
plt.title('Distribución por Ocupación')
plt.xlabel('Cantidad')
plt.ylabel('Ocupación')
plt.show()


In [None]:
#tabla nivel de satisfacción
df_limpio['satisfaccion'].value_counts()


In [None]:
sns.countplot(data=df_limpio, x='satisfaccion', order=df_limpio['satisfaccion'].value_counts().index)
plt.title('Nivel de Satisfacción con Aplicaciones Bancarias')
plt.xlabel('Satisfacción')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
#Veces que usó la app en la semana
df_limpio['uso_semana'].describe()


In [None]:
print("Moda:", df_limpio['uso_semana'].mode()[0])
print("Varianza:", df_limpio['uso_semana'].var())
print("Desviación estándar:", df_limpio['uso_semana'].std())


In [None]:
sns.histplot(df_limpio['uso_semana'], kde=False, bins=range(df_limpio['uso_semana'].min(), df_limpio['uso_semana'].max()+2))
plt.title('Uso de App Bancaria en la Semana')
plt.xlabel('Cantidad de veces')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
#Motivo de abandono de la app bancaria
df_limpio['motivo_abandono'].value_counts()


In [None]:
plt.figure(figsize=(8,4))
sns.countplot(data=df_limpio, y='motivo_abandono', order=df_limpio['motivo_abandono'].value_counts().index)
plt.title('Motivos de Abandono de Apps Bancarias')
plt.xlabel('Cantidad')
plt.ylabel('Motivo')
plt.show()


In [None]:
#Calcular proporción de personas que usaron la app más de 3 veces
# Creamos una columna booleana: True si uso > 3 veces, False si no
df_limpio['uso_mayor_3'] = df_limpio['uso_semana'] > 3

# Calculamos la proporción de personas que cumplen esa condición
p = df_limpio['uso_mayor_3'].mean()
print(f'Proporción de personas que usaron la app > 3 veces: {p:.2f}')


In [None]:
#Definir variable aleatoria discreta X ~ Binomial(n=3, p)
from scipy.stats import binom

# Valores posibles de X: 0, 1, 2, 3
valores_x = [0, 1, 2, 3]

# Probabilidades de cada valor de X
probabilidades = [binom.pmf(k, 3, p) for k in valores_x]

# Mostrar la tabla
for x, prob in zip(valores_x, probabilidades):
    print(f'P(X = {x}) = {prob:.4f}')


In [None]:
#Visualizar distribución de probabilidad
import matplotlib.pyplot as plt

plt.bar(valores_x, probabilidades, tick_label=valores_x)
plt.title('Distribución de Probabilidad de X')
plt.xlabel('X: Personas que usaron la app > 3 veces (entre 3 seleccionadas)')
plt.ylabel('Probabilidad')
plt.ylim(0, 1)
plt.show()


In [None]:
#Calcular esperanza matemática
esperanza = sum([x * binom.pmf(x, 3, p) for x in valores_x])
print(f'Esperanza matemática E(X): {esperanza:.2f}')


In [None]:
#pregunta 1: ¿Cuál es la probabilidad de que exactamente 2 de las 3 personas hayan usado la app más de 3 veces?
prob_2 = binom.pmf(2, 3, p)
print(f'P(X = 2): {prob_2:.4f}')


In [None]:
#pregunta 2: ¿Cuál es la probabilidad de que al menos una persona lo haya hecho?
prob_0 = binom.pmf(0, 3, p)
prob_al_menos_1 = 1 - prob_0
print(f'P(X ≥ 1): {prob_al_menos_1:.4f}')


In [None]:
#Histograma con curva KDE (edad)
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(df_limpio['edad'], kde=True, bins=10)
plt.title('Histograma de Edad con Curva KDE')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
#Gráfico Q-Q (cuantiles teóricos vs observados)
import scipy.stats as stats

stats.probplot(df_limpio['edad'], dist="norm", plot=plt)
plt.title('Gráfico Q-Q para Edad')
plt.show()


In [None]:
"Validación de Normalidad: Aplicamos el test de Shapiro-Wilk para determinar si los datos siguen una distribución normal, requisito clave para las pruebas posteriores."

# Prueba de Shapiro-Wilk
from scipy.stats import shapiro

stat, p_shapiro = shapiro(df_limpio['edad'])
print(f'Statistic={stat:.4f}, p-value={p_shapiro:.4f}')


In [None]:
#Prueba de D’Agostino y Pearson (más robusta)
from scipy.stats import normaltest

stat, p_dagostino = normaltest(df_limpio['edad'])
print(f'Statistic={stat:.4f}, p-value={p_dagostino:.4f}')


In [None]:
#Criterios para interpretación
alpha = 0.05

if p_shapiro > alpha and p_dagostino > alpha:
    print("No se rechaza H₀: la variable edad puede considerarse normal.")
else:
    print("Se rechaza H₀: la variable edad no sigue una distribución normal.")


In [None]:
# opcional, repetir para uso_semana:
# Histograma
sns.histplot(df_limpio['uso_semana'], kde=True, bins=8)
plt.title('Histograma de Uso de App')
plt.xlabel('Veces que usó la app')
plt.show()

# Gráfico Q-Q
stats.probplot(df_limpio['uso_semana'], dist="norm", plot=plt)
plt.title('Gráfico Q-Q para Uso de App')
plt.show()

# Pruebas estadísticas
print("Shapiro para uso_semana:", shapiro(df_limpio['uso_semana']))
print("D'Agostino para uso_semana:", normaltest(df_limpio['uso_semana']))


In [None]:
"Se rechaza la hipótesis nula. Existe una correlación significativa entre la baja frecuencia de uso de la App y la probabilidad de abandono."