In [1]:

# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
#import scipy.stats as stats
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Intervalo de confianza

El intervalo de confianza es una herramienta importante en el mundo del análisis de datos que nos ayuda a estimar un rango plausible de valores para una cantidad desconocida (como la media, la proporción o la varianza) a partir de una muestra de datos. 

In [5]:
# lo primero que hacemos es cargar el dataframe que vamos a usar para esta lección
df = pd.read_csv("../files/bank-additional-clean-nonulls.csv", index_col = 0)
df.head(2)

Unnamed: 0_level_0,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,job,marital,education,default,housing,loan,contact,duration,campaign,previous,poutcome,empvarrate,conspriceidx,consconfidx,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,age,euribor3m,pdays
income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,housemaid,married,basic 4y,No,No,No,telephone,261,1,0,nonexistent,1.1,93.994,-36.4,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores,40.005436,4.857,4.4
85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,services,married,high school,noviembre,No,No,telephone,149,1,0,nonexistent,1.1,93.994,-36.4,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad,57.0,3.603174,4.8


**Ejemplo 1:**  Intervalo de confianza para la duración de llamadas telefónicas

Imagina que eres el gerente de un centro de llamadas de una empresa de servicios financieros. Tu equipo realiza llamadas a clientes para ofrecerles productos financieros y resolver sus consultas. Quieres entender mejor cuánto tiempo en promedio pasan tus agentes en una llamada y tener una idea de la variabilidad en la duración de las llamadas. Esto es importante para la planificación de recursos, la gestión de la carga de trabajo y la optimización de la productividad de tu equipo. Para esto el intervalo de confianza te puede ayudar. 

In [3]:
# lo primero que tenemos que hacer es calcular la estimación puntual, en este caso calcularemos la media de la duración de las llamadas
media_duracion = df["duration"].mean()


# después vamos a calcular el error estándar utilizando el método "sem" de la librería stats
error_duracion = stats.sem(df["duration"])

# definimos el nivel de confianza (95% en este caso)
nivel_confianza_duracion = 0.95

# calculamos los grados de libertad de la muestra. Recordad que debemos restar el total de datos que tenemos -1. 
grados_libertad_duracion = len(df["duration"]) - 1

# calculamos el valor crítico de la muestra
valor_critico_duracion = stats.t.ppf((1 + nivel_confianza_duracion) / 2, df=grados_libertad_duracion)

# calculamos el intervalo de confianza
limite_inferior_duracion = media_duracion - valor_critico_duracion * error_duracion
limite_superior_duracion = media_duracion + valor_critico_duracion * error_duracion

print("Intervalo de Confianza para la Duración de Llamadas Telefónicas:")
print(f"Media Muestral: {np.round(media_duracion, 2)}")
print(f"Error Estándar: {np.round(error_duracion, 2)}")
print(f"Nivel de Confianza: {nivel_confianza_duracion}")
print(f"Valor Crítico: {np.round(valor_critico_duracion, 2)}")
print(f"Intervalo de Confianza: ({np.round(limite_inferior_duracion, 2)}, {np.round(limite_superior_duracion, 2)})")



Intervalo de Confianza para la Duración de Llamadas Telefónicas:
Media Muestral: 257.74
Error Estándar: 1.25
Nivel de Confianza: 0.95
Valor Crítico: 1.96
Intervalo de Confianza: (255.29, 260.18)


**Interpretación**:  Indica que, con un 95% de confianza, podemos decir que la duración promedio de las llamadas estará entre 255.29 y 260.18 segundos.

Para que nos puede ayudar esto en un caso real: 

- **Planificación de Recursos:** Saber que el intervalo de confianza va desde, por ejemplo, 255.29 a 269.18 segundos de duración, nos puede permitir planificar la asignación de agentes y recursos en función de esa estimación.

- **Gestión de la Carga de Trabajo:** Si tienes un día con un alto volumen de llamadas, puedes utilizar esta estimación para estimar cuánto tiempo llevará atender a todos los clientes y garantizar una distribución adecuada de las llamadas entre los agentes.

**Ejemplo 2:**  Intervalo de confianza para la edad de clientes

Imagina que estás desarrollando una estrategia de marketing dirigida a diferentes grupos de edad. Quieres asegurarte de que tus mensajes y ofertas sean relevantes para tus clientes. Sin embargo, no puedes conocer la edad de todos los clientes, por lo que decides tomar una muestra aleatoria de registros de clientes y calcular un intervalo de confianza para la edad promedio de tu base de clientes.

In [6]:

# Calcular la media y el error estándar de la muestra
media_edad = df["age"].mean()
error_edad = stats.sem(df["age"])

# Definir el nivel de confianza (90% en este caso)
nivel_confianza_edad = 0.90

# calculamos los grados de libertad de la muestra. Recordad que debemos restar el total de datos que tenemos -1. 
grados_libertad_edad = len(df["age"]) - 1

# Calcular el valor crítico (utilizando la distribución t de Student)
valor_critico_edad = stats.t.ppf((1 + nivel_confianza_edad) / 2, df=grados_libertad_edad)

# Calcular el intervalo de confianza
limite_inferior_edad = media_edad - valor_critico_edad * error_edad
limite_superior_edad = media_edad + valor_critico_edad * error_edad

print("Intervalo de Confianza para la Edad de los Clientes:")
print(f"Media Muestral: {np.round(media_edad, 2)}")
print(f"Error Estándar: {np.round(error_edad, 2)}")
print(f"Nivel de Confianza: {nivel_confianza_edad}")
print(f"Valor Crítico: {np.round(valor_critico_edad, 2)}")
print(f"Intervalo de Confianza: ({np.round(limite_inferior_edad, 2)}, {np.round(limite_superior_edad, 2)})")

Intervalo de Confianza para la Edad de los Clientes:
Media Muestral: 39.99
Error Estándar: 0.05
Nivel de Confianza: 0.9
Valor Crítico: 1.64
Intervalo de Confianza: (39.91, 40.07)


**Interpretación**:  Indica que, con un 90% de confianza, podemos decir que la edad promedio de los clientes estará entre 39.91 y 40.07 segundos.

Para que nos pueden ser útiles estos valores: 

- **Segmentación Efectiva:** Podemos utilizar el intervalo de confianza para identificar los grupos de edad más probables entre nuestros clientes y adaptar las campañas de marketing específicamente a esas edades.

- **Optimización de Recursos:** Si observamos una amplia variabilidad en las edades de los clientes, podemos ajustar la asignación de recursos y personalizar tus estrategias para atender a un espectro más amplio de edades.