# Carga y Análisis: Análisis Descriptivo
    
**Objetivo:** Comprender la distribución y el comportamiento de los clientes mediante métricas estadísticas (media, mediana, desviación estándar).


In [34]:
#Importación de librerías
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import os

In [35]:
# Carga de datos
ruta_datos = os.path.join("..", "data", "processed", "telecom_final.csv")

In [36]:
# Solo para comprobar que la ruta es correcta
try:
    df = pd.read_csv(ruta_datos)
    print(f"Datos cargados correctamente: {df.shape[0]} registros.")
    print("Columnas disponibles:", df.columns.tolist())
except FileNotFoundError:
    print("Error: No se encontró el archivo 'telecom_final.csv'. Verifica el paso anterior.")

Datos cargados correctamente: 7267 registros.
Columnas disponibles: ['ID_Cliente', 'Abandono', 'Genero', 'Jubilado', 'Pareja', 'Dependientes', 'Meses_Contrato', 'Servicio_Telefonico', 'Lineas_Multiples', 'Servicio_Internet', 'Seguridad_Online', 'Respaldo_Online', 'Proteccion_Dispositivo', 'Soporte_Tecnico', 'Streaming_TV', 'Streaming_Peliculas', 'Tipo_Contrato', 'Facturacion_Digital', 'Metodo_Pago', 'Cargo_Mensual', 'Cargo_Total', 'Gasto_Diario']


In [37]:
# Seleccionamos las variables de negocio (Tiempo y Dinero)
cols_numericas = ['Meses_Contrato', 'Cargo_Mensual', 'Cargo_Total', 'Gasto_Diario']

estadisticas = df[cols_numericas].describe().T

estadisticas['Rango'] = estadisticas['max'] - estadisticas['min']

display(estadisticas.round(2))

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,Rango
Meses_Contrato,7267.0,32.35,24.57,0.0,9.0,29.0,55.0,72.0,72.0
Cargo_Mensual,7267.0,64.72,30.13,18.25,35.42,70.3,89.88,118.75,100.5
Cargo_Total,7267.0,2277.18,2268.65,0.0,396.2,1389.2,3778.52,8684.8,8684.8
Gasto_Diario,7267.0,2.16,1.0,0.61,1.18,2.34,3.0,3.96,3.35


In [38]:
# Análisis de frecuencia para variables categóricas
cols_categ = ['Genero', 'Pareja', 'Servicio_Telefonico', 'Tipo_Contrato', 'Metodo_Pago', 'Abandono']

display(df[cols_categ].astype(str).describe().T)

Unnamed: 0,count,unique,top,freq
Genero,7267,2,Masculino,3675
Pareja,7267,2,0,3749
Servicio_Telefonico,7267,2,1,6560
Tipo_Contrato,7267,3,Mensual,4005
Metodo_Pago,7267,4,Cheque electrónico,2445
Abandono,7267,3,0.0,5174


In [39]:
# Configuración de colores para las gráficas
COLORES = {
    'Principal': '#2E4053',  
    'Secundario': '#1ABC9C',  
    'Alerta': '#E74C3C',      
    'Neutro': '#95A5A6'       
}

In [40]:
# Histograma de Cargo Mensual
fig_hist = px.histogram(df, x='Cargo_Mensual', 
                        nbins=40, 
                        title='Distribución de Facturación Mensual',
                        marginal='box',
                        color_discrete_sequence=[COLORES['Principal']]) 

fig_hist.update_layout(
    xaxis_title="Cargo Mensual ($)",
    yaxis_title="Frecuencia (Clientes)",
    plot_bgcolor='rgba(0,0,0,0)', 
    bargap=0.1
)

fig_hist.show()

## Distribución de evasión


In [43]:
fig_pie = px.pie(df, names='Abandono', 
                 title='Proporción de Clientes: Retenidos vs Fuga',
                 color='Abandono',
                 color_discrete_map={0: COLORES['Secundario'], 1: COLORES['Alerta']},
                 hole=0.5)

fig_pie.update_traces(textinfo='percent+label')
fig_pie.update_layout(
    annotations=[dict(text='Churn', x=0.5, y=0.5, font_size=20, showarrow=False)]
)

fig_pie.show()

In [44]:
fig_bar_churn = px.histogram(df, x='Abandono', 
                             color='Abandono',
                             title='Cantidad de Clientes: Retenidos vs Fuga',
                             text_auto=True, 
                             color_discrete_map={0: COLORES['Secundario'], 1: COLORES['Alerta']})

fig_bar_churn.update_layout(
    xaxis_title="Estado de Abandono (0=No, 1=Sí)",
    yaxis_title="Cantidad de Clientes",
    showlegend=False 
)

fig_bar_churn.show()