<a href="https://colab.research.google.com/github/WSARMIE32139/Programacion_para_CD/blob/main/analisis-churn-telecom/Guia_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [85]:
#!pip install pandas numpy



In [86]:
# Solución propuesta
# 1. Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.
import pandas as pd

df = pd.read_csv('/content/telecom_churn.csv')

print(df)

     state  account length  area code phone number international plan voice mail plan  number vmail messages  total day minutes  total day calls  total day charge  total eve minutes  total eve calls  total eve charge  total night minutes  total night calls  total night charge  total intl minutes  total intl calls  total intl charge  customer service calls  churn
0       KS             128        415     382-4657                 no             yes                     25              265.1              110             45.07              197.4               99             16.78                244.7                 91               11.01                10.0                 3               2.70                       1  False
1       OH             107        415     371-7191                 no             yes                     26              161.6              123             27.47              195.5              103             16.62                254.4                103              

In [87]:
# 2. Muestra las primeras 5 filas del DataFrame.
# Cargar el dataset
df = pd.read_csv('telecom_churn.csv')

# Ajustar el ancho máximo de las columnas para tener una mejor vista del df
pd.set_option('display.max_columns', None)  # Muestra todas las columnas
pd.set_option('display.width',1000)       # Ajustar el ancho total de la pantalla

# Mostramos las primeras 5 filas
print(df.head())

  state  account length  area code phone number international plan voice mail plan  number vmail messages  total day minutes  total day calls  total day charge  total eve minutes  total eve calls  total eve charge  total night minutes  total night calls  total night charge  total intl minutes  total intl calls  total intl charge  customer service calls  churn
0    KS             128        415     382-4657                 no             yes                     25              265.1              110             45.07              197.4               99             16.78                244.7                 91               11.01                10.0                 3               2.70                       1  False
1    OH             107        415     371-7191                 no             yes                     26              161.6              123             27.47              195.5              103             16.62                254.4                103               11.45   

In [88]:
#3. Verifica cuántas filas y columnas tiene el dataset.
print ("Confirmación de Filas y Columnas")
print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")

Confirmación de Filas y Columnas
El dataset tiene 3333 filas y 21 columnas.


In [89]:
#4. Muestra información general del dataset, incluyendo los tipos de datos.
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account length          3333 non-null   int64  
 2   area code               3333 non-null   int64  
 3   phone number            3333 non-null   object 
 4   international plan      3333 non-null   object 
 5   voice mail plan         3333 non-null   object 
 6   number vmail messages   3333 non-null   int64  
 7   total day minutes       3333 non-null   float64
 8   total day calls         3333 non-null   int64  
 9   total day charge        3333 non-null   float64
 10  total eve minutes       3333 non-null   float64
 11  total eve calls         3333 non-null   int64  
 12  total eve charge        3333 non-null   float64
 13  total night minutes     3333 non-null   float64
 14  total night calls       3333 non-null   

In [90]:
#5. Identifica si hay valores nulos en alguna columna.
print ("se Identifican los valores nulos")
print(df.isnull().sum())

se Identifican los valores nulos
state                     0
account length            0
area code                 0
phone number              0
international plan        0
voice mail plan           0
number vmail messages     0
total day minutes         0
total day calls           0
total day charge          0
total eve minutes         0
total eve calls           0
total eve charge          0
total night minutes       0
total night calls         0
total night charge        0
total intl minutes        0
total intl calls          0
total intl charge         0
customer service calls    0
churn                     0
dtype: int64


In [91]:
# Estadísticas descriptivas
df.describe()

Unnamed: 0,account length,area code,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.064806,437.182418,8.09901,179.775098,100.435644,30.562307,200.980348,100.114311,17.08354,200.872037,100.107711,9.039325,10.237294,4.479448,2.764581,1.562856
std,39.822106,42.37129,13.688365,54.467389,20.069084,9.259435,50.713844,19.922625,4.310668,50.573847,19.568609,2.275873,2.79184,2.461214,0.753773,1.315491
min,1.0,408.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.04,0.0,0.0,0.0,0.0
25%,74.0,408.0,0.0,143.7,87.0,24.43,166.6,87.0,14.16,167.0,87.0,7.52,8.5,3.0,2.3,1.0
50%,101.0,415.0,0.0,179.4,101.0,30.5,201.4,100.0,17.12,201.2,100.0,9.05,10.3,4.0,2.78,1.0
75%,127.0,510.0,20.0,216.4,114.0,36.79,235.3,114.0,20.0,235.3,113.0,10.59,12.1,6.0,3.27,2.0
max,243.0,510.0,51.0,350.8,165.0,59.64,363.7,170.0,30.91,395.0,175.0,17.77,20.0,20.0,5.4,9.0


In [92]:
# Conteo de valores únicos
print(df.nunique())

state                       51
account length             212
area code                    3
phone number              3333
international plan           2
voice mail plan              2
number vmail messages       46
total day minutes         1667
total day calls            119
total day charge          1667
total eve minutes         1611
total eve calls            123
total eve charge          1440
total night minutes       1591
total night calls          120
total night charge         933
total intl minutes         162
total intl calls            21
total intl charge          162
customer service calls      10
churn                        2
dtype: int64


In [93]:
# Distribución de valores
print(df['churn'].value_counts())
print(df['area code'].value_counts())
print(df['international plan'].value_counts())
print(df['voice mail plan'].value_counts())

churn
False    2850
True      483
Name: count, dtype: int64
area code
415    1655
510     840
408     838
Name: count, dtype: int64
international plan
no     3010
yes     323
Name: count, dtype: int64
voice mail plan
no     2411
yes     922
Name: count, dtype: int64


**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [94]:
# Solución propuesta
# Calcular el porcentaje de churn
porcentaje_churn = (df['churn'].sum() / len(df)) * 100 #suma los valores True de la columna sobre el total clientes

print(f"El porcentaje de clientes que han desertado es del {porcentaje_churn:.2f}%")

El porcentaje de clientes que han desertado es del 14.49%


In [95]:
# Calcular la tasa de deserción para clientes con y sin plan internacional
churn_con_plan_internacional = df[df['international plan'] == 'yes']['churn'].mean() * 100
churn_sin_plan_internacional = df[df['international plan'] == 'no']['churn'].mean() * 100

print(f"Tasa de deserción con plan internacional: {churn_con_plan_internacional:.2f}%")
print(f"Tasa de deserción sin plan internacional: {churn_sin_plan_internacional:.2f}%")

# Comparamos las tasas
if churn_con_plan_internacional > churn_sin_plan_internacional:
    print("Los clientes con plan internacional tienen una mayor tasa de deserción.")
else:
    print("Los clientes con plan internacional no tienen una mayor tasa de deserción.")

Tasa de deserción con plan internacional: 42.41%
Tasa de deserción sin plan internacional: 11.50%
Los clientes con plan internacional tienen una mayor tasa de deserción.


**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

In [96]:
# Solución propuesta
# Calcular la duración promedio para cada grupo (en meses)
duracion_promedio_churn_meses = df[df['churn'] == 1]['account length'].mean()
duracion_promedio_no_churn_meses = df[df['churn'] == 0]['account length'].mean()

# Convertir a meses y días
def convertir_a_meses_dias(meses):
    dias = (meses * 30.44) % 30.44  # Usamos 30.44 días/mes (promedio)
    meses_int = int(meses)
    dias_int = int(dias)
    return meses_int, dias_int

duracion_churn_meses, duracion_churn_dias = convertir_a_meses_dias(duracion_promedio_churn_meses)
duracion_no_churn_meses, duracion_no_churn_dias = convertir_a_meses_dias(duracion_promedio_no_churn_meses)

print(f"Duración promedio de cuenta (desertaron): {duracion_churn_meses} meses y {duracion_churn_dias} días")
print(f"Duración promedio de cuenta (permanecen): {duracion_no_churn_meses} meses y {duracion_no_churn_dias} días")

Duración promedio de cuenta (desertaron): 102 meses y 20 días
Duración promedio de cuenta (permanecen): 100 meses y 24 días


In [97]:
# Crear grupos de antigüedad
df['antiguedad_grupo'] = pd.cut(df['account length'], bins=[0, 50, 100, float('inf')], labels=['< 50', '50-100', '> 100'])

# Calcular estadísticas por grupo
resultados = df.groupby('antiguedad_grupo', observed=True).agg({
    'churn': ['mean', 'sum', 'count']  # Incluimos la suma de 'churn'
})

# Renombrar columnas
resultados.columns = ['tasa_desercion', 'cantidad_desercion', 'cantidad_clientes']

# Calcular porcentaje de deserción
resultados['tasa_desercion'] = resultados['tasa_desercion'] * 100

# Encontrar el grupo con la mayor tasa de deserción
grupo_max_desercion = resultados['tasa_desercion'].idxmax()
tasa_max_desercion = resultados['tasa_desercion'].max()

# Imprimir resultados de forma clara
print("\nResultados por grupo de antigüedad:")
print(resultados)

print(f"\nEl grupo con la mayor tasa de deserción es: {grupo_max_desercion} ({tasa_max_desercion:.2f}%)")

# Respuesta a la pregunta
if resultados.index.get_loc(grupo_max_desercion) > resultados.index.get_loc('< 50'):
    print("\nLos clientes con cuentas más antiguas tienen más probabilidades de desertar.")
else:
    print("\nLos clientes con cuentas más antiguas NO tienen más probabilidades de desertar.")


Resultados por grupo de antigüedad:
                  tasa_desercion  cantidad_desercion  cantidad_clientes
antiguedad_grupo                                                       
< 50                   12.903226                  44                341
50-100                 14.361300                 190               1323
> 100                  14.919113                 249               1669

El grupo con la mayor tasa de deserción es: > 100 (14.92%)

Los clientes con cuentas más antiguas tienen más probabilidades de desertar.


**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [98]:
# Función para realizar el análisis y la comparación
def analizar_llamadas(df, tipo_llamada):
    if tipo_llamada == 'diurnas':
        minutos_col = 'total day minutes'
        llamadas_col = 'total day calls'
    elif tipo_llamada == 'nocturnas':
        minutos_col = 'total night minutes'
        llamadas_col = 'total night calls'
    elif tipo_llamada == 'internacionales':
      minutos_col = 'total intl minutes'
      llamadas_col = 'total intl calls'
    else:
        return  # No se analiza si no es un tipo válido

    print(f"\nAnálisis de llamadas {tipo_llamada}:")
    print(df.groupby('churn').agg({minutos_col: ['mean', 'median'], llamadas_col: ['mean', 'median']}))

    media_minutos_churn = df[df['churn'] == 1][minutos_col].mean()
    media_minutos_no_churn = df[df['churn'] == 0][minutos_col].mean()

    if media_minutos_churn > media_minutos_no_churn:
        print(f"\nEn promedio, los clientes que desertan usan más minutos en llamadas {tipo_llamada}.")
    else:
        print(f"\nEn promedio, los clientes que desertan no usan más minutos en llamadas {tipo_llamada}.")

    media_llamadas_churn = df[df['churn'] == 1][llamadas_col].mean()
    media_llamadas_no_churn = df[df['churn'] == 0][llamadas_col].mean()

    if media_llamadas_churn > media_llamadas_no_churn:
        print(f"\nEn promedio, los clientes que desertan realizan más llamadas {tipo_llamada}.")
    else:
        print(f"\nEn promedio, los clientes que desertan no realizan más llamadas {tipo_llamada}.")


# Análisis de llamadas diurnas
analizar_llamadas(df, 'diurnas')

# Análisis de llamadas nocturnas
analizar_llamadas(df, 'nocturnas')

# Análisis de llamadas internacionales
analizar_llamadas(df, 'internacionales')

# Análisis del número total de llamadas (combinando diurnas y nocturnas)
df['total calls'] = df['total day calls'] + df['total night calls'] + df['total intl calls']
analizar_llamadas(df, 'totales')  # Llamamos a la función con el tipo 'totales'


Análisis de llamadas diurnas:
      total day minutes        total day calls       
                   mean median            mean median
churn                                                
False        175.175754  177.2      100.283158  100.0
True         206.914079  217.6      101.335404  103.0

En promedio, los clientes que desertan usan más minutos en llamadas diurnas.

En promedio, los clientes que desertan realizan más llamadas diurnas.

Análisis de llamadas nocturnas:
      total night minutes         total night calls       
                     mean  median              mean median
churn                                                     
False          200.133193  200.25        100.058246  100.0
True           205.231677  204.80        100.399586  100.0

En promedio, los clientes que desertan usan más minutos en llamadas nocturnas.

En promedio, los clientes que desertan realizan más llamadas nocturnas.

Análisis de llamadas internacionales:
      total intl minutes      

In [99]:
# Función para analizar un tipo de llamada
def analizar_llamadas(df, tipo_llamada):
    minutos_col = f'total {tipo_llamada} minutes'
    llamadas_col = f'total {tipo_llamada} calls'

    print(f"\nAnálisis de llamadas {tipo_llamada}:")
    resultados = df.groupby('churn').agg({minutos_col: ['sum'], llamadas_col: ['sum']})

    # Formatear números con separadores de miles
    for col in resultados.columns:
        resultados[col] = resultados[col].apply(lambda x: "{:,}".format(x))

    print(resultados)

    # Comparación de la suma de minutos
    suma_minutos_churn = df[df['churn'] == 1][minutos_col].sum()
    suma_minutos_no_churn = df[df['churn'] == 0][minutos_col].sum()

    if suma_minutos_churn > suma_minutos_no_churn:
        print(f"\nEn total, los clientes que desertan usan más minutos en llamadas {tipo_llamada}.")
    else:
        print(f"\nEn total, los clientes que desertan no usan más minutos en llamadas {tipo_llamada}.")

    # Comparación de la suma de llamadas
    suma_llamadas_churn = df[df['churn'] == 1][llamadas_col].sum()
    suma_llamadas_no_churn = df[df['churn'] == 0][llamadas_col].sum()

    if suma_llamadas_churn > suma_llamadas_no_churn:
        print(f"\nEn total, los clientes que desertan realizan más llamadas {tipo_llamada}.")
    else:
        print(f"\nEn total, los clientes que desertan no realizan más llamadas {tipo_llamada}.")

# Análisis por tipo de llamada
tipos_llamada = ['day', 'eve', 'night', 'intl']
for tipo in tipos_llamada:
    analizar_llamadas(df, tipo)

# Análisis global
print("\nAnálisis global de llamadas:")
df['total_minutes'] = df['total day minutes'] + df['total eve minutes'] + df['total night minutes'] + df['total intl minutes']
df['total_calls'] = df['total day calls'] + df['total eve calls'] + df['total night calls'] + df['total intl calls']

resultados_globales = df.groupby('churn').agg({'total_minutes': ['sum'], 'total_calls': ['sum']})

# Formatear números con separadores de miles
for col in resultados_globales.columns:
    resultados_globales[col] = resultados_globales[col].apply(lambda x: "{:,}".format(x))

print(resultados_globales)

# Comparación global de la suma de minutos
suma_minutos_churn = df[df['churn'] == 1]['total_minutes'].sum()
suma_minutos_no_churn = df[df['churn'] == 0]['total_minutes'].sum()

if suma_minutos_churn > suma_minutos_no_churn:
    print("\nEn total, los clientes que desertan usan más minutos en total.")
else:
    print("\nEn total, los clientes que desertan no usan más minutos en total.")

# Comparación global de la suma de llamadas
suma_llamadas_churn = df[df['churn'] == 1]['total_calls'].sum()
suma_llamadas_no_churn = df[df['churn'] == 0]['total_calls'].sum()

if suma_llamadas_churn > suma_llamadas_no_churn:
    print("\nEn total, los clientes que desertan realizan más llamadas en total.")
else:
    print("\nEn total, los clientes que desertan no realizan más llamadas en total.")


Análisis de llamadas day:
      total day minutes total day calls
                    sum             sum
churn                                  
False         499,250.9         285,807
True           99,939.5          48,945

En total, los clientes que desertan no usan más minutos en llamadas day.

En total, los clientes que desertan no realizan más llamadas day.

Análisis de llamadas eve:
      total eve minutes total eve calls
                    sum             sum
churn                                  
False         567,273.4         285,110
True          102,594.1          48,571

En total, los clientes que desertan no usan más minutos en llamadas eve.

En total, los clientes que desertan no realizan más llamadas eve.

Análisis de llamadas night:
      total night minutes total night calls
                      sum               sum
churn                                      
False           570,379.6           285,166
True             99,126.9            48,493

En total, los 

**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [100]:
# Solución propuesta
# Calcular el número promedio de llamadas al servicio al cliente
print("\nPromedio de llamadas al servicio al cliente:")
print(df.groupby('churn')['customer service calls'].mean())

# Dividir a los clientes en grupos según la cantidad de llamadas
df['grupo_llamadas'] = pd.cut(df['customer service calls'], bins=[-1, 3, float('inf')], labels=['Grupo 1 (3 o menos)', 'Grupo 2 (Más de 3)'])

# Calcular la tasa de churn en cada grupo (CORRECCIÓN: observed=True)
tasa_churn_por_grupo = df.groupby('grupo_llamadas', observed=True)['churn'].mean() * 100
print("\nTasa de churn por grupo de llamadas:")
print(tasa_churn_por_grupo)

# Comparar la tasa de churn entre los grupos
print("\nComparación de la tasa de churn:")
if tasa_churn_por_grupo['Grupo 2 (Más de 3)'] > tasa_churn_por_grupo['Grupo 1 (3 o menos)']:
    print("Los clientes en el Grupo 2 (Más de 3 llamadas) tienen una mayor tasa de churn.")
else:
    print("Los clientes en el Grupo 1 (3 o menos llamadas) tienen una mayor tasa de churn.")


Promedio de llamadas al servicio al cliente:
churn
False    1.449825
True     2.229814
Name: customer service calls, dtype: float64

Tasa de churn por grupo de llamadas:
grupo_llamadas
Grupo 1 (3 o menos)    11.252446
Grupo 2 (Más de 3)     51.685393
Name: churn, dtype: float64

Comparación de la tasa de churn:
Los clientes en el Grupo 2 (Más de 3 llamadas) tienen una mayor tasa de churn.


**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [102]:
# Solución propuesta

import numpy as np

# Función para analizar un tipo de llamada (costo)
def analizar_costo_llamadas(df, tipo_llamada):
    costo_col = f'total {tipo_llamada} charge'

    print(f"\nAnálisis del costo de llamadas {tipo_llamada}:")
    resultados = df.groupby('churn').agg({costo_col: ['mean', 'median', 'sum']})

    # Formatear como moneda
    for col in resultados.columns:
        resultados[col] = resultados[col].apply(lambda x: "${:,.2f}".format(x))

    print(resultados)

    # Comparación del costo total (con formato)
    costo_churn = df[df['churn'] == 1][costo_col].sum()
    costo_no_churn = df[df['churn'] == 0][costo_col].sum()

    print(f"Costo total llamadas {tipo_llamada} (desercion): ${costo_churn:,.2f}")
    print(f"Costo total llamadas {tipo_llamada} (no desercion): ${costo_no_churn:,.2f}")

    if costo_churn > costo_no_churn:
        print(f"\nEn total, los clientes que desertan tienen un mayor costo de llamadas {tipo_llamada}.")
    else:
        print(f"\nEn total, los clientes que desertan no tienen un mayor costo de llamadas {tipo_llamada}.")

# Análisis del costo de llamadas diurnas
analizar_costo_llamadas(df, 'day')

# Análisis del costo de llamadas nocturnas
analizar_costo_llamadas(df, 'night')

# Análisis del costo de llamadas internacionales
analizar_costo_llamadas(df, 'intl')

# Análisis de la relación entre el gasto en llamadas internacionales y la deserción
print("\nAnálisis de la relación entre el gasto en llamadas internacionales y la deserción:")

# Dividir a los clientes en grupos según el gasto en llamadas internacionales
# Asegurarse de que los límites incluyan todos los valores posibles
min_gasto = df['total intl charge'].min()
max_gasto = df['total intl charge'].max()

bins = np.linspace(min_gasto, max_gasto, 4)  # 4 porque queremos 3 intervalos (Bajo, Medio, Alto)
df['grupo_gasto_internacional'] = pd.cut(df['total intl charge'], bins=bins, labels=['Bajo', 'Medio', 'Alto'],
                                         include_lowest=True)

# Calcular la tasa de churn en cada grupo
tasa_churn_por_gasto = df.groupby('grupo_gasto_internacional', observed=True)['churn'].mean() * 100

# Formatear como porcentaje
tasa_churn_por_gasto = tasa_churn_por_gasto.apply(lambda x: "{:.2f}%".format(x))

print("\nTasa de churn por grupo de gasto internacional:")
print(tasa_churn_por_gasto)

# Comparar la tasa de churn entre los grupos
# Manejar el caso de que no haya grupo "Alto"
if 'Alto' in tasa_churn_por_gasto and 'Medio' in tasa_churn_por_gasto and 'Bajo' in tasa_churn_por_gasto:
    if tasa_churn_por_gasto['Alto'] > tasa_churn_por_gasto['Medio'] and tasa_churn_por_gasto['Medio'] > tasa_churn_por_gasto['Bajo']:
        print("Los clientes con mayor gasto en llamadas internacionales tienen más probabilidades de desertar.")
    else:
        print("No hay una relación clara entre el gasto en llamadas internacionales y la deserción.")
else:
    print("No hay suficientes grupos para determinar una relación clara.")


Análisis del costo de llamadas day:
      total day charge                    
                  mean  median         sum
churn                                     
False           $29.78  $30.12  $84,874.20
True            $35.18  $36.99  $16,989.97
Costo total llamadas day (desercion): $16,989.97
Costo total llamadas day (no desercion): $84,874.20

En total, los clientes que desertan no tienen un mayor costo de llamadas day.

Análisis del costo de llamadas night:
      total night charge                   
                    mean median         sum
churn                                      
False              $9.01  $9.01  $25,667.31
True               $9.24  $9.22   $4,460.76
Costo total llamadas night (desercion): $4,460.76
Costo total llamadas night (no desercion): $25,667.31

En total, los clientes que desertan no tienen un mayor costo de llamadas night.

Análisis del costo de llamadas intl:
      total intl charge                  
                   mean median        sum
ch