# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [18]:
# Solución propuesta

#Importar pandas
import pandas as pd

#Cargar el dataset a un dataframe
df = pd.read_csv('telecom_churn.csv')
df.head()


Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,...,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


In [19]:
#Mostrar el número de filas y columnas
print('El dataframe tiene', df.shape[0], 'filas', 'y', df.shape[1], 'columnas')


El dataframe tiene 3333 filas y 21 columnas


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account length          3333 non-null   int64  
 2   area code               3333 non-null   int64  
 3   phone number            3333 non-null   object 
 4   international plan      3333 non-null   object 
 5   voice mail plan         3333 non-null   object 
 6   number vmail messages   3333 non-null   int64  
 7   total day minutes       3333 non-null   float64
 8   total day calls         3333 non-null   int64  
 9   total day charge        3333 non-null   float64
 10  total eve minutes       3333 non-null   float64
 11  total eve calls         3333 non-null   int64  
 12  total eve charge        3333 non-null   float64
 13  total night minutes     3333 non-null   float64
 14  total night calls       3333 non-null   

Se identifican los diferentes tipos de datos para cada una de las columnas, no se identifican datos nulos.

**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [21]:
# Solución propuesta

#Porcentaje de clientes que desertaron


desertados = df[df["churn"] == 1].shape[0]

porcentaje = desertados/df.shape[0]*100
print('El porcentaje de clientes que desertaron es de', round(porcentaje, 2), '%')

El porcentaje de clientes que desertaron es de 14.49 %


In [22]:


#Calculamos la tasa de deserción de los clientes con plan internacional
con_plan_internacional = df[df["international plan"] == "yes"].shape[0]
con_plan_desertado = df[(df["international plan"] == "yes") & (df["churn"] == 1)].shape[0]
porcentaje_con_plan_desertado= con_plan_desertado/con_plan_internacional*100

print('El porcentaje de clientes con plan internacional que desertaron es de', round(porcentaje_con_plan_desertado, 2), '%')


#Calculamos la tasa de deserción de los clientes sin plan internacional
sin_plan_internacional = df[df["international plan"] == "no"].shape[0]
sin_plan_desertado= df[(df["international plan"] == "no") & (df["churn"] == 1)].shape[0]
porcentaje_sin_plan_desertado= sin_plan_desertado/sin_plan_internacional*100

print('El porcentaje de clientes sin plan internacional que desertaron es de', round(porcentaje_sin_plan_desertado, 2), '%')





El porcentaje de clientes con plan internacional que desertaron es de 42.41 %
El porcentaje de clientes sin plan internacional que desertaron es de 11.5 %


Los clientes con plan internacional tienen una tasa de deserción del 42.4%, esto representa casi el doble de la la tasa de deserción de los clientes sin plan internacional, que fue del 11.5%

In [23]:
#Calculamos el porcentaje de deserción de los clientes con vaice mail plan
con_buzon = df[df["voice mail plan"] == "yes"].shape[0]
con_buzon_desertado = df[(df["voice mail plan"] == "yes") & (df["churn"] == 1)].shape[0]
porcentaje_con_buzon_desertado= con_buzon_desertado/con_buzon*100
print('El porcentaje de clientes con buzón de voz que desertaron es de', round(porcentaje_con_buzon_desertado, 2), '%')

#Calculamos el porcentaje de deserción de los clientes sin voice mail plan
sin_buzon = df[df["voice mail plan"] == "no"].shape[0]
sin_buzon_desertado = df[(df["voice mail plan"] == "no") & (df["churn"] == 1)].shape[0]
porcentaje_sin_buzon_desertado= sin_buzon_desertado/sin_buzon*10
print('El porcentaje de clientes sin buzón de voz que desertaron es de', round(porcentaje_sin_buzon_desertado, 2), '%')

El porcentaje de clientes con buzón de voz que desertaron es de 8.68 %
El porcentaje de clientes sin buzón de voz que desertaron es de 1.67 %


la tasa de deserción de clientes con buzón de voz, es mayor a la tasa de deserción de los clientes que no tienen servicio de buzón de voz.

**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

In [24]:
# Solución propuesta

#Duración promedio de la cuenta de los clientes que desertaron y los que no desertaron
promedio_desertados = df[df["churn"] == 1]["account length"].mean()
promedio_no_desertados = df[df["churn"] == 0]["account length"].mean()

print('La duración promedio de la cuenta de los clientes que desertaron es de', round(promedio_desertados, 2))
print('La duración promedio de la cuenta de los clientes que no desertaron es de', round(promedio_no_desertados, 2))

La duración promedio de la cuenta de los clientes que desertaron es de 102.66
La duración promedio de la cuenta de los clientes que no desertaron es de 100.79


Se evidencia una ligera diferencia en los promedios, que podría indicar que los clientes que cuentas más antiguas tienen mas probabilidad de desertar, pero no es una diferencia significativa, por lo que no es relevante.

**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [25]:
# Solución propuesta
#Calcular la media de minutos usados durante la mañana en el grupo de clientes que ha desertado y los que no
day_minutes_desertados = df[df["churn"] == 1]["total day minutes"].mean()
day_minutes_no_desertados = df[df["churn"] == 0]["total day minutes"].mean()

print('La cantidad de minutos usados en llamadas diurnas entre los clientes que desertaron es de', round(day_minutes_desertados, 2))
print('La cantidad de minutos usados en llamadas diurnas entre los clientes que no desertaron es de', round(day_minutes_no_desertados, 2))



La cantidad de minutos usados en llamadas diurnas entre los clientes que desertaron es de 206.91
La cantidad de minutos usados en llamadas diurnas entre los clientes que no desertaron es de 175.18


In [26]:

#Calcular la media de minutos usados durante la noche
night_minutes_desertados = df[df["churn"] == 1]["total night minutes"].mean()
night_minutes_no_desertados = df[df["churn"] == 0]["total night minutes"].mean()

print('La cantidad de minutos usados en llamadas nocturnas entre los clientes que desertaron es de', round(night_minutes_desertados, 2))
print('La cantidad de minutos usados en llamadas nocturnas entre los clientes que no desertaron es de', round(night_minutes_no_desertados, 2))


La cantidad de minutos usados en llamadas nocturnas entre los clientes que desertaron es de 205.23
La cantidad de minutos usados en llamadas nocturnas entre los clientes que no desertaron es de 200.13


In [27]:
#Calcular la media del total de llamadas
total_day_calls_desertados = df[df["churn"] == 1]["total day calls"].mean()
total_day_calls_no_desertados = df[df["churn"] == 0]["total day calls"].mean()

print('El número de llamadas en total usadas  entre los clientes que desertaron es de', round(total_day_calls_desertados, 2))
print('El número de llamadas en total usadas entre los clientes que no desertaron es de', round(total_day_calls_no_desertados, 2))

El número de llamadas en total usadas  entre los clientes que desertaron es de 101.34
El número de llamadas en total usadas entre los clientes que no desertaron es de 100.28


los minutos usados en la noche y el número total de llamadas usadas, tienen una media muy parecida para las personas que desertaron de sus planes y los que no. Con respecto al total de minutos usados en llamadas diurnas, se observa una pequeña diferencia en las medias, las personas que desertaron tienen una media mas alta.

**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [28]:
# Solución propuesta

#Se calcula el promedio de llamadas al servicio al cliente de los que desertaron y los que no.
promedio_desertados = df[df["churn"] == 1]["customer service calls"].mean()
promedio_no_desertados = df[df["churn"] == 0]["customer service calls"].mean()

print('El número promedio de llamadas al servicio al cliente entre los clientes que desertaron es de', round(promedio_desertados, 2))
print('El número promedio de llamadas al servicio al cliente entre los clientes que no desertaron es de', round(promedio_no_desertados, 2))

El número promedio de llamadas al servicio al cliente entre los clientes que desertaron es de 2.23
El número promedio de llamadas al servicio al cliente entre los clientes que no desertaron es de 1.45


In [29]:
#Se divide el set de datos en los dos grupos descritos anteriormente

grupo1 = df[df["customer service calls"] > 3]
grupo2 = df[df["customer service calls"] <= 3]

#Se calcula tasa de deserción del grupo 1

tasa_1 = grupo1[grupo1["churn"] == 1].shape[0]/grupo1.shape[0]*100
print('La tasa de deserción del grupo 1 es de', round(tasa_1, 2), '%')

#se calcula la tasa de deserción del grupo 2

tasa_2 = grupo2[grupo2["churn"] == 1].shape[0]/grupo2.shape[0]*100
print('La tasa de deserción del grupo 2 es de', round(tasa_2, 2), '%')

La tasa de deserción del grupo 1 es de 51.69 %
La tasa de deserción del grupo 2 es de 11.25 %


Se puede evidenciar que la tasa de deserción de las personas que llamaron más de 3 veces al servicio al cliente es significativamente más alta con respecto a la tasa de deserción de las personas que solo llamaron hasta 3 veces.

**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [30]:
# Solución propuesta

#Se calcula el costo total de llamadas diurnas entre clientes que desertaron y los que no
costo_total_day_charge_desertados = df[df["churn"] == 1]["total day charge"].mean()
costo_total_day_charge_no_desertados = df[df["churn"] == 0]["total day charge"].mean()

print('El costo total de llamadas diurnas entre los clientes que desertaron es de', round(costo_total_day_charge_desertados, 2))
print('El costo total de llamadas diurnas entre los clientes que no desertaron es de', round(costo_total_day_charge_no_desertados, 2))



El costo total de llamadas diurnas entre los clientes que desertaron es de 35.18
El costo total de llamadas diurnas entre los clientes que no desertaron es de 29.78


Se evidencia una media mas alta del costo total de llamadas diurnas para las personas que desertaron de sus planes.

In [31]:
#Se calcula el costo total de llamadas nocturnas entr clientes que desertaron y los que no

costo_total_night_charge_desertados = df[df["churn"] == 1]["total night charge"].mean()
costo_total_night_charge_no_desertados = df[df["churn"] == 0]["total night charge"].mean()

print('El costo total de llamadas nocturnas entre los clientes que desertaron es de', round(costo_total_night_charge_desertados, 2))
print('El costo total de llamadas nocturnas entre los clientes que no desertaron es de', round(costo_total_night_charge_no_desertados, 2))


El costo total de llamadas nocturnas entre los clientes que desertaron es de 9.24
El costo total de llamadas nocturnas entre los clientes que no desertaron es de 9.01


No se evidencia una diferencia significativa del costo total de llamadas nocturnas, a diferencia de las llamadas diurnas.

In [32]:
#Se calcula el gasto total en llamadas internacionales de los clientes que desertaron y los que no, para compararlos.

costo_total_intl_charge_desertados = df[df["churn"] == 1]["total intl charge"].mean()
print('El costo total de llamadas internacionales entre los clientes que desertaron es de', round(costo_total_intl_charge_desertados, 2))

costo_total_intl_charge_no_desertados = df[df["churn"] == 0]["total intl charge"].mean()
print('El costo total de llamadas internacionales entre los clientes que no desertaron es de', round(costo_total_intl_charge_no_desertados, 2))

El costo total de llamadas internacionales entre los clientes que desertaron es de 2.89
El costo total de llamadas internacionales entre los clientes que no desertaron es de 2.74


se evidencia que la media de costo total por llamadas internacionales es mayor para las personas que desertaron con respecto a las que no desertaron, pero no es una diferencia muy significativa.