## **Grupo 13: Madeleine Gil / Cristian Camilo Amezquita Bravo**

# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [2]:
# Solución propuesta

# Importar libreria Pandas
import pandas as pd

# Cargar base de datos de 'churn'
data_churn = pd.read_csv('telecom_churn.csv')

# Ver las primeras 5 observaciones de la data
print(data_churn.head())

  state  account length  area code phone number international plan  \
0    KS             128        415     382-4657                 no   
1    OH             107        415     371-7191                 no   
2    NJ             137        415     358-1921                 no   
3    OH              84        408     375-9999                yes   
4    OK              75        415     330-6626                yes   

  voice mail plan  number vmail messages  total day minutes  total day calls  \
0             yes                     25              265.1              110   
1             yes                     26              161.6              123   
2              no                      0              243.4              114   
3              no                      0              299.4               71   
4              no                      0              166.7              113   

   total day charge  ...  total eve calls  total eve charge  \
0             45.07  ...           

In [3]:
# Ver la dimension de la base de datos
print('Dimension de la base de datos:', data_churn.shape) #** Se observa que el daset tiene 3.333 filas y 21 columnas

Dimension de la base de datos: (3333, 21)


In [4]:
# Mostrar informacion del tipo de variables y su cantidad de valores nulos
data_churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account length          3333 non-null   int64  
 2   area code               3333 non-null   int64  
 3   phone number            3333 non-null   object 
 4   international plan      3333 non-null   object 
 5   voice mail plan         3333 non-null   object 
 6   number vmail messages   3333 non-null   int64  
 7   total day minutes       3333 non-null   float64
 8   total day calls         3333 non-null   int64  
 9   total day charge        3333 non-null   float64
 10  total eve minutes       3333 non-null   float64
 11  total eve calls         3333 non-null   int64  
 12  total eve charge        3333 non-null   float64
 13  total night minutes     3333 non-null   float64
 14  total night calls       3333 non-null   

Se observa que no hay valores nulos en ninguna de las variables. 
Existen variables de tipo numerico y la variable objetivo es tipo boleano. Asimismo hay variables categoricas de tipo objeto.

**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [5]:
# Solución propuesta

# Calcular la distribucion de clientes y ex clientes en la data
print('Porcentaje de clientes activos y desertados:')
print(data_churn['churn'].value_counts(normalize = True) * 100)
print('')


# Calcular la distribucion de clientes y ex clientes por planes con servicio internacional
print('Porcentaje de clientes activos y desertados de acuerdo con si tienen plan internacional o no:')
print(data_churn.groupby('international plan')['churn'].value_counts(normalize = True) * 100)
print('')


# Calcular la distribucion de clientes y ex clientes por planes con servicio de correo de voz
print('Porcentaje de clientes activos y desertados de acuerdo con si tienen plan internacional o no:')
print(data_churn.groupby('voice mail plan')['churn'].value_counts(normalize = True) * 100)


Porcentaje de clientes activos y desertados:
churn
False    85.508551
True     14.491449
Name: proportion, dtype: float64

Porcentaje de clientes activos y desertados de acuerdo con si tienen plan internacional o no:
international plan  churn
no                  False    88.504983
                    True     11.495017
yes                 False    57.585139
                    True     42.414861
Name: proportion, dtype: float64

Porcentaje de clientes activos y desertados de acuerdo con si tienen plan internacional o no:
voice mail plan  churn
no               False    83.284944
                 True     16.715056
yes              False    91.323210
                 True      8.676790
Name: proportion, dtype: float64


En primer lugar, se observa que el 14,49% de los usuarios de la empresa desertaron.

Luego, se evidencia que la tasa de deserción de clientes es mayor en planes que contaban con servicio internacional donde la tasa de deserción ternacional es del 42% vs 11% en los planes que no lo contaban.

Por otro lado, se encuentra que la tasa de desersion de clientes es mayor en planes que NO contaban con servicio de correo de voz. La tasa desersion en planes con servicio de correo de voz es del 8% vs 16% en los planes que no lo contaban.

**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

In [6]:
# Solución propuesta

# Calcular la duracion promedio de la cuenta de clientes y ex clientes
print('Duracion promedio de la cuenta clientes activos y desertados:')
print(data_churn.groupby('churn')['account length'].mean())

Duracion promedio de la cuenta clientes activos y desertados:
churn
False    100.793684
True     102.664596
Name: account length, dtype: float64


Se observa que la desersion de clientes es mayor en cuentas con mayor tiempo, sin embargo los promedios son similares y puede que la diferencia no resulte significativa.


**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [7]:
# Solución propuesta

# Dado que la data es altamente desbalanceada, es decir, hay mas clientes que ex clientes, es mas concordante ver la cantidad media de minutos y no la cantidad total
# Calcular la el promedio de minutos usados en llamadas diurnas, nocturnas y totales en clientes y ex clientes
print('Cantidad promedio de minutos usados en llamadas diurnas, nocturnas y totales por clientes y desertados:')
print(data_churn.groupby('churn').agg(
    minutos_diurnos = ('total day minutes', 'mean'),
    minutos_nocturnos = ('total night minutes', 'mean'),
    minutos_total = ('total day calls', 'mean')))

Cantidad promedio de minutos usados en llamadas diurnas, nocturnas y totales por clientes y desertados:
       minutos_diurnos  minutos_nocturnos  minutos_total
churn                                                   
False       175.175754         200.133193     100.283158
True        206.914079         205.231677     101.335404


Se observa que, en general, es decir, en cantidad promedio de minutos diurnos, nocturnos y totales, la cantidad de minutos promedio usados por los clientes dados de baja es mayor a la cantidad media de clientes activos.


**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [10]:
# Solución propuesta

# Crear un dataframe nuevo, en este caso solo seleccionare las variables de interes: 'customer service calls' y 'churn'
data_service = data_churn[['customer service calls', 'churn']]

# Crear la nueva variable con los grupos de acuerdo al numero de veces que la cuenta se ha comunicado con servicio al cliente
data_service['customer_serv_3_more'] = data_service['customer service calls'].apply(lambda x: 'Grupo 1' if x > 3 else 'Grupo 2')
    # apply permite aplicar una función perzonalizada a cada valor de la columna. 
    # lambda es una función que evalua cada valor 'x' en la columna sin necesidad de definirla previamente.

# Calcular la tasa de desercion de acuerdo a cada grupo
print('Distribucion de clientes activos y dados de baja respecto a si se contacta mas de 3 veces o menos:')
print(data_service.groupby('customer_serv_3_more')['churn'].value_counts(normalize = True) * 100)

Distribucion de clientes activos y dados de baja respecto a si se contacta mas de 3 veces o menos:
customer_serv_3_more  churn
Grupo 1               True     51.685393
                      False    48.314607
Grupo 2               False    88.747554
                      True     11.252446
Name: proportion, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_service['customer_serv_3_more'] = data_service['customer service calls'].apply(lambda x: 'Grupo 1' if x > 3 else 'Grupo 2')


Se observa que, efectivamente, el grupo 1, que corresponde a los clientes que se comunicaron mas de 3 veces con servicio al cliente, tienen una mayor tasa de desercion.

**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [9]:
# Solución propuesta

# Teniendo en cuenta el desbalance, es mas coherente ver el costo media de de llamadas
# Calcular el costo medio de llamadas diurnas, nocturnas e internacionales en clientes y ex clientes
print('Costo promedio de llamadas diurnas, nocturnas e internacionales por clientes y dados de baja:')
print(data_churn.groupby('churn').agg(
    costo_diurnos = ('total day charge', 'mean'),
    costo_nocturnos = ('total night charge', 'mean'),
    costo_total = ('total intl charge', 'mean')))

Costo promedio de llamadas diurnas, nocturnas e internacionales por clientes y dados de baja:
       costo_diurnos  costo_nocturnos  costo_total
churn                                             
False      29.780421         9.006074     2.743404
True       35.175921         9.235528     2.889545


Se observa que en cada rubro el costo promedio en llamadas en los clientes dados de baja es mayor en comparacion con los clientes activos, aunque la mayor diferencia se encuentra en el costo diurno. El costo nocturno y total son similares.
