<a href="https://colab.research.google.com/github/ivandquevedoc/Guia2ProgCienciaDatos/blob/main/Guia_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Programación para la Ciencia de Datos**
# **Grupo 14**
# Giovanny Castillo Castillo   gcastil58420
# Ivan Dario Quevedo Contreras iqueved26072

# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [None]:
# Solución propuesta
import os.path as path
import pandas as pd
import numpy as np

# Nombre por defecto del file csv del dataset a trabajar
DEFAULT_DATASET_FILENAME = "telecom_churn.csv"

# Variables que representan a los emojis
EMOJI_PROHIBITED = "\U0001F6AB"
EMOJI_SMAILING_HEART_EYES = "\U0001F60D"
EMOJI_CRYING = "\U0001F62D"
EMOJI_DOCUMENT = "\U0001F4C3"
EMOJI_LOCATION = "\U0001F4CD"
EMOJI_SAD = "\U0001F613"
EMOJI_GOODBYE = "\U0001FAC2"

# Funcion de cargue de dataFrame
def getDataFrame(fileName):
  return pd.read_csv(fileName, sep=',', index_col=False, dtype='unicode', low_memory=False)

# Función que localiza el data set en el sistema de archivos indicado por el usuario
def localizedDataSet():

  # Solicitud del nombre del archivo csv dataset
  print(f"Por favor ingrese nombre del dataSet (csv)")
  dataSetFileName = input(f"Para \"Telecom Churn\", (for default press enter {DEFAULT_DATASET_FILENAME})->> ").strip()

  # Validación de ingreso del nombre del archivo
  if len(dataSetFileName) == 0:
    dataSetFileName = DEFAULT_DATASET_FILENAME
    print(f"Se buscará por defecto {dataSetFileName}")
  else:
    print(f"Se buscará el dataSet {dataSetFileName}")

  # Validación de la localización del archivo en el sistema de archivos
  existe = True
  if path.isfile(dataSetFileName):
    print(f"El dataSet indicado {dataSetFileName}, fue localizado {EMOJI_SMAILING_HEART_EYES}{EMOJI_SMAILING_HEART_EYES}")
  else:
    existe = False
    print(f"El dataSet indicado {dataSetFileName}, NO fue localizado {EMOJI_CRYING}!!!")

  # Mensaje en caso de que no tenga un nombre o inlocalizable
  if not existe:
    print(f"Por favor verifique nombre y/o ubicación del dataSet {EMOJI_DOCUMENT}{EMOJI_LOCATION}")
    print(f"Por ahora NO es posible continuar {EMOJI_SAD} bye {EMOJI_GOODBYE}")

  return existe, dataSetFileName # Retorna si existe el data set en la ruta indicada

# Cargando el dataSet si existe
dataFrame = None
data_set_located, data_set_file_name = localizedDataSet()
if data_set_located:
  dataFrame = getDataFrame(data_set_file_name)
else:
  # Si no existe vuelve a preguntar por la ubicación del dataset
  while not data_set_located:
    data_set_located = localizedDataSet()

Por favor ingrese nombre del dataSet (csv)
Para "Telecom Churn", (for default press enter telecom_churn.csv)->> 
Se buscará por defecto telecom_churn.csv
El dataSet indicado telecom_churn.csv, fue localizado 😍😍


In [None]:
# Muestra las primeras 5 filas del DataFrame.
if dataFrame is not None:
  print("Muestra las primeras 5 filas del DataFrame")
  display(dataFrame.head())

Muestra las primeras 5 filas del DataFrame


Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,...,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


In [None]:
# Verifica cuántas filas y columnas tiene el dataset.
print("Verifica cuántas filas y columnas tiene el dataset")
print(dataFrame.shape)
filas, columnas = dataFrame.shape
print(f"El dataset tiene {filas} filas y {columnas} columnas")

Verifica cuántas filas y columnas tiene el dataset
(3333, 21)
El dataset tiene 3333 filas y 21 columnas


In [None]:
# Se retiran cambios de linea, retornos y tabulaciones que puedan existir dentro de los datos
dataFrame = dataFrame.replace(r'\r+|\n+|\t+','', regex=True)

In [None]:
# Muestra información general del dataset, incluyendo los tipos de datos.
print("Muestra información general del dataset, incluyendo los tipos de datos")
print(dataFrame.info())

Muestra información general del dataset, incluyendo los tipos de datos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   state                   3333 non-null   object
 1   account length          3333 non-null   object
 2   area code               3333 non-null   object
 3   phone number            3333 non-null   object
 4   international plan      3333 non-null   object
 5   voice mail plan         3333 non-null   object
 6   number vmail messages   3333 non-null   object
 7   total day minutes       3333 non-null   object
 8   total day calls         3333 non-null   object
 9   total day charge        3333 non-null   object
 10  total eve minutes       3333 non-null   object
 11  total eve calls         3333 non-null   object
 12  total eve charge        3333 non-null   object
 13  total night minutes     3333 non-null

Todos los valores están cargados como texto y no hay presencia de valores nulos.

In [None]:
# Se realiza renombrado de columnas para una mejor legibilidad
dataFrame.rename(columns={'account length': 'account_length',
                          'area code': 'area_code',
                          'phone number': 'phone_number',
                          'international plan': 'international_plan',
                          'voice mail plan': 'voice_mail_plan',
                          'number vmail messages': 'number_vmail_messages',
                          'total day minutes': 'total_day_minutes',
                          'total day calls': 'total_day_calls',
                          'total day charge': 'total_day_charge',
                          'total eve minutes': 'total_eve_minutes',
                          'total eve calls': 'total_eve_calls',
                          'total eve charge': 'total_eve_charge',
                          'total night minutes': 'total_night_minutes',
                          'total night calls': 'total_night_calls',
                          'total night charge': 'total_night_charge',
                          'total intl minutes': 'total_intl_minutes',
                          'total intl calls': 'total_intl_calls',
                          'total intl charge': 'total_intl_charge',
                          'customer service calls': 'customer_service_calls',},
                 inplace=True)

# Verificamos el cambio de los nombres de las columnas
print(dataFrame.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   state                   3333 non-null   object
 1   account_length          3333 non-null   object
 2   area_code               3333 non-null   object
 3   phone_number            3333 non-null   object
 4   international_plan      3333 non-null   object
 5   voice_mail_plan         3333 non-null   object
 6   number_vmail_messages   3333 non-null   object
 7   total_day_minutes       3333 non-null   object
 8   total_day_calls         3333 non-null   object
 9   total_day_charge        3333 non-null   object
 10  total_eve_minutes       3333 non-null   object
 11  total_eve_calls         3333 non-null   object
 12  total_eve_charge        3333 non-null   object
 13  total_night_minutes     3333 non-null   object
 14  total_night_calls       3333 non-null   object
 15  tota

In [None]:
# Se ajusta el tipo de dato por columna
dataFrame['account_length'] = dataFrame['account_length'].astype(int)
dataFrame['area_code'] = dataFrame['area_code'].astype(int)
dataFrame['number_vmail_messages'] = dataFrame['number_vmail_messages'].astype(int)
dataFrame['total_day_minutes'] = dataFrame['total_day_minutes'].astype(float)
dataFrame['total_day_calls'] = dataFrame['total_day_calls'].astype(int)
dataFrame['total_day_charge'] = dataFrame['total_day_charge'].astype(float)
dataFrame['total_eve_minutes'] = dataFrame['total_eve_minutes'].astype(float)
dataFrame['total_eve_calls'] = dataFrame['total_eve_calls'].astype(int)
dataFrame['total_eve_charge'] = dataFrame['total_eve_charge'].astype(float)
dataFrame['total_night_minutes'] = dataFrame['total_night_minutes'].astype(float)
dataFrame['total_night_calls'] = dataFrame['total_night_calls'].astype(int)
dataFrame['total_night_charge'] = dataFrame['total_night_charge'].astype(float)
dataFrame['total_intl_minutes'] = dataFrame['total_intl_minutes'].astype(float)
dataFrame['total_intl_calls'] = dataFrame['total_intl_calls'].astype(int)
dataFrame['total_intl_charge'] = dataFrame['total_intl_charge'].astype(float)
dataFrame['customer_service_calls'] = dataFrame['customer_service_calls'].astype(int)

# Verificamos el cambio del tipo de dato en las columnas
print(dataFrame.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account_length          3333 non-null   int64  
 2   area_code               3333 non-null   int64  
 3   phone_number            3333 non-null   object 
 4   international_plan      3333 non-null   object 
 5   voice_mail_plan         3333 non-null   object 
 6   number_vmail_messages   3333 non-null   int64  
 7   total_day_minutes       3333 non-null   float64
 8   total_day_calls         3333 non-null   int64  
 9   total_day_charge        3333 non-null   float64
 10  total_eve_minutes       3333 non-null   float64
 11  total_eve_calls         3333 non-null   int64  
 12  total_eve_charge        3333 non-null   float64
 13  total_night_minutes     3333 non-null   float64
 14  total_night_calls       3333 non-null   

In [None]:
# Identifica si hay valores nulos en alguna columna.
print("Identifica si hay valores nulos en alguna columna")
print(dataFrame.isnull().sum())

Identifica si hay valores nulos en alguna columna
state                     0
account_length            0
area_code                 0
phone_number              0
international_plan        0
voice_mail_plan           0
number_vmail_messages     0
total_day_minutes         0
total_day_calls           0
total_day_charge          0
total_eve_minutes         0
total_eve_calls           0
total_eve_charge          0
total_night_minutes       0
total_night_calls         0
total_night_charge        0
total_intl_minutes        0
total_intl_calls          0
total_intl_charge         0
customer_service_calls    0
churn                     0
dtype: int64


No se detctan valores nulos en el dataFrame.

In [None]:
# Tratamos de identificar filas duplicadas en todo el dataFrame
print("Cantidad de filas duplicados en todo el dataFrame: ", dataFrame.duplicated().sum())

Cantidad de filas duplicados en todo el dataFrame:  0


No se detectaron filas duplicadas en todo el dataFrame

In [None]:
# Tratamos de identificar valores duplicados en la columna phone_numer que puede servir de indice para usos futuros
print("Cantidad de numeros duplicados en columna phone_number: ", dataFrame.duplicated(subset=['phone_number']).sum())

Cantidad de numeros duplicados en columna phone_number:  0


No se detectan valores duplicados en **phone_number**, entonces a un registro exclusivo por cada phone_number.

In [None]:
# Verificamos cuántos valores diferentes hay en churn
print("Verificamos cuántos valores diferentes hay en churn")
print(dataFrame['churn'].value_counts())

Verificamos cuántos valores diferentes hay en churn
churn
FALSE    2850
TRUE      483
Name: count, dtype: int64


Solo se detectan dos valores posibles TRUE/FALSE en churn.

In [None]:
# Ajustamos la columna churn donde FALSE se transforma en '0' y TRUE se transforma en '1'
dataFrame['churn'] = dataFrame['churn'].replace({'FALSE': '0', 'TRUE': '1'})

# Ahorala columna churn se cambia a tipo int
dataFrame['churn'] = dataFrame['churn'].astype(int)

# Verificamos los cambio en la colmuna churn
print(dataFrame.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account_length          3333 non-null   int64  
 2   area_code               3333 non-null   int64  
 3   phone_number            3333 non-null   object 
 4   international_plan      3333 non-null   object 
 5   voice_mail_plan         3333 non-null   object 
 6   number_vmail_messages   3333 non-null   int64  
 7   total_day_minutes       3333 non-null   float64
 8   total_day_calls         3333 non-null   int64  
 9   total_day_charge        3333 non-null   float64
 10  total_eve_minutes       3333 non-null   float64
 11  total_eve_calls         3333 non-null   int64  
 12  total_eve_charge        3333 non-null   float64
 13  total_night_minutes     3333 non-null   float64
 14  total_night_calls       3333 non-null   

**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [None]:
# Solución propuesta

# Número total de clientes
total_rows = len(dataFrame)
print(f"El número total de clientes es                        :  {total_rows}")

# Número de filas con churn = 1
churn_1 = len(dataFrame[dataFrame['churn'] == 1])
print(f"El número de clientes que han desertado (churn = 1) es:   {churn_1}")

# Calcula el porcentaje de clientes que han desertado (churn = 1)
percentage_churn_1 = (churn_1 / total_rows) * 100
print(f"El porcentaje de clientes que han desertado es        :    {percentage_churn_1:.2f}%")

El número total de clientes es                        :  3333
El número de clientes que han desertado (churn = 1) es:   483
El porcentaje de clientes que han desertado es        :    14.49%


In [None]:
# Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

# Verificamos cuántos valores diferentes hay en international_plan
print("Verificamos cuántos valores diferentes hay en international_plan")
print(dataFrame['international_plan'].value_counts())

Verificamos cuántos valores diferentes hay en international_plan
international_plan
no     3010
yes     323
Name: count, dtype: int64


Sólo se identifican 2 valores posibles no/yes en international_plan.

In [None]:
# Cantidad de clientes con international_plan = yes
international_plan_yes = len(dataFrame[dataFrame['international_plan'] == 'yes'])
print(f"El número de clientes con international_plan es                         : {international_plan_yes}")

# Cantidad de clientes con plan internacional y abandonaron la empresa
international_plan_yes_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['international_plan'] == 'yes')])
print(f"El número de clientes con international_plan y abandonaron la empresa es: {international_plan_yes_churn_1}")

# Tasa de tener plan internacional y abandonar la empresa
international_plan_yes_churn_1_percentage = (international_plan_yes_churn_1 / international_plan_yes) * 100
print(f"La tasa de deserción de los clientes con international_plan es de       :  {international_plan_yes_churn_1_percentage:.2f}%")

print()

# Cantidad de clientes sin international_plan = no
international_plan_no = len(dataFrame[dataFrame['international_plan'] == 'no'])
print(f"El número de clientes sin international_plan es                         : {international_plan_no}")

# Cantidad de clientes sin plan internacional y abandonaron la empresa
international_plan_no_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['international_plan'] == 'no')])
print(f"El número de clientes sin international_plan y abandonaron la empresa es:  {international_plan_no_churn_1}")

# Tasa de No tener plan internacional y abandonar la empresa
percentage_international_plan_no_churn_1_percentage = (international_plan_no_churn_1 / international_plan_no) * 100
print(f"La tasa de deserción de los clientes sin international_plan es de       :   {percentage_international_plan_no_churn_1_percentage:.2f}%")

El número de clientes con international_plan es                         : 323
El número de clientes con international_plan y abandonaron la empresa es: 137
La tasa de deserción de los clientes con international_plan es de       :  42.41%

El número de clientes sin international_plan es                         : 3010
El número de clientes sin international_plan y abandonaron la empresa es:  346
La tasa de deserción de los clientes sin international_plan es de       :   11.50%


Los clientes con plan internacional tienen mayor tasa de deserción que los clientes que no tienen plan internacional: $42.41\% > 11.50\%$

In [None]:
# Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

# Verificamos cuántos valores diferentes hay en voice_mail_plan
print("Verificamos cuántos valores diferentes hay en voice_mail_plan")
print(dataFrame['voice_mail_plan'].value_counts())

Verificamos cuántos valores diferentes hay en voice_mail_plan
voice_mail_plan
no     2411
yes     922
Name: count, dtype: int64


Sólo se identifican 2 valores posibles no/yes en voice_mail_plan.

In [None]:
# Cantidad de clientes con voice_mail_plan = yes
voice_mail_plan_yes = len(dataFrame[dataFrame['voice_mail_plan'] == 'yes'])
print(f"El número de clientes con voice_mail_plan es                         :  {voice_mail_plan_yes}")

# Cantidad de clientes con voice_mail_plan y abandonaron la empresa
voice_mail_plan_yes_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['voice_mail_plan'] == 'yes')])
print(f"El número de clientes con voice_mail_plan y abandonaron la empresa es:   {voice_mail_plan_yes_churn_1}")

# Tasa de tener voice_mail_plan y abandonar la empresa
percentage_voice_mail_plan_yes_churn_1 = (voice_mail_plan_yes_churn_1 / voice_mail_plan_yes) * 100
print(f"La tasa de deserción de los clientes con voice_mail_plan es de       :    {percentage_voice_mail_plan_yes_churn_1:.2f}%")

print()

# Cantidad de clientes sin voice_mail_plan = no
voice_mail_plan_no = len(dataFrame[dataFrame['voice_mail_plan'] == 'no'])
print(f"El número de clientes sin voice_mail_plan es                         : {voice_mail_plan_no}")

# Cantidad de clientes sin voice_mail_plan y abandonaron la empresa
voice_mail_plan_no_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['voice_mail_plan'] == 'no')])
print(f"El número de clientes sin voice_mail_plan y abandonaron la empresa es:  {voice_mail_plan_no_churn_1}")

# Tasa de No tener voice_mail_plan y abandonar la empresa
percentage_voice_mail_plan_no_churn_1 = (voice_mail_plan_no_churn_1 / voice_mail_plan_no) * 100
print(f"La tasa de deserción de los clientes sin voice_mail_plan es de       :   {percentage_voice_mail_plan_no_churn_1:.2f}%")

El número de clientes con voice_mail_plan es                         :  922
El número de clientes con voice_mail_plan y abandonaron la empresa es:   80
La tasa de deserción de los clientes con voice_mail_plan es de       :    8.68%

El número de clientes sin voice_mail_plan es                         : 2411
El número de clientes sin voice_mail_plan y abandonaron la empresa es:  403
La tasa de deserción de los clientes sin voice_mail_plan es de       :   16.72%


Los clientes con voice_mail_plan tienen menor tasa de deserción que los clientes que no tienen voice_mail_plan: $8.68\% < 16.72\%$

**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

In [None]:
# Solución propuesta

# ¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

# Duración promedio de la cuenta en los clientes que desertaron
account_length_churn_1 = dataFrame[dataFrame['churn'] == 1]['account_length'].mean()
print(f"La duración promedio de la cuenta en los clientes que desertaron es : {account_length_churn_1:.2f}")

# Duración promedio de la cuenta en lo clientes permanencen
account_length_churn_0 = dataFrame[dataFrame['churn'] == 0]['account_length'].mean()
print(f"La duración promedio de la cuenta en los clientes aue permanecen es : {account_length_churn_0:.2f}")

# Porcentaje de diferencia etre promedios
percentage_between_churns = (account_length_churn_1-account_length_churn_0) * 100/account_length_churn_1
print(f"El porcentaje de diferencia entre los dos promedios es de           :   {percentage_between_churns:.2f}%")

La duración promedio de la cuenta en los clientes que desertaron es : 102.66
La duración promedio de la cuenta en los clientes aue permanecen es : 100.79
El porcentaje de diferencia entre los dos promedios es de           :   1.82%


No hay una diferencia significativa $(1.82\%)$ entre el promedio de account_lenght de los que han desertado vs los que que permanecen.

In [None]:
# ¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

# Asumiendo (por falta de información) o considerando las cuentas más antiguas son las de account_length >= 200

# Cantidad de cuentas antiguas account_length >= 200
account_length_old = len(dataFrame[dataFrame['account_length'] >= 200])
print(f"El número de cuentas account_length >= 200 es               :   {account_length_old}")

# Cantidad de cuentas antiguas que desertaron
account_length_old_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['account_length'] >= 200)])
print(f"El número de cuentas account_length >= 200 que desertaron es:    {account_length_old_churn_1}")

# Probabilidad de la cuentas activas que desertaron
percentage_account_length_old_churn_1 = (account_length_old_churn_1 / account_length_old) * 100
print(f"La probabilidad de que las cuentas 'antiguas' deserten es   :   {percentage_account_length_old_churn_1:.2f}%")

print()

# Cantidad de cuentas no antiguas account_length < 200
account_length_no_old = len(dataFrame[dataFrame['account_length'] < 200])
print(f"El número de cuentas account_length < 200 es                : {account_length_no_old}")

# Cantidad de cuentas no antiguas que desertaron
account_length_no_old_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['account_length'] < 200)])
print(f"El número de cuentas account_length < 200 que desertaron es :  {account_length_no_old_churn_1}")

# Probabilidad de la cuentas no activas que desertaron
percentage_account_length_no_old_churn_1 = (account_length_no_old_churn_1 / account_length_no_old) * 100
print(f"La probabilidad de la cuentas no antiguas deserten es       :   {percentage_account_length_no_old_churn_1:.2f}%")

El número de cuentas account_length >= 200 es               :   27
El número de cuentas account_length >= 200 que desertaron es:    6
La probabilidad de que las cuentas 'antiguas' deserten es   :   22.22%

El número de cuentas account_length < 200 es                : 3306
El número de cuentas account_length < 200 que desertaron es :  477
La probabilidad de la cuentas no antiguas deserten es       :   14.43%


Inicialmente, los clientes con cuentas antiguas tienen mayor probabilidad de desertar que los clientes no tan antiguos: $22.22\%$ > $14.43\%$

**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [None]:
# Solución propuesta

# Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

# Sumatoria de minutos usados en llamadas diurnas por clientes sin importar el churn
total_day_minutes = dataFrame['total_day_minutes'].sum()
print(f"La sumatoria de minutos usados en llamadas diurnas por clientes es           : {total_day_minutes:.2f}")

# Sumatoria de minutos usados en llamadas diurnas por clientes sin churn
total_day_minutes_churn_0 = dataFrame[dataFrame['churn'] == 0]['total_day_minutes'].sum()
print(f"La sumatoria de minutos usados en llamadas diurnas por clientes sin churn es : {total_day_minutes_churn_0:.2f}")

# Sumatoria de minutos usados en llamadas diurnas por clientes con churn
total_day_minutes_churn_1 = dataFrame[dataFrame['churn'] == 1]['total_day_minutes'].sum()
print(f"La sumatoria de minutos usados en llamadas diurnas por clientes con churn es :  {total_day_minutes_churn_1:.2f}")

# Porcentaje de minutos usados en llamadas diurnas por clientes con churn
percentage_total_day_minutes_churn_1 = (total_day_minutes_churn_1 / total_day_minutes) * 100
print(f"El porcentaje de minutos usados en llamadas diurnas por clientes con churn es:     {percentage_total_day_minutes_churn_1:.2f}%")

La sumatoria de minutos usados en llamadas diurnas por clientes es           : 599190.40
La sumatoria de minutos usados en llamadas diurnas por clientes sin churn es : 499250.90
La sumatoria de minutos usados en llamadas diurnas por clientes con churn es :  99939.50
El porcentaje de minutos usados en llamadas diurnas por clientes con churn es:     16.68%


Los minutos de los clientes que han desertado, solo aportan el $\approx 16.68\%$ del total en el horario diurno.

In [None]:
# Solución propuesta

# Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

# Sumatoria de minutos usados en llamadas nocturnas por clientes sin importar el churn
total_night_minutes = dataFrame['total_night_minutes'].sum()
print(f"La sumatoria de minutos usados en llamadas nocturnas por clientes es          : {total_night_minutes:.2f}")

# Sumatoria de minutos usados en llamadas nocturnas por clientes sin churn
total_night_minutes_churn_0 = dataFrame[dataFrame['churn'] == 0]['total_night_minutes'].sum()
print(f"La sumatoria de minutos usados en llamadas nocturnas por clientes sin churn es: {total_night_minutes_churn_0:.2f}")

# Sumatoria de minutos usados en llamadas nocturnas por clientes con churn
total_night_minutes_churn_1 = dataFrame[dataFrame['churn'] == 1]['total_night_minutes'].sum()
print(f"La sumatoria de minutos usados en llamadas nocturnas por clientes con churn es:  {total_night_minutes_churn_1:.2f}")

# Porcentaje de llamadas nocturnas de usuarios desertores
percentage_total_night_churn_1 = total_night_minutes_churn_1 * 100/total_night_minutes
print(f"Porcentaje de minutos usados en llamadas nocturnas por clientes con churn es  :     {percentage_total_night_churn_1:.2f}%")

La sumatoria de minutos usados en llamadas nocturnas por clientes es          : 669506.50
La sumatoria de minutos usados en llamadas nocturnas por clientes sin churn es: 570379.60
La sumatoria de minutos usados en llamadas nocturnas por clientes con churn es:  99126.90
Porcentaje de minutos usados en llamadas nocturnas por clientes con churn es  :     14.81%


Los minutos de los clientes que han desertado, solo aportan el $\approx 14.81\%$ del total en el horario nocturno.

In [None]:
# Solución propuesta

# Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

# Sumatoria de llamadas realizadas por clientes sin importar el churn
total_day_calls = dataFrame['total_day_calls'].sum()
print(f"La sumatoria de llamadas diurnas de los clientes es           : {total_day_calls}")

# Sumatoria de lamadas realizadas por clientes por clientes sin churn
total_day_calls_churn_0 = dataFrame[dataFrame['churn'] == 0]['total_day_calls'].sum()
print(f"La sumatoria de llamadas diurnas de los clientes sin churn es : {total_day_calls_churn_0}")

# Sumatoria de lamadas realizadas por clientes por clientes con churn
total_day_calls_churn_1 = dataFrame[dataFrame['churn'] == 1]['total_day_calls'].sum()
print(f"La sumatoria de llamadas diurnas de los clientes con churn es :  {total_day_calls_churn_1}")

# Porcentaje de llamadas ealizadas por clientes con churn
percentage_total_day_calls_churn_1 = (total_day_calls_churn_1 / total_day_calls) * 100
print(f"El porcentaje de llamadas diurnas de los clientes con churn es:     {percentage_total_day_calls_churn_1:.2f}%")

La sumatoria de llamadas diurnas de los clientes es           : 334752
La sumatoria de llamadas diurnas de los clientes sin churn es : 285807
La sumatoria de llamadas diurnas de los clientes con churn es :  48945
El porcentaje de llamadas diurnas de los clientes con churn es:     14.62%


La cantidad de llamadas de los clientes que han desertado, solo aportan el $\approx 14.62\%$ del total.

**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [None]:
# Solución propuesta

# Promedio de llamadas de clientes que llamaron mas de 3 veces a servicio al cliente y desertaron
mean_customer_service_calls_group1_churn_1 = dataFrame[(dataFrame['churn'] == 1) & (dataFrame['customer_service_calls'] > 3)]['customer_service_calls'].mean()
print(f"El promedio de llamadas de clientes que llamaron mas de 3 veces a servicio al cliente y desertaron    : {mean_customer_service_calls_group1_churn_1:.2f}")

# Promedio de llamadas de clientes que llamaron mas de 3 veces a servicio al cliente y no desertaron
mean_customer_service_calls_group1_churn_0 = dataFrame[(dataFrame['churn'] == 0) & (dataFrame['customer_service_calls'] > 3)]['customer_service_calls'].mean()
print(f"El promedio de llamadas de clientes que llamaron mas de 3 veces a servicio al cliente y no desertaron : {mean_customer_service_calls_group1_churn_0:.2f}")

# Promedio de llamadas de clientes que llamaron 3 veces o menos a servicio al cliente y desertaron
mean_customer_service_calls_group2_churn_1 = dataFrame[(dataFrame['churn'] == 1) & (dataFrame['customer_service_calls'] <= 3)]['customer_service_calls'].mean()
print(f"El promedio de llamadas de clientes que llamaron 3 veces o menos a servicio al cliente y desertaron   : {mean_customer_service_calls_group2_churn_1:.2f}")

# Promedio de llamadas de clientes que llamaron 3 veces o menos a servicio al cliente y no desertaron
mean_customer_service_calls_group2_churn_0 = dataFrame[(dataFrame['churn'] == 0) & (dataFrame['customer_service_calls'] <= 3)]['customer_service_calls'].mean()
print(f"El promedio de llamadas de clientes que llamaron 3 veces o menos a servicio al cliente y no desertaron: {mean_customer_service_calls_group2_churn_0:.2f}")

El promedio de llamadas de clientes que llamaron mas de 3 veces a servicio al cliente y desertaron    : 4.70
El promedio de llamadas de clientes que llamaron mas de 3 veces a servicio al cliente y no desertaron : 4.45
El promedio de llamadas de clientes que llamaron 3 veces o menos a servicio al cliente y desertaron   : 1.24
El promedio de llamadas de clientes que llamaron 3 veces o menos a servicio al cliente y no desertaron: 1.31


**Desertores:**
<br/>Desertores Grupo 1 = 4.70
<br/>Desertores Grupo 2 = 1.24
<br/>Grupo 1 es mayor $\dfrac{4.70}{1.24}\approx3.79$ veces que el Grupo 2




**No Desertores:**
<br/>No Desertores Grupo 1 = 4.45
<br/>No Desertores Grupo 2 = 1.31  
Grupo 1 es mayor $\dfrac{4.45}{1.31}\approx3.39$ veces que el Grupo 2

* Un cliente antes de desertar, realiza más de 3 llamadas a servicio a
cliente, el menos cuatro, casi 5 llamadas.
* Un cliente que no deserta, se mantiene en al menos una llamada al servicio al cliente.
* Es necesario analizar la calidad de las respuestas que proporciona servicio al cliente a los usuarios, para contrarestar o disminuir la probabilidad de deserción por motivos de respuesta de servicio al cliente.

**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [None]:
# Solución propuesta

# Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

# Costo total de llamadas diurnas sin importar el churn
sum_total_day_charge = dataFrame['total_day_charge'].sum()
print(f"La sumatoria de total_day_charges es                                : {sum_total_day_charge:.2f}")

# Costo total de llamadas diurnas por clientes sin churn
sum_total_day_charges_churn_0 = dataFrame[dataFrame['churn'] == 0]['total_day_charge'].sum()
print(f"La sumatoria de total_day_charges por clientes sin churn es         :  {sum_total_day_charges_churn_0:.2f}")

# Costo total de llamadas diurnas por clientes con churn
sum_total_day_charges_churn_1 = dataFrame[dataFrame['churn'] == 1]['total_day_charge'].sum()
print(f"La sumatoria de total_day_charges por clientes con churn es         :  {sum_total_day_charges_churn_1:.2f}")

# Porcentaje de costo de llamadas diurnas por clientes con churn
percentage_total_day_charges_churn_1 = (sum_total_day_charges_churn_1 / sum_total_day_charge) * 100
print(f"El porcentaje de costo en llamadas diurnas por clientes con churn es:     {percentage_total_day_charges_churn_1:.2f}%")

La sumatoria de total_day_charges es                                : 101864.17
La sumatoria de total_day_charges por clientes sin churn es         :  84874.20
La sumatoria de total_day_charges por clientes con churn es         :  16989.97
El porcentaje de costo en llamadas diurnas por clientes con churn es:     16.68%


El costo de las llamadas de los clientes que han desertado, solo aportan el $\approx 16.68\%$ del total, en el horario diurno.

In [None]:
# Solución propuesta

# Compara el costo total de llamadas nocturnas (total night charge).

# Costo total de llamadas nocturnas sin importar el churn
sum_total_night_charge = dataFrame['total_night_charge'].sum()
print(f"La sumatoria de total_night_charges es                                : {sum_total_night_charge:.2f}")

# Costo total de llamadas nocturnas por clientes sin churn
sum_total_night_charges_churn_0 = dataFrame[dataFrame['churn'] == 0]['total_night_charge'].sum()
print(f"La sumatoria de total_night_charges por clientes sin churn es         : {sum_total_night_charges_churn_0:.2f}")

# Costo total de llamadas nocturnas por clientes con churn
sum_total_night_charges_churn_1 = dataFrame[dataFrame['churn'] == 1]['total_night_charge'].sum()
print(f"La sumatoria de total_night_charges por clientes con churn es         :  {sum_total_night_charges_churn_1:.2f}")

# Porcentaje de costo de llamadas nocturnas por clientes con churn
percentage_night_charges_churn_1 = (sum_total_night_charges_churn_1 / sum_total_night_charge) * 100
print(f"El porcentaje de costo en llamadas nocturnas por clientes con churn es:    {percentage_night_charges_churn_1:.2f}%")

La sumatoria de total_night_charges es                                : 30128.07
La sumatoria de total_night_charges por clientes sin churn es         : 25667.31
La sumatoria de total_night_charges por clientes con churn es         :  4460.76
El porcentaje de costo en llamadas nocturnas por clientes con churn es:    14.81%


El costo de las llamadas de los clientes que han desertado, solo aportan el $≈14.81\%$ del total, en el horario nocturno.




In [None]:
# Solución propuesta

# ¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

# Se selecciona un subgrupo de clientes con llamadas internacionales superior o igual a 4.0 en total_intl_charge
# contra quienes no tienen ese nivel de consumo

# Cantidad de clientes con total_intl_charge >= 4.0
more_charge_total_intl_charge = len(dataFrame[dataFrame['total_intl_charge'] >= 4.0])
print(f"La cantidad de clientes con mas gasto en llamadas internacionales es                                  :   {more_charge_total_intl_charge}")

# Cantidad de clientes con total_intl_charge >= 4.0 que desertaron
more_charge_total_intl_charge_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['total_intl_charge'] >= 4.0)])
print(f"La cantidad de clientes con mas gasto en llamadas internacionales que desertaron es                   :    {more_charge_total_intl_charge_churn_1}")

# Porcentaje de clientes con total_intl_charge >= 4.0 que desertaron
percentage_more_charge_total_intl_charge_churn_1 = (more_charge_total_intl_charge_churn_1 / more_charge_total_intl_charge) * 100
print(f"Porcentaje de cantidad de clientes con mas gasto en llamadas internacionales que desertaron es        :    {percentage_more_charge_total_intl_charge_churn_1:.2f}%")

print()

# Cantidad de clientes con total_intl_charge < 4.0
less_charge_total_intl_charge = len(dataFrame[dataFrame['total_intl_charge'] < 4.0])
print(f"La cantidad de clientes con gasto menor de 4.0 en llamadas internacionales es                         :   {less_charge_total_intl_charge}")

# Cantidad de clientes con total_intl_charge < 4.0 que desertaron
less_charge_total_intl_charge_churn_1 = len(dataFrame[(dataFrame['churn'] == 1) & (dataFrame['total_intl_charge'] < 4.0)])
print(f"La cantidad de clientes con gasto menor de 4.0 en llamadas internacionales que desertaron es          :    {less_charge_total_intl_charge_churn_1}")

# Procentaje de clientes con total_intl_charge < 4.0 que desertaron
percentage_less_charge_total_intl_charge_churn_1 = (less_charge_total_intl_charge_churn_1 / less_charge_total_intl_charge) * 100
print(f"Porcentaje de cantidad de clientes con gasto menor a 4.0 en llamadas internacionales que desertaron es:     {percentage_less_charge_total_intl_charge_churn_1:.2f}%")

La cantidad de clientes con mas gasto en llamadas internacionales es                                  :   152
La cantidad de clientes con mas gasto en llamadas internacionales que desertaron es                   :    27
Porcentaje de cantidad de clientes con mas gasto en llamadas internacionales que desertaron es        :    17.76%

La cantidad de clientes con gasto menor de 4.0 en llamadas internacionales es                         :   3181
La cantidad de clientes con gasto menor de 4.0 en llamadas internacionales que desertaron es          :    456
Porcentaje de cantidad de clientes con gasto menor a 4.0 en llamadas internacionales que desertaron es:     14.34%


A pesar de ser mayor el porcentaje de la cantidad de clientes con mas gasto en llamadas internacionales $17.76\%$ es levemente mayor que el porcentaje de cantidad de clientes con gasto menor a $4.0$ ($14.34\%$), donde apenas la diferencia es de $17.76\%-14.34\%\approx 3.42\%$, la diferencia realmente no es significativa, por lo tanto, inicialmente no sería un motivo para deserción el gasto en llamadas internacionales.