<a href="https://colab.research.google.com/github/rodriguezpjavier/P_CD_Guia_2/blob/main/Guia_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


## Preparación del entorno de trabajo

In [1]:
from google.colab import drive
import os , shutil
#--------------------------------------------------------------------------------------------------------------------------------------------

os.chdir('/content/')  # Establecer la ruta de trabajo por defecto.
drive.mount('/content/drive') # Montaje de la Carpeta Drive para poder acceder a los Archivos del Drive Directamente, para la primera ejecución hay que dar permisos sobre el Drive.
strFile ='telecom_churn.csv' # Nombre del Archivo a trabajar en el proyecto
strPathTrabajo = os.getcwd()+"/P_CD/Guia_2/" # Path de Trabajo para el Resto del Proyecto
strPathOrigen = os.getcwd()+"/drive/MyDrive/Colab Notebooks/2025_25EAN_ProgramacionParaCienciaDeDatos/Semana2/Taller/"+strFile  # Path Origen del Archivo de Trabajo que es Drive
strPathDestino = strPathTrabajo + strFile # Estructuracion de la ruta para Deposito del archvo de trabajo.
#--------------------------------------------------------------------------------------------------------------------------------------------
# Validacion de Existencia de la Carpeta Destino del proyecto
if os.path.exists(strPathTrabajo) == True:
  shutil.rmtree(strPathTrabajo) # Eliminacion de la Carperta  si existe y  todo Su Contenido
os.makedirs(strPathTrabajo, exist_ok=True) # Creación carpeta de trabajo
os.chdir(strPathTrabajo) # establecer la carpeta de Trabajo para el proyecto
#--------------------------------------------------------------------------------------------------------------------------------------------
shutil.copy(strPathOrigen, strPathDestino)  # Copia el archivo
print("La nueva ruta de Trabajo para el Proyetco es: ", strPathTrabajo , "con los Siguientes Archvos contenidos : " , os.listdir(strPathTrabajo))
#--------------------------------------------------------------------------------------------------------------------------------------------

Mounted at /content/drive
La nueva ruta de Trabajo para el Proyetco es:  /content/P_CD/Guia_2/ con los Siguientes Archvos contenidos :  ['telecom_churn.csv']


### Exploración y Limpieza de Datos

**Exploración y Limpieza de Datos**

Se Cargó el Set de Datos por medio de la librería Pandas  y su función[***read_csv***] y se modificó el Nombre de las Columnas/Variables reemplazando los espacios por guion piso [ ***_*** ].
El análisis exploratorio del Set de Datos [***telecom_churn.csv***] esta dado por:
1. Obtención de Cantidad de Registros y Variables que contiene el Set
2. Entendimiento de las columnas y su respectivo tipo de Dato
3. Cantidad de Columnas por Tipo de Dato.
4. Verificación de valores ausentes en el Set
5. Analisis por separado para las Variables por Tipo de Dato [***.describe***] para las Numéricas [***int64 | float64***] y distribución de frecuencias para las demás [***Object***]
6. Visualización total del Set de Datos


------

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [20]:
import pandas as pd

df = pd.read_csv(strFile) # Carga de Set de Datos.
df.columns = df.columns.str.replace(" ", "_")

In [156]:
Registros , Variables = df.shape
print(f"El Set de Datos tiene {Registros} Registros y {Variables} Variables")

El Set de Datos tiene 3333 Registros y 21 Variables


In [158]:
print(f"Los Tipos de Datos de las {Variables} columnas/variables que contiene el df son las Siguientes:")
print(df.dtypes)

Los Tipos de Datos de las 21 columnas/variables que contiene el df son las Siguientes:
state                      object
account_length              int64
area_code                   int64
phone_number               object
international_plan         object
voice_mail_plan            object
number_vmail_messages       int64
total_day_minutes         float64
total_day_calls             int64
total_day_charge          float64
total_eve_minutes         float64
total_eve_calls             int64
total_eve_charge          float64
total_night_minutes       float64
total_night_calls           int64
total_night_charge        float64
total_intl_minutes        float64
total_intl_calls            int64
total_intl_charge         float64
customer_service_calls      int64
churn                        bool
dtype: object


In [159]:
print("Cantidad de Variables por Tipo de dato")
print(df.dtypes.value_counts())

Cantidad de Variables por Tipo de dato
int64      8
float64    8
object     4
bool       1
Name: count, dtype: int64


In [172]:
print("Verificación de valores ausentes en el Set de Datos")
df.info()

Verificación de valores ausentes en el Set de Datos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account_length          3333 non-null   int64  
 2   area_code               3333 non-null   int64  
 3   phone_number            3333 non-null   object 
 4   international_plan      3333 non-null   object 
 5   voice_mail_plan         3333 non-null   object 
 6   number_vmail_messages   3333 non-null   int64  
 7   total_day_minutes       3333 non-null   float64
 8   total_day_calls         3333 non-null   int64  
 9   total_day_charge        3333 non-null   float64
 10  total_eve_minutes       3333 non-null   float64
 11  total_eve_calls         3333 non-null   int64  
 12  total_eve_charge        3333 non-null   float64
 13  total_night_minutes     3333 non-null   f

In [21]:
# Separa la en Dos Series Diferentes las Variables que Tienen Valores numericos y El resto para poder Analizar las numericas con un Describe y las las demas por frecuencia
SerieVarsType = df.dtypes
SerieVarsType_num = SerieVarsType[(SerieVarsType == 'int64') | (SerieVarsType == 'float64')].drop(["area_code"], errors="ignore") # Alimino estas dos porque no las creo relevante para el Analisis.
SerieVarsType_Obj = SerieVarsType[~(SerieVarsType == 'int64') & ~(SerieVarsType == 'float64')]
# Selecciono del Df solo las Variables Numericas  solo para Revisar
df[SerieVarsType_num.index]

Unnamed: 0,account_length,number_vmail_messages,total_day_minutes,total_day_calls,total_day_charge,total_eve_minutes,total_eve_calls,total_eve_charge,total_night_minutes,total_night_calls,total_night_charge,total_intl_minutes,total_intl_calls,total_intl_charge,customer_service_calls
0,128,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.70,1
1,107,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.70,1
2,137,0,243.4,114,41.38,121.2,110,10.30,162.6,104,7.32,12.2,5,3.29,0
3,84,0,299.4,71,50.90,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2
4,75,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3328,192,36,156.2,77,26.55,215.5,126,18.32,279.1,83,12.56,9.9,6,2.67,2
3329,68,0,231.1,57,39.29,153.4,55,13.04,191.3,123,8.61,9.6,4,2.59,3
3330,28,0,180.8,109,30.74,288.8,58,24.55,191.9,91,8.64,14.1,6,3.81,2
3331,184,0,213.8,105,36.35,159.6,84,13.57,139.2,137,6.26,5.0,10,1.35,2


In [5]:
# Realizacion de las Distribucion de la informacion Numerica.
df[SerieVarsType_num.index].describe()

Unnamed: 0,account_length,number_vmail_messages,total_day_minutes,total_day_calls,total_day_charge,total_eve_minutes,total_eve_calls,total_eve_charge,total_night_minutes,total_night_calls,total_night_charge,total_intl_minutes,total_intl_calls,total_intl_charge,customer_service_calls
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.064806,8.09901,179.775098,100.435644,30.562307,200.980348,100.114311,17.08354,200.872037,100.107711,9.039325,10.237294,4.479448,2.764581,1.562856
std,39.822106,13.688365,54.467389,20.069084,9.259435,50.713844,19.922625,4.310668,50.573847,19.568609,2.275873,2.79184,2.461214,0.753773,1.315491
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.04,0.0,0.0,0.0,0.0
25%,74.0,0.0,143.7,87.0,24.43,166.6,87.0,14.16,167.0,87.0,7.52,8.5,3.0,2.3,1.0
50%,101.0,0.0,179.4,101.0,30.5,201.4,100.0,17.12,201.2,100.0,9.05,10.3,4.0,2.78,1.0
75%,127.0,20.0,216.4,114.0,36.79,235.3,114.0,20.0,235.3,113.0,10.59,12.1,6.0,3.27,2.0
max,243.0,51.0,350.8,165.0,59.64,363.7,170.0,30.91,395.0,175.0,17.77,20.0,20.0,5.4,9.0


In [6]:
# Selecciono del Df solo las Variables Objeto  solo para Revisar
df[SerieVarsType_Obj.index]

Unnamed: 0,state,phone_number,international_plan,voice_mail_plan,churn
0,KS,382-4657,no,yes,False
1,OH,371-7191,no,yes,False
2,NJ,358-1921,no,no,False
3,OH,375-9999,yes,no,False
4,OK,330-6626,yes,no,False
...,...,...,...,...,...
3328,AZ,414-4276,no,yes,False
3329,WV,370-3271,no,no,False
3330,RI,328-8230,no,no,False
3331,CT,364-6381,yes,no,False


In [7]:
print("Cantidad  de Registros unicos por la posible llave [phone number] ", str(df["phone_number"].nunique()) , "Todas las Filas son Valores Unicos")


Cantidad  de Registros unicos por la posible llave [phone number]  3333 Todas las Filas son Valores Unicos


In [22]:
df["international_plan"].value_counts()

Unnamed: 0_level_0,count
international_plan,Unnamed: 1_level_1
no,3010
yes,323


In [169]:
df["voice_mail_plan"].value_counts()

Unnamed: 0_level_0,count
voice_mail_plan,Unnamed: 1_level_1
no,2411
yes,922


In [154]:
df["churn"].value_counts()

Unnamed: 0_level_0,count
churn,Unnamed: 1_level_1
False,2850
True,483


In [122]:
df.head(10)

Unnamed: 0,state,account_length,area_code,phone_number,international_plan,voice_mail_plan,number_vmail_messages,total_day_minutes,total_day_calls,total_day_charge,...,total_night_charge,total_intl_minutes,total_intl_calls,total_intl_charge,customer_service_calls,churn,account_length_cat,churn_1,churn_0,Grp_service_calls
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,11.01,10.0,3,2.7,1,False,Antiguedad_Alta,0,0,Grupo2<=3
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,11.45,13.7,3,3.7,1,False,Antiguedad_Media_Alta,0,0,Grupo2<=3
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,7.32,12.2,5,3.29,0,False,Antiguedad_Alta,0,0,Grupo2<=3
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,8.86,6.6,7,1.78,2,False,Antiguedad_Media_Baja,0,0,Grupo2<=3
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,8.41,10.1,3,2.73,3,False,Antiguedad_Media_Baja,0,0,Grupo2<=3
5,AL,118,510,391-8027,yes,no,0,223.4,98,37.98,...,9.18,6.3,6,1.7,0,False,Antiguedad_Media_Alta,0,0,Grupo2<=3
6,MA,121,510,355-9993,no,yes,24,218.2,88,37.09,...,9.57,7.5,7,2.03,3,False,Antiguedad_Media_Alta,0,0,Grupo2<=3
7,MO,147,415,329-9001,yes,no,0,157.0,79,26.69,...,9.53,7.1,6,1.92,0,False,Antiguedad_Alta,0,0,Grupo2<=3
8,LA,117,408,335-4719,no,no,0,184.5,97,31.37,...,9.71,8.7,4,2.35,1,False,Antiguedad_Media_Alta,0,0,Grupo2<=3
9,WV,141,415,330-8173,yes,yes,37,258.6,84,43.96,...,14.69,11.2,5,3.02,0,False,Antiguedad_Alta,0,0,Grupo2<=3


**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [90]:
print("La Tasa de Deserción es del " , round(len(df[df["churn"] == True])/len(df) *100, 2))
df_int_plan_yes = df[df["international_plan"] == "yes"]
print("La Tasa de Deserción para los Clientes que tiene plan Internacional es del " , round(len(df_int_plan_yes[df_int_plan_yes["churn"] == True])/len(df_int_plan_yes) *100, 2))
df_voi_plan_yes = df[df["voice_mail_plan"] == "yes"]
print("La Tasa de Deserción para los Clientes que tiene plan de Mensajes de Voz es del " , round(len(df_voi_plan_yes[df_voi_plan_yes["churn"] == True])/len(df_voi_plan_yes) *100, 2))

La Tasa de Deserción es del  14.49
La Tasa de Deserción para los Clientes que tiene plan Internacional es del  42.41
La Tasa de Deserción para los Clientes que tiene plan de Mensajes de Voz es del  8.68


**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

** ¿Cual es la Tasa de Deserción para los clientes con cuentas más antiguas?

In [51]:
df.groupby("churn")["account_length"].mean()

Unnamed: 0_level_0,account_length
churn,Unnamed: 1_level_1
False,100.793684
True,102.664596


In [61]:
df["account_length_cat"] = pd.qcut(df["account_length"], q=4, labels=["Antiguedad_Baja", "Antiguedad_Media_Baja", "Antiguedad_Media_Alta", "Antiguedad_Alta"])
df.groupby("account_length_cat")["account_length"].agg(["min", "max", "mean", "count"])

  df.groupby("account_length_cat")["account_length"].agg(["min", "max", "mean", "count"])


Unnamed: 0_level_0,min,max,mean,count
account_length_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Antiguedad_Baja,1,74,51.345391,857
Antiguedad_Media_Baja,75,101,88.761511,847
Antiguedad_Media_Alta,102,127,114.409714,803
Antiguedad_Alta,128,243,152.292978,826


In [95]:
for cat in df["account_length_cat"].unique():
  print(f"Para la categoria {cat} la tasa de Desercion es de:" , round((len(df[(df["account_length_cat"] == cat) & (df["churn"] == True)]) / len(df[(df["account_length_cat"] == cat)])) *100 ,2))

Para la categoria Antiguedad_Alta la tasa de Desercion es de: 14.29
Para la categoria Antiguedad_Media_Alta la tasa de Desercion es de: 15.69
Para la categoria Antiguedad_Media_Baja la tasa de Desercion es de: 14.88
Para la categoria Antiguedad_Baja la tasa de Desercion es de: 13.19


**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [98]:
df.groupby("churn")["total_day_minutes"].agg(["min", "max", "mean"])

Unnamed: 0_level_0,min,max,mean
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,0.0,315.6,175.175754
True,0.0,350.8,206.914079


In [99]:
df.groupby("churn")["total_night_minutes"].agg(["min", "max", "mean"])

Unnamed: 0_level_0,min,max,mean
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,23.2,395.0,200.133193
True,47.4,354.9,205.231677


In [100]:
df.groupby("churn")["total_day_calls"].agg(["min", "max", "mean"])

Unnamed: 0_level_0,min,max,mean
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,0,163,100.283158
True,0,165,101.335404


**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [102]:
df.groupby("churn")["customer_service_calls"].agg(["mean"])

Unnamed: 0_level_0,mean
churn,Unnamed: 1_level_1
False,1.449825
True,2.229814


In [115]:
import numpy as np
df["Grp_service_calls"] = np.where(df["customer_service_calls"] > 3, "Grupo1>3", "Grupo2<=3")
df.groupby("Grp_service_calls")["customer_service_calls"].agg(["min","max","count"])


Unnamed: 0_level_0,min,max,count
Grp_service_calls,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Grupo1>3,4,9,267
Grupo2<=3,0,3,3066


**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [116]:
df.groupby("churn")["total_day_charge"].agg(["min", "max", "mean"])

Unnamed: 0_level_0,min,max,mean
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,0.0,53.65,29.780421
True,0.0,59.64,35.175921


In [120]:
df.groupby("churn")["total_intl_charge"].agg(["min", "max", "mean"])

Unnamed: 0_level_0,min,max,mean
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,0.0,5.1,2.743404
True,0.54,5.4,2.889545
