## 1. INTRODUCCIÓN

Diccionario de datos:

- customerID: número de identificación único de cada cliente
- Churn: si el cliente dejó o no la empresa
- gender: género (masculino y femenino)
- SeniorCitizen: información sobre si un cliente tiene o no una edad igual o mayor a 65 años
- Partner: si el cliente tiene o no una pareja
- Dependents: si el cliente tiene o no dependientes
- tenure: meses de contrato del cliente
- PhoneService: suscripción al servicio telefónico
- MultipleLines: suscripción a más de una línea telefónica
- InternetService: suscripción a un proveedor de internet
- OnlineSecurity: suscripción adicional de seguridad en línea
- OnlineBackup: suscripción adicional de respaldo en línea
- DeviceProtection: suscripción adicional de protección del dispositivo
- TechSupport: suscripción adicional de soporte técnico, menor tiempo de espera
- StreamingTV: suscripción de televisión por cable
- StreamingMovies: suscripción de streaming de películas
- Contract: tipo de contrato
- PaperlessBilling: si el cliente prefiere recibir la factura en línea
- PaymentMethod: forma de pago
- Charges.Monthly: total de todos los servicios del cliente por mes
- Charges.Total: total gastado por el cliente

## 2. LIMPIEZA Y TRATAMIENTO DE DATOS

In [1]:
# Importación de librerías a utilizar en el proyecto
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Importacion de la base de datos

url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json'

datos = pd.read_json(url)

# Mostrar las primeras 5 filas del df
datos.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


- Se observa que al ser importado el archivo json, se han generado columnas con diccionarios anidados, por lo que se tendrá que normalizarlas para poder estructurar mejor el dataframe y así poder analizarlo.

In [3]:
# Lista de columnas anidadas para normalizar
columnas_anidadas = ['customer', 'phone', 'internet', 'account']

# Separar las columnas no anidadas
otras_columnas = datos.drop(columns=columnas_anidadas)

# Normalizar cada columna anidada
dfs_normalizados = [
    pd.json_normalize(datos[col]).add_prefix(f'{col}_')
    for col in columnas_anidadas
]

# Concatenar todo en un solo DataFrame
datos_normalizados = pd.concat([otras_columnas] + dfs_normalizados, axis=1)


In [4]:
# Visualización de dataframe normalizado
datos_normalizados.head()

Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges.Monthly,account_Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


- El dataframe ha sido normalizado y se pueden observar todas las columnas individuales con sus datos.
- Se realizará una exploración de los datos para conocer el dataframe y saber si requiere algún tipo de limpieza.

In [5]:
# Visualización de información general de dataframe
datos_normalizados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer_gender            7267 non-null   object 
 3   customer_SeniorCitizen     7267 non-null   int64  
 4   customer_Partner           7267 non-null   object 
 5   customer_Dependents        7267 non-null   object 
 6   customer_tenure            7267 non-null   int64  
 7   phone_PhoneService         7267 non-null   object 
 8   phone_MultipleLines        7267 non-null   object 
 9   internet_InternetService   7267 non-null   object 
 10  internet_OnlineSecurity    7267 non-null   object 
 11  internet_OnlineBackup      7267 non-null   object 
 12  internet_DeviceProtection  7267 non-null   object 
 13  internet_TechSupport       7267 non-null   objec

In [6]:
# Visualización de datos descriptivos de las columnas numéricas del df
datos_normalizados.describe()

Unnamed: 0,customer_SeniorCitizen,customer_tenure,account_Charges.Monthly
count,7267.0,7267.0,7267.0
mean,0.162653,32.346498,64.720098
std,0.369074,24.571773,30.129572
min,0.0,0.0,18.25
25%,0.0,9.0,35.425
50%,0.0,29.0,70.3
75%,0.0,55.0,89.875
max,1.0,72.0,118.75


In [7]:
# Visualización del conteo de valores únicos por cada columna del df
for col in datos_normalizados.columns:
    print(datos_normalizados[col].value_counts())
    print('--')

customerID
9995-HOTOH    1
0002-ORFBO    1
0003-MKNFE    1
9970-QBCDA    1
9968-FFVVH    1
             ..
0014-BMAQU    1
0013-SMEOE    1
0013-MHZWF    1
0013-EXCHZ    1
0011-IGKFF    1
Name: count, Length: 7267, dtype: int64
--
Churn
No     5174
Yes    1869
        224
Name: count, dtype: int64
--
customer_gender
Male      3675
Female    3592
Name: count, dtype: int64
--
customer_SeniorCitizen
0    6085
1    1182
Name: count, dtype: int64
--
customer_Partner
No     3749
Yes    3518
Name: count, dtype: int64
--
customer_Dependents
No     5086
Yes    2181
Name: count, dtype: int64
--
customer_tenure
1     634
72    369
2     246
3     207
4     185
     ... 
28     60
39     59
44     54
36     50
0      11
Name: count, Length: 73, dtype: int64
--
phone_PhoneService
Yes    6560
No      707
Name: count, dtype: int64
--
phone_MultipleLines
No                  3495
Yes                 3065
No phone service     707
Name: count, dtype: int64
--
internet_InternetService
Fiber optic    3198
D

- La columna account_Charges.Total está como tipo object, debe ser cambiada a tipo float.
- En la columna 'Churn' hay 224 valores vacíos.
- No se observan valores nulos en ninguna de las columnas.
- En las columnas categóricas no se observa errores de escritura que ocasionen categorías repetidas.

### 2.1 Cambio de tipo de datos
Se cambiará el tipo de datos de la columna 'account_Charges.Total' de object a float64, ya que esta columna almacena datos de dinero.

In [8]:
# Realizar una copia del dataframe normalizado para hacer todos los cambios
df_final = datos_normalizados.copy()

# Cambiar el tipo de dato de object a numeric(float)
df_final['account_Charges.Total'] = pd.to_numeric(df_final['account_Charges.Total'], errors='coerce')

In [9]:
# Verificar las estadísticas descriptivas de la columna
df_final['account_Charges.Total'].describe()

count    7256.000000
mean     2280.634213
std      2268.632997
min        18.800000
25%       400.225000
50%      1391.000000
75%      3785.300000
max      8684.800000
Name: account_Charges.Total, dtype: float64

### 2.2 Eliminación de valores vacíos en la columna 'Churn'
En la columna 'Churn' se encontraron 224 valores vacíos, que deben ser eliminados. Como el presente proyecto tiene como objetivo analizar las causas del abandono de clientes, y la cantidad de datos vacíos (224) es poca comparada con la cantidad total de los datos (7256), se eliminarán dichas filas que no tienen información sobre si el cliente dejó o no la empresa.

In [10]:
# Eliminar filas en las que el valor de 'Churn' es vacío
df_final = df_final[df_final['Churn'] != '']

In [11]:
# Verificación de la eliminación de las filas vacías
df_final['Churn'].value_counts()

Churn
No     5174
Yes    1869
Name: count, dtype: int64

### 2.3 Renombrar columnas
Se renombrarán las columnas para poder estandarizar el formato de los nombres

In [12]:
# Diccionario con nombres a cambiar

nombres_nuevos = {
                'customerID':'cust_id',
                'Churn':'churn',
                'customer_gender':'cust_gender',
                'customer_SeniorCitizen':'cust_senior_citizen',
                'customer_Partner':'cust_partner', 
                'customer_Dependents':'cust_dependents', 
                'customer_tenure':'cust_tenure',
                'phone_PhoneService':'phone_service', 
                'phone_MultipleLines':'phone_multiple_lines', 
                'internet_InternetService':'internet_service',
                'internet_OnlineSecurity':'online_security', 
                'internet_OnlineBackup':'online_backup',
                'internet_DeviceProtection':'device_protection', 
                'internet_TechSupport':'tech_support',
                'internet_StreamingTV':'streaming_tv', 
                'internet_StreamingMovies':'streaming_movies', 
                'account_Contract':'contract_type',
                'account_PaperlessBilling':'paperless_billing', 
                'account_PaymentMethod':'payment_method',
                'account_Charges.Monthly':'monthly_charges', 
                'account_Charges.Total':'total_charges'
                
}

In [13]:
# Renombrar los nombres de las columnas
df_final.rename(columns=nombres_nuevos, inplace=True)

In [14]:
# Verificación de columnas renombradas
df_final.columns

Index(['cust_id', 'churn', 'cust_gender', 'cust_senior_citizen',
       'cust_partner', 'cust_dependents', 'cust_tenure', 'phone_service',
       'phone_multiple_lines', 'internet_service', 'online_security',
       'online_backup', 'device_protection', 'tech_support', 'streaming_tv',
       'streaming_movies', 'contract_type', 'paperless_billing',
       'payment_method', 'monthly_charges', 'total_charges'],
      dtype='object')

### 2.4 Creación de columna daily_charges
De acuerdo a la recomendación indicada en el challenge, se creará la columna daily_charges, que tendrá los valores diarios de facturación.

In [15]:
# Creación de la columna daily_charges
df_final['daily_charges'] = round(df_final['monthly_charges'] / 30, 2)

In [16]:
# Verificación de la creación de la columna daily_charges
df_final.head()

Unnamed: 0,cust_id,churn,cust_gender,cust_senior_citizen,cust_partner,cust_dependents,cust_tenure,phone_service,phone_multiple_lines,internet_service,...,device_protection,tech_support,streaming_tv,streaming_movies,contract_type,paperless_billing,payment_method,monthly_charges,total_charges,daily_charges
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4,2.8


### 2.5 Cambio de tipo de dato en cust_senior_citizen
La columna cust_senior_citizen tiene valores de 0 y 1, que corresponden a valores de 0 = No y 1 = Yes. Para tener homoheneidad en el dataframe, se convertirán estos valores numéricos a valores categóricos.

In [17]:
# Verificación de valores en la columna cust_senior_citizen
df_final['cust_senior_citizen'].value_counts()

cust_senior_citizen
0    5901
1    1142
Name: count, dtype: int64

In [18]:
# Cambio de tipo de dato en cust_senior_citizen
df_final['cust_senior_citizen'] = df_final['cust_senior_citizen'].replace({0:'No', 1:'Yes'})

In [19]:
# Verificación de cambios
df_final['cust_senior_citizen'].value_counts()

cust_senior_citizen
No     5901
Yes    1142
Name: count, dtype: int64

In [20]:
# Verificación de la estructura del dataframe final
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cust_id               7043 non-null   object 
 1   churn                 7043 non-null   object 
 2   cust_gender           7043 non-null   object 
 3   cust_senior_citizen   7043 non-null   object 
 4   cust_partner          7043 non-null   object 
 5   cust_dependents       7043 non-null   object 
 6   cust_tenure           7043 non-null   int64  
 7   phone_service         7043 non-null   object 
 8   phone_multiple_lines  7043 non-null   object 
 9   internet_service      7043 non-null   object 
 10  online_security       7043 non-null   object 
 11  online_backup         7043 non-null   object 
 12  device_protection     7043 non-null   object 
 13  tech_support          7043 non-null   object 
 14  streaming_tv          7043 non-null   object 
 15  streaming_movies      7043

### 2.6

En esta primera etapa se ha concluido la limpieza de datos, en la que se eliminaron valores faltantes, se creó la columna daily_charges, se renombraron las columnas y se imputaron valores categóricos a una variable numérica dicotómica (cust_senior_citizen).
Con el dataframe final listo para el análisis se procederá a realizar el análisis exploratorio de datos.

## 3. ANÁLISIS EXPLORATORIO DE DATOS


Esta etapa se centrará en realizar un análisis para poder determinar los factores que han influido en el abandono de clientes. Las principales preguntas a responder son las siguientes:

- ¿Cuáles son los servicios más populares entre los clientes?
- ¿Cuál es la tasa de abandono de clientes?
- ¿Qué perfil tiene el cliente que abandona el servicio?
- ¿Es el costo del servicio un factor importante para que un cliente abandone?
- ¿Qué tipo de servicios contrataban los clientes que abandonaron?


### 3.1 ¿Cuáles son los servicios más populares entre los clientes?
Se realizará un análisis de cantidad de clientes por servicio y cantidad de abandonos por servicio. Los servicios principales de la empresa son el servicio de telefonía y el servicio de internet. Cada uno de estos servicios tiene sub-servicios ofertados:

1. Servicio de telefonía (phone_service):
    - 1 sola línea telefónica
    - Múltiples líneas telefónicas (phone_multiple_lines)

2. Servicio de internet (internet service): puede ser fibra óptica o DSL
    - Seguridad en línea (online_security)
    - Respaldo en línea (online_backup)
    - Protección de dispositivo (device_protection)
    - Servicio técnico (tech_support)
    - TV cable (streaming_tv)
    - Películas streaming (streaming_movies)


In [21]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cust_id               7043 non-null   object 
 1   churn                 7043 non-null   object 
 2   cust_gender           7043 non-null   object 
 3   cust_senior_citizen   7043 non-null   object 
 4   cust_partner          7043 non-null   object 
 5   cust_dependents       7043 non-null   object 
 6   cust_tenure           7043 non-null   int64  
 7   phone_service         7043 non-null   object 
 8   phone_multiple_lines  7043 non-null   object 
 9   internet_service      7043 non-null   object 
 10  online_security       7043 non-null   object 
 11  online_backup         7043 non-null   object 
 12  device_protection     7043 non-null   object 
 13  tech_support          7043 non-null   object 
 14  streaming_tv          7043 non-null   object 
 15  streaming_movies      7043

In [22]:
# Cantidad de clientes por servicio
clientes_servicio = df_final[['churn','phone_service', 'phone_multiple_lines', 'internet_service', 'online_security', 'online_backup', 'device_protection', 'tech_support', 'streaming_tv', 'streaming_movies']]

clientes_servicio

Unnamed: 0,churn,phone_service,phone_multiple_lines,internet_service,online_security,online_backup,device_protection,tech_support,streaming_tv,streaming_movies
0,No,Yes,No,DSL,No,Yes,No,Yes,Yes,No
1,No,Yes,Yes,DSL,No,No,No,No,No,Yes
2,Yes,Yes,No,Fiber optic,No,No,Yes,No,No,No
3,Yes,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Yes,Yes,No,Fiber optic,No,No,No,Yes,Yes,No
...,...,...,...,...,...,...,...,...,...,...
7262,No,Yes,No,DSL,Yes,No,No,Yes,No,No
7263,Yes,Yes,Yes,Fiber optic,No,No,No,No,No,Yes
7264,No,Yes,No,DSL,No,Yes,No,No,No,No
7265,No,Yes,No,DSL,Yes,No,Yes,Yes,No,Yes


In [23]:
clientes_telefonia_internet = clientes_servicio[['phone_service', 'internet_service']].apply(lambda x: (x =='Yes').sum())

clientes_telefonia_internet

phone_service       6361
internet_service       0
dtype: int64

## 4. CONCLUSIONES

## 5. RECOMENDACIONES

- Tener información sobre quejas de los clientes o índice de satisfacción de los servicios.
- ¿Programa de fidelización / descuentos a los clientes con mayor tiempo?