<a href="https://colab.research.google.com/github/byfurkation/TelecomX_datos/blob/main/TelecomX_LATAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Telecom X - Análisis de Evasión de Clientes

Has sido contratado como asistente de análisis de datos en Telecom X y formarás parte del proyecto "Churn de Clientes". **La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la pérdida de clientes.**

Tu desafío será recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer información valiosa. A partir de tu análisis, el equipo de Data Science podrá avanzar en modelos predictivos y desarrollar estrategias para reducir la evasión.

¿Qué vas a practicar?

✅ Importar y manipular datos desde una API de manera eficiente.

✅ Aplicar los conceptos de ETL (Extracción, Transformación y Carga) en la preparación de los datos.

✅ Crear visualizaciones estratégicas para identificar patrones y tendencias.

✅ Realizar un Análisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.

¡Ahora es tu turno! 🚀 Usa tus conocimientos para transformar datos en información estratégica y ayudar a Telecom X a retener más clientes.

##📌 Extracción

Para iniciar tu análisis, necesitarás importar los datos de la API de Telecom X. Estos datos están disponibles en formato JSON y contienen información esencial sobre los clientes, incluyendo datos demográficos, tipo de servicio contratado y estado de evasión.

¿Qué debes hacer?

✅ Cargar los datos directamente desde la API utilizando Python.

✅ Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

Este es el primer paso para transformar los datos en información valiosa. ¿Listo para programar? 🚀

### **Ayuda a visualizar un archivo un formato Json en la web.**

https://jsonviewer.stack.hu/



In [1]:
# Procederemos a cargar un archivo Json, Por lo cual como primer paso
# necesitamos importar pandas y Json
import pandas as pd
import json

In [2]:
df = pd.read_json('https://raw.githubusercontent.com/byfurkation/TelecomX_datos/d3d77c77396a50d0951630ec521dc3b048607b6f/TelecomX_Data.json')

df.head(10)

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
5,0013-MHZWF,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
6,0013-SMEOE,No,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Two year', 'PaperlessBilling': '..."
7,0014-BMAQU,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Two year', 'PaperlessBilling': '..."
8,0015-UOCOJ,No,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
9,0016-QLJIS,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


### **Resultado**
De esta manera queda guardado automáticamente en un Data frame nuestra información, pues al aplicarle el método read a cualquier importación de archivos se transforma automáticamente en uno.

##🔧 Transformación

In [3]:
# Normalizamos cada columna con diccionarios
df_customer = pd.json_normalize(df['customer'])
df_phone    = pd.json_normalize(df['phone'])
df_internet = pd.json_normalize(df['internet'])
df_account  = pd.json_normalize(df['account'])

# Concatenamos todas las columnas nuevas con el DataFrame original
df_normalizado = pd.concat([df.drop(['customer', 'phone', 'internet', 'account'], axis=1),
                      df_customer, df_phone, df_internet, df_account], axis=1)


In [4]:
df_normalizado.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [5]:
df_normalizado.sample(20)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
1165,1658-XUHBX,No,Female,1,Yes,Yes,59,Yes,Yes,Fiber optic,...,No,Yes,No,No,Yes,Month-to-month,Yes,Credit card (automatic),88.75,5348.65
1364,1972-RSMOV,,Female,0,Yes,No,40,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.1,780.1
5599,7644-OMVMY,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.85,
5284,7218-HKQFK,Yes,Male,0,Yes,No,2,Yes,No,Fiber optic,...,No,No,Yes,Yes,Yes,Month-to-month,Yes,Electronic check,94.2,167.5
567,0812-WUPTB,Yes,Male,1,Yes,No,1,Yes,No,Fiber optic,...,No,No,No,No,No,Month-to-month,No,Mailed check,70.85,70.85
6631,9114-DPSIA,No,Male,0,Yes,Yes,72,Yes,Yes,DSL,...,Yes,Yes,Yes,No,Yes,Two year,No,Credit card (automatic),81.0,5750.0
4500,6169-PGNCD,No,Female,0,No,No,57,Yes,No,DSL,...,Yes,Yes,Yes,Yes,No,Two year,Yes,Credit card (automatic),74.3,4166.35
1232,1763-KUAAW,No,Female,1,No,No,18,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,No,Bank transfer (automatic),20.35,369.6
3838,5248-RPYWW,No,Female,1,Yes,Yes,72,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),90.15,6716.45
1268,1821-BUCWY,No,Male,0,No,No,30,Yes,No,DSL,...,No,Yes,No,No,No,Two year,Yes,Mailed check,55.65,1653.85


### **Conoce el conjunto de datos**

Ahora que has extraído los datos, es fundamental comprender la estructura del dataset y el significado de sus columnas. Esta etapa te ayudará a identificar qué variables son más relevantes para el análisis de evasión de clientes.

📌 Para facilitar este proceso, se creó un diccionario de datos con la descripción de cada columna, mismo que se encuentra en el repositorio bajo el nombre de "TelecomX_diccionario.md".



### **Diccionario de datos**

customerID: número de identificación único de cada cliente

Churn: si el cliente dejó o no la empresa

gender: género (masculino y femenino)

SeniorCitizen: información sobre si un cliente tiene o no una edad igual o mayor a 65 años

Partner: si el cliente tiene o no una pareja

Dependents: si el cliente tiene o no dependientes

tenure: meses de contrato del cliente

PhoneService: suscripción al servicio telefónico

MultipleLines: suscripción a más de una línea telefónica

InternetService: suscripción a un proveedor de internet

OnlineSecurity: suscripción adicional de seguridad en línea

OnlineBackup: suscripción adicional de respaldo en línea

DeviceProtection: suscripción adicional de protección del dispositivo

TechSupport: suscripción adicional de soporte técnico, menor tiempo de espera

StreamingTV: suscripción de televisión por cable

StreamingMovies: suscripción de streaming de películas

Contract: tipo de contrato

PaperlessBilling: si el cliente prefiere recibir la factura en línea

PaymentMethod: forma de pago

Charges.Monthly: total de todos los servicios del cliente por mes

Charges.Total: total gastado por el cliente

### **Tarea 1:** Explorar las columnas del dataset y verificar sus tipos de datos.


In [6]:
# Observamos que la totalidad de su registro son 7,267, y en sus columnas cada
# una registra los mismos con los datos no nulo.
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


### **Tarea 2**: Consultar el diccionario para comprender mejor el significado de las variables.


In [7]:
# Valores unicos de una columna
df['Churn'].unique()

array(['No', 'Yes', ''], dtype=object)

In [8]:
# Ver valores únicos y sus frecuencias para todas las columnas

for col in df_normalizado.columns:
    print(f"--- {col} ---")
    print(df_normalizado[col].value_counts(dropna=False))  # incluye NaN si existen
    print()

--- customerID ---
customerID
9995-HOTOH    1
0002-ORFBO    1
0003-MKNFE    1
9970-QBCDA    1
9968-FFVVH    1
             ..
0014-BMAQU    1
0013-SMEOE    1
0013-MHZWF    1
0013-EXCHZ    1
0011-IGKFF    1
Name: count, Length: 7267, dtype: int64

--- Churn ---
Churn
No     5174
Yes    1869
        224
Name: count, dtype: int64

--- gender ---
gender
Male      3675
Female    3592
Name: count, dtype: int64

--- SeniorCitizen ---
SeniorCitizen
0    6085
1    1182
Name: count, dtype: int64

--- Partner ---
Partner
No     3749
Yes    3518
Name: count, dtype: int64

--- Dependents ---
Dependents
No     5086
Yes    2181
Name: count, dtype: int64

--- tenure ---
tenure
1     634
72    369
2     246
3     207
4     185
     ... 
28     60
39     59
44     54
36     50
0      11
Name: count, Length: 73, dtype: int64

--- PhoneService ---
PhoneService
Yes    6560
No      707
Name: count, dtype: int64

--- MultipleLines ---
MultipleLines
No                  3495
Yes                 3065
No phone s

#### **Decisión de análisis clave**

Antes de transformar o eliminar datos, se debe entender qué significan los valores faltantes y cómo afectan el análisis. Como en este caso es un ejercicio didáctico, podemos aplicar criterios lógicos con justificación.

**Columna: Churn**

Valores únicos:

"No": 5174

"Yes": 1869

" " (espacios vacíos): 224

Esta **columna define si un cliente abandonó o no el servicio**, lo cual es clave para análisis predictivo.

Se eliminaránn 224 registros (~3%) con datos faltantes en la columna Churn, ya que esta representa la variable objetivo del análisis y no se puede inferir razonablemente su valor.

In [9]:
# eliminar filas vacías de churn 224+7043= 7, 267

# Eliminar filas donde Churn es solo un espacio
df_normalizado = df_normalizado[df_normalizado['Churn'].str.strip() != '']
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   Churn             7043 non-null   object 
 2   gender            7043 non-null   object 
 3   SeniorCitizen     7043 non-null   int64  
 4   Partner           7043 non-null   object 
 5   Dependents        7043 non-null   object 
 6   tenure            7043 non-null   int64  
 7   PhoneService      7043 non-null   object 
 8   MultipleLines     7043 non-null   object 
 9   InternetService   7043 non-null   object 
 10  OnlineSecurity    7043 non-null   object 
 11  OnlineBackup      7043 non-null   object 
 12  DeviceProtection  7043 non-null   object 
 13  TechSupport       7043 non-null   object 
 14  StreamingTV       7043 non-null   object 
 15  StreamingMovies   7043 non-null   object 
 16  Contract          7043 non-null   object 
 17  

### **Tarea 3:** Identificar las columnas más relevantes para el análisis de evasión.

🎯 Objetivo asumido:

Analizar y predecir el "Churn" (si un cliente se va o se queda)

1. tenure (meses de contrato)

🧠 Relevancia: Refleja el tiempo de permanencia. Clientes con menor tenure son más propensos a irse.

🧪 Análisis: Puedes hacer histogramas, segmentaciones, correlaciones con Churn.

2. Contract (tipo de contrato: mensual, anual...)

🧠 Relevancia: Clientes con contrato mes a mes tienden a irse más fácilmente.

📊 Ideal para gráficos de barras o análisis de riesgo.

3. PaymentMethod (forma de pago)

💳 Pagos automáticos vs. manuales podrían influir.

🎯 A menudo se asocia a abandono por fricción en pagos.

4. Charges.Monthly y Charges.Total

💵 Clientes con cargos más altos pueden estar menos satisfechos.

También pueden indicar uso intensivo (más fidelidad).

Útiles para crear grupos de riesgo por gasto.

5. InternetService y servicios relacionados:

InternetService, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies

🧠 Estos servicios son opcionales y reflejan nivel de compromiso y satisfacción.

Algunos modelos han demostrado que la combinación de servicios influye fuertemente en la retención.

6. PaperlessBilling

📥 Puede parecer menor, pero se ha encontrado correlación entre este tipo de facturación y cancelación: refleja preferencia por lo digital y menos fricción al cambiar de proveedor.

7. PhoneService y MultipleLines

🔁 Relacionados con fidelización: clientes que contratan más de un servicio tienden a quedarse más.

⚖️ Variables demográficas (prioridad media)

Estas no siempre son predictoras fuertes, pero pueden dar contexto:

SeniorCitizen: Algunos estudios muestran que personas mayores son más estables en sus servicios.

Partner y Dependents: Pueden reflejar estabilidad o necesidad de varios servicios.

gender: Usualmente no es significativa para Churn por sí sola, pero puede considerarse por completitud.




### **Tarea 4** Comprobación de incoherencias en los datos

En este paso, verifica si hay problemas en los datos que puedan afectar el análisis. Presta atención a valores ausentes, duplicados, errores de formato e inconsistencias en las categorías. Este proceso es esencial para asegurarte de que los datos estén listos para las siguientes etapas.

 0   customerID        7043 non-null   object ok

 1   Churn             7043 non-null   object boolean

 2   gender            7043 non-null   object ok

 3   SeniorCitizen     7043 non-null   int64  ok

 4   Partner           7043 non-null   object boolean

 5   Dependents        7043 non-null   object boolean

 6   tenure            7043 non-null   int64  ok

 7   PhoneService      7043 non-null   object int64

 8   MultipleLines     7043 non-null   object boolean

 9   InternetService   7043 non-null   object boolean

 10  OnlineSecurity    7043 non-null   object boolean

 11  OnlineBackup      7043 non-null   object boolean

 12  DeviceProtection  7043 non-null   object boolean

 13  TechSupport       7043 non-null   object boolean

 14  StreamingTV       7043 non-null   object boolean

 15  StreamingMovies   7043 non-null   object boolean

 16  Contract          7043 non-null   object ok

 17  PaperlessBilling  7043 non-null   object boolean

 18  PaymentMethod     7043 non-null   object ok

 19  Charges.Monthly   7043 non-null   float64 ok

 20  Charges.Total     7043 non-null   object float 64

### **Tarea 5** Manejo de inconsistencias

Ahora que has identificado las inconsistencias, es momento de aplicar las correcciones necesarias. Ajusta los datos para asegurarte de que estén completos y coherentes, preparándolos para las siguientes etapas del análisis.

In [10]:
# El método .copy() solo se ejecuta una vez para cortar cualquier vínculo con
# una vista temporal y evitar las advertencias como SettingWithCopyWarning.
df_normalizado = df_normalizado.copy()

In [11]:
# limpiar valores no numéricos
df_normalizado['Charges.Total'] = df_normalizado['Charges.Total'].replace(' ', pd.NA)

In [12]:
df_normalizado['Charges.Total'] = pd.to_numeric(df_normalizado['Charges.Total'], errors='coerce')

In [13]:
df_normalizado['Charges.Total'].dtypes  # Debería devolver: dtype('float64')

dtype('float64')

In [14]:
# 1. Churn: "Yes" → True, "No" → False
df_normalizado['Churn'] = df_normalizado['Churn'].map({'Yes': True, 'No': False})

# 2. SeniorCitizen: 1 → True, 0 → False
df_normalizado['SeniorCitizen'] = df_normalizado['SeniorCitizen'].map({1: True, 0: False})

# 3. Partner: "Yes" → True, "No" → False
df_normalizado['Partner'] = df_normalizado['Partner'].map({'Yes': True, 'No': False})

# 4. Dependents: "Yes" → True, "No" → False
df_normalizado['Dependents'] = df_normalizado['Dependents'].map({'Yes': True, 'No': False})

# 5. PhoneService: "Yes" → True, "No" → False
df_normalizado['PhoneService'] = df_normalizado['PhoneService'].map({'Yes': True, 'No': False})

# 6. PaperlessBilling: "Yes" → True, "No" → False
df_normalizado['PaperlessBilling'] = df_normalizado['PaperlessBilling'].map({'Yes': True, 'No': False})

In [15]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   Churn             7043 non-null   bool   
 2   gender            7043 non-null   object 
 3   SeniorCitizen     7043 non-null   bool   
 4   Partner           7043 non-null   bool   
 5   Dependents        7043 non-null   bool   
 6   tenure            7043 non-null   int64  
 7   PhoneService      7043 non-null   bool   
 8   MultipleLines     7043 non-null   object 
 9   InternetService   7043 non-null   object 
 10  OnlineSecurity    7043 non-null   object 
 11  OnlineBackup      7043 non-null   object 
 12  DeviceProtection  7043 non-null   object 
 13  TechSupport       7043 non-null   object 
 14  StreamingTV       7043 non-null   object 
 15  StreamingMovies   7043 non-null   object 
 16  Contract          7043 non-null   object 
 17  

In [16]:
# La diferencia de 11 valores (7043 vs. 7032) confirma que 11 celdas estaban
# vacías o corruptas.
df_normalizado[df_normalizado['Charges.Total'].isna()]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,False,Female,False,True,True,0,False,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,False,Credit card (automatic),56.05,
1775,2520-SGTTA,False,Female,False,True,True,0,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,False,Mailed check,20.0,
1955,2775-SEFEE,False,Male,False,False,True,0,True,Yes,DSL,...,Yes,No,Yes,No,No,Two year,True,Bank transfer (automatic),61.9,
2075,2923-ARZLG,False,Male,False,True,True,0,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,True,Mailed check,19.7,
2232,3115-CZMZD,False,Male,False,False,True,0,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,False,Mailed check,20.25,
2308,3213-VVOLG,False,Male,False,True,True,0,True,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,False,Mailed check,25.35,
2930,4075-WKNIU,False,Female,False,True,True,0,True,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,False,Mailed check,73.35,
3134,4367-NUYAO,False,Male,False,True,True,0,True,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,False,Mailed check,25.75,
3203,4472-LVYGI,False,Female,False,True,True,0,False,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,True,Bank transfer (automatic),52.55,
4169,5709-LVOEQ,False,Female,False,True,True,0,True,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,False,Mailed check,80.85,


In [17]:
# Razón por la cual al no ser muchas filas se optará por eliminarlas ya que no se puede obtener el valor total de ninguna manera clara. En otras circunstancias verificaríamos con los equipos de venta y verificaríamos cada una de las categorías a fin de saber cuál es el cargo de cada uno de los clientes.

df_normalizado = df_normalizado.dropna(subset=['Charges.Total'])

In [18]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7032 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7032 non-null   object 
 1   Churn             7032 non-null   bool   
 2   gender            7032 non-null   object 
 3   SeniorCitizen     7032 non-null   bool   
 4   Partner           7032 non-null   bool   
 5   Dependents        7032 non-null   bool   
 6   tenure            7032 non-null   int64  
 7   PhoneService      7032 non-null   bool   
 8   MultipleLines     7032 non-null   object 
 9   InternetService   7032 non-null   object 
 10  OnlineSecurity    7032 non-null   object 
 11  OnlineBackup      7032 non-null   object 
 12  DeviceProtection  7032 non-null   object 
 13  TechSupport       7032 non-null   object 
 14  StreamingTV       7032 non-null   object 
 15  StreamingMovies   7032 non-null   object 
 16  Contract          7032 non-null   object 
 17  

In [19]:
df_normalizado.sample(6)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
5389,7359-WWYJV,False,Male,False,True,False,72,True,Yes,Fiber optic,...,Yes,Yes,Yes,Yes,Yes,Two year,False,Credit card (automatic),114.45,8375.05
4521,6198-RTPMF,False,Female,False,True,False,17,True,Yes,Fiber optic,...,No,No,No,Yes,Yes,Month-to-month,False,Electronic check,92.6,1579.7
3599,4957-TIALW,False,Female,False,False,True,15,True,No,DSL,...,Yes,Yes,Yes,No,No,One year,False,Credit card (automatic),65.6,1010.0
360,0516-WJVXC,True,Female,False,False,False,5,True,No,DSL,...,No,No,Yes,No,No,Month-to-month,False,Electronic check,54.2,308.25
2986,4139-JPIAM,False,Male,False,False,False,51,False,No phone service,DSL,...,No,No,Yes,No,Yes,Month-to-month,True,Credit card (automatic),44.45,2181.55
5688,7774-OJSXI,True,Male,False,False,False,31,True,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,True,Electronic check,103.45,3066.45


### **Tarea 6** Renombrar columnas.

In [24]:
# Para cambiar múltiples columnas
df_normalizado = df_normalizado.rename(columns={
    'customerID': 'id_cliente',
    'gender': 'genero'
    'Churn': 'cliente_actual',
    'SeniorCitizen': 'ciudadano_mayor',
    'Partner': 'pareja',
    'Dependents': 'dependientes',
    'tenure': 'permanencia_meses', # cambiar datos de columna
    'PhoneService': 'servicio_telefono',
    'MultipleLines': 'lineas_multiples',
    'InternetService': 'servicio_internet',
    'OnlineSecurity': 'seguridad_online',
    'OnlineBackup': 'respaldo_online',
    'DeviceProtection': 'proteccion_dispositivo',
    'TechSupport': 'soporte_tecnico',
    'StreamingTV': 'streaming_tv',
    'StreamingMovies': 'streaming_peliculas',
    'Contract': 'contrato',
    'PaperlessBilling': 'facturacion_sin_papel',
    'PaymentMethod': 'metodo_pago',
    'Charges.Monthly': 'cargos_mensuales',
    'Charges.Total': 'cargos_totales'
})

SyntaxError: invalid syntax (ipython-input-24-974463508.py, line 5)

In [21]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7032 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id_cliente              7032 non-null   object 
 1   cliente_actual          7032 non-null   bool   
 2   gender                  7032 non-null   object 
 3   ciudadano_mayor         7032 non-null   bool   
 4   pareja                  7032 non-null   bool   
 5   dependientes            7032 non-null   bool   
 6   permanencia_meses       7032 non-null   int64  
 7   servicio_telefono       7032 non-null   bool   
 8   lineas_multiples        7032 non-null   object 
 9   servicio_internet       7032 non-null   object 
 10  seguridad_online        7032 non-null   object 
 11  respaldo_online         7032 non-null   object 
 12  proteccion_dispositivo  7032 non-null   object 
 13  soporte_tecnico         7032 non-null   object 
 14  streaming_tv            7032 non-null   objec

### **Tarea 7** Columna de cuentas diarias

Ahora que los datos están limpios, es momento de crear la columna "Cuentas_Diarias". Utiliza la facturación mensual para calcular el valor diario, proporcionando una visión más detallada del comportamiento de los clientes a lo largo del tiempo.



In [22]:
# crear la columna "Cuentas_Diarias" Utilizando la facturación mensual para
# calcular el valor diario

df_normalizado['cargo_por_dia'] = df_normalizado['cargos_mensuales'] / 30
df_normalizado.head()

Unnamed: 0,id_cliente,cliente_actual,gender,ciudadano_mayor,pareja,dependientes,permanencia_meses,servicio_telefono,lineas_multiples,servicio_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,contrato,facturacion_sin_papel,metodo_pago,cargos_mensuales,cargos_totales,cargo_por_dia
0,0002-ORFBO,False,Female,False,True,True,9,True,No,DSL,...,No,Yes,Yes,No,One year,True,Mailed check,65.6,593.3,2.186667
1,0003-MKNFE,False,Male,False,False,False,9,True,Yes,DSL,...,No,No,No,Yes,Month-to-month,False,Mailed check,59.9,542.4,1.996667
2,0004-TLHLJ,True,Male,False,False,False,4,True,No,Fiber optic,...,Yes,No,No,No,Month-to-month,True,Electronic check,73.9,280.85,2.463333
3,0011-IGKFF,True,Male,True,True,False,13,True,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,True,Electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,True,Female,True,True,False,3,True,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,True,Mailed check,83.9,267.4,2.796667


### **Tarea 8**  Estandarización y transformación de datos.

La estandarización y transformación de datos es una etapa opcional, pero altamente recomendada, ya que busca hacer que la información sea más consistente, comprensible y adecuada para el análisis. Durante esta fase, por ejemplo, puedes convertir valores textuales como "Sí" y "No" en valores binarios (1 y 0), lo que facilita el procesamiento matemático y la aplicación de modelos analíticos.

Además, traducir o renombrar columnas y datos hace que la información sea más accesible y fácil de entender, especialmente cuando se trabaja con fuentes externas o términos técnicos. Aunque no es un paso obligatorio, puede mejorar significativamente la claridad y comunicación de los resultados, facilitando la interpretación y evitando confusiones, especialmente al compartir información con stakeholders no técnicos.

In [23]:
# Ver valores únicos y sus frecuencias para todas las columnas

for col in df_normalizado.columns:
    print(f"--- {col} ---")
    print(df_normalizado[col].value_counts(dropna=False))  # incluye NaN si existen
    print()

--- id_cliente ---
id_cliente
9995-HOTOH    1
0002-ORFBO    1
0003-MKNFE    1
0004-TLHLJ    1
0011-IGKFF    1
             ..
0018-NYROU    1
0017-IUDMW    1
0017-DINOC    1
0016-QLJIS    1
0015-UOCOJ    1
Name: count, Length: 7032, dtype: int64

--- cliente_actual ---
cliente_actual
False    5163
True     1869
Name: count, dtype: int64

--- gender ---
gender
Male      3549
Female    3483
Name: count, dtype: int64

--- ciudadano_mayor ---
ciudadano_mayor
False    5890
True     1142
Name: count, dtype: int64

--- pareja ---
pareja
False    3639
True     3393
Name: count, dtype: int64

--- dependientes ---
dependientes
False    4933
True     2099
Name: count, dtype: int64

--- permanencia_meses ---
permanencia_meses
1     613
72    362
2     238
3     200
4     176
     ... 
38     59
28     57
39     56
44     51
36     50
Name: count, Length: 72, dtype: int64

--- servicio_telefono ---
servicio_telefono
True     6352
False     680
Name: count, dtype: int64

--- lineas_multiples ---
lin

In [25]:
# Cambiar el nombre de la columna gender por género

df_normalizado = df_normalizado.rename(columns={'gender': 'genero'})

In [26]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7032 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id_cliente              7032 non-null   object 
 1   cliente_actual          7032 non-null   bool   
 2   genero                  7032 non-null   object 
 3   ciudadano_mayor         7032 non-null   bool   
 4   pareja                  7032 non-null   bool   
 5   dependientes            7032 non-null   bool   
 6   permanencia_meses       7032 non-null   int64  
 7   servicio_telefono       7032 non-null   bool   
 8   lineas_multiples        7032 non-null   object 
 9   servicio_internet       7032 non-null   object 
 10  seguridad_online        7032 non-null   object 
 11  respaldo_online         7032 non-null   object 
 12  proteccion_dispositivo  7032 non-null   object 
 13  soporte_tecnico         7032 non-null   object 
 14  streaming_tv            7032 non-null   objec

In [27]:
# Reemplazamos el contenido de las columnas por el idioma español para darle
# más accesibilidad a los socios

# Traducir columna genero
df_normalizado['genero'] = df_normalizado['genero'].replace({
    'Male': 'Masculino',
    'Female': 'Femenino'
})

# Traducir columna lineas_multiples
df_normalizado['lineas_multiples'] = df_normalizado['lineas_multiples'].replace({
    'No': 'No',
    'Yes': 'Sí',
    'No phone service': 'Sin servicio telefónico'
})

# Traducir columna servicio_internet
df_normalizado['servicio_internet'] = df_normalizado['servicio_internet'].replace({
    'Fiber optic': 'Fibra óptica',
    'DSL': 'DSL',
    'No': 'No'
})

# Traducir columna seguridad_online
df_normalizado['seguridad_online'] = df_normalizado['seguridad_online'].replace({
    'No': 'No',
    'Yes': 'Sí',
    'No internet service': 'Sin servicio de internet'
})

# Traducir columna respaldo_online
df_normalizado['respaldo_online'] = df_normalizado['respaldo_online'].replace({
    'No': 'No',
    'Yes': 'Sí',
    'No internet service': 'Sin servicio de internet'
})

# Traducir columna proteccion_dispositivo
df_normalizado['proteccion_dispositivo'] = df_normalizado['proteccion_dispositivo'].replace({
    'No': 'No',
    'Yes': 'Sí',
    'No internet service': 'Sin servicio de internet'
})

# Traducir columna soporte_tecnico
df_normalizado['soporte_tecnico'] = df_normalizado['soporte_tecnico'].replace({
    'No': 'No',
    'Yes': 'Sí',
    'No internet service': 'Sin servicio de internet'
})

# Traducir columna streaming_tv
df_normalizado['streaming_tv'] = df_normalizado['streaming_tv'].replace({
    'No': 'No',
    'Yes': 'Sí',
    'No internet service': 'Sin servicio de internet'
})

# Traducir columna streaming_peliculas
df_normalizado['streaming_peliculas'] = df_normalizado['streaming_peliculas'].replace({
    'No': 'No',
    'Yes': 'Sí',
    'No internet service': 'Sin servicio de internet'
})

# Traducir columna contrato
df_normalizado['contrato'] = df_normalizado['contrato'].replace({
    'Month-to-month': 'Mes a mes',
    'Two year': 'Dos años',
    'One year': 'Un año'
})

# Traducir columna metodo_pago
df_normalizado['metodo_pago'] = df_normalizado['metodo_pago'].replace({
    'Electronic check': 'Cheque electrónico',
    'Mailed check': 'Cheque por correo',
    'Bank transfer (automatic)': 'Transferencia bancaria (automática)',
    'Credit card (automatic)': 'Tarjeta de crédito (automática)'
})

In [28]:
df_normalizado.head(10)

Unnamed: 0,id_cliente,cliente_actual,genero,ciudadano_mayor,pareja,dependientes,permanencia_meses,servicio_telefono,lineas_multiples,servicio_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,contrato,facturacion_sin_papel,metodo_pago,cargos_mensuales,cargos_totales,cargo_por_dia
0,0002-ORFBO,False,Femenino,False,True,True,9,True,No,DSL,...,No,Sí,Sí,No,Un año,True,Cheque por correo,65.6,593.3,2.186667
1,0003-MKNFE,False,Masculino,False,False,False,9,True,Sí,DSL,...,No,No,No,Sí,Mes a mes,False,Cheque por correo,59.9,542.4,1.996667
2,0004-TLHLJ,True,Masculino,False,False,False,4,True,No,Fibra óptica,...,Sí,No,No,No,Mes a mes,True,Cheque electrónico,73.9,280.85,2.463333
3,0011-IGKFF,True,Masculino,True,True,False,13,True,No,Fibra óptica,...,Sí,No,Sí,Sí,Mes a mes,True,Cheque electrónico,98.0,1237.85,3.266667
4,0013-EXCHZ,True,Femenino,True,True,False,3,True,No,Fibra óptica,...,No,Sí,Sí,No,Mes a mes,True,Cheque por correo,83.9,267.4,2.796667
5,0013-MHZWF,False,Femenino,False,False,True,9,True,No,DSL,...,No,Sí,Sí,Sí,Mes a mes,True,Tarjeta de crédito (automática),69.4,571.45,2.313333
6,0013-SMEOE,False,Femenino,True,True,False,71,True,No,Fibra óptica,...,Sí,Sí,Sí,Sí,Dos años,True,Transferencia bancaria (automática),109.7,7904.25,3.656667
7,0014-BMAQU,False,Masculino,False,True,False,63,True,Sí,Fibra óptica,...,No,Sí,No,No,Dos años,True,Tarjeta de crédito (automática),84.65,5377.8,2.821667
8,0015-UOCOJ,False,Femenino,True,False,False,7,True,No,DSL,...,No,No,No,No,Mes a mes,True,Cheque electrónico,48.2,340.35,1.606667
9,0016-QLJIS,False,Femenino,False,True,True,65,True,Sí,DSL,...,Sí,Sí,Sí,Sí,Dos años,True,Cheque por correo,90.45,5957.9,3.015


##📊 Carga y análisis

##📄Informe final