# Challenge Telecom X
Telecom X - An√°lisis de Evasi√≥n de Clientes
Has sido contratado como asistente de an√°lisis de datos en Telecom X y formar√°s parte del proyecto "Churn de Clientes". La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la p√©rdida de clientes.

Tu desaf√≠o ser√° recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer informaci√≥n valiosa. A partir de tu an√°lisis, el equipo de Data Science podr√° avanzar en modelos predictivos y desarrollar estrategias para reducir la evasi√≥n.

¬øQu√© vas a practicar?
‚úÖ Importar y manipular datos desde una API de manera eficiente.<br>
‚úÖ Aplicar los conceptos de ETL (Extracci√≥n, Transformaci√≥n y Carga) en la preparaci√≥n de los datos.<br>
‚úÖ Crear visualizaciones estrat√©gicas para identificar patrones y tendencias.<br>
‚úÖ Realizar un An√°lisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.<br>
<br>
¬°Ahora es tu turno! üöÄ Usa tus conocimientos para transformar datos en informaci√≥n estrat√©gica y ayudar a Telecom X a retener m√°s clientes.

## Extracci√≥n
Empezamos por la extracci√≥n de datos directamente desde el enlace

In [None]:
# Comenzamos importando todas las librer√≠as necesarias.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
# Nos conectamos a la fuente de datos directa:
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"
datos = pd.read_json(url)
# Vemos las primeras filas del DataFrame.
datos.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Nos pudimmos conectar sin problema a los datos originales y cargar un DataFrame.<br>
### Conoce los datos
Podemos ver inmediatamente que las columnas "customer", "phone", "internet" y "account" est√°n anidadas en formato .json. Usaremos .info() para saber m√°s de los datos.

In [5]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


Tenemos 7267 registros y 6 columnas de las cuales ninguna tiene valores vac√≠os y todas son Dtype object. Para poder continuar, necesitamos hacer unos cambios, primero asegurarnos que "customerID" no tenga valores repetidos, √©sto nos asegura que cada entrada corresponde a un cliente diferente. Segundo, cambiar el tipo de datos en "customerID" y "Churn" a texto, pues es el valor que debe contener. Posteriormente podremos desanidar los valores en las columnas restantes.

In [7]:
# Verificaci√≥n de unicidad de customerID. Si el resultado es menor que 7267, hay IDs duplicados.
datos["customerID"].nunique()

7267

In [9]:
datos["customerID"] = datos["customerID"].astype("string")
datos["Churn"] = datos["Churn"].astype("string")


datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   string
 1   Churn       7267 non-null   string
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(4), string(2)
memory usage: 340.8+ KB


Ahora podemos crear sub DataFrames para conocer los valores que est√°n anidados.

In [14]:
# Creamos un df por cada columna que es un JSON anidado.
customer = pd.json_normalize(datos["customer"])
phone = pd.json_normalize(datos["phone"])
internet = pd.json_normalize(datos["internet"])
account = pd.json_normalize(datos["account"])

Ahora podemos inspeccionar la informaci√≥n de cada DF

In [15]:
customer.head(), customer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   gender         7267 non-null   object
 1   SeniorCitizen  7267 non-null   int64 
 2   Partner        7267 non-null   object
 3   Dependents     7267 non-null   object
 4   tenure         7267 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 284.0+ KB


(   gender  SeniorCitizen Partner Dependents  tenure
 0  Female              0     Yes        Yes       9
 1    Male              0      No         No       9
 2    Male              0      No         No       4
 3    Male              1     Yes         No      13
 4  Female              1     Yes         No       3,
 None)

El DF "customer" cuenta con 5 columnas, de las cuales ninguna tiene valores nulos. la columna "SeniorCitizen" es un 0 o 1 como valores booleanos, hay que verificar si efectivamente son los √∫nicos valores que tiene. Se asume que la columna "tenure" es la cantidad de a√±os que el cliente ha tenido empleo fijo.

In [21]:
# Corroboramos que la columna SeniorCitizen solo tiene valores 0 y 1.
customer["SeniorCitizen"].unique()

# Convertimos la columna SeniorCitizen a tipo booleano.
customer["SeniorCitizen"] = customer["SeniorCitizen"].astype("bool")
customer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   gender         7267 non-null   object
 1   SeniorCitizen  7267 non-null   bool  
 2   Partner        7267 non-null   object
 3   Dependents     7267 non-null   object
 4   tenure         7267 non-null   int64 
dtypes: bool(1), int64(1), object(3)
memory usage: 234.3+ KB


In [22]:
phone.head(), phone.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   PhoneService   7267 non-null   object
 1   MultipleLines  7267 non-null   object
dtypes: object(2)
memory usage: 113.7+ KB


(  PhoneService MultipleLines
 0          Yes            No
 1          Yes           Yes
 2          Yes            No
 3          Yes            No
 4          Yes            No,
 None)

El DF "phone cuenta con 2 columnas, ambas tienen todos los valores. No hay modificaciones que hacer aqu√≠.

In [23]:
internet.head(), internet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   InternetService   7267 non-null   object
 1   OnlineSecurity    7267 non-null   object
 2   OnlineBackup      7267 non-null   object
 3   DeviceProtection  7267 non-null   object
 4   TechSupport       7267 non-null   object
 5   StreamingTV       7267 non-null   object
 6   StreamingMovies   7267 non-null   object
dtypes: object(7)
memory usage: 397.5+ KB


(  InternetService OnlineSecurity OnlineBackup DeviceProtection TechSupport  \
 0             DSL             No          Yes               No         Yes   
 1             DSL             No           No               No          No   
 2     Fiber optic             No           No              Yes          No   
 3     Fiber optic             No          Yes              Yes          No   
 4     Fiber optic             No           No               No         Yes   
 
   StreamingTV StreamingMovies  
 0         Yes              No  
 1          No             Yes  
 2          No              No  
 3         Yes             Yes  
 4         Yes              No  ,
 None)

El DF "internet" cuenta con 7 columnas de las cuales ninguna tiene valores nulos. "InternetService" es una columna cteg√≥rica y el resto es booleana.

In [24]:
account.head(), account.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Contract          7267 non-null   object 
 1   PaperlessBilling  7267 non-null   object 
 2   PaymentMethod     7267 non-null   object 
 3   Charges.Monthly   7267 non-null   float64
 4   Charges.Total     7267 non-null   object 
dtypes: float64(1), object(4)
memory usage: 284.0+ KB


(         Contract PaperlessBilling     PaymentMethod  Charges.Monthly  \
 0        One year              Yes      Mailed check             65.6   
 1  Month-to-month               No      Mailed check             59.9   
 2  Month-to-month              Yes  Electronic check             73.9   
 3  Month-to-month              Yes  Electronic check             98.0   
 4  Month-to-month              Yes      Mailed check             83.9   
 
   Charges.Total  
 0         593.3  
 1         542.4  
 2        280.85  
 3       1237.85  
 4         267.4  ,
 None)

El DF "account" cuenta con 5 columnas de las cuales "Charges.Total" es un object y hay que transformarlo en float64.

In [26]:
account["Charges.Total"].astype("float64")

ValueError: could not convert string to float: ' '

Tenemos un ValueError, debido a que hay strings que no se pueden convertir a n√∫mero, el primero que nos mostr√≥ python fue un espacio vac√≠o ' '. Tenemos que deshacernos de caracteres que generen errores.

In [28]:
# Buscamos todos los valores que pueden generarnos problemas al querer convertir a num√©ricos.
# 1. Intentamos convertir a num√©rico usando 'coerce'
# Esto convertir√° todo lo que sea n√∫mero a float, y lo que no (como ' '), lo convertir√° en NaN
account['Charges.Total_numeric'] = pd.to_numeric(account['Charges.Total'], errors='coerce')

# 2. Filtramos las filas donde la conversi√≥n fall√≥ (donde ahora es NaN)
valores_problematicos = account[account['Charges.Total_numeric'].isna()]

# 3. Mostramos los valores √∫nicos originales que est√°n causando problemas
print("Valores distintos que no se pueden convertir a n√∫mero:")
print(valores_problematicos['Charges.Total'].unique())

Valores distintos que no se pueden convertir a n√∫mero:
[' ']


In [31]:
# Ahora que sabemos que solo hay espacios en blanco, podemos proceder a limpiar y convertir la columna.
account['Charges.Total'] = account['Charges.Total'].replace(' ', np.nan).astype('float64')

In [33]:
# Volvemos a verificar que la conversi√≥n fue exitosa
account.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Contract               7267 non-null   object 
 1   PaperlessBilling       7267 non-null   object 
 2   PaymentMethod          7267 non-null   object 
 3   Charges.Monthly        7267 non-null   float64
 4   Charges.Total          7256 non-null   float64
 5   Charges.Total_numeric  7256 non-null   float64
dtypes: float64(3), object(3)
memory usage: 340.8+ KB


Con √©sto terminamos la extracci√≥n de datos, estamos listos para empezar a transformarlos seg√∫n nuestras necesidades.

## Transformaci√≥n

## Carga y An√°lisis

## Informe Final