<a href="https://colab.research.google.com/github/betoloayma-ship-it/challenge1-data-science-latam/blob/main/TelecomX_LATAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#üìå Extracci√≥n

In [5]:
import requests
import pandas as pd

# URL "Raw" de tu archivo JSON en GitHub
url_api = "https://raw.githubusercontent.com/betoloayma-ship-it/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"

try:
    # 1. Extracci√≥n de datos desde la URL
    respuesta = requests.get(url_api)
    respuesta.raise_for_status() # Verifica si la solicitud fue exitosa (c√≥digo 200)

    # 2. Carga de los datos JSON en un DataFrame de pandas
    datos = pd.json_normalize(respuesta.json())

    print("‚úÖ ¬°Datos extra√≠dos exitosamente desde tu GitHub!")
    print("\n--- Explorando las Columnas y Tipos de Datos ---")

    # 3. Exploraci√≥n inicial usando .info()
    datos.info()

except Exception as e:
    print(f"‚ùå Ocurri√≥ un error al intentar extraer los datos: {e}")

‚úÖ ¬°Datos extra√≠dos exitosamente desde tu GitHub!

--- Explorando las Columnas y Tipos de Datos ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  i

In [7]:
import pandas as pd
import numpy as np

# Asumimos que el DataFrame 'datos' ya fue cargado desde la API en el paso anterior.
# Si no, primero ejecuta el script para cargar los datos desde la URL de GitHub.
# url_api = "https://raw.githubusercontent.com/betoloayma-ship-it/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"
# datos = pd.read_json(url_api)


# --- 1. Corregir Errores de Formato y Tipos de Datos ---
print("--- 1. Corrigiendo tipos de datos ---")

# a. Corregir la columna 'account.Charges.Total'
# Convertimos a n√∫mero, los errores (espacios en blanco) se transformar√°n en NaN (Nulos)
datos['account.Charges.Total'] = pd.to_numeric(datos['account.Charges.Total'], errors='coerce')

# b. Estandarizar la columna 'Churn' a formato num√©rico (0 y 1)
# Esto facilitar√° los c√°lculos y el modelado m√°s adelante
datos['Churn'] = datos['Churn'].apply(lambda x: 1 if x == 'Yes' else 0)

print("Tipos de datos despu√©s de la correcci√≥n:")
print(datos[['account.Charges.Total', 'Churn']].dtypes)


# --- 2. Verificaci√≥n y Tratamiento de Valores Ausentes (Nulos) ---
print("\n--- 2. Verificando valores nulos ---")
print(datos.isnull().sum())

# Decidimos qu√© hacer con los nulos. Como son pocos (solo en 'account.Charges.Total'),
# una buena estrategia es eliminarlos.
datos.dropna(inplace=True)
print("\nSe eliminaron las filas con valores nulos.")
print("Verificaci√≥n final de nulos (deber√≠a ser 0):")
print(datos.isnull().sum().sum())


# --- 3. Verificaci√≥n de Datos Duplicados ---
print("\n--- 3. Verificando filas duplicadas ---")
duplicados = datos.duplicated().sum()
print(f"N√∫mero de filas duplicadas encontradas: {duplicados}")
# Si se encontraran duplicados, se eliminar√≠an con: datos.drop_duplicates(inplace=True)


# --- 4. An√°lisis de Inconsistencias en Variables Categ√≥ricas ---
print("\n--- 4. Verificando consistencia en categor√≠as ---")
# Seleccionamos solo las columnas de tipo 'object' (texto)
columnas_categoricas = datos.select_dtypes(include=['object']).columns

for columna in columnas_categoricas:
    print(f"\nCategor√≠as √∫nicas en '{columna}':")
    # Usamos .unique() para ver todas las categor√≠as presentes
    print(datos[columna].unique())

print("\n\n‚úÖ Proceso de limpieza y validaci√≥n completado.")

--- 1. Corrigiendo tipos de datos ---
Tipos de datos despu√©s de la correcci√≥n:
account.Charges.Total    float64
Churn                      int64
dtype: object

--- 2. Verificando valores nulos ---
customerID                    0
Churn                         0
customer.gender               0
customer.SeniorCitizen        0
customer.Partner              0
customer.Dependents           0
customer.tenure               0
phone.PhoneService            0
phone.MultipleLines           0
internet.InternetService      0
internet.OnlineSecurity       0
internet.OnlineBackup         0
internet.DeviceProtection     0
internet.TechSupport          0
internet.StreamingTV          0
internet.StreamingMovies      0
account.Contract              0
account.PaperlessBilling      0
account.PaymentMethod         0
account.Charges.Monthly       0
account.Charges.Total        11
dtype: int64

Se eliminaron las filas con valores nulos.
Verificaci√≥n final de nulos (deber√≠a ser 0):
0

--- 3. Verificando fil

#üîß Transformaci√≥n

In [10]:
import pandas as pd
import numpy as np
import requests

# --- 1. Extracci√≥n de Datos (Paso previo) ---
# Se asume que este paso ya se ejecut√≥ y tenemos el DataFrame 'datos'.
# Si no, se puede ejecutar de nuevo:
url_api = "https://raw.githubusercontent.com/betoloayma-ship-it/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"
try:
    respuesta = requests.get(url_api)
    respuesta.raise_for_status() # Verifica si la solicitud fue exitosa (c√≥digo 200)
    datos = pd.json_normalize(respuesta.json())
    print("‚úÖ Datos extra√≠dos correctamente.")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")
    # Si la carga falla, creamos un DataFrame vac√≠o para evitar errores posteriores.
    datos = pd.DataFrame()

# --- 2. Limpieza y Transformaci√≥n ---

if not datos.empty:
    # a. Corregir la columna 'account.Charges.Total'
    # Se convierte a n√∫mero. Los errores (espacios en blanco) se transforman en NaN (Nulos).
    datos['account.Charges.Total'] = pd.to_numeric(datos['account.Charges.Total'], errors='coerce')

    # b. Eliminar filas con valores nulos
    # Como los nulos en 'account.Charges.Total' corresponden a clientes nuevos sin historial,
    # es seguro eliminarlos para el an√°lisis de churn.
    datos.dropna(inplace=True)

    # c. Verificar y eliminar duplicados
    if datos.duplicated().sum() > 0:
        datos.drop_duplicates(inplace=True)
        print("Se eliminaron filas duplicadas.")

    # d. Estandarizar y transformar columnas categ√≥ricas a formato num√©rico (0 y 1)
    # Se convierte 'Yes'/'No' y 'Male'/'Female' a 1/0 para facilitar el an√°lisis.
    columnas_a_transformar = [
        'customer.Partner', 'customer.Dependents', 'phone.PhoneService', 'account.PaperlessBilling', 'Churn'
    ]
    for columna in columnas_a_transformar:
        # Se asegura de que la columna exista antes de transformarla
        if columna in datos.columns:
            datos[columna] = datos[columna].apply(lambda x: 1 if x == 'Yes' else 0)

    # Transformar la columna 'customer.gender'
    if 'customer.gender' in datos.columns:
        datos['customer.gender'] = datos['customer.gender'].apply(lambda x: 1 if x == 'Male' else 0)

    # e. Eliminar la columna 'customerID' que no es √∫til para el modelado
    if 'customerID' in datos.columns:
        datos = datos.drop('customerID', axis=1)

    print("\n--- Verificaci√≥n Final del DataFrame Limpio ---")
    datos.info()

    print("\n--- Primeras 5 filas de los datos transformados ---")
    print(datos.head())

‚úÖ Datos extra√≠dos correctamente.

--- Verificaci√≥n Final del DataFrame Limpio ---
<class 'pandas.core.frame.DataFrame'>
Index: 7256 entries, 0 to 7266
Data columns (total 20 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Churn                      7256 non-null   int64  
 1   customer.gender            7256 non-null   int64  
 2   customer.SeniorCitizen     7256 non-null   int64  
 3   customer.Partner           7256 non-null   int64  
 4   customer.Dependents        7256 non-null   int64  
 5   customer.tenure            7256 non-null   int64  
 6   phone.PhoneService         7256 non-null   int64  
 7   phone.MultipleLines        7256 non-null   object 
 8   internet.InternetService   7256 non-null   object 
 9   internet.OnlineSecurity    7256 non-null   object 
 10  internet.OnlineBackup      7256 non-null   object 
 11  internet.DeviceProtection  7256 non-null   object 
 12  internet.TechSupport   

In [12]:
import pandas as pd


# --- Creaci√≥n de la nueva columna 'Cuentas_Diarias' ---

# Usamos 30.44 como el promedio de d√≠as en un mes (365.25 / 12) para mayor precisi√≥n.
promedio_dias_mes = 30.44
datos['Cuentas_Diarias'] = datos['account.Charges.Monthly'] / promedio_dias_mes

# --- Verificaci√≥n del Resultado ---
# Mostramos la columna original y la nueva para comparar
print("‚úÖ Columna 'Cuentas_Diarias' creada exitosamente.")
print("Mostrando las primeras 5 filas con los cargos mensuales y diarios:")
print(datos[['account.Charges.Monthly', 'Cuentas_Diarias']].head())

‚úÖ Columna 'Cuentas_Diarias' creada exitosamente.
Mostrando las primeras 5 filas con los cargos mensuales y diarios:
   account.Charges.Monthly  Cuentas_Diarias
0                     65.6         2.155059
1                     59.9         1.967806
2                     73.9         2.427727
3                     98.0         3.219448
4                     83.9         2.756242


In [15]:
import pandas as pd
import numpy as np
import requests

# --- 1. Carga de Datos ---
url_api = "https://raw.githubusercontent.com/betoloayma-ship-it/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"
try:
    respuesta = requests.get(url_api)
    respuesta.raise_for_status() # Verifica si la solicitud fue exitosa (c√≥digo 200)
    datos = pd.json_normalize(respuesta.json())
    print("‚úÖ Datos cargados correctamente.")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")
    datos = pd.DataFrame()


if not datos.empty:
    # --- 2. Diagn√≥stico del Problema ---
    # Verificamos el tipo de dato de 'account.Charges.Total' ANTES de cualquier cambio.
    # El resultado probablemente ser√° 'object', que significa texto.
    print(f"\nTipo de dato original de 'account.Charges.Total': {datos['account.Charges.Total'].dtype}")


    # --- 3. Aplicaci√≥n de la Soluci√≥n ---
    # a. Convertir la columna a tipo num√©rico.
    #    errors='coerce' es la clave: transforma cualquier valor que no sea un n√∫mero en NaN (Nulo).
    datos['account.Charges.Total'] = pd.to_numeric(datos['account.Charges.Total'], errors='coerce')

    # b. Manejar los valores nulos (NaN) que se crearon en el paso anterior.
    #    La forma m√°s sencilla y segura es eliminar las filas completas.
    datos.dropna(inplace=True)
    print("\nSe convirtieron los 'account.Charges.Total' a n√∫mero y se eliminaron las filas con errores.")


    # --- 4. Verificaci√≥n Final ---
    # Verificamos que el tipo de dato ahora sea num√©rico (como float64)
    # y que ya no haya valores nulos en esa columna.
    print(f"Nuevo tipo de dato de 'account.Charges.Total': {datos['account.Charges.Total'].dtype}")
    print(f"Valores nulos restantes en 'account.Charges.Total': {datos['account.Charges.Total'].isnull().sum()}")


    print("\n‚úÖ ¬°Problema solucionado! El DataFrame est√° listo para continuar.")

‚úÖ Datos cargados correctamente.

Tipo de dato original de 'account.Charges.Total': object

Se convirtieron los 'account.Charges.Total' a n√∫mero y se eliminaron las filas con errores.
Nuevo tipo de dato de 'account.Charges.Total': float64
Valores nulos restantes en 'account.Charges.Total': 0

‚úÖ ¬°Problema solucionado! El DataFrame est√° listo para continuar.


#üìä Carga y an√°lisis

In [19]:
# --- Generaci√≥n del An√°lisis Descriptivo ---

# .describe() calcula las estad√≠sticas para todas las columnas num√©ricas.
# .round(2) redondea los resultados a 2 decimales para mayor claridad.
analisis_descriptivo = datos.describe().round(2)

print("--- An√°lisis Descriptivo de las Variables Num√©ricas ---")
print(analisis_descriptivo)

--- An√°lisis Descriptivo de las Variables Num√©ricas ---
       customer.SeniorCitizen  customer.tenure  account.Charges.Monthly  \
count                 7256.00          7256.00                  7256.00   
mean                     0.16            32.40                    64.76   
std                      0.37            24.56                    30.13   
min                      0.00             1.00                    18.25   
25%                      0.00             9.00                    35.45   
50%                      0.00            29.00                    70.30   
75%                      0.00            55.00                    89.90   
max                      1.00            72.00                   118.75   

       account.Charges.Total  
count                7256.00  
mean                 2280.63  
std                  2268.63  
min                    18.80  
25%                   400.22  
50%                  1391.00  
75%                  3785.30  
max               

In [27]:
import requests
import pandas as pd

# La misma URL de tu GitHub
url_api = "https://raw.githubusercontent.com/betoloayma-ship-it/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"

try:
    # Paso 1: Obtener los datos de la API
    respuesta = requests.get(url_api)
    respuesta.raise_for_status() # Verificar si la solicitud fue exitosa
    datos_json = respuesta.json()

    # Paso 2: Usar json_normalize para aplanar la estructura de los datos
    datos = pd.json_normalize(datos_json)

    print("‚úÖ ¬°Datos anidados extra√≠dos y aplanados exitosamente!")

    # Paso 3: Inspeccionar las columnas AHORA S√ç aplanadas
    print("\nNombres de columna despu√©s de aplanar el JSON:")
    print(datos.columns.tolist())

    # Paso 4: Mostrar las primeras filas para verificar la tabla correcta
    print("\nPrimeras 5 filas del DataFrame correcto:")
    print(datos.head())

except Exception as e:
    print(f"‚ùå Ocurri√≥ un error: {e}")

‚úÖ ¬°Datos anidados extra√≠dos y aplanados exitosamente!

Nombres de columna despu√©s de aplanar el JSON:
['customerID', 'Churn', 'customer.gender', 'customer.SeniorCitizen', 'customer.Partner', 'customer.Dependents', 'customer.tenure', 'phone.PhoneService', 'phone.MultipleLines', 'internet.InternetService', 'internet.OnlineSecurity', 'internet.OnlineBackup', 'internet.DeviceProtection', 'internet.TechSupport', 'internet.StreamingTV', 'internet.StreamingMovies', 'account.Contract', 'account.PaperlessBilling', 'account.PaymentMethod', 'account.Charges.Monthly', 'account.Charges.Total']

Primeras 5 filas del DataFrame correcto:
   customerID Churn customer.gender  customer.SeniorCitizen customer.Partner  \
0  0002-ORFBO    No          Female                       0              Yes   
1  0003-MKNFE    No            Male                       0               No   
2  0004-TLHLJ   Yes            Male                       0               No   
3  0011-IGKFF   Yes            Male          

In [28]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# --- 1. Carga y Limpieza (Pasos previos) ---
url_api = "https://raw.githubusercontent.com/betoloayma-ship-it/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"
try:
    datos = pd.read_json(url_api)
    # Aplicamos las transformaciones clave
    datos['TotalCharges'] = pd.to_numeric(datos['TotalCharges'], errors='coerce')
    datos.dropna(inplace=True)
    if 'customerID' in datos.columns:
        datos = datos.drop('customerID', axis=1)
    if 'Churn' in datos.columns:
        datos.rename(columns={'Churn': 'Evasion'}, inplace=True)
        datos['Evasion'] = datos['Evasion'].apply(lambda x: 1 if x == 'Yes' else 0)
    print("‚úÖ Datos cargados y preparados.")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")
    datos = pd.DataFrame() # DataFrame vac√≠o si falla


# --- Diagn√≥stico ---
# Verificamos si el DataFrame est√° vac√≠o antes de intentar graficar
print(f"\n¬øEl DataFrame est√° vac√≠o?: {datos.empty}")


# --- 2. Visualizaci√≥n de la Distribuci√≥n de Churn ---
if not datos.empty:
    print("El DataFrame contiene datos. Procediendo a crear los gr√°ficos...")

    # Crear una figura con dos subplots
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))

    # Gr√°fico de Barras (Count Plot)
    sns.countplot(ax=axes[0], x='Evasion', data=datos)
    axes[0].set_title('Distribuci√≥n de Clientes (Cantidad)')
    axes[0].set_xticklabels(['No Cancela (0)', 'S√≠ Cancela (1)'])
    axes[0].set_xlabel('Estado del Cliente')
    axes[0].set_ylabel('N√∫mero de Clientes')

    # Gr√°fico Circular (Pie Chart)
    churn_counts = datos['Evasion'].value_counts()
    axes[1].pie(churn_counts, labels=['No Cancela', 'S√≠ Cancela'], autopct='%1.1f%%', startangle=90, colors=['#66b3ff','#ff9999'])
    axes[1].set_title('Proporci√≥n de Clientes por Evasi√≥n (Churn)')

    plt.tight_layout()

    # Comando para mostrar el gr√°fico
    plt.show()
else:
    print("El DataFrame est√° vac√≠o, por lo tanto, no se pueden generar los gr√°ficos.")

‚ùå Error al cargar datos: 'TotalCharges'

¬øEl DataFrame est√° vac√≠o?: True
El DataFrame est√° vac√≠o, por lo tanto, no se pueden generar los gr√°ficos.


#üìÑInforme final