# Challenge Alura - TelecomX

## 📌 Extracción

Para iniciar tu análisis, necesitarás importar los datos de la API de Telecom X. Estos datos están disponibles en formato JSON y contienen información esencial sobre los clientes, incluyendo datos demográficos, tipo de servicio contratado y estado de evasión.

#### ✅ Cargar los datos directamente desde la API utilizando Python.

In [None]:
import pandas as pd

# Cargar los datos directamente desde la API utilizando Python
url = 'https://raw.githubusercontent.com/alura-cursos/challenge2-data-science-LATAM/main/TelecomX_Data.json'

# url = 'TelecomX_Data.json' 

#### ✅ Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

In [5]:
try:
    # Convertir los datos a un DataFrame de Pandas
    Datos = pd.read_json(url)
    print(f"DataFrame cargado exitosamente. Filas: {len(Datos)}, Columnas: {len(Datos.columns)}")
except Exception as e:
    print(f"Error al cargar el JSON: {e}")
    print("Verifica la URL y tu conexión a internet.")

DataFrame cargado exitosamente. Filas: 7267, Columnas: 6


In [6]:
Datos.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


#### ✅ Normalización de las columnas | Archivo JSON

In [17]:
# Datos anidados 
# Columnas [customer, phone, internet, account]
Datos_Norm_customer = pd.json_normalize(Datos['customer'])
Datos_Norm_phone = pd.json_normalize(Datos['phone'])
Datos_Norm_internet = pd.json_normalize(Datos['internet'])
Datos_Norm_account = pd.json_normalize(Datos['account'])

In [18]:
#Forma de concatenar Series
#Nuevo DF
Datos_Norm = pd.concat([Datos['customerID'], Datos['Churn'], Datos_Norm_customer, Datos_Norm_phone,Datos_Norm_internet, Datos_Norm_account], axis=1)
Datos_Norm.head(5)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## 🔧 Transformación

### Conoce el conjunto de datos

Ahora que has extraído los datos, es fundamental comprender la estructura del dataset y el significado de sus columnas. Esta etapa te ayudará a identificar qué variables son más relevantes para el análisis de evasión de clientes.

#### ¿Qué debes hacer?

##### ✅ Explorar las columnas del dataset y verificar sus tipos de datos.

In [None]:
# Anterior df
Datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


In [None]:
# Anterior df
Datos.dtypes

customerID    object
Churn         object
customer      object
phone         object
internet      object
account       object
dtype: object

In [19]:
#Nuevo df
Datos_Norm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [20]:
Datos_Norm.dtypes

customerID           object
Churn                object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total        object
dtype: object

In [23]:
print(f"Datos_Norm contiene. Filas: {len(Datos_Norm)}, Columnas: {len(Datos_Norm.columns)}")


Datos_Norm contiene. Filas: 7267, Columnas: 21


##### ✅ Consultar el diccionario para comprender mejor el significado de las variables.
##### ✅ Identificar las columnas más relevantes para el análisis de evasión.

### Comprobación de incoherencias en los datos

En este paso, verifica si hay problemas en los datos que puedan afectar el análisis. Presta atención a valores ausentes, duplicados, errores de formato e inconsistencias en las categorías. Este proceso es esencial para asegurarte de que los datos estén listos para las siguientes etapas.

#### ¿Qué debes hacer?
---
##### Buscar:

#### Consistencia y validez de datos categorias

##### Duplicados

In [27]:
#Verificando si hay duplicados
duplicados = Datos_Norm.duplicated().sum() 
print(f"Numero de lineas duplicadas: {duplicados}")

Numero de lineas duplicadas: 0


##### Valores Vacios


In [47]:
for col in Datos_Norm.columns:
        vacios = (Datos_Norm[col] == "").sum()  # Cuenta los valores exactamente iguales a ""
        print(f" • {col}: {vacios} valores vacíos ('')")
        #Si el numero de valores vacios es mayor a 0, muestra ejemplos de los datos vacios
        if vacios > 0:
            print(f"Las Filas tienen datos vacios son: ", Datos_Norm[Datos_Norm[col] == ""][col].sample(5))  # Muestra ejemplos si hay vacíos
            print('-' * 50)

 • customerID: 0 valores vacíos ('')
 • Churn: 224 valores vacíos ('')
Las Filas tienen datos vacios son:  912     
3688    
4976    
3076    
75      
Name: Churn, dtype: object
--------------------------------------------------
 • gender: 0 valores vacíos ('')
 • SeniorCitizen: 0 valores vacíos ('')
 • Partner: 0 valores vacíos ('')
 • Dependents: 0 valores vacíos ('')
 • tenure: 0 valores vacíos ('')
 • PhoneService: 0 valores vacíos ('')
 • MultipleLines: 0 valores vacíos ('')
 • InternetService: 0 valores vacíos ('')
 • OnlineSecurity: 0 valores vacíos ('')
 • OnlineBackup: 0 valores vacíos ('')
 • DeviceProtection: 0 valores vacíos ('')
 • TechSupport: 0 valores vacíos ('')
 • StreamingTV: 0 valores vacíos ('')
 • StreamingMovies: 0 valores vacíos ('')
 • Contract: 0 valores vacíos ('')
 • PaperlessBilling: 0 valores vacíos ('')
 • PaymentMethod: 0 valores vacíos ('')
 • Charges.Monthly: 0 valores vacíos ('')
 • Charges.Total: 0 valores vacíos ('')


In [37]:
# Verificando si hay valores nulos
Datos_Norm.iloc[30]

customerID                         0047-ZHDTW
Churn                                        
gender                                 Female
SeniorCitizen                               0
Partner                                    No
Dependents                                 No
tenure                                     11
PhoneService                              Yes
MultipleLines                             Yes
InternetService                   Fiber optic
OnlineSecurity                            Yes
OnlineBackup                               No
DeviceProtection                           No
TechSupport                                No
StreamingTV                                No
StreamingMovies                            No
Contract                       Month-to-month
PaperlessBilling                          Yes
PaymentMethod       Bank transfer (automatic)
Charges.Monthly                          79.0
Charges.Total                           929.3
Name: 30, dtype: object

In [39]:
Datos_Norm.iloc[4541]

customerID                6225-VNQSJ
Churn                               
gender                          Male
SeniorCitizen                      0
Partner                           No
Dependents                        No
tenure                             1
PhoneService                      No
MultipleLines       No phone service
InternetService                  DSL
OnlineSecurity                    No
OnlineBackup                      No
DeviceProtection                  No
TechSupport                       No
StreamingTV                       No
StreamingMovies                  Yes
Contract              Month-to-month
PaperlessBilling                 Yes
PaymentMethod       Electronic check
Charges.Monthly                35.45
Charges.Total                  35.45
Name: 4541, dtype: object

##### Valores Nulos

In [28]:
# Verificando se hay valores Nulos
valores_nulos = Datos_Norm.isnull().values.sum() 
print("\nValores nulos por columna: ") 
print(valores_nulos [valores_nulos > 0])


Valores nulos por columna: 
[]


In [None]:
# Formas
Datos_Norm.isna().sum()

customerID          0
Churn               0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
Charges.Monthly     0
Charges.Total       0
dtype: int64

##### Valores Atipicos

In [52]:
for col in Datos_Norm.columns:
    únicos = Datos_Norm[col].nunique(dropna=False)
    print(f"Columna '{col}': {únicos} valores únicos")
    if únicos <= 50:    # Imprima los valores si no hay muchos
        print(Datos_Norm[col].unique())
        print('-' * 40) # Linea divisora para una mejor visualizacion

Columna 'customerID': 7267 valores únicos
Columna 'Churn': 3 valores únicos
['No' 'Yes' '']
----------------------------------------
Columna 'gender': 2 valores únicos
['Female' 'Male']
----------------------------------------
Columna 'SeniorCitizen': 2 valores únicos
[0 1]
----------------------------------------
Columna 'Partner': 2 valores únicos
['Yes' 'No']
----------------------------------------
Columna 'Dependents': 2 valores únicos
['Yes' 'No']
----------------------------------------
Columna 'tenure': 73 valores únicos
Columna 'PhoneService': 2 valores únicos
['Yes' 'No']
----------------------------------------
Columna 'MultipleLines': 3 valores únicos
['No' 'Yes' 'No phone service']
----------------------------------------
Columna 'InternetService': 3 valores únicos
['DSL' 'Fiber optic' 'No']
----------------------------------------
Columna 'OnlineSecurity': 3 valores únicos
['No' 'Yes' 'No internet service']
----------------------------------------
Columna 'OnlineBackup': 

##### Tipos de datos

In [57]:
print("▶ Tipos de datos:\n")
print(Datos_Norm.dtypes)
print("\n▶ Columnas tipo object que podrían ser numéricas:\n")
for col in Datos_Norm.select_dtypes(include='object'):
    muestra = Datos_Norm[col].dropna().astype(str).str.replace('.', '', 1).str.isnumeric()
    if muestra.sum() > 0 and muestra.sum() < len(Datos_Norm[col]):
        print(f"• {col}: contiene valores que parecen números pero están como texto.")

▶ Tipos de datos:

customerID           object
Churn                object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total        object
dtype: object

▶ Columnas tipo object que podrían ser numéricas:

• Charges.Total: contiene valores que parecen números pero están como texto.


▶ Posibles inconsistencias por formato (espacios, mayúsculas):



##### Normalizacion de texto

### Manejo de inconsistencias
Ahora que has identificado las inconsistencias, es momento de aplicar las correcciones necesarias. Ajusta los datos para asegurarte de que estén completos y coherentes, preparándolos para las siguientes etapas del análisis.


#### Manejo de tipo de datos

In [61]:
Datos_Norm.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


##### Cambio de tipo de dato [*float*], [*string*] y [*bool*]

In [67]:
Datos_Norm['Charges.Total'] = pd.to_numeric(Datos_Norm['Charges.Total'], errors='coerce')
Datos_Norm['customerID'] =Datos_Norm['customerID'].astype('string')
Datos_Norm['SeniorCitizen'] =Datos_Norm['SeniorCitizen'].astype('bool')


##### Cambio de tipo de dato [*Categorico*]

In [68]:
# Columnas categóricas
columnas_categoricas = [
    'gender', 'Partner', 'Dependents', 'Churn', 'PhoneService',
    'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup',
    'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies',
    'Contract', 'PaperlessBilling', 'PaymentMethod'
]

for col in columnas_categoricas:
    Datos_Norm[col] = Datos_Norm[col].astype('category')

In [69]:
# Analizando el uso de memoria con el cambio de tipo de dato
Datos_Norm.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   customerID        7267 non-null   string  
 1   Churn             7267 non-null   category
 2   gender            7267 non-null   category
 3   SeniorCitizen     7267 non-null   bool    
 4   Partner           7267 non-null   category
 5   Dependents        7267 non-null   category
 6   tenure            7267 non-null   int64   
 7   PhoneService      7267 non-null   category
 8   MultipleLines     7267 non-null   category
 9   InternetService   7267 non-null   category
 10  OnlineSecurity    7267 non-null   category
 11  OnlineBackup      7267 non-null   category
 12  DeviceProtection  7267 non-null   category
 13  TechSupport       7267 non-null   category
 14  StreamingTV       7267 non-null   category
 15  StreamingMovies   7267 non-null   category
 16  Contract          7267 n

## 📊 Carga y análisis

## 📄Informe final