# Challenge Alura - TelecomX

## 📌 Extracción

Para iniciar tu análisis, necesitarás importar los datos de la API de Telecom X. Estos datos están disponibles en formato JSON y contienen información esencial sobre los clientes, incluyendo datos demográficos, tipo de servicio contratado y estado de evasión.

#### ✅ Cargar los datos directamente desde la API utilizando Python.

In [1]:
import pandas as pd

# Cargar los datos directamente desde la API utilizando Python
url = 'https://raw.githubusercontent.com/alura-cursos/challenge2-data-science-LATAM/main/TelecomX_Data.json'

# url = 'TelecomX_Data.json' 

#### ✅ Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

In [2]:
try:
    # Convertir los datos a un DataFrame de Pandas
    Datos = pd.read_json(url)
    print(f"DataFrame cargado exitosamente. Filas: {len(Datos)}, Columnas: {len(Datos.columns)}")
except Exception as e:
    print(f"Error al cargar el JSON: {e}")
    print("Verifica la URL y tu conexión a internet.")

DataFrame cargado exitosamente. Filas: 7267, Columnas: 6


In [3]:
Datos.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


#### ✅ Normalización de las columnas | Archivo JSON

In [4]:
# Datos anidados 
# Columnas [customer, phone, internet, account]
Datos_Norm_customer = pd.json_normalize(Datos['customer'])
Datos_Norm_phone = pd.json_normalize(Datos['phone'])
Datos_Norm_internet = pd.json_normalize(Datos['internet'])
Datos_Norm_account = pd.json_normalize(Datos['account'])

In [5]:
#Forma de concatenar Series
#Nuevo DF
Datos_Norm = pd.concat([Datos['customerID'], Datos['Churn'], Datos_Norm_customer, Datos_Norm_phone,Datos_Norm_internet, Datos_Norm_account], axis=1)
Datos_Norm.head(5)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## 🔧 Transformación

### Conoce el conjunto de datos

Ahora que has extraído los datos, es fundamental comprender la estructura del dataset y el significado de sus columnas. Esta etapa te ayudará a identificar qué variables son más relevantes para el análisis de evasión de clientes.

#### ¿Qué debes hacer?

##### ✅ Explorar las columnas del dataset y verificar sus tipos de datos.

In [6]:
# Anterior df
Datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


In [7]:
# Anterior df
Datos.dtypes

customerID    object
Churn         object
customer      object
phone         object
internet      object
account       object
dtype: object

In [8]:
#Nuevo df
Datos_Norm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [9]:
Datos_Norm.dtypes

customerID           object
Churn                object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total        object
dtype: object

In [10]:
print(f"Datos_Norm contiene. Filas: {len(Datos_Norm)}, Columnas: {len(Datos_Norm.columns)}")


Datos_Norm contiene. Filas: 7267, Columnas: 21


##### ✅ Consultar el diccionario para comprender mejor el significado de las variables.
##### ✅ Identificar las columnas más relevantes para el análisis de evasión.

### Comprobación de incoherencias en los datos

En este paso, verifica si hay problemas en los datos que puedan afectar el análisis. Presta atención a valores ausentes, duplicados, errores de formato e inconsistencias en las categorías. Este proceso es esencial para asegurarte de que los datos estén listos para las siguientes etapas.

#### ¿Qué debes hacer?
---
##### Buscar:

#### Consistencia y validez de datos categorias

##### Duplicados

In [11]:
#Verificando si hay duplicados
duplicados = Datos_Norm.duplicated().sum() 
print(f"Numero de lineas duplicadas: {duplicados}")

Numero de lineas duplicadas: 0


##### Valores Vacios


In [12]:
for col in Datos_Norm.columns:
        vacios = (Datos_Norm[col] == "").sum()  # Cuenta los valores exactamente iguales a ""
        print(f" • {col}: {vacios} valores vacíos ('')")
        #Si el numero de valores vacios es mayor a 0, muestra ejemplos de los datos vacios
        if vacios > 0:
            print(f"Las Filas tienen datos vacios son: ", Datos_Norm[Datos_Norm[col] == ""][col].sample(5))  # Muestra ejemplos si hay vacíos
            print('-' * 50)

 • customerID: 0 valores vacíos ('')
 • Churn: 224 valores vacíos ('')
Las Filas tienen datos vacios son:  3202    
7247    
5215    
3266    
3207    
Name: Churn, dtype: object
--------------------------------------------------
 • gender: 0 valores vacíos ('')
 • SeniorCitizen: 0 valores vacíos ('')
 • Partner: 0 valores vacíos ('')
 • Dependents: 0 valores vacíos ('')
 • tenure: 0 valores vacíos ('')
 • PhoneService: 0 valores vacíos ('')
 • MultipleLines: 0 valores vacíos ('')
 • InternetService: 0 valores vacíos ('')
 • OnlineSecurity: 0 valores vacíos ('')
 • OnlineBackup: 0 valores vacíos ('')
 • DeviceProtection: 0 valores vacíos ('')
 • TechSupport: 0 valores vacíos ('')
 • StreamingTV: 0 valores vacíos ('')
 • StreamingMovies: 0 valores vacíos ('')
 • Contract: 0 valores vacíos ('')
 • PaperlessBilling: 0 valores vacíos ('')
 • PaymentMethod: 0 valores vacíos ('')
 • Charges.Monthly: 0 valores vacíos ('')
 • Charges.Total: 0 valores vacíos ('')


In [13]:
# Verificando si hay valores nulos
Datos_Norm.iloc[30]

customerID                         0047-ZHDTW
Churn                                        
gender                                 Female
SeniorCitizen                               0
Partner                                    No
Dependents                                 No
tenure                                     11
PhoneService                              Yes
MultipleLines                             Yes
InternetService                   Fiber optic
OnlineSecurity                            Yes
OnlineBackup                               No
DeviceProtection                           No
TechSupport                                No
StreamingTV                                No
StreamingMovies                            No
Contract                       Month-to-month
PaperlessBilling                          Yes
PaymentMethod       Bank transfer (automatic)
Charges.Monthly                          79.0
Charges.Total                           929.3
Name: 30, dtype: object

In [14]:
Datos_Norm.iloc[4541]

customerID                6225-VNQSJ
Churn                               
gender                          Male
SeniorCitizen                      0
Partner                           No
Dependents                        No
tenure                             1
PhoneService                      No
MultipleLines       No phone service
InternetService                  DSL
OnlineSecurity                    No
OnlineBackup                      No
DeviceProtection                  No
TechSupport                       No
StreamingTV                       No
StreamingMovies                  Yes
Contract              Month-to-month
PaperlessBilling                 Yes
PaymentMethod       Electronic check
Charges.Monthly                35.45
Charges.Total                  35.45
Name: 4541, dtype: object

Otra forma de consultar valores vacios

In [15]:
Churn_a = Datos_Norm[Datos_Norm['Churn'] == '']
Churn_a.sample(3)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
1517,2183-ZULVZ,,Female,0,Yes,Yes,70,Yes,Yes,Fiber optic,...,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Credit card (automatic),115.15,8250.0
4393,6016-QSKVI,,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,Yes,No,Yes,Month-to-month,Yes,Mailed check,94.9,360.55
3617,4988-BNLTU,,Male,0,No,No,30,Yes,Yes,Fiber optic,...,No,No,No,Yes,Yes,Month-to-month,Yes,Bank transfer (automatic),100.4,2936.25


##### Valores Nulos

In [16]:
# Verificando se hay valores Nulos
valores_nulos = Datos_Norm.isnull().values.sum() 
print("\nValores nulos por columna: ") 
print(valores_nulos [valores_nulos > 0])


Valores nulos por columna: 
[]


In [17]:
# Formas
Datos_Norm.isna().sum()

customerID          0
Churn               0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
Charges.Monthly     0
Charges.Total       0
dtype: int64

##### Valores Atipicos

In [18]:
for col in Datos_Norm.columns:
    únicos = Datos_Norm[col].nunique(dropna=False)
    print(f"Columna '{col}': {únicos} valores únicos")
    if únicos <= 50:    # Imprima los valores si no hay muchos
        print(Datos_Norm[col].unique())
        print('-' * 40) # Linea divisora para una mejor visualizacion

Columna 'customerID': 7267 valores únicos
Columna 'Churn': 3 valores únicos
['No' 'Yes' '']
----------------------------------------
Columna 'gender': 2 valores únicos
['Female' 'Male']
----------------------------------------
Columna 'SeniorCitizen': 2 valores únicos
[0 1]
----------------------------------------
Columna 'Partner': 2 valores únicos
['Yes' 'No']
----------------------------------------
Columna 'Dependents': 2 valores únicos
['Yes' 'No']
----------------------------------------
Columna 'tenure': 73 valores únicos
Columna 'PhoneService': 2 valores únicos
['Yes' 'No']
----------------------------------------
Columna 'MultipleLines': 3 valores únicos
['No' 'Yes' 'No phone service']
----------------------------------------
Columna 'InternetService': 3 valores únicos
['DSL' 'Fiber optic' 'No']
----------------------------------------
Columna 'OnlineSecurity': 3 valores únicos
['No' 'Yes' 'No internet service']
----------------------------------------
Columna 'OnlineBackup': 

##### Tipos de datos

In [19]:
print("▶ Tipos de datos:\n")
print(Datos_Norm.dtypes)
print("\n▶ Columnas tipo object que podrían ser numéricas:\n")
for col in Datos_Norm.select_dtypes(include='object'):
    muestra = Datos_Norm[col].dropna().astype(str).str.replace('.', '', 1).str.isnumeric()
    if muestra.sum() > 0 and muestra.sum() < len(Datos_Norm[col]):
        print(f"• {col}: contiene valores que parecen números pero están como texto.")

▶ Tipos de datos:

customerID           object
Churn                object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total        object
dtype: object

▶ Columnas tipo object que podrían ser numéricas:

• Charges.Total: contiene valores que parecen números pero están como texto.


##### Normalizacion de texto

### Manejo de inconsistencias
Ahora que has identificado las inconsistencias, es momento de aplicar las correcciones necesarias. Ajusta los datos para asegurarte de que estén completos y coherentes, preparándolos para las siguientes etapas del análisis.


#### Manejo de tipo de datos

##### Uso de memoria Anterior

In [20]:
Datos_Norm.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


##### Cambio de tipo de dato [*float*], [*string*] y [*bool*]

In [21]:
Datos_Norm['Charges.Total'] = pd.to_numeric(Datos_Norm['Charges.Total'], errors='coerce').fillna(0)
Datos_Norm['customerID'] = Datos_Norm['customerID'].astype('string')
Datos_Norm['SeniorCitizen'] = Datos_Norm['SeniorCitizen'].astype('bool')


##### Cambio de tipo de dato [*Categorico*]

In [22]:
# Columnas categóricas
columnas_categoricas = [
    'gender', 'Partner', 'Dependents', 'Churn', 'PhoneService',
    'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup',
    'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies',
    'Contract', 'PaperlessBilling', 'PaymentMethod'
]

for col in columnas_categoricas:
    Datos_Norm[col] = Datos_Norm[col].astype('category')

In [23]:
# Analizando el uso de memoria con el cambio de tipo de dato
Datos_Norm.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   customerID        7267 non-null   string  
 1   Churn             7267 non-null   category
 2   gender            7267 non-null   category
 3   SeniorCitizen     7267 non-null   bool    
 4   Partner           7267 non-null   category
 5   Dependents        7267 non-null   category
 6   tenure            7267 non-null   int64   
 7   PhoneService      7267 non-null   category
 8   MultipleLines     7267 non-null   category
 9   InternetService   7267 non-null   category
 10  OnlineSecurity    7267 non-null   category
 11  OnlineBackup      7267 non-null   category
 12  DeviceProtection  7267 non-null   category
 13  TechSupport       7267 non-null   category
 14  StreamingTV       7267 non-null   category
 15  StreamingMovies   7267 non-null   category
 16  Contract          7267 n

#### Manejo de Columnas

##### Estandarizacion de caracteres

In [24]:
Datos_Norm.columns = Datos_Norm.columns.str.lower().str.replace(' ', '_')
Datos_Norm.head()

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,onlinebackup,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges.monthly,charges.total
0,0002-ORFBO,No,Female,False,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,False,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,False,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,True,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,True,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


##### Verificacion de datos nulos

In [25]:
valores_nulos = Datos_Norm.isna().values.sum() 
print(f"Valores nulos por columna:\n {col} {valores_nulos [valores_nulos > 0]}") 


Valores nulos por columna:
 PaymentMethod []


In [26]:
for col in Datos_Norm.columns:
    vacios = Datos_Norm[col].isna().values.sum()# Cuenta los valores exactamente iguales a ""
    if vacios > 0:
        print(f" • {col}: {vacios} valores nulos")
        print(Datos_Norm[Datos_Norm[col].isna()][col].sample(5))

In [27]:
Datos_Norm.iloc[2930]

customerid            4075-WKNIU
churn                         No
gender                    Female
seniorcitizen              False
partner                      Yes
dependents                   Yes
tenure                         0
phoneservice                 Yes
multiplelines                Yes
internetservice              DSL
onlinesecurity                No
onlinebackup                 Yes
deviceprotection             Yes
techsupport                  Yes
streamingtv                  Yes
streamingmovies               No
contract                Two year
paperlessbilling              No
paymentmethod       Mailed check
charges.monthly            73.35
charges.total                0.0
Name: 2930, dtype: object

Pareciera que los Nan y el Valor de 0 en la columna 'tenure' coincide.

#### Consulta de tenure y los valores Nan

Prueba

Aqui vemos que la relacion de tenure = 1
quiere decir que las columnas 'charges.monthly' y 'charges.total' son iguales

In [28]:
tenure_1 = Datos_Norm[Datos_Norm['tenure'] == 1]
tenure_1.head(3)

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,onlinebackup,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges.monthly,charges.total
17,0021-IKXGC,No,Female,True,No,No,1,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,72.1,72.1
19,0023-HGHWL,Yes,Male,True,No,No,1,No,No phone service,DSL,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,25.1,25.1
25,0032-PGELS,Yes,Female,False,Yes,Yes,1,No,No phone service,DSL,...,No,No,No,No,No,Month-to-month,No,Bank transfer (automatic),30.5,30.5


In [29]:
# Esto es para verificar que los customerid de tenure_0 y Valor_Nan son los mismos
comparacion_equals_2 = tenure_1['charges.monthly'].equals(tenure_1['charges.total'])
comparacion_equals_2

True

Buscamos tenure con equivalencia a 0

In [30]:
tenure_0 = Datos_Norm[Datos_Norm['tenure'] == 0]
tenure_0.head(11)

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,onlinebackup,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges.monthly,charges.total
975,1371-DWPAZ,No,Female,False,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,0.0
1775,2520-SGTTA,No,Female,False,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,0.0
1955,2775-SEFEE,No,Male,False,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,0.0
2075,2923-ARZLG,No,Male,False,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,0.0
2232,3115-CZMZD,No,Male,False,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,0.0
2308,3213-VVOLG,No,Male,False,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,0.0
2930,4075-WKNIU,No,Female,False,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,0.0
3134,4367-NUYAO,No,Male,False,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,0.0
3203,4472-LVYGI,No,Female,False,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,0.0
4169,5709-LVOEQ,No,Female,False,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,0.0


In [31]:
Valor_Nan = Datos_Norm[Datos_Norm['charges.total'].isna()]
Valor_Nan.head(11)

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,onlinebackup,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges.monthly,charges.total


In [None]:
# Esto es para verificar que los customerid de tenure_0 y Valor_Nan son los mismos
comparacion_equals = tenure_0['customerid'].equals(Valor_Nan['customerid'])
comparacion_equals

False

Aun no se ha cobrado el servicio (Tenure = 0), por lo que no hay un valor de cobro total (NaN).
Por lo tanto, no es necesario eliminar estos valores, ya que son válidos en el dataset.
Así que, lo conveniente seria tratar al valor como 0 en el valor de cobro total.

#### Tratamiento de NaN

Se añadio en la parte de 'Manejo de dato', un extra que al momento de normalizar, si encuentra un valor NaN lo reemplaze por "0"

```
 Datos_Norm['Charges.Total'] = pd.to_numeric(Datos_Norm['Charges.Total'], errors='coerce').fillna(0)
```

#### Arreglo de "" en 'churn'

Segun la comprobacion de Datos en Valores Vacios ("")<br>• Churn: Tiene 224 valores vacíos ('')


##### Comprobar de datos ("") en Churn

In [33]:
Churn_a = Datos_Norm[Datos_Norm['churn'] == '']
Churn_a.sample(3)

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,onlinebackup,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges.monthly,charges.total
4609,6319-ZXCPZ,,Male,False,Yes,No,60,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,No,Month-to-month,Yes,Electronic check,95.75,5742.9
3844,5264-IWHMU,,Male,False,No,No,1,Yes,No,DSL,...,No,No,Yes,No,No,Month-to-month,No,Mailed check,49.05,49.05
5179,7069-PURBI,,Female,False,Yes,No,14,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.4,292.4


In [34]:
for col in Datos_Norm.columns:
        vacios = (Datos_Norm[col] == "").sum()  # Cuenta los valores exactamente iguales a ""
        #Si el numero de valores vacios es mayor a 0, muestra ejemplos de los datos vacios
        if vacios > 0:
            print(f" • {col}: {vacios} valores vacíos ('')")
            print(f"Las Filas tienen datos vacios son: ", Datos_Norm[Datos_Norm[col] == ""][col].head(3))  # Muestra ejemplos si hay vacíos
            print('-' * 50)

 • churn: 224 valores vacíos ('')
Las Filas tienen datos vacios son:  30    
75    
96    
Name: churn, dtype: category
Categories (3, object): ['', 'No', 'Yes']
--------------------------------------------------


##### Funcion que transforma los datos vacios ("")

¿Por qué se hizo esta función?<br>

En muchos registros del dataset de clientes, la columna `churn` (abandono) aparece vacía.<br>
Para poder analizar y modelar estos datos correctamente, es importante completar esos valores.<br>

Esta función utiliza una **estrategia heurística**, es decir, una lógica basada en el sentido común<br>
y patrones observados en los datos reales:<br>

- Clientes nuevos y sin contrato a largo plazo tienden a irse más fácilmente.
- El pago con cheque electrónico suele asociarse con menor fidelización.
- El alto costo mensual sin beneficios adicionales puede aumentar la probabilidad de cancelación.

La función evalúa esas condiciones y asigna `"Yes"` (abandonó) o `"No"` (sigue) a los clientes<br>
que no tenían etiqueta, sin necesidad de usar algoritmos complejos de aprendizaje automático.<br>

Este enfoque es útil como solución inicial o cuando no se dispone de un modelo entrenado.

In [35]:
def Asignacion_de_Churn(datos):
    datos = datos.copy()  # Se hace una copia para no modificar el DataFrame original

    # Calculamos el tercer cuartil de gastos mensuales
    # Esto nos sirve como referencia para saber qué clientes pagan mucho
    umbral_gasto_alto = datos['charges.monthly'].quantile(0.75)

    # Definimos una función interna que evalúa si un cliente esta en "riesgoso"
    # Suma condiciones y marca como "Sí" (abandona) si se cumplen 3 o más
    def evaluar_riesgo(fila):
        condiciones_riesgo = 0

        # Cliente con contrato mes a mes → fácil cancelación
        if fila['contract'] == 'Month-to-month':
            condiciones_riesgo += 1
        # Pago manual con cheque electrónico (Electronic check) → baja fidelización
        if fila['paymentmethod'] == 'Electronic check':
            condiciones_riesgo += 1
        # Antigüedad corta (≤ 6 meses) → cliente aún no afianzado
        if fila['tenure'] <= 6:
            condiciones_riesgo += 1
        # Fibra óptica sin protección de seguridad ('onlinesecurity') → alto coste sin valor añadido
        if fila['internetservice'] == 'Fiber optic' and fila['onlinesecurity'] == 'No':
            condiciones_riesgo += 1
        # Gasto mensual muy alto, por encima del promedio 'Q3'
        if fila['charges.monthly'] > umbral_gasto_alto:
            condiciones_riesgo += 1

        # No tiene ningún servicio adicional (de valor agregado)
        extras = ['onlinesecurity', 'onlinebackup', 'deviceprotection', 'techsupport']
        if all(fila[e] in ['No', 'No internet service'] for e in extras):
            condiciones_riesgo += 1

        # Hace streaming (TV o Películas) con DSL → mala experiencia
        if fila['internetservice'] == 'DSL' and (
            fila['streamingtv'] == 'Yes' or fila['streamingmovies'] == 'Yes'):
            condiciones_riesgo += 1
        # Cliente mayor SIN soporte técnico → posible frustración
        if fila['seniorcitizen'] == 1 and fila['techsupport'] == 'No':
            condiciones_riesgo += 1
    
        # Si cumple 4 o más condiciones de riesgo → se marca como que abandonó (churn = 'Yes')
        return 'Yes' if condiciones_riesgo >= 4 else 'No'

    # Aplicar la lógica solo a los registros que tienen el campo vacío
    ChurnVacio = datos['churn'] == ""
    datos.loc[ChurnVacio, 'churn'] = datos[ChurnVacio].apply(evaluar_riesgo, axis=1)

    return datos

In [36]:
print(Datos_Norm['churn'].value_counts(dropna=False))  # cómo está antes

churn
No     5174
Yes    1869
        224
Name: count, dtype: int64


##### DATAFRAME con Churn completo | Almacenamiento de nuevo DF

In [37]:
Churn_completo = Asignacion_de_Churn(Datos_Norm)

In [38]:
Churn_completo.head()

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,onlinebackup,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges.monthly,charges.total
0,0002-ORFBO,No,Female,False,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,False,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,False,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,True,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,True,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


Verificacion y Almacenamiento de df

In [39]:
print(Churn_completo['churn'].value_counts(dropna=False))  # cómo está antes

churn
No     5339
Yes    1928
          0
Name: count, dtype: int64


In [40]:
Churn_completo.dtypes

customerid          string[python]
churn                     category
gender                    category
seniorcitizen                 bool
partner                   category
dependents                category
tenure                       int64
phoneservice              category
multiplelines             category
internetservice           category
onlinesecurity            category
onlinebackup              category
deviceprotection          category
techsupport               category
streamingtv               category
streamingmovies           category
contract                  category
paperlessbilling          category
paymentmethod             category
charges.monthly            float64
charges.total              float64
dtype: object

In [41]:
pd.DataFrame.to_json(Churn_completo, path_or_buf='TelecomX_Data_Churn.json', orient='records', lines=True)

### Columna de cuentas diarias

Ahora que los datos están limpios, es momento de crear la columna "Cuentas_Diarias". Utiliza la facturación mensual para calcular el valor diario, proporcionando una visión más detallada del comportamiento de los clientes a lo largo del tiempo.

#### Lectura rapido del nuevo Dataframe

In [None]:
import pandas as pd
# Leer el nuevo df en formato json
url2 = 'TelecomX_Data_Churn.json'


In [44]:
try:
    # Convertir los datos a un DataFrame de Pandas
    df_Datos = pd.read_json(url2, orient='records', lines=True)
    print(f"DataFrame cargado exitosamente. Filas: {len(df_Datos)}, Columnas: {len(df_Datos.columns)}")
except Exception as e:
    print(f"Error al cargar el JSON: {e}")
    print("Verifica la URL y tu conexión a internet.")

DataFrame cargado exitosamente. Filas: 7267, Columnas: 21


In [45]:
df_Datos.dtypes

customerid           object
churn                object
gender               object
seniorcitizen          bool
partner              object
dependents           object
tenure                int64
phoneservice         object
multiplelines        object
internetservice      object
onlinesecurity       object
onlinebackup         object
deviceprotection     object
techsupport          object
streamingtv          object
streamingmovies      object
contract             object
paperlessbilling     object
paymentmethod        object
charges.monthly     float64
charges.total       float64
dtype: object

#### Optimizacion tipo de datos

In [48]:
# cambio de tipo de dato para mejorar el uso de memoria

# customerID cambio de object a string 
df_Datos['customerid'] = df_Datos['customerid'].astype('string')

# Columnas categóricas
columnas_categoricas = [
    'gender', 'partner', 'dependents', 'churn', 'phoneservice',
    'multiplelines', 'internetservice', 'onlinesecurity', 'onlinebackup',
    'deviceprotection', 'techsupport', 'streamingtv', 'streamingmovies',
    'contract', 'paperlessbilling', 'paymentmethod'
]

for col in columnas_categoricas:
    df_Datos[col] = df_Datos[col].astype('category')

In [49]:
df_Datos.dtypes

customerid          string[python]
churn                     category
gender                    category
seniorcitizen                 bool
partner                   category
dependents                category
tenure                       int64
phoneservice              category
multiplelines             category
internetservice           category
onlinesecurity            category
onlinebackup              category
deviceprotection          category
techsupport               category
streamingtv               category
streamingmovies           category
contract                  category
paperlessbilling          category
paymentmethod             category
charges.monthly            float64
charges.total              float64
dtype: object

#### Adicion de columna nueva ['charges.daily']

In [None]:
# Forma de Generar nueva columan EJ: df_Datos['Charges.Daily'] = df_Datos['Charges.Monthly'] / 30.436875

# Indicamos donde insertar: después de la columna'paymentmethod' y antes de la columna 'charges.monthly'
pos = df_Datos.columns.get_loc('paymentmethod') + 1   # +1 → inmediatamente después

# Crear e insertar la columna 'charges.daily'
df_Datos.insert(
    pos,                              # posición
    'charges.daily',                  # nombre de la nueva columna
    (df_Datos['charges.monthly'] / 30.417).round(2)  # valor (float, 2 decimales)
)

Porque dividimos a "30,417",porque es la media de dias por mes<br>
Si dividimos los 365 dias del año a 12, tenemos 30,417 dias de media

Formas de visualizar los nuevos datos

In [83]:
df_Datos[['customerid','churn','tenure','contract','charges.daily','charges.monthly','charges.total']].sample(5)

Unnamed: 0,customerid,churn,tenure,contract,charges.daily,charges.monthly,charges.total
5793,7923-IYJWY,No,67,Two year,3.82,116.1,7839.85
1371,1981-INRFU,Yes,2,Month-to-month,2.62,79.75,164.5
3419,4735-ASGMA,Yes,26,Month-to-month,3.23,98.35,2515.3
5877,8035-PWSEV,No,6,Month-to-month,2.93,89.25,487.05
1815,2586-CWXVV,No,54,Month-to-month,1.0,30.4,1621.35


In [82]:
print(df_Datos[['customerid','churn','tenure','contract','charges.daily','charges.monthly','charges.total']].sample(5))

      customerid churn  tenure        contract  charges.daily  \
5561  7606-GWMKE    No      21  Month-to-month           0.81   
1874  2664-XJZNO    No      72        Two year           3.45   
1323  1910-FMXJM    No      36  Month-to-month           2.64   
753   1078-TDCRN    No       3  Month-to-month           1.01   
811   1150-FTQGN    No      60        One year           3.10   

      charges.monthly  charges.total  
5561            24.70         467.15  
1874           104.90        7559.55  
1323            80.40        2937.65  
753             30.75          82.85  
811             94.15        5811.80  


### Estandarización y transformación de datos (*opcional*)

La estandarización y transformación de datos es una etapa opcional, pero altamente recomendada, ya que busca hacer que la información sea más consistente, comprensible y adecuada para el análisis. Durante esta fase, por ejemplo, puedes convertir valores textuales como "Sí" y "No" en valores binarios (1 y 0), lo que facilita el procesamiento matemático y la aplicación de modelos analíticos.<br>

Además, traducir o renombrar columnas y datos hace que la información sea más accesible y fácil de entender, especialmente cuando se trabaja con fuentes externas o términos técnicos. Aunque no es un paso obligatorio, puede mejorar significativamente la claridad y comunicación de los resultados, facilitando la interpretación y evitando confusiones, especialmente al compartir información con stakeholders no técnicos.

#### Traduccion de Columnas para mayor legibilidad

In [85]:
# Diccionario de mapeo: inglés → español

cols_es = {
    'customerid'       : 'id_cliente',
    'churn'            : 'abandono_cliente',
    'gender'           : 'genero',
    'seniorcitizen'    : 'jubilado',          # 1 si ≥65 años
    'partner'          : 'pareja',
    'dependents'       : 'dependientes',
    'tenure'           : 'meses_antiguedad',
    'phoneservice'     : 'servicio_telefono',
    'multiplelines'    : 'extra.multiples_lineas',
    'internetservice'  : 'servicio_internet',
    'onlinesecurity'   : 'extra.seguridad_online',
    'onlinebackup'     : 'extra.respaldo_online',
    'deviceprotection' : 'extra.proteccion_dispositivo',
    'techsupport'      : 'extra.soporte_tecnico',
    'streamingtv'      : 'tv_streaming',
    'streamingmovies'  : 'peliculas_streaming',
    'contract'         : 'contrato_modalidad',
    'paperlessbilling' : 'factura_digital',
    'PaymentMethod'    : 'metodo_pago',   
    'charges.daily'    : 'cargo.diario',
    'charges.monthly'  : 'cargo.mensual',
    'charges.total'    : 'cargo.total'
}

df_Datos.rename(columns=cols_es, inplace=True)

In [86]:
df_Datos.sample(3)

Unnamed: 0,id_cliente,abandono_cliente,genero,jubilado,pareja,dependientes,meses_antiguedad,servicio_telefono,extra.multiples_lineas,servicio_internet,...,extra.proteccion_dispositivo,extra.soporte_tecnico,tv_streaming,peliculas_streaming,contrato_modalidad,factura_digital,paymentmethod,cargo.diario,cargo.mensual,cargo.total
1690,2393-DIVAI,No,Female,False,No,No,3,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,Month-to-month,Yes,Mailed check,0.66,20.0,61.7
6535,8982-NHAVY,No,Male,False,No,No,27,Yes,Yes,Fiber optic,...,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),3.3,100.5,2673.45
998,1400-MMYXY,Yes,Male,True,Yes,No,3,Yes,Yes,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,3.48,105.9,334.65


#### Traducción de datos


"""

"""# 1️⃣  Sí / No  ➜  Sí / No   (opcional mantener tilde)
map_bin = {'Yes': 'Sí', 'No': 'No'}

# 2️⃣  Valores especiales
map_serv = {
    'No internet service': 'Sin servicio de internet',
    'No phone service'   : 'Sin servicio telefónico'
}

# 3️⃣  Género
map_genero = {'Male': 'Masculino', 'Female': 'Femenino'}

# 4️⃣  Aplicar en bloque
df_Datos.replace({**map_bin, **map_serv, **map_genero}, inplace=True)
"""

## 📊 Carga y análisis

## 📄Informe final