<a href="https://colab.research.google.com/github/RamsRD/desafio-alura-telecom-x-1/blob/main/TelecomX_LATAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Desafío Telecom X LATAM 1**

#📌 Extracción

##Importación de datos

In [1]:
#Importamos la biblioteca de pandas para manipulación de datos
import pandas as pd

#Mostrar todas las columnas,sin truncarlas
pd.set_option('display.max_columns', None)

#Mostrar todas las filas, sin truncarlas
pd.set_option('display.max_rows', None)

In [2]:
#URLs del archivo .json con los datos de Telecom X
url1 = "https://raw.githubusercontent.com/alura-cursos/challenge2-data-science-LATAM/main/TelecomX_Data.json"

#Leyendo los archivos .json y almacenando los datos en un DataFrame
datos = pd.read_json(url1)

##Analizando los datos

In [3]:
#Viendo el tamaño de los datos
datos.shape

(7267, 6)

In [4]:
#Viendo los primeros 6 datos
datos.head(6)

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
5,0013-MHZWF,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


In [5]:
#Viendo los metadatos de los datos
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


#🔧 Transformación

##Transformando los datos del DataFrame

In [6]:
#1. Aplanar columnas anidadas y crear nuevos DataFrames usando pd_json_normalize
df_customer = pd.json_normalize(datos['customer'])
df_phone = pd.json_normalize(datos['phone'])
df_internet = pd.json_normalize(datos['internet'])
df_account = pd.json_normalize(datos['account'])

#2. Unir todas las columnas usando pd.concat en un solo DataFrame; eliminando columnas originales para evitar duplicados
datos_transformados = pd.concat(
    [
        datos.drop(columns=['customer', 'phone', 'internet', 'account']),
        df_customer,
        df_phone,
        df_internet,
        df_account
    ],
    axis=1
)

#3. Renombrar columnas para evitar caracteres especiales y lograr consistencia
datos_transformados.columns = datos_transformados.columns.str.replace('.', '_', regex=False)

#4. Convertir columnas numéricas que puedan estar como texto
datos_transformados['Charges_Monthly'] = pd.to_numeric(datos_transformados['Charges_Monthly'], errors='coerce')
datos_transformados['Charges_Total'] = pd.to_numeric(datos_transformados['Charges_Total'], errors='coerce')

#5. Imprimir los resultados para ver cómo quedó
print(datos_transformados.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


##Revisando los cambios

In [7]:
#Viendo las primeras 6 filas de los datos
datos_transformados.head(6)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4
5,0013-MHZWF,No,Female,0,No,Yes,9,Yes,No,DSL,No,No,No,Yes,Yes,Yes,Month-to-month,Yes,Credit card (automatic),69.4,571.45


In [8]:
#Revisar valores faltantes
print("Valores nulos por columna:")
print(datos_transformados.isnull().sum())

Valores nulos por columna:
customerID           0
Churn                0
gender               0
SeniorCitizen        0
Partner              0
Dependents           0
tenure               0
PhoneService         0
MultipleLines        0
InternetService      0
OnlineSecurity       0
OnlineBackup         0
DeviceProtection     0
TechSupport          0
StreamingTV          0
StreamingMovies      0
Contract             0
PaperlessBilling     0
PaymentMethod        0
Charges_Monthly      0
Charges_Total       11
dtype: int64


##Comprobación de los datos y manejo de inconsistencias

In [9]:
#1. Buscar duplicados por customerID
duplicados = datos_transformados.duplicated(subset='customerID').sum()
print(f"Duplicados encontrados: {duplicados}")

#2. Estandarizar texto: todo en minúsculas para variables categóricas
columnas_objeto = datos_transformados.select_dtypes(include='object').columns
datos_transformados[columnas_objeto] = datos_transformados[columnas_objeto].apply(lambda x: x.str.strip().str.lower())

#3. Verificación final
datos_transformados.head(6)

Duplicados encontrados: 0


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
0,0002-orfbo,no,female,0,yes,yes,9,yes,no,dsl,no,yes,no,yes,yes,no,one year,yes,mailed check,65.6,593.3
1,0003-mknfe,no,male,0,no,no,9,yes,yes,dsl,no,no,no,no,no,yes,month-to-month,no,mailed check,59.9,542.4
2,0004-tlhlj,yes,male,0,no,no,4,yes,no,fiber optic,no,no,yes,no,no,no,month-to-month,yes,electronic check,73.9,280.85
3,0011-igkff,yes,male,1,yes,no,13,yes,no,fiber optic,no,yes,yes,no,yes,yes,month-to-month,yes,electronic check,98.0,1237.85
4,0013-exchz,yes,female,1,yes,no,3,yes,no,fiber optic,no,no,no,yes,yes,no,month-to-month,yes,mailed check,83.9,267.4
5,0013-mhzwf,no,female,0,no,yes,9,yes,no,dsl,no,no,no,yes,yes,yes,month-to-month,yes,credit card (automatic),69.4,571.45


In [10]:
#1. Reemplazar valores nulos en Charges_Total por 0
datos_transformados['Charges_Total'] = datos_transformados['Charges_Total'].fillna(0)

#2. Eliminar duplicados por customerID
datos_transformados = datos_transformados.drop_duplicates(subset='customerID')

#3. Estandarizar variables categóricas (minúsculas y sin espacios)
columnas_objeto = datos_transformados.select_dtypes(include='object').columns
datos_transformados[columnas_objeto] = datos_transformados[columnas_objeto].apply(lambda x: x.str.strip().str.lower())

#4. Revisar resultados
datos_transformados.head(6)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
0,0002-orfbo,no,female,0,yes,yes,9,yes,no,dsl,no,yes,no,yes,yes,no,one year,yes,mailed check,65.6,593.3
1,0003-mknfe,no,male,0,no,no,9,yes,yes,dsl,no,no,no,no,no,yes,month-to-month,no,mailed check,59.9,542.4
2,0004-tlhlj,yes,male,0,no,no,4,yes,no,fiber optic,no,no,yes,no,no,no,month-to-month,yes,electronic check,73.9,280.85
3,0011-igkff,yes,male,1,yes,no,13,yes,no,fiber optic,no,yes,yes,no,yes,yes,month-to-month,yes,electronic check,98.0,1237.85
4,0013-exchz,yes,female,1,yes,no,3,yes,no,fiber optic,no,no,no,yes,yes,no,month-to-month,yes,mailed check,83.9,267.4
5,0013-mhzwf,no,female,0,no,yes,9,yes,no,dsl,no,no,no,yes,yes,yes,month-to-month,yes,credit card (automatic),69.4,571.45


In [11]:
# Verificar tipos de datos y su consistencia
print(datos_transformados.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [12]:
#Revisar si quedan valores nulos
print("\nValores nulos después de la limpieza:")
print(datos_transformados.isnull().sum())


Valores nulos después de la limpieza:
customerID          0
Churn               0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
Charges_Monthly     0
Charges_Total       0
dtype: int64


##Creación de la columna "cuentas diarias"

In [13]:
#1. Crear la columna Cuentas_Diarias a partir de Charges_Monthly
datos_transformados['Cuentas_Diarias'] = datos_transformados['Charges_Monthly'] / 30

#2. Redondear a 2 decimales para mejor claridad
datos_transformados['Cuentas_Diarias'] = datos_transformados['Cuentas_Diarias'].round(2)

#3. Verificación de los cambios
datos_transformados[['Charges_Monthly', 'Cuentas_Diarias']].head()

Unnamed: 0,Charges_Monthly,Cuentas_Diarias
0,65.6,2.19
1,59.9,2.0
2,73.9,2.46
3,98.0,3.27
4,83.9,2.8


##Observando las variables de los datos de las columnas

In [14]:
#Observando las variables de los datos usando .unique
print(datos_transformados['customerID'].unique())
print(datos_transformados['Churn'].unique())
print(datos_transformados['gender'].unique())
print(datos_transformados['SeniorCitizen'].unique())
print(datos_transformados['Partner'].unique())
print(datos_transformados['Dependents'].unique())
print(datos_transformados['tenure'].unique())

['0002-orfbo' '0003-mknfe' '0004-tlhlj' ... '9992-ujoel' '9993-lhieb'
 '9995-hotoh']
['no' 'yes' '']
['female' 'male']
[0 1]
['yes' 'no']
['yes' 'no']
[ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]


In [15]:
#Observando las variables de los datos usando .unique
print(datos_transformados['PhoneService'].unique())
print(datos_transformados['MultipleLines'].unique())
print(datos_transformados['InternetService'].unique())
print(datos_transformados['DeviceProtection'].unique())
print(datos_transformados['TechSupport'].unique())

['yes' 'no']
['no' 'yes' 'no phone service']
['dsl' 'fiber optic' 'no']
['no' 'yes' 'no internet service']
['yes' 'no' 'no internet service']


In [16]:
#Observando las variables de los datos usando.unique
print(datos_transformados['OnlineSecurity'].unique)

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
2268                    yes
2269                     no
2270                    yes
2271                     no
2272                    yes
2273    no internet service
2274                     no
2275    no internet service
2276                     no
2277                     no
2278                     no
2279    no internet service
2280                     no
2281                    yes
2282    no internet service
2283                     no
2284                    yes
2285                     no
2286    no internet service
2287    no internet service
2288                     no
2289                     no
2290                     no
2291                     no
2292                     no
2293    no internet service
2294                     no
2295                    yes
2296                     no
2297                     no
2298                    yes
2299                     no
2300                    yes
2

In [17]:
#Observando las variables de los datos usando .unique
print(datos_transformados['OnlineBackup'].unique())
print(datos_transformados['StreamingTV'].unique())
print(datos_transformados['StreamingMovies'].unique())
print(datos_transformados['Contract'].unique())
print(datos_transformados['PaperlessBilling'].unique())
print(datos_transformados['PaymentMethod'].unique())

['yes' 'no' 'no internet service']
['yes' 'no' 'no internet service']
['no' 'yes' 'no internet service']
['one year' 'month-to-month' 'two year']
['yes' 'no']
['mailed check' 'electronic check' 'credit card (automatic)'
 'bank transfer (automatic)']


##Estandarización de los datos: traducirlas al español y ajustar sus variables

In [18]:
#1. Renombrar columnas para que estén en español
nuevos_nombres = {
    'customerID': 'ID Cliente',
    'Churn': 'Tasa de Abandono (Churn)',
    'gender': 'Género',
    'SeniorCitizen': 'Adulto Mayor',
    'Partner': 'Tiene Pareja',
    'Dependents': 'Tiene Dependientes',
    'tenure': 'Meses de Contrato',
    'PhoneService': 'Servicio Telefónico',
    'MultipleLines': 'Múltiples Líneas',
    'InternetService': 'Tipo de Internet',
    'OnlineSecurity': 'Seguridad en Línea',
    'OnlineBackup': 'Respaldo en Línea',
    'DeviceProtection': 'Protección del Equipo',
    'TechSupport': 'Soporte Técnico',
    'StreamingTV': 'TV Streaming',
    'StreamingMovies': 'Películas Streaming',
    'Contract': 'Tipo de Contrato',
    'PaperlessBilling': 'Facturación en Línea',
    'PaymentMethod': 'Método de Pago',
    'Charges_Monthly': 'Cargo Mensual',
    'Charges_Total': 'Cargo Total',
    'Cuentas_Diarias': 'Cargo Diario'

}
datos_transformados.rename(columns=nuevos_nombres, inplace=True)

#4. Vista previa de los cambios
datos_transformados.head(6)

Unnamed: 0,ID Cliente,Tasa de Abandono (Churn),Género,Adulto Mayor,Tiene Pareja,Tiene Dependientes,Meses de Contrato,Servicio Telefónico,Múltiples Líneas,Tipo de Internet,Seguridad en Línea,Respaldo en Línea,Protección del Equipo,Soporte Técnico,TV Streaming,Películas Streaming,Tipo de Contrato,Facturación en Línea,Método de Pago,Cargo Mensual,Cargo Total,Cargo Diario
0,0002-orfbo,no,female,0,yes,yes,9,yes,no,dsl,no,yes,no,yes,yes,no,one year,yes,mailed check,65.6,593.3,2.19
1,0003-mknfe,no,male,0,no,no,9,yes,yes,dsl,no,no,no,no,no,yes,month-to-month,no,mailed check,59.9,542.4,2.0
2,0004-tlhlj,yes,male,0,no,no,4,yes,no,fiber optic,no,no,yes,no,no,no,month-to-month,yes,electronic check,73.9,280.85,2.46
3,0011-igkff,yes,male,1,yes,no,13,yes,no,fiber optic,no,yes,yes,no,yes,yes,month-to-month,yes,electronic check,98.0,1237.85,3.27
4,0013-exchz,yes,female,1,yes,no,3,yes,no,fiber optic,no,no,no,yes,yes,no,month-to-month,yes,mailed check,83.9,267.4,2.8
5,0013-mhzwf,no,female,0,no,yes,9,yes,no,dsl,no,no,no,yes,yes,yes,month-to-month,yes,credit card (automatic),69.4,571.45,2.31


In [19]:
#Traducir y capitalizar Género
datos_transformados['Género'] = datos_transformados['Género'].map({
    'female': 'Femenino',
    'male': 'Masculino'
})

In [20]:
#Lista de columnas para inspeccionar
columnas_a_revisar = [
    'ID Cliente', 'Tasa de Abandono (Churn)', 'Género', 'Adulto Mayor', 'Tiene Pareja', 'Tiene Dependientes',
    'Servicio Telefónico', 'Múltiples Líneas', 'Tipo de Internet', 'Seguridad en Línea',
    'Respaldo en Línea', 'Protección del Equipo', 'Soporte Técnico', 'TV Streaming',
    'Películas Streaming', 'Tipo de Contrato', 'Facturación en Línea', 'Método de Pago',
]

#Mostrar valores únicos para cada columna, ordenadamente
for col in columnas_a_revisar:
    valores_unicos = datos_transformados[col].unique()
    print(f"Columna: {col}")
    print(f"Valores únicos ({len(valores_unicos)}): {valores_unicos}\n")

Columna: ID Cliente
Valores únicos (7267): ['0002-orfbo' '0003-mknfe' '0004-tlhlj' ... '9992-ujoel' '9993-lhieb'
 '9995-hotoh']

Columna: Tasa de Abandono (Churn)
Valores únicos (3): ['no' 'yes' '']

Columna: Género
Valores únicos (2): ['Femenino' 'Masculino']

Columna: Adulto Mayor
Valores únicos (2): [0 1]

Columna: Tiene Pareja
Valores únicos (2): ['yes' 'no']

Columna: Tiene Dependientes
Valores únicos (2): ['yes' 'no']

Columna: Servicio Telefónico
Valores únicos (2): ['yes' 'no']

Columna: Múltiples Líneas
Valores únicos (3): ['no' 'yes' 'no phone service']

Columna: Tipo de Internet
Valores únicos (3): ['dsl' 'fiber optic' 'no']

Columna: Seguridad en Línea
Valores únicos (3): ['no' 'yes' 'no internet service']

Columna: Respaldo en Línea
Valores únicos (3): ['yes' 'no' 'no internet service']

Columna: Protección del Equipo
Valores únicos (3): ['no' 'yes' 'no internet service']

Columna: Soporte Técnico
Valores únicos (3): ['yes' 'no' 'no internet service']

Columna: TV Streamin

##Ajustando la columna de adulto mayor

In [21]:
#Ajustar la columna de Adulto Mayor para que sea object y acepte valores númericos
datos_transformados['Adulto Mayor'] = datos_transformados['Adulto Mayor'].map({0: 'No', 1: 'Sí'})

In [22]:
#Lista con las columnas binarias que queremos mapear
binarias = [
    'Tiene Pareja',
    'Tiene Dependientes',
    'Servicio Telefónico',
    'Facturación en Línea',
]

for col in binarias:
    if col in datos_transformados.columns:
        datos_transformados[col] = datos_transformados[col].map({'yes': 'Sí', 'no': 'No'})

In [23]:
#Vista previa de los cambios
datos_transformados.head(6)

Unnamed: 0,ID Cliente,Tasa de Abandono (Churn),Género,Adulto Mayor,Tiene Pareja,Tiene Dependientes,Meses de Contrato,Servicio Telefónico,Múltiples Líneas,Tipo de Internet,Seguridad en Línea,Respaldo en Línea,Protección del Equipo,Soporte Técnico,TV Streaming,Películas Streaming,Tipo de Contrato,Facturación en Línea,Método de Pago,Cargo Mensual,Cargo Total,Cargo Diario
0,0002-orfbo,no,Femenino,No,Sí,Sí,9,Sí,no,dsl,no,yes,no,yes,yes,no,one year,Sí,mailed check,65.6,593.3,2.19
1,0003-mknfe,no,Masculino,No,No,No,9,Sí,yes,dsl,no,no,no,no,no,yes,month-to-month,No,mailed check,59.9,542.4,2.0
2,0004-tlhlj,yes,Masculino,No,No,No,4,Sí,no,fiber optic,no,no,yes,no,no,no,month-to-month,Sí,electronic check,73.9,280.85,2.46
3,0011-igkff,yes,Masculino,Sí,Sí,No,13,Sí,no,fiber optic,no,yes,yes,no,yes,yes,month-to-month,Sí,electronic check,98.0,1237.85,3.27
4,0013-exchz,yes,Femenino,Sí,Sí,No,3,Sí,no,fiber optic,no,no,no,yes,yes,no,month-to-month,Sí,mailed check,83.9,267.4,2.8
5,0013-mhzwf,no,Femenino,No,No,Sí,9,Sí,no,dsl,no,no,no,yes,yes,yes,month-to-month,Sí,credit card (automatic),69.4,571.45,2.31


In [24]:
#Revisar si quedan valores nulos
print("\nValores nulos después de la limpieza:")
print(datos_transformados.isnull().sum())


Valores nulos después de la limpieza:
ID Cliente                  0
Tasa de Abandono (Churn)    0
Género                      0
Adulto Mayor                0
Tiene Pareja                0
Tiene Dependientes          0
Meses de Contrato           0
Servicio Telefónico         0
Múltiples Líneas            0
Tipo de Internet            0
Seguridad en Línea          0
Respaldo en Línea           0
Protección del Equipo       0
Soporte Técnico             0
TV Streaming                0
Películas Streaming         0
Tipo de Contrato            0
Facturación en Línea        0
Método de Pago              0
Cargo Mensual               0
Cargo Total                 0
Cargo Diario                0
dtype: int64


##Ajustando la columna de tasa de abandono (churn)

In [25]:
#Definir función para mapear y traducir valores
def mapear_churn(valor):
    if pd.isna(valor) or valor == '':
        #Consideramos vacíos o nulos como 'No' (cliente no abandonó)
        return 'No'
    valor = str(valor).strip().lower()
    if valor == 'yes':
        return 'Sí'
    elif valor == 'no':
        return 'No'
    else:
        #Por si hay valores inesperados, los consideramos como 'No'
        return 'No'

#Aplicar la función a la columna
datos_transformados['Tasa de Abandono (Churn)'] = datos_transformados['Tasa de Abandono (Churn)'].apply(mapear_churn)

In [26]:
#Vista previa de los cambios
datos_transformados.head(6)

Unnamed: 0,ID Cliente,Tasa de Abandono (Churn),Género,Adulto Mayor,Tiene Pareja,Tiene Dependientes,Meses de Contrato,Servicio Telefónico,Múltiples Líneas,Tipo de Internet,Seguridad en Línea,Respaldo en Línea,Protección del Equipo,Soporte Técnico,TV Streaming,Películas Streaming,Tipo de Contrato,Facturación en Línea,Método de Pago,Cargo Mensual,Cargo Total,Cargo Diario
0,0002-orfbo,No,Femenino,No,Sí,Sí,9,Sí,no,dsl,no,yes,no,yes,yes,no,one year,Sí,mailed check,65.6,593.3,2.19
1,0003-mknfe,No,Masculino,No,No,No,9,Sí,yes,dsl,no,no,no,no,no,yes,month-to-month,No,mailed check,59.9,542.4,2.0
2,0004-tlhlj,Sí,Masculino,No,No,No,4,Sí,no,fiber optic,no,no,yes,no,no,no,month-to-month,Sí,electronic check,73.9,280.85,2.46
3,0011-igkff,Sí,Masculino,Sí,Sí,No,13,Sí,no,fiber optic,no,yes,yes,no,yes,yes,month-to-month,Sí,electronic check,98.0,1237.85,3.27
4,0013-exchz,Sí,Femenino,Sí,Sí,No,3,Sí,no,fiber optic,no,no,no,yes,yes,no,month-to-month,Sí,mailed check,83.9,267.4,2.8
5,0013-mhzwf,No,Femenino,No,No,Sí,9,Sí,no,dsl,no,no,no,yes,yes,yes,month-to-month,Sí,credit card (automatic),69.4,571.45,2.31


In [27]:
#Revisar si quedan valores nulos
print("\nValores nulos después de la limpieza:")
print(datos_transformados.isnull().sum())


Valores nulos después de la limpieza:
ID Cliente                  0
Tasa de Abandono (Churn)    0
Género                      0
Adulto Mayor                0
Tiene Pareja                0
Tiene Dependientes          0
Meses de Contrato           0
Servicio Telefónico         0
Múltiples Líneas            0
Tipo de Internet            0
Seguridad en Línea          0
Respaldo en Línea           0
Protección del Equipo       0
Soporte Técnico             0
TV Streaming                0
Películas Streaming         0
Tipo de Contrato            0
Facturación en Línea        0
Método de Pago              0
Cargo Mensual               0
Cargo Total                 0
Cargo Diario                0
dtype: int64


In [28]:
#Mostrar valores únicos para cada columna, ordenadamente
for col in columnas_a_revisar:
    valores_unicos = datos_transformados[col].unique()
    print(f"Columna: {col}")
    print(f"Valores únicos ({len(valores_unicos)}): {valores_unicos}\n")

Columna: ID Cliente
Valores únicos (7267): ['0002-orfbo' '0003-mknfe' '0004-tlhlj' ... '9992-ujoel' '9993-lhieb'
 '9995-hotoh']

Columna: Tasa de Abandono (Churn)
Valores únicos (2): ['No' 'Sí']

Columna: Género
Valores únicos (2): ['Femenino' 'Masculino']

Columna: Adulto Mayor
Valores únicos (2): ['No' 'Sí']

Columna: Tiene Pareja
Valores únicos (2): ['Sí' 'No']

Columna: Tiene Dependientes
Valores únicos (2): ['Sí' 'No']

Columna: Servicio Telefónico
Valores únicos (2): ['Sí' 'No']

Columna: Múltiples Líneas
Valores únicos (3): ['no' 'yes' 'no phone service']

Columna: Tipo de Internet
Valores únicos (3): ['dsl' 'fiber optic' 'no']

Columna: Seguridad en Línea
Valores únicos (3): ['no' 'yes' 'no internet service']

Columna: Respaldo en Línea
Valores únicos (3): ['yes' 'no' 'no internet service']

Columna: Protección del Equipo
Valores únicos (3): ['no' 'yes' 'no internet service']

Columna: Soporte Técnico
Valores únicos (3): ['yes' 'no' 'no internet service']

Columna: TV Streaming

##Transformaciones de las columnas con datos aún no cambiados

In [29]:
#Diccionarios de traducción para los valores
map_si_no = {'yes': 'Sí', 'no': 'No'}
map_no_service_phone = {'no phone service': 'Sin servicio telefónico'}
map_no_service_internet = {'no internet service': 'Sin servicio de internet'}

#Columnas con valores 'yes'/'no' que faltan traducir
columnas_si_no = [
    'Múltiples Líneas',
    'Seguridad en Línea',
    'Respaldo en Línea',
    'Protección del Equipo',
    'Soporte Técnico',
    'TV Streaming',
    'Películas Streaming'
]

#Traducir valores en columnas binarias con 'yes'/'no'
for col in columnas_si_no:
    if col in datos_transformados.columns:
        datos_transformados[col] = datos_transformados[col].map(lambda x: map_si_no.get(x, x))

#Traducir valores 'no phone service' en 'Múltiples Líneas'
if 'Múltiples Líneas' in datos_transformados.columns:
    datos_transformados['Múltiples Líneas'] = datos_transformados['Múltiples Líneas'].replace(map_no_service_phone)

#Traducir valores 'no internet service' en las columnas relacionadas con internet
cols_no_internet_service = [
    'Seguridad en Línea',
    'Respaldo en Línea',
    'Protección del Equipo',
    'Soporte Técnico',
    'TV Streaming',
    'Películas Streaming'
]

for col in cols_no_internet_service:
    if col in datos_transformados.columns:
        datos_transformados[col] = datos_transformados[col].replace(map_no_service_internet)

#Traducir valores de 'Tipo de Contrato'
map_tipo_contrato = {
    'one year': 'Un año',
    'month-to-month': 'Mes a mes',
    'two year': 'Dos años'
}

if 'Tipo de Contrato' in datos_transformados.columns:
    datos_transformados['Tipo de Contrato'] = datos_transformados['Tipo de Contrato'].map(map_tipo_contrato)

#Traducir valores de 'Método de Pago'
map_metodo_pago = {
    'mailed check': 'Cheque enviado por correo',
    'electronic check': 'Cheque electrónico',
    'credit card (automatic)': 'Tarjeta de crédito (automático)',
    'bank transfer (automatic)': 'Transferencia bancaria (automático)'
}

if 'Método de Pago' in datos_transformados.columns:
    datos_transformados['Método de Pago'] = datos_transformados['Método de Pago'].map(map_metodo_pago)

#Traducir valores de 'Tipo de Internet'
map_tipo_internet = {
    'dsl': 'DSL',
    'fiber optic': 'Fibra Óptica',
    'no': 'Sin Servicio'
}

if 'Tipo de Internet' in datos_transformados.columns:
    datos_transformados['Tipo de Internet'] = datos_transformados['Tipo de Internet'].map(map_tipo_internet)

In [30]:
#Verificar resultados
cols_a_verificar = columnas_si_no + ['Múltiples Líneas', 'Tipo de Contrato', 'Método de Pago', 'Tipo de Internet']
for col in cols_a_verificar:
    if col in datos_transformados.columns:
        print(f"{col}: {datos_transformados[col].unique()}")

Múltiples Líneas: ['No' 'Sí' 'Sin servicio telefónico']
Seguridad en Línea: ['No' 'Sí' 'Sin servicio de internet']
Respaldo en Línea: ['Sí' 'No' 'Sin servicio de internet']
Protección del Equipo: ['No' 'Sí' 'Sin servicio de internet']
Soporte Técnico: ['Sí' 'No' 'Sin servicio de internet']
TV Streaming: ['Sí' 'No' 'Sin servicio de internet']
Películas Streaming: ['No' 'Sí' 'Sin servicio de internet']
Múltiples Líneas: ['No' 'Sí' 'Sin servicio telefónico']
Tipo de Contrato: ['Un año' 'Mes a mes' 'Dos años']
Método de Pago: ['Cheque enviado por correo' 'Cheque electrónico'
 'Tarjeta de crédito (automático)' 'Transferencia bancaria (automático)']
Tipo de Internet: ['DSL' 'Fibra Óptica' 'Sin Servicio']


In [31]:
#Vista previa de los cambios
datos_transformados.head(6)

Unnamed: 0,ID Cliente,Tasa de Abandono (Churn),Género,Adulto Mayor,Tiene Pareja,Tiene Dependientes,Meses de Contrato,Servicio Telefónico,Múltiples Líneas,Tipo de Internet,Seguridad en Línea,Respaldo en Línea,Protección del Equipo,Soporte Técnico,TV Streaming,Películas Streaming,Tipo de Contrato,Facturación en Línea,Método de Pago,Cargo Mensual,Cargo Total,Cargo Diario
0,0002-orfbo,No,Femenino,No,Sí,Sí,9,Sí,No,DSL,No,Sí,No,Sí,Sí,No,Un año,Sí,Cheque enviado por correo,65.6,593.3,2.19
1,0003-mknfe,No,Masculino,No,No,No,9,Sí,Sí,DSL,No,No,No,No,No,Sí,Mes a mes,No,Cheque enviado por correo,59.9,542.4,2.0
2,0004-tlhlj,Sí,Masculino,No,No,No,4,Sí,No,Fibra Óptica,No,No,Sí,No,No,No,Mes a mes,Sí,Cheque electrónico,73.9,280.85,2.46
3,0011-igkff,Sí,Masculino,Sí,Sí,No,13,Sí,No,Fibra Óptica,No,Sí,Sí,No,Sí,Sí,Mes a mes,Sí,Cheque electrónico,98.0,1237.85,3.27
4,0013-exchz,Sí,Femenino,Sí,Sí,No,3,Sí,No,Fibra Óptica,No,No,No,Sí,Sí,No,Mes a mes,Sí,Cheque enviado por correo,83.9,267.4,2.8
5,0013-mhzwf,No,Femenino,No,No,Sí,9,Sí,No,DSL,No,No,No,Sí,Sí,Sí,Mes a mes,Sí,Tarjeta de crédito (automático),69.4,571.45,2.31


In [32]:
#Revisar si quedan valores nulos
print("\nValores nulos después de la limpieza:")
print(datos_transformados.isnull().sum())


Valores nulos después de la limpieza:
ID Cliente                  0
Tasa de Abandono (Churn)    0
Género                      0
Adulto Mayor                0
Tiene Pareja                0
Tiene Dependientes          0
Meses de Contrato           0
Servicio Telefónico         0
Múltiples Líneas            0
Tipo de Internet            0
Seguridad en Línea          0
Respaldo en Línea           0
Protección del Equipo       0
Soporte Técnico             0
TV Streaming                0
Películas Streaming         0
Tipo de Contrato            0
Facturación en Línea        0
Método de Pago              0
Cargo Mensual               0
Cargo Total                 0
Cargo Diario                0
dtype: int64


#📊 Carga y análisis

##Análisis descriptivo

#📄Informe final