# Extraccion de Datos

In [1]:
import pandas as pd

In [2]:
datos = pd.read_json('TelecomX_Data.json')

In [3]:
datos.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


In [4]:
datos.columns.tolist()


['customerID', 'Churn', 'customer', 'phone', 'internet', 'account']

In [5]:
customer = pd.json_normalize(datos['customer'])
phone = pd.json_normalize(datos['phone'])
internet = pd.json_normalize(datos['internet'])
account = pd.json_normalize(datos['account'])

In [6]:
datos_final = pd.concat([datos[['customerID','Churn']].reset_index(drop=True), customer, phone, internet, account], axis=1)

* ```Churn``` = evasion
* ```SeniorCitizen``` = Clientes mayores pueden tener distintos patrones de cancelación.
* ```Partner, Dependents``` = Las responsabilidades personales pueden influir en la estabilidad del servicio.
* ```tenure``` = **Altamente relevante**. Clientes con poca antigüedad suelen tener mayor probabilidad de cancelar.
* ```PhoneService, InternetService, StreamingTV, StreamingMovies``` = El tipo y cantidad de servicios contratados afecta el valor y la fidelidad del cliente.
* ```OnlineSecurity, TechSupport, DeviceProtection``` = Los servicios adicionales suelen estar ligados a menor churn.
* ```Contract``` = **Muy relevante**. Los contratos de largo plazo suelen tener menos churn.
* ```PaperlessBilling, PaymentMethod``` = Métodos de facturación pueden reflejar niveles de digitalización o preferencias.
* ```Charges.Monthly, Charges.Total``` = Costo del servicio puede influir directamente en la decisión de cancelar.

- **Churn** significa que un cliente decide irse o cancelar su servicio. 
- **SeniorCitizen** hace referencia a los clientes mayores, quienes pueden mostrar diferentes patrones al abandonar el servicio.
- **Partner, Dependents** representan responsabilidades personales que tal vez afectan si el cliente mantiene su servicio o no.
- **Tenure** es muy importante, ya que generalmente los clientes que acaban de empezar son más propensos a cancelar.
- Los servicios contratados, como PhoneService, InternetService, StreamingTV y StreamingMovies, influyen tanto en cuánto valor perciben los clientes como en su lealtad.
- Tener servicios extras como OnlineSecurity, TechSupport o DeviceProtection suele estar asociado a un menor riesgo de churn.
- **Contract** es muy relevante porque los contratos a largo plazo suelen tener menos gente que se va.
- Métodos de pago y facturación, como PaperlessBilling y PaymentMethod, pueden dar pistas sobre cuánto digitalización prefieren los clientes.
- Por último, el costo mensual y total del servicio, es decir, Charges.Monthly y Charges.Total, pueden ser factores que influyen en la decisión final de cancelar.

In [7]:
columnas = [
    'Contract', 'Churn', 'gender', 'SeniorCitizen', 'Partner',
    'Dependents', 'tenure', 'PhoneService', 'MultipleLines',
    'InternetService', 'OnlineSecurity', 'OnlineBackup',
    'DeviceProtection', 'TechSupport', 'StreamingTV',
    'StreamingMovies', 'PaperlessBilling', 'PaymentMethod'
]

In [8]:
def mostrar_valores_unicos(df, columnas):
    for col in columnas:
        print(f"\033[1m{col}:\033[0m")  # Texto en negrita
        print(df[col].unique())
        print("-" * 40)


In [9]:
mostrar_valores_unicos(datos_final, columnas)

[1mContract:[0m
['One year' 'Month-to-month' 'Two year']
----------------------------------------
[1mChurn:[0m
['No' 'Yes' '']
----------------------------------------
[1mgender:[0m
['Female' 'Male']
----------------------------------------
[1mSeniorCitizen:[0m
[0 1]
----------------------------------------
[1mPartner:[0m
['Yes' 'No']
----------------------------------------
[1mDependents:[0m
['Yes' 'No']
----------------------------------------
[1mtenure:[0m
[ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]
----------------------------------------
[1mPhoneService:[0m
['Yes' 'No']
----------------------------------------
[1mMultipleLines:[0m
['No' 'Yes' 'No phone service']
----------------------------------------
[1mInternetService:[0m
['DSL' 'Fiber optic' 'No']
---------------------------------

In [10]:
datos_final.query('Churn == ""')

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


**Se detectaron 224 filas con la columna ```Churn``` vacia**

## Arreglango valores faltantes en Churn, reemplazando el vacio por No | Yes 

In [11]:
import numpy as np

In [12]:
datos_final['Churn'] = datos_final['Churn'].apply(lambda x: np.random.choice(['Yes','No']) if x == '' else x)

In [13]:
datos_final.query('Churn == ""') #Listo Pa

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total


Ahora que los datos están limpios, es momento de crear la columna "
". Utiliza la facturación mensual para calcular el valor diario, proporcionando una visión más detallada del comportamiento de los clientes a lo largo del tiempo.

In [14]:
# datos_final['Cuentas_Diarias'] = datos_final['Charges.Monthly'].apply(lambda x: x == x/30) Esto compara, no aplica
datos_final['Cuentas_Diarias'] = np.round(datos_final['Charges.Monthly'] / 30, 2)

In [15]:
datos_final.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4,2.8


La estandarización y transformación de datos es una etapa opcional, pero altamente recomendada, ya que busca hacer que la información sea más consistente, comprensible y adecuada para el análisis. Durante esta fase, por ejemplo, puedes convertir valores textuales como "Sí" y "No" en valores binarios (1 y 0), lo que facilita el procesamiento matemático y la aplicación de modelos analíticos.

Además, traducir o renombrar columnas y datos hace que la información sea más accesible y fácil de entender, especialmente cuando se trabaja con fuentes externas o términos técnicos. Aunque no es un paso obligatorio, puede mejorar significativamente la claridad y comunicación de los resultados, facilitando la interpretación y evitando confusiones, especialmente al compartir información con stakeholders no técnicos.

## Reemplazando Yes y No por los valores 1 y 0 correspondientes

In [16]:
# Columnas con Yes y No
colummnas_yes_no = ['Churn','Partner','Dependents','PhoneService','PaperlessBilling']

In [17]:
datos_final[colummnas_yes_no] = datos_final[colummnas_yes_no].map(lambda x: x.replace('Yes','1').replace('No','0')).astype(np.int64)

## Renombrando Columnas

In [18]:
datos_final.rename(columns={
    'Churn': 'Evasion',
    'gender': 'Genero',
    'SeniorCitizen': 'Ciudadano_Senior',
    'Partner': 'Socio',
    'Dependents': 'Dependientes',
    'tenure': 'Antiguedad',
    'PhoneService': 'Servicio_Telefonico',
    'MultipleLines': 'Lineas_Multiples',
    'InternetService': 'Servicio_Internet',
    'OnlineSecurity': 'Seguridad_Online',
    'OnlineBackup': 'Respaldo_Online',
    'DeviceProtection': 'Proteccion_Dispositivo',
    'TechSupport': 'Soporte_Tecnico',
    'StreamingTV': 'TV_Streaming',
    'StreamingMovies': 'Peliculas_Streaming',
    'Contract': 'Contrato',
    'PaperlessBilling': 'Facturacion_Electronica',
    'PaymentMethod': 'Metodo_Pago',
    'Charges.Monthly': 'Cargos_Mensuales',
    'Charges.Total': 'Cargos_Totales'
}, inplace=True)


In [19]:
datos_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   customerID               7267 non-null   object 
 1   Evasion                  7267 non-null   int64  
 2   Genero                   7267 non-null   object 
 3   Ciudadano_Senior         7267 non-null   int64  
 4   Socio                    7267 non-null   int64  
 5   Dependientes             7267 non-null   int64  
 6   Antiguedad               7267 non-null   int64  
 7   Servicio_Telefonico      7267 non-null   int64  
 8   Lineas_Multiples         7267 non-null   object 
 9   Servicio_Internet        7267 non-null   object 
 10  Seguridad_Online         7267 non-null   object 
 11  Respaldo_Online          7267 non-null   object 
 12  Proteccion_Dispositivo   7267 non-null   object 
 13  Soporte_Tecnico          7267 non-null   object 
 14  TV_Streaming            

In [20]:
datos_final.head()

Unnamed: 0,customerID,Evasion,Genero,Ciudadano_Senior,Socio,Dependientes,Antiguedad,Servicio_Telefonico,Lineas_Multiples,Servicio_Internet,...,Proteccion_Dispositivo,Soporte_Tecnico,TV_Streaming,Peliculas_Streaming,Contrato,Facturacion_Electronica,Metodo_Pago,Cargos_Mensuales,Cargos_Totales,Cuentas_Diarias
0,0002-ORFBO,0,Female,0,1,1,9,1,No,DSL,...,No,Yes,Yes,No,One year,1,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,0,Male,0,0,0,9,1,Yes,DSL,...,No,No,No,Yes,Month-to-month,0,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,1,Male,0,0,0,4,1,No,Fiber optic,...,Yes,No,No,No,Month-to-month,1,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,1,Male,1,1,0,13,1,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,1,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,1,Female,1,1,0,3,1,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,1,Mailed check,83.9,267.4,2.8
