# Hackathon ETL

 ### Conociendo el conjunto de datos

Antes de realizar cualquier transformación, es fundamental entender la estructura del dataset.  
Este paso nos permite identificar qué variables son relevantes para el análisis de evasión de clientes (`Churn`), y cómo están organizadas.


✅ Exploraremos las columnas y sus tipos de datos  
✅ Consultaremos el diccionario de datos  
✅ Identificaremos las variables clave para el análisis

---


In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 1. **Conociendo el conjunto de datos**

## 1.1 Exploración básica del DataFrame




In [3]:
# Importación de librerías
import pandas as pd
import numpy as np


# Carga del archivo CSV generado en 01_data_extraction.ipynb
json_path = "/content/drive/MyDrive/Hackaton-ETL/data/raw/hackathon_raw.json"
df = pd.read_json(json_path)

# Vista previa
df.head()


Unnamed: 0,CustomerID,Churn,MonthlyRevenue,MonthlyMinutes,TotalRecurringCharge,DirectorAssistedCalls,OverageMinutes,RoamingCalls,PercChangeMinutes,PercChangeRevenues,...,ReferralsMadeBySubscriber,IncomeGroup,OwnsMotorcycle,AdjustmentsToCreditRating,HandsetPrice,MadeCallToRetentionTeam,CreditRating,PrizmCode,Occupation,MaritalStatus
0,3000002,Yes,24.0,219.0,22.0,0.25,0.0,0.0,-157.0,-19.0,...,0,4,No,0,30,Yes,1-Highest,Suburban,Professional,No
1,3000010,Yes,16.99,10.0,17.0,0.0,0.0,0.0,-4.0,0.0,...,0,5,No,0,30,No,4-Medium,Suburban,Professional,Yes
2,3000014,No,38.0,8.0,38.0,0.0,0.0,0.0,-2.0,0.0,...,0,6,No,0,Unknown,No,3-Good,Town,Crafts,Yes
3,3000022,No,82.28,1312.0,75.0,1.24,0.0,0.0,157.0,8.1,...,0,6,No,0,10,No,4-Medium,Other,Other,No
4,3000026,Yes,17.14,0.0,17.0,0.0,0.0,0.0,0.0,-0.2,...,0,9,No,1,10,No,1-Highest,Other,Professional,Yes


### 1.2.3 Verificar tipos de datos y estructura del nuevo DataFrame

In [4]:
# Información general del DataFrame plano
df.info()

#  Estadísticas descriptivas
df.describe(include='all')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51047 entries, 0 to 51046
Data columns (total 58 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   CustomerID                 51047 non-null  int64  
 1   Churn                      51047 non-null  object 
 2   MonthlyRevenue             50891 non-null  float64
 3   MonthlyMinutes             50891 non-null  float64
 4   TotalRecurringCharge       50891 non-null  float64
 5   DirectorAssistedCalls      50891 non-null  float64
 6   OverageMinutes             50891 non-null  float64
 7   RoamingCalls               50891 non-null  float64
 8   PercChangeMinutes          50680 non-null  float64
 9   PercChangeRevenues         50680 non-null  float64
 10  DroppedCalls               51047 non-null  float64
 11  BlockedCalls               51047 non-null  float64
 12  UnansweredCalls            51047 non-null  float64
 13  CustomerCareCalls          51047 non-null  flo

Unnamed: 0,CustomerID,Churn,MonthlyRevenue,MonthlyMinutes,TotalRecurringCharge,DirectorAssistedCalls,OverageMinutes,RoamingCalls,PercChangeMinutes,PercChangeRevenues,...,ReferralsMadeBySubscriber,IncomeGroup,OwnsMotorcycle,AdjustmentsToCreditRating,HandsetPrice,MadeCallToRetentionTeam,CreditRating,PrizmCode,Occupation,MaritalStatus
count,51047.0,51047,50891.0,50891.0,50891.0,50891.0,50891.0,50891.0,50680.0,50680.0,...,51047.0,51047.0,51047,51047.0,51047,51047,51047,51047,51047,51047
unique,,2,,,,,,,,,...,,,2,,16,2,7,4,8,3
top,,No,,,,,,,,,...,,,No,,Unknown,No,2-High,Other,Other,Unknown
freq,,36336,,,,,,,,,...,,,50368,,28982,49302,18993,24655,37637,19700
mean,3201957.0,,58.834492,525.653416,46.830088,0.895229,40.027785,1.236244,-11.547908,-1.191985,...,0.05207,4.324524,,0.053911,,,,,,
std,116905.6,,44.507336,529.871063,23.848871,2.228546,96.588076,9.818294,257.514772,39.574915,...,0.307592,3.138236,,0.383147,,,,,,
min,3000002.0,,-6.17,0.0,-11.0,0.0,0.0,0.0,-3875.0,-1107.7,...,0.0,0.0,,0.0,,,,,,
25%,3100632.0,,33.61,158.0,30.0,0.0,0.0,0.0,-83.0,-7.1,...,0.0,0.0,,0.0,,,,,,
50%,3201534.0,,48.46,366.0,45.0,0.25,3.0,0.0,-5.0,-0.3,...,0.0,5.0,,0.0,,,,,,
75%,3305376.0,,71.065,723.0,60.0,0.99,41.0,0.3,66.0,1.6,...,0.0,7.0,,0.0,,,,,,


In [5]:
df["CreditRating"].max()

'7-Lowest'

In [6]:
df["CreditRating"].min()

'1-Highest'

In [7]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,51037,51038,51039,51040,51041,51042,51043,51044,51045,51046
CustomerID,3000002,3000010,3000014,3000022,3000026,3000030,3000038,3000042,3000046,3000050,...,3399906,3399910,3399922,3399942,3399946,3399958,3399974,3399978,3399990,3399994
Churn,Yes,Yes,No,No,Yes,No,No,No,No,No,...,No,No,No,No,Yes,Yes,No,Yes,No,No
MonthlyRevenue,24.0,16.99,38.0,82.28,17.14,38.05,31.66,62.13,35.3,81.0,...,31.92,,50.0,71.99,117.49,,95.17,,,
MonthlyMinutes,219.0,10.0,8.0,1312.0,0.0,682.0,26.0,98.0,24.0,1056.0,...,63.0,,492.0,724.0,384.0,,1745.0,,,
TotalRecurringCharge,22.0,17.0,38.0,75.0,17.0,52.0,30.0,66.0,35.0,75.0,...,17.0,,50.0,70.0,30.0,,85.0,,,
DirectorAssistedCalls,0.25,0.0,0.0,1.24,0.0,0.25,0.25,2.48,0.0,0.0,...,0.0,,0.0,0.0,0.0,,0.99,,,
OverageMinutes,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,43.0,,0.0,4.0,250.0,,45.0,,,
RoamingCalls,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,,0.0,0.9,0.0,,4.7,,,
PercChangeMinutes,-157.0,-4.0,-2.0,157.0,0.0,148.0,60.0,24.0,20.0,43.0,...,-38.0,,0.0,-40.0,0.0,,122.0,,,
PercChangeRevenues,-19.0,0.0,0.0,8.1,-0.2,-3.1,4.0,6.8,-0.3,2.4,...,-13.2,,0.0,-2.0,0.0,,15.9,,,


In [8]:
df.T[0]

Unnamed: 0,0
CustomerID,3000002
Churn,Yes
MonthlyRevenue,24.0
MonthlyMinutes,219.0
TotalRecurringCharge,22.0
DirectorAssistedCalls,0.25
OverageMinutes,0.0
RoamingCalls,0.0
PercChangeMinutes,-157.0
PercChangeRevenues,-19.0


In [9]:
hackathon_df = df.copy()
hackathon_df

Unnamed: 0,CustomerID,Churn,MonthlyRevenue,MonthlyMinutes,TotalRecurringCharge,DirectorAssistedCalls,OverageMinutes,RoamingCalls,PercChangeMinutes,PercChangeRevenues,...,ReferralsMadeBySubscriber,IncomeGroup,OwnsMotorcycle,AdjustmentsToCreditRating,HandsetPrice,MadeCallToRetentionTeam,CreditRating,PrizmCode,Occupation,MaritalStatus
0,3000002,Yes,24.00,219.0,22.0,0.25,0.0,0.0,-157.0,-19.0,...,0,4,No,0,30,Yes,1-Highest,Suburban,Professional,No
1,3000010,Yes,16.99,10.0,17.0,0.00,0.0,0.0,-4.0,0.0,...,0,5,No,0,30,No,4-Medium,Suburban,Professional,Yes
2,3000014,No,38.00,8.0,38.0,0.00,0.0,0.0,-2.0,0.0,...,0,6,No,0,Unknown,No,3-Good,Town,Crafts,Yes
3,3000022,No,82.28,1312.0,75.0,1.24,0.0,0.0,157.0,8.1,...,0,6,No,0,10,No,4-Medium,Other,Other,No
4,3000026,Yes,17.14,0.0,17.0,0.00,0.0,0.0,0.0,-0.2,...,0,9,No,1,10,No,1-Highest,Other,Professional,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51042,3399958,Yes,,,,,,,,,...,0,6,No,0,60,No,1-Highest,Suburban,Other,Yes
51043,3399974,No,95.17,1745.0,85.0,0.99,45.0,4.7,122.0,15.9,...,0,9,No,1,60,No,3-Good,Other,Other,No
51044,3399978,Yes,,,,,,,,,...,0,7,No,1,80,No,5-Low,Other,Clerical,No
51045,3399990,No,,,,,,,,,...,0,9,No,0,30,No,5-Low,Other,Other,No


## 1.3 Identificar columnas relevantes para el análisis de evasión

In [10]:
# Distribución de la variable objetivo
hackathon_df['Churn'].value_counts(normalize=True)

# Esto nos da una idea del balance entre clientes
# Que se fueron (Yes) y los que se quedaron (No).

Unnamed: 0_level_0,proportion
Churn,Unnamed: 1_level_1
No,0.711815
Yes,0.288185


In [11]:
display(hackathon_df.head(3))
hackathon_df.info()
hackathon_df.dtypes


Unnamed: 0,CustomerID,Churn,MonthlyRevenue,MonthlyMinutes,TotalRecurringCharge,DirectorAssistedCalls,OverageMinutes,RoamingCalls,PercChangeMinutes,PercChangeRevenues,...,ReferralsMadeBySubscriber,IncomeGroup,OwnsMotorcycle,AdjustmentsToCreditRating,HandsetPrice,MadeCallToRetentionTeam,CreditRating,PrizmCode,Occupation,MaritalStatus
0,3000002,Yes,24.0,219.0,22.0,0.25,0.0,0.0,-157.0,-19.0,...,0,4,No,0,30,Yes,1-Highest,Suburban,Professional,No
1,3000010,Yes,16.99,10.0,17.0,0.0,0.0,0.0,-4.0,0.0,...,0,5,No,0,30,No,4-Medium,Suburban,Professional,Yes
2,3000014,No,38.0,8.0,38.0,0.0,0.0,0.0,-2.0,0.0,...,0,6,No,0,Unknown,No,3-Good,Town,Crafts,Yes


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51047 entries, 0 to 51046
Data columns (total 58 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   CustomerID                 51047 non-null  int64  
 1   Churn                      51047 non-null  object 
 2   MonthlyRevenue             50891 non-null  float64
 3   MonthlyMinutes             50891 non-null  float64
 4   TotalRecurringCharge       50891 non-null  float64
 5   DirectorAssistedCalls      50891 non-null  float64
 6   OverageMinutes             50891 non-null  float64
 7   RoamingCalls               50891 non-null  float64
 8   PercChangeMinutes          50680 non-null  float64
 9   PercChangeRevenues         50680 non-null  float64
 10  DroppedCalls               51047 non-null  float64
 11  BlockedCalls               51047 non-null  float64
 12  UnansweredCalls            51047 non-null  float64
 13  CustomerCareCalls          51047 non-null  flo

Unnamed: 0,0
CustomerID,int64
Churn,object
MonthlyRevenue,float64
MonthlyMinutes,float64
TotalRecurringCharge,float64
DirectorAssistedCalls,float64
OverageMinutes,float64
RoamingCalls,float64
PercChangeMinutes,float64
PercChangeRevenues,float64


Distribución de la variable objetivo (`Churn`)

> En marketing y negocios, `Churn` (o tasa de abandono) se refiere a la pérdida de clientes o usuarios durante un período específico.


Antes de analizar, es importante entender el balance entre clientes que se fueron y los que se quedaron.


In [12]:
hackathon_df['Churn'].value_counts(dropna=False)
hackathon_df['Churn'].value_counts(normalize=True)  # proporción


Unnamed: 0_level_0,proportion
Churn,Unnamed: 1_level_1
No,0.711815
Yes,0.288185


### 1.3.1 Identificación preliminar de columnas relevantes
Criterios:

- Variables demográficas
  - (AgeHH1, AgeHH2, ChildrenInHH, IncomeGroup, Occupation, MaritalStatus, PrizmCode, Homeownership, OwnsComputer, HasCreditCard, TruckOwner, RVOwner, OwnsMotorcycle, NonUSTravel)
- Variables de servicio
  - (MonthlyMinutes, PeakCallsInOut, OffPeakCallsInOut, InboundCalls, OutboundCalls, ReceivedCalls, DroppedCalls, BlockedCalls, UnansweredCalls, DroppedBlockedCalls, DirectorAssistedCalls, RoamingCalls, ThreewayCalls, CallForwardingCalls, CallWaitingCalls, CustomerCareCalls, OverageMinutes)
- Variables contractuales
  - (ServiceArea, Handsets, HandsetModels, CurrentEquipmentDays, UniqueSubs, ActiveSubs, HandsetRefurbished, HandsetWebCapable, NewCellphoneUser, NotNewCellphoneUser)
- Variables financieras
  - (MonthlyRevenue, TotalRecurringCharge, PercChangeMinutes, PercChangeRevenues, CreditRating, AdjustmentsToCreditRating, HandsetPrice, BuysViaMailOrder, RespondsToMailOffers, OptOutMailings)
- Variable de antigüedad
  - (MonthsInService)


In [13]:
# Lista de posibles columnas explicativas para Churn (adaptadas a tu dataset)
candidate_cols = [

    # Variables demográficas
    'AgeHH1', 'AgeHH2', 'MaritalStatus', 'ChildrenInHH',
    'IncomeGroup', 'Occupation', 'Homeownership',

    # Variable de antigüedad
    'MonthsInService',

    # Variables de servicio
    'MonthlyMinutes', 'PeakCallsInOut', 'OffPeakCallsInOut',
    'DroppedCalls', 'BlockedCalls', 'UnansweredCalls',
    'CustomerCareCalls', 'OverageMinutes', 'RoamingCalls', 'MadeCallToRetentionTeam'

    # Variables contractuales
    'UniqueSubs', 'ActiveSubs', 'Handsets',
    'HandsetModels', 'CurrentEquipmentDays',
    'HandsetRefurbished', 'HandsetWebCapable',

    # Variables financieras
    'MonthlyRevenue', 'TotalRecurringCharge',
    'PercChangeMinutes', 'PercChangeRevenues',
    'CreditRating', 'HandsetPrice'
]

print(f"Columnas candidatas ({len(candidate_cols)}): {candidate_cols}")

Columnas candidatas (30): ['AgeHH1', 'AgeHH2', 'MaritalStatus', 'ChildrenInHH', 'IncomeGroup', 'Occupation', 'Homeownership', 'MonthsInService', 'MonthlyMinutes', 'PeakCallsInOut', 'OffPeakCallsInOut', 'DroppedCalls', 'BlockedCalls', 'UnansweredCalls', 'CustomerCareCalls', 'OverageMinutes', 'RoamingCalls', 'MadeCallToRetentionTeamUniqueSubs', 'ActiveSubs', 'Handsets', 'HandsetModels', 'CurrentEquipmentDays', 'HandsetRefurbished', 'HandsetWebCapable', 'MonthlyRevenue', 'TotalRecurringCharge', 'PercChangeMinutes', 'PercChangeRevenues', 'CreditRating', 'HandsetPrice']


### 1.3.2 Ver señales de relevancia inicial
Para numéricos, correlación con Churn binario.

Para categóricas, diferencias de tasas de evasión.


In [14]:
# Convertimos Charges.Total a numérico para evaluar
hackathon_df['MonthlyRevenue'] = pd.to_numeric(hackathon_df['MonthlyRevenue'], errors='coerce')

# Crear versión binaria de Churn
churn_bin = hackathon_df['Churn'].map({'Yes': 1, 'No': 0})

# Correlaciones para numéricos
num_cols = [
    col for col in hackathon_df.select_dtypes(include=['int64', 'float64']).columns
    if col != 'CustomerID'
]

# Calcular correlaciones
corr_churn = hackathon_df[num_cols].corrwith(churn_bin).sort_values(ascending=False)

In [15]:
# Tasa de churn por categoría para algunas columnas
# Variables a analizar
cols_to_analyze = [
    'CurrentEquipmentDays',
    'PercChangeMinutes',
    'MonthlyMinutes',
    'MonthsInService',
    'ActiveSubs'
]

# Crear bins para variables numéricas
for col in cols_to_analyze:
    hackathon_df[f'{col}_bin'] = pd.qcut(
        hackathon_df[col],
        q=4,
        duplicates='drop'
    )

# Tasa de churn por categoría
for col in cols_to_analyze:
    print(
        f"\n{col} (binned):\n",
        hackathon_df
        .groupby(f'{col}_bin', observed=True)['Churn']
        .value_counts(normalize=True)
        .unstack()
    )


CurrentEquipmentDays (binned):
 Churn                           No       Yes
CurrentEquipmentDays_bin                    
(-5.001, 205.0]           0.779917  0.220083
(205.0, 329.0]            0.753225  0.246775
(329.0, 515.0]            0.651309  0.348691
(515.0, 1812.0]           0.662534  0.337466

PercChangeMinutes (binned):
 Churn                        No       Yes
PercChangeMinutes_bin                    
(-3875.001, -83.0]     0.678661  0.321339
(-83.0, -5.0]          0.713917  0.286083
(-5.0, 66.0]           0.725464  0.274536
(66.0, 5192.0]         0.737701  0.262299

MonthlyMinutes (binned):
 Churn                     No       Yes
MonthlyMinutes_bin                    
(-0.001, 158.0]     0.670509  0.329491
(158.0, 366.0]      0.711534  0.288466
(366.0, 723.0]      0.726929  0.273071
(723.0, 7359.0]     0.740388  0.259612

MonthsInService (binned):
 Churn                      No       Yes
MonthsInService_bin                    
(5.999, 11.0]        0.759727  0.240273
(11.0,

## 2. Comprobación de incoherencias en los datos

En esta sección buscamos problemas que puedan afectar el análisis:
- **Valores ausentes** (`NaN`o `null`)
- **Filas duplicadas** o `customerID` repetidos

Estos son los primeros chequeos antes de evaluar formatos y categorías.


In [16]:
# Valores ausentes por columna
null_counts = hackathon_df.isna().sum().sort_values(ascending=False)
print("Valores ausentes por columna:\n", null_counts)

# Filas duplicadas completas
dup_rows = hackathon_df.duplicated().sum()
print(f"\nFilas duplicadas totales: {dup_rows}")

# Duplicados por 'customerID' (si existe)
if 'customerID' in hackathon_df.columns:
    dup_ids = hackathon_df['customerID'].duplicated().sum()
    print(f"IDs duplicados: {dup_ids}")

Valores ausentes por columna:
 AgeHH1                   909
AgeHH2                   909
PercChangeRevenues       367
PercChangeMinutes_bin    367
PercChangeMinutes        367
                        ... 
PrizmCode                  0
MaritalStatus              0
Occupation                 0
MonthsInService_bin        0
ActiveSubs_bin             0
Length: 63, dtype: int64

Filas duplicadas totales: 0


### 2.2 Errores de formato e inconsistencias en categorías

Ahora revisaremos:

- Si las columnas numéricas contienen valores no numéricos.
- Las categorías de variables tipo objeto para detectar inconsistencias (espacios, mayúsculas, variantes).

In [17]:
# 1) Revisar columnas numéricas con posibles valores no numéricos
num_cols = ['MonthlyRevenue', 'TotalRecurringCharge']

for col in num_cols:
    coerced = pd.to_numeric(hackathon_df[col], errors='coerce')
    non_numeric = hackathon_df[col][coerced.isna() & hackathon_df[col].notna()].unique()

    print(f"{col} - Valores no numéricos detectados:", non_numeric)

# 2) Valores únicos en columnas categóricas (excluyendo identificador)
cat_cols = [
    col for col in hackathon_df.select_dtypes(include='object').columns
    if col != 'CustomerID'
]
for col in cat_cols:
    uniques = hackathon_df[col].astype(str).str.strip().str.lower().unique()
    print(f"\n{col} ({len(uniques)} valores únicos): {uniques}")

MonthlyRevenue - Valores no numéricos detectados: []
TotalRecurringCharge - Valores no numéricos detectados: []

Churn (2 valores únicos): ['yes' 'no']

ServiceArea (748 valores únicos): ['seapor503' 'pithom412' 'milmil414' 'okctul918' 'okcokc405' 'sanmca210'
 'slcslc801' 'loulou502' 'kcykck913' 'kcynew316' 'kcykcm816' 'denden303'
 'phictr610' 'okclrk501' 'omades515' 'sanaus512' 'kcywic316' 'indind317'
 'slcpro801' 'omalnc402' 'nshnsh615' 'omaoma402' 'phxtuc520' 'daldal214'
 'daldtn940' 'dalftw817' 'sansan210' 'nycman917' 'nolken504' 'minmin612'
 'nnyroc716' 'phiard610' 'nycque917' 'denbou303' 'bosbos617' 'phxphx602'
 'nnybuf716' 'dettol419' 'nnysyr315' 'stlstl314' 'phiphi215' 'seablv425'
 'miamia305' 'phichc215' 'seasea206' 'birbir205' 'miadfd954' 'lounal812'
 'miadel561' 'miaftl954' 'seaspo509' 'seatac253' 'sfrsac916' 'mianda305'
 'minstp612' 'miahwd954' 'nycbro917' 'phijen215' 'omacdr319' 'miawpb561'
 'seaoly360' 'pitbut412' 'seaeve425' 'phimer609' 'seacda208' 'harhar860'
 'sfrsfr41

 #### Hallazgos clave
- **Numéricos:**
  - `MonthlyRevenue` limpio (sin valores no numéricos).
  - `TotalRecurringCharge` limpio (sin valores no numéricos).
- **Categóricas con valores “extra” o vacíos:**
  - `Churn` solo tiene `yes` y `no` (sin valores vacíos detectados).
  - `HandsetPrice` tiene un valor `unknown` que debería tratarse como `NaN`.
  - `Homeownership` tiene `unknown` que podría considerarse como valor faltante.
- **Categorías con modalidades especiales:**
  - `ServiceArea` tiene valor `none`, que podría indicar ausencia de servicio.
- **Categorías limpias pero con espacio a estandarizar:**
  - `Churn` está en minúsculas (`yes` / `no`).
  - `ServiceArea` tiene muchos valores únicos, pero algunos como `none` podrían necesitar estandarización.
  - `PaymentMethod`, `Contract` y otras categóricas no mostradas podrían tener mayúsculas/minúsculas y espacios extra que convendría normalizar.


## 3. Manejo de inconsistencias

Aplicamos transformaciones para garantizar datos consistentes y listos para análisis:



### 3.1 Preparación y Limpieza de Texto

In [18]:
import pandas as pd
import numpy as np

# 3.1 Limpieza de strings y normalización
cat_cols = hackathon_df.select_dtypes(include='object').columns
# Definimos qué palabras en el dataset original realmente significan "dato faltante"
missing_indicators = ['Unknown', 'unknown', 'None', 'none', 'nan', '', ' ']

for col in cat_cols:
    if col != 'ServiceArea':
        # Quitamos espacios y estandarizamos a formato Título (ej: "yes" -> "Yes")
        hackathon_df[col] = hackathon_df[col].astype(str).str.strip().str.title()

# Convertimos los "Unknown" y textos vacíos a NaN real de Pandas
# Dejamos ServiceArea fuera porque usa un código especial (ej. "NEWNYK518")
cols_to_clean = [c for c in hackathon_df.columns if c != 'ServiceArea']
hackathon_df[cols_to_clean] = hackathon_df[cols_to_clean].replace(missing_indicators, np.nan)

# Tratamiento especial de ServiceArea: si falta, le damos un código genérico
hackathon_df['ServiceArea'] = hackathon_df['ServiceArea'].fillna('UNKNWN000')

### 3.2 Ingeniería de Características (Nuevas Variables)


In [19]:
# 3.2 Asegurar que las columnas base sean numéricas antes de operar
hackathon_df['MonthlyRevenue'] = pd.to_numeric(hackathon_df['MonthlyRevenue'], errors='coerce')
hackathon_df['MonthlyMinutes'] = pd.to_numeric(hackathon_df['MonthlyMinutes'], errors='coerce')
hackathon_df['OverageMinutes'] = pd.to_numeric(hackathon_df['OverageMinutes'], errors='coerce')

# A) Ingreso diario (Float para no perder centavos)
hackathon_df['DailyRevenue'] = hackathon_df['MonthlyRevenue'] / 30.0

# B) Ratio de minutos excedentes: ¿Qué proporción del uso total es exceso?
total_min = hackathon_df['MonthlyMinutes'].fillna(0) + hackathon_df['OverageMinutes'].fillna(0)
hackathon_df['UsageRatio'] = np.where(total_min > 0, hackathon_df['OverageMinutes'] / total_min, 0)

# C) Costo por minuto efectivo
hackathon_df['CostPerMinute'] = np.where(hackathon_df['MonthlyMinutes'] > 0,
                                         hackathon_df['MonthlyRevenue'] / hackathon_df['MonthlyMinutes'], 0)

### 3.3 Definición de Tipos y Variable Objetivo




In [20]:
# 3.3 Forzar tipos de datos correctos
float_cols = [
    'MonthlyRevenue',
    'TotalRecurringCharge',
    'DailyRevenue',
    'UsageRatio',
    'CostPerMinute',
    'PercChangeMinutes',
    'PercChangeRevenues'
]
for col in float_cols:
    hackathon_df[col] = hackathon_df[col].astype(float)

# Variables de conteo (Enteros que aceptan Nulos: Int64)
int_cols = ['MonthlyMinutes', 'OverageMinutes', 'RoamingCalls', 'CurrentEquipmentDays',
            'MonthsInService', 'ActiveSubs', 'Handsets', 'CustomerCareCalls']
for col in int_cols:
    hackathon_df[col] = pd.to_numeric(hackathon_df[col], errors='coerce').round().astype('Int64')

### 3.4 Transformación del Target (Churn)

In [21]:
# 3.4 Variable Objetivo (Churn)
# Creamos la versión numérica pero mantenemos la original para comprobaciones
hackathon_df['Churn_Bin'] = hackathon_df['Churn'].map({'Yes': 1, 'No': 0})
# Si el target es nulo, es mejor eliminar esas filas o asumir 0 (No Churn)
hackathon_df['Churn_Bin'] = hackathon_df['Churn_Bin'].fillna(0).astype(int)

In [22]:
# 3.4.1 Eliminamos columnas de bins antiguos y columnas innecesarias para el modelo

cols_to_drop = [c for c in hackathon_df.columns if '_bin' in c]
df_model_ready = hackathon_df.drop(columns=cols_to_drop)

# 3.4.2 Guardar el resultado limpio
# IMPORTANTE: Guardamos con NaNs. La imputación se hará en el siguiente notebook tras el Split.
df_model_ready.to_csv('hackathon_cleaned_for_model.csv', index=False)

print("🚀 ¡Notebook optimizado! Dataset listo para entrenamiento sin Data Leakage.")
print(f"Total de registros: {df_model_ready.shape[0]} | Total de columnas: {df_model_ready.shape[1]}")

🚀 ¡Notebook optimizado! Dataset listo para entrenamiento sin Data Leakage.
Total de registros: 51047 | Total de columnas: 62


In [23]:
df_model_ready['MonthlyRevenue'].sample(5)

Unnamed: 0,MonthlyRevenue
47362,492.95
38779,131.28
20087,85.23
45057,118.97
20498,22.21


In [24]:
df_model_ready.head()

Unnamed: 0,CustomerID,Churn,MonthlyRevenue,MonthlyMinutes,TotalRecurringCharge,DirectorAssistedCalls,OverageMinutes,RoamingCalls,PercChangeMinutes,PercChangeRevenues,...,HandsetPrice,MadeCallToRetentionTeam,CreditRating,PrizmCode,Occupation,MaritalStatus,DailyRevenue,UsageRatio,CostPerMinute,Churn_Bin
0,3000002,Yes,24.0,219,22.0,0.25,0,0,-157.0,-19.0,...,30.0,Yes,1-Highest,Suburban,Professional,No,0.8,0.0,0.109589,1
1,3000010,Yes,16.99,10,17.0,0.0,0,0,-4.0,0.0,...,30.0,No,4-Medium,Suburban,Professional,Yes,0.566333,0.0,1.699,1
2,3000014,No,38.0,8,38.0,0.0,0,0,-2.0,0.0,...,,No,3-Good,Town,Crafts,Yes,1.266667,0.0,4.75,0
3,3000022,No,82.28,1312,75.0,1.24,0,0,157.0,8.1,...,10.0,No,4-Medium,Other,Other,No,2.742667,0.0,0.062713,0
4,3000026,Yes,17.14,0,17.0,0.0,0,0,0.0,-0.2,...,10.0,No,1-Highest,Other,Professional,Yes,0.571333,0.0,0.0,1


In [25]:
df_model_ready.sample(5)

Unnamed: 0,CustomerID,Churn,MonthlyRevenue,MonthlyMinutes,TotalRecurringCharge,DirectorAssistedCalls,OverageMinutes,RoamingCalls,PercChangeMinutes,PercChangeRevenues,...,HandsetPrice,MadeCallToRetentionTeam,CreditRating,PrizmCode,Occupation,MaritalStatus,DailyRevenue,UsageRatio,CostPerMinute,Churn_Bin
17756,3138990,No,30.43,228,40.0,0.0,0,0,-49.0,-0.4,...,30.0,Yes,2-High,Town,Crafts,Yes,1.014333,0.0,0.133465,0
44244,3350442,Yes,116.73,2232,97.0,0.5,0,0,-27.0,-116.7,...,130.0,Yes,4-Medium,Rural,Other,,3.891,0.0,0.052298,1
30898,3246078,No,94.09,585,55.0,0.0,16,0,824.0,-17.7,...,80.0,No,2-High,Other,Other,,3.136333,0.026622,0.160838,0
34166,3272442,Yes,80.44,608,75.0,5.45,0,0,-14.0,-1.5,...,130.0,No,4-Medium,Other,Clerical,No,2.681333,0.0,0.132303,1
38604,3307986,No,52.91,633,60.0,2.48,0,0,-31.0,3.0,...,,No,2-High,Suburban,Self,No,1.763667,0.0,0.083586,0


In [26]:
df_model_ready['Churn_Bin'].sample(5)

Unnamed: 0,Churn_Bin
10825,0
44439,1
7425,1
46965,0
11070,1


## 4. Estandarización de Nombres


### 4.1 Renombrar columnas


In [27]:
column_names = list(df_model_ready.columns)

# Ver el diccionario
print(column_names)

['CustomerID', 'Churn', 'MonthlyRevenue', 'MonthlyMinutes', 'TotalRecurringCharge', 'DirectorAssistedCalls', 'OverageMinutes', 'RoamingCalls', 'PercChangeMinutes', 'PercChangeRevenues', 'DroppedCalls', 'BlockedCalls', 'UnansweredCalls', 'CustomerCareCalls', 'ThreewayCalls', 'ReceivedCalls', 'OutboundCalls', 'InboundCalls', 'PeakCallsInOut', 'OffPeakCallsInOut', 'DroppedBlockedCalls', 'CallForwardingCalls', 'CallWaitingCalls', 'MonthsInService', 'UniqueSubs', 'ActiveSubs', 'ServiceArea', 'Handsets', 'HandsetModels', 'CurrentEquipmentDays', 'AgeHH1', 'AgeHH2', 'ChildrenInHH', 'HandsetRefurbished', 'HandsetWebCapable', 'TruckOwner', 'RVOwner', 'Homeownership', 'BuysViaMailOrder', 'RespondsToMailOffers', 'OptOutMailings', 'NonUSTravel', 'OwnsComputer', 'HasCreditCard', 'RetentionCalls', 'RetentionOffersAccepted', 'NewCellphoneUser', 'NotNewCellphoneUser', 'ReferralsMadeBySubscriber', 'IncomeGroup', 'OwnsMotorcycle', 'AdjustmentsToCreditRating', 'HandsetPrice', 'MadeCallToRetentionTeam', 'C

In [28]:
# Definición del mapeo de nombres de Inglés a Español
column_renaming = {# Identificación y Target
    'CustomerID': 'id_cliente',
    'Churn': 'cancelacion',
    'Churn_Bin': 'churn_bin', # Nueva varible Churn Binaria

    # Variables Financieras (Monetarias)
    'MonthlyRevenue': 'ingresos_mensuales',   # excepción contrato
    'MonthlyMinutes': 'minutos_mensuales',
    'TotalRecurringCharge': 'cargo_recurrente',  # excepción contrato
    'OverageMinutes': 'minutos_excedentes',
    'RoamingCalls': 'llamadas_roaming',
    'DailyRevenue': 'ingreso_diario',
    'CostPerMinute': 'costo_por_minuto',
    'HandsetPrice': 'precio_equipo',
    'IncomeGroup': 'grupo_ingresos',

    # Comportamiento de Llamadas
    'DirectorAssistedCalls': 'llamadas_asistidas_director',
    'DroppedCalls': 'llamadas_caidas',   # excepción contrato
    'BlockedCalls': 'llamadas_bloqueadas',
    'UnansweredCalls': 'llamadas_no_contestadas',
    'CustomerCareCalls': 'llamadas_atencion_cliente',
    'ThreewayCalls': 'llamadas_tripartitas',
    'ReceivedCalls': 'llamadas_recibidas',
    'OutboundCalls': 'llamadas_salientes',
    'InboundCalls': 'llamadas_entrantes',
    'PeakCallsInOut': 'llamadas_pico_ent_sal',
    'OffPeakCallsInOut': 'llamadas_no_pico_ent_sal',
    'DroppedBlockedCalls': 'llamadas_caidas_bloqueadas',
    'CallForwardingCalls': 'llamadas_desviadas',
    'CallWaitingCalls': 'llamadas_en_espera',

    # Perfil del Cliente y Antigüedad
    'MonthsInService': 'meses_en_servicio',   # excepción contrato
    'UniqueSubs': 'suscripciones_unicas',
    'ActiveSubs': 'suscripciones_activas',
    'ServiceArea': 'area_servicio',
    'Handsets': 'equipos_totales',
    'HandsetModels': 'modelos_equipos',
    'CurrentEquipmentDays': 'dias_equipo_actual',   # excepción contrato
    'AgeHH1': 'edad_hogar_1',
    'AgeHH2': 'edad_hogar_2',
    'ChildrenInHH': 'hijos_en_hogar',

    # Atributos del Equipo y Estilo de Vida
    'HandsetRefurbished': 'equipo_reacondicionado',
    'HandsetWebCapable': 'equipo_web_capaz',
    'TruckOwner': 'propietario_camion',
    'RVOwner': 'propietario_rv',
    'Homeownership': 'propiedad_vivienda',
    'BuysViaMailOrder': 'compra_por_correo',
    'RespondsToMailOffers': 'responde_ofertas_correo',
    'OptOutMailings': 'rechaza_publicidad_correo',
    'NonUSTravel': 'viajes_fuera_eeuu',
    'OwnsComputer': 'posee_computadora',
    'HasCreditCard': 'tiene_tarjeta_credito',
    'OwnsMotorcycle': 'posee_motocicleta',

    # Retención y Crédito
    'RetentionCalls': 'llamadas_retencion',
    'RetentionOffersAccepted': 'ofertas_retencion_aceptadas',
    'NewCellphoneUser': 'usuario_nuevo_celular',
    'NotNewCellphoneUser': 'usuario_antiguo_celular',
    'ReferralsMadeBySubscriber': 'referidos_realizados',
    'AdjustmentsToCreditRating': 'ajustes_calificacion_credito',
    'MadeCallToRetentionTeam': 'llamo_equipo_retencion',
    'CreditRating': 'calificacion_crediticia',   # excepción contrato
    'PrizmCode': 'codigo_prizm',
    'Occupation': 'ocupacion',
    'MaritalStatus': 'estado_civil',

    # Nuevas Métricas de Ingeniería
    'UsageRatio': 'ratio_uso',
    'PercChangeMinutes': 'cambio_perc_minutos',
    'PercChangeRevenues': 'cambio_perc_ingresos'
}

# Aplicar el renombramiento
df_model_ready.rename(columns=column_renaming, inplace=True)

### 4.2 Verificar cambios

In [29]:
# Verificar los nuevos nombres de las columnas
print(df_model_ready.columns)

Index(['id_cliente', 'cancelacion', 'ingresos_mensuales', 'minutos_mensuales',
       'cargo_recurrente', 'llamadas_asistidas_director', 'minutos_excedentes',
       'llamadas_roaming', 'cambio_perc_minutos', 'cambio_perc_ingresos',
       'llamadas_caidas', 'llamadas_bloqueadas', 'llamadas_no_contestadas',
       'llamadas_atencion_cliente', 'llamadas_tripartitas',
       'llamadas_recibidas', 'llamadas_salientes', 'llamadas_entrantes',
       'llamadas_pico_ent_sal', 'llamadas_no_pico_ent_sal',
       'llamadas_caidas_bloqueadas', 'llamadas_desviadas',
       'llamadas_en_espera', 'meses_en_servicio', 'suscripciones_unicas',
       'suscripciones_activas', 'area_servicio', 'equipos_totales',
       'modelos_equipos', 'dias_equipo_actual', 'edad_hogar_1', 'edad_hogar_2',
       'hijos_en_hogar', 'equipo_reacondicionado', 'equipo_web_capaz',
       'propietario_camion', 'propietario_rv', 'propiedad_vivienda',
       'compra_por_correo', 'responde_ofertas_correo',
       'rechaza_public

In [30]:
df_model_ready.info()
df_model_ready.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51047 entries, 0 to 51046
Data columns (total 62 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   id_cliente                    51047 non-null  int64  
 1   cancelacion                   51047 non-null  object 
 2   ingresos_mensuales            50891 non-null  float64
 3   minutos_mensuales             50891 non-null  Int64  
 4   cargo_recurrente              50891 non-null  float64
 5   llamadas_asistidas_director   50891 non-null  float64
 6   minutos_excedentes            50891 non-null  Int64  
 7   llamadas_roaming              50891 non-null  Int64  
 8   cambio_perc_minutos           50680 non-null  float64
 9   cambio_perc_ingresos          50680 non-null  float64
 10  llamadas_caidas               51047 non-null  float64
 11  llamadas_bloqueadas           51047 non-null  float64
 12  llamadas_no_contestadas       51047 non-null  float64
 13  l

Unnamed: 0,id_cliente,cancelacion,ingresos_mensuales,minutos_mensuales,cargo_recurrente,llamadas_asistidas_director,minutos_excedentes,llamadas_roaming,cambio_perc_minutos,cambio_perc_ingresos,...,precio_equipo,llamo_equipo_retencion,calificacion_crediticia,codigo_prizm,ocupacion,estado_civil,ingreso_diario,ratio_uso,costo_por_minuto,churn_bin
0,3000002,Yes,24.0,219,22.0,0.25,0,0,-157.0,-19.0,...,30.0,Yes,1-Highest,Suburban,Professional,No,0.8,0.0,0.109589,1
1,3000010,Yes,16.99,10,17.0,0.0,0,0,-4.0,0.0,...,30.0,No,4-Medium,Suburban,Professional,Yes,0.566333,0.0,1.699,1
2,3000014,No,38.0,8,38.0,0.0,0,0,-2.0,0.0,...,,No,3-Good,Town,Crafts,Yes,1.266667,0.0,4.75,0
3,3000022,No,82.28,1312,75.0,1.24,0,0,157.0,8.1,...,10.0,No,4-Medium,Other,Other,No,2.742667,0.0,0.062713,0
4,3000026,Yes,17.14,0,17.0,0.0,0,0,0.0,-0.2,...,10.0,No,1-Highest,Other,Professional,Yes,0.571333,0.0,0.0,1


In [31]:
df_model_ready.sample(5)


Unnamed: 0,id_cliente,cancelacion,ingresos_mensuales,minutos_mensuales,cargo_recurrente,llamadas_asistidas_director,minutos_excedentes,llamadas_roaming,cambio_perc_minutos,cambio_perc_ingresos,...,precio_equipo,llamo_equipo_retencion,calificacion_crediticia,codigo_prizm,ocupacion,estado_civil,ingreso_diario,ratio_uso,costo_por_minuto,churn_bin
47879,3377022,No,50.79,878,50.0,0.0,27,0,184.0,7.6,...,,No,2-High,Suburban,Other,,1.693,0.029834,0.057847,0
25604,3202182,No,49.69,295,40.0,0.0,0,2,-37.0,-14.9,...,150.0,No,3-Good,Other,Other,Yes,1.656333,0.0,0.168441,0
40979,3326574,No,30.48,75,40.0,0.5,0,0,-44.0,-0.5,...,,No,2-High,Suburban,Other,,1.016,0.0,0.4064,0
34007,3271094,No,87.89,1100,70.0,0.0,93,0,290.0,24.6,...,,No,2-High,Other,Other,,2.929667,0.077955,0.0799,0
22897,3180058,No,49.7,388,30.0,0.0,52,0,82.0,17.8,...,,No,7-Lowest,Suburban,Other,,1.656667,0.118182,0.128093,0


## 5. Datasets

Generamos dos conjuntos de datos robustos para las siguientes etapas:

1. Dataset Maestro — `df_master_clean` (Backup / EDA)

- Contiene todas las variables originales traducidas, variables de ingeniería (ratio_uso, costo_por_minuto) y mantiene los valores nulos para análisis estadístico profundo.

2. Dataset de Modelado — `df_model_ready` (MVP PRINCIPAL)

- Es el dataset optimizado para algoritmos de Machine Learning.

- Incluye variables numéricas con precisión decimal, variables categóricas limpias y la variable objetivo Churn_Bin.

> Nota: Se preservan los NaN para ser tratados mediante un Pipeline de imputación en la fase de entrenamiento, evitando así la fuga de datos (Data Leakage).


In [32]:
import os
TARGET_COL = 'churn_bin'
DAILY_REVENUE_COL = 'ingreso_diario'
USAGE_RATIO_COL = 'ratio_uso'

# 1. Dataset Maestro (Todo el contenido limpio y traducido)
df_master_clean = df_model_ready.copy()

# 2. Dataset para el MVP PRINCIPAL
# Seleccionamos automáticamente las columnas numéricas que realmente aportan valor
numeric_cols = [
    col for col in df_model_ready.columns
    if df_model_ready[col].dtype in ['float64', 'Int64', 'int64']
    and col not in [TARGET_COL, 'id_cliente'] # Excluimos ID y Target para la lista base
]

# Seleccionamos columnas categóricas que el modelo puede procesar (ej. Ocupación, Calificación)
categorical_cols = ['ocupacion', 'calificacion_crediticia', 'estado_civil', 'area_servicio']

# Unimos listas eliminando duplicados
model_cols = list(dict.fromkeys(
    numeric_cols + categorical_cols + [TARGET_COL]
))

# Filtro de seguridad: Solo columnas que realmente existan en el DataFrame
model_cols = [c for c in model_cols if c in df_model_ready.columns]

# Creamos el DataFrame final del modelo
df_final_model = df_model_ready[model_cols].copy()

# --- EXPORTACIÓN ---

output_path = "/content/drive/MyDrive/Hackaton-ETL/data/processed/"
os.makedirs(output_path, exist_ok=True)

df_final_model.to_csv(os.path.join(output_path, 'hackathon_model_ready.csv'), index=False)

print(f"✅ Proceso finalizado.")
print(f"- Dataset Maestro (EDA): {df_master_clean.shape}")
print(f"- Dataset para el Modelo (MVP): {df_final_model.shape}")
print(f"- Variable Objetivo: {TARGET_COL}")

✅ Proceso finalizado.
- Dataset Maestro (EDA): (51047, 62)
- Dataset para el Modelo (MVP): (51047, 42)
- Variable Objetivo: churn_bin


In [33]:
df_final_model.sample(5)

Unnamed: 0,ingresos_mensuales,minutos_mensuales,cargo_recurrente,llamadas_asistidas_director,minutos_excedentes,llamadas_roaming,cambio_perc_minutos,cambio_perc_ingresos,llamadas_caidas,llamadas_bloqueadas,...,grupo_ingresos,ajustes_calificacion_credito,ingreso_diario,ratio_uso,costo_por_minuto,ocupacion,calificacion_crediticia,estado_civil,area_servicio,churn_bin
22308,58.83,591,60.0,0.74,20,0,91.0,23.6,3.0,0.3,...,1,0,1.961,0.032733,0.099543,Other,4-Medium,No,SFRSRO707,0
18339,51.69,314,50.0,1.24,0,0,-156.0,-1.7,4.0,9.7,...,0,0,1.723,0.0,0.164618,Other,3-Good,,OHIWAR330,1
50518,69.8,388,44.0,0.66,53,0,161.0,21.1,3.3,0.0,...,9,0,2.326667,0.120181,0.179897,Other,1-Highest,Yes,LAXALB626,1
6927,85.39,943,58.0,5.94,95,0,126.0,95.9,8.7,11.3,...,7,0,2.846333,0.091522,0.090551,Other,1-Highest,No,DALDAL214,0
39243,28.2,432,34.0,0.0,4,0,18.0,-22.2,2.7,4.7,...,6,0,0.94,0.009174,0.065278,Other,3-Good,Yes,LOULEX606,0


In [34]:
print(df_final_model.columns)

Index(['ingresos_mensuales', 'minutos_mensuales', 'cargo_recurrente',
       'llamadas_asistidas_director', 'minutos_excedentes', 'llamadas_roaming',
       'cambio_perc_minutos', 'cambio_perc_ingresos', 'llamadas_caidas',
       'llamadas_bloqueadas', 'llamadas_no_contestadas',
       'llamadas_atencion_cliente', 'llamadas_tripartitas',
       'llamadas_recibidas', 'llamadas_salientes', 'llamadas_entrantes',
       'llamadas_pico_ent_sal', 'llamadas_no_pico_ent_sal',
       'llamadas_caidas_bloqueadas', 'llamadas_desviadas',
       'llamadas_en_espera', 'meses_en_servicio', 'suscripciones_unicas',
       'suscripciones_activas', 'equipos_totales', 'modelos_equipos',
       'dias_equipo_actual', 'edad_hogar_1', 'edad_hogar_2',
       'llamadas_retencion', 'ofertas_retencion_aceptadas',
       'referidos_realizados', 'grupo_ingresos',
       'ajustes_calificacion_credito', 'ingreso_diario', 'ratio_uso',
       'costo_por_minuto', 'ocupacion', 'calificacion_crediticia',
       'estado_ci

In [35]:
df_master_clean.sample(5)

Unnamed: 0,id_cliente,cancelacion,ingresos_mensuales,minutos_mensuales,cargo_recurrente,llamadas_asistidas_director,minutos_excedentes,llamadas_roaming,cambio_perc_minutos,cambio_perc_ingresos,...,precio_equipo,llamo_equipo_retencion,calificacion_crediticia,codigo_prizm,ocupacion,estado_civil,ingreso_diario,ratio_uso,costo_por_minuto,churn_bin
27720,3219478,No,56.12,539,65.0,0.5,0,0,233.0,19.9,...,,No,2-High,Suburban,Other,,1.870667,0.0,0.104119,0
15778,3123878,No,102.44,1025,90.0,0.0,0,22,-400.0,-58.6,...,30.0,No,2-High,Town,Retired,Yes,3.414667,0.0,0.099941,0
7594,3059702,No,65.62,433,50.0,0.25,87,0,-91.0,-25.3,...,150.0,No,5-Low,Other,Other,Yes,2.187333,0.167308,0.151547,0
44125,3349606,No,67.72,387,13.0,0.5,41,0,-387.0,82.3,...,,No,2-High,Other,Other,No,2.257333,0.095794,0.174987,0
31048,3247222,No,55.59,307,14.0,5.45,3,0,-306.0,-64.0,...,,No,3-Good,Town,Other,Yes,1.853,0.009677,0.181075,0


In [36]:
print(df_master_clean.columns)

Index(['id_cliente', 'cancelacion', 'ingresos_mensuales', 'minutos_mensuales',
       'cargo_recurrente', 'llamadas_asistidas_director', 'minutos_excedentes',
       'llamadas_roaming', 'cambio_perc_minutos', 'cambio_perc_ingresos',
       'llamadas_caidas', 'llamadas_bloqueadas', 'llamadas_no_contestadas',
       'llamadas_atencion_cliente', 'llamadas_tripartitas',
       'llamadas_recibidas', 'llamadas_salientes', 'llamadas_entrantes',
       'llamadas_pico_ent_sal', 'llamadas_no_pico_ent_sal',
       'llamadas_caidas_bloqueadas', 'llamadas_desviadas',
       'llamadas_en_espera', 'meses_en_servicio', 'suscripciones_unicas',
       'suscripciones_activas', 'area_servicio', 'equipos_totales',
       'modelos_equipos', 'dias_equipo_actual', 'edad_hogar_1', 'edad_hogar_2',
       'hijos_en_hogar', 'equipo_reacondicionado', 'equipo_web_capaz',
       'propietario_camion', 'propietario_rv', 'propiedad_vivienda',
       'compra_por_correo', 'responde_ofertas_correo',
       'rechaza_public

In [37]:
df_final_model.dtypes.value_counts()


Unnamed: 0,count
float64,23
Int64,8
int64,7
object,4


In [38]:
df_final_model.sample(5)

Unnamed: 0,ingresos_mensuales,minutos_mensuales,cargo_recurrente,llamadas_asistidas_director,minutos_excedentes,llamadas_roaming,cambio_perc_minutos,cambio_perc_ingresos,llamadas_caidas,llamadas_bloqueadas,...,grupo_ingresos,ajustes_calificacion_credito,ingreso_diario,ratio_uso,costo_por_minuto,ocupacion,calificacion_crediticia,estado_civil,area_servicio,churn_bin
4003,32.83,304,45.0,0.25,0,0,56.0,2.2,4.0,0.7,...,9,0,1.094333,0.0,0.107993,Professional,3-Good,Yes,HOUHOU281,0
43462,176.38,1088,87.0,0.0,264,0,-430.0,-52.6,9.7,0.7,...,4,0,5.879333,0.195266,0.162114,Clerical,3-Good,Yes,SFRSAC916,1
2266,65.22,1240,60.0,1.98,33,0,62.0,-8.3,9.7,9.3,...,0,0,2.174,0.025923,0.052597,Other,1-Highest,,DALDAL214,0
42648,55.6,856,45.0,0.0,43,0,11.0,36.2,6.3,24.3,...,0,0,1.853333,0.047831,0.064953,Other,5-Low,,AWISHE920,0
28304,44.56,322,30.0,0.25,24,0,-185.0,-11.2,5.0,0.3,...,0,0,1.485333,0.069364,0.138385,Other,3-Good,,LAXBEV310,0


---

### **Conclusiones y Resultados del ETL**

El proceso de Transformación y Limpieza ha evolucionado de un tratamiento manual a un flujo de Ingeniería de Características (Feature Engineering) optimizado para modelos de alto rendimiento. Los hitos alcanzados son:

- **Preservación de la Integridad Estadística (Anti-Leakage)**: A diferencia del enfoque anterior, se ha optado por no imputar promedios globales en esta etapa. Los valores faltantes (NaN) se conservan intencionalmente para ser tratados mediante Pipelines en la fase de modelado, garantizando que la información del conjunto de prueba no contamine el entrenamiento.

- **Ingeniería de Características de Comportamiento**: Se han desarrollado métricas avanzadas que capturan la relación entre el uso y el costo, factores críticos para predecir el Churn:

  - `ratio_uso`: Proporción de minutos excedentes sobre el uso total.
  - `costo_por_minuto`: Eficiencia del gasto del cliente.
  - `ingreso_diario`: Normalización financiera de la facturación mensual.

- **Optimización de Tipos de Datos y Precisión**: Se eliminó la conversión forzada a enteros para variables monetarias. Al mantener tipos float64 en ingresos y cargos, el modelo conserva la varianza necesaria para detectar patrones sutiles de comportamiento financiero. Los conteos se estandarizaron como Int64 para soportar nulos de forma nativa.

- **Estandarización y Localización**: El dataset fue completamente traducido al español siguiendo la convención snake_case, facilitando la interpretación del negocio y manteniendo la compatibilidad técnica con los diccionarios de datos del sector.

- **Eliminación de Sesgos por Discretización**: Se descartó el binning manual de variables continuas. Al entregar los valores numéricos originales, permitimos que algoritmos basados en árboles (como Random Forest o XGBoost) encuentren de forma autónoma los puntos de corte óptimos, incrementando el potencial de precisión del MVP.

### Arquitectura de Salida
Se han consolidado dos versiones estratégicas del conjunto de datos:
 1. `df_master_clean`
    (62 columnas): El repositorio "Golden Source" con toda la riqueza demográfica y de comportamiento del cliente. Ideal para análisis exploratorio profundo (EDA) y auditoría.

 2. `df_model_ready`
    (41 columnas): El dataset optimizado para el MVP. Contiene una selección curada de variables numéricas de alta señal, variables categóricas clave (como ocupacion y calificacion_crediticia) y el target Churn_Bin.

---


➡️ **Siguiente paso**: Iniciar la fase de Modelado Predictivo. Utilizaremos este dataset para entrenar modelos supervisados, implementando un ColumnTransformer para la imputación y escalado de datos en tiempo de ejecución, seguido de una evaluación exhaustiva de métricas de clasificación (Recall, Precision y F1-Score).

---

