# üîó Unificaci√≥n de Datos (Merge)

## üéØ Objetivo
Crear una **Tabla Maestra** uniendo la informaci√≥n de las campa√±as de marketing (Banco) con la informaci√≥n demogr√°fica (Clientes).

## üìÇ Archivos de Entrada (Procesados)
1.  **Marketing:** `data/procesados/bank_clean.csv`
2.  **Clientes:** `data/procesados/customer_clean.csv`

## üîë Clave de Uni√≥n
* Columna: **`ID`** (Presente en ambas tablas).

## üöÄ Estrategia
Realizaremos un **Inner Merge** (intersecci√≥n) para quedarnos solo con los registros que tengan informaci√≥n completa en ambos lados.

In [4]:
# -------------------------------------------------------------------------
# CELDA 1: CARGA DE LIBRER√çAS Y DATOS
# -------------------------------------------------------------------------
import pandas as pd

# Configuraci√≥n para ver todas las columnas
pd.set_option('display.max_columns', None)

# 1. Cargar los archivos LIMPIOS (desde la carpeta procesados)
ruta_banco = '../data/procesados/bank_clean.csv'
ruta_clientes = '../data/procesados/customer_clean.csv'

df_banco = pd.read_csv(ruta_banco)
df_clientes = pd.read_csv(ruta_clientes)

print("‚úÖ Datos cargados correctamente.")

# 2. Verificaci√≥n r√°pida de las dimensiones antes de unir
print(f"üìä Filas Banco: {df_banco.shape[0]}")
print(f"üìä Filas Clientes: {df_clientes.shape[0]}")

# 3. Comprobar visualmente que ambos tienen la columna 'ID'
display(df_banco.head(2))
display(df_clientes.head(2))

‚úÖ Datos cargados correctamente.
üìä Filas Banco: 43000
üìä Filas Clientes: 20115


Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,y,date,latitude,longitude,ID
0,,housemaid,married,basic_4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,,4.857,5191.0,no,2019-08-02,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,married,high_school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,,,5191.0,no,2016-09-14,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097


In [5]:
# -------------------------------------------------------------------------
# CELDA 2: UNI√ìN DE TABLAS (MERGE)
# -------------------------------------------------------------------------

# Realizamos la uni√≥n usando la columna 'ID' como clave
# how='inner' -> Solo se queda con los registros que coinciden en ambas tablas
df_final = pd.merge(df_banco, df_clientes, on='ID', how='inner')

print("‚úÖ Uni√≥n realizada con √©xito.")

# --- VERIFICACI√ìN DEL RESULTADO ---
print(f"\nüìä Dimensiones de la Tabla Maestra: {df_final.shape}")
print(f"   (Filas: {df_final.shape[0]}, Columnas: {df_final.shape[1]})")

# Muestra las primeras filas para ver que ahora tienes columnas de los dos lados
# (Ver√°s 'job' y 'income' en la misma fila)
display(df_final.head())

‚úÖ Uni√≥n realizada con √©xito.

üìä Dimensiones de la Tabla Maestra: (20018, 28)
   (Filas: 20018, Columnas: 28)


Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,y,date,latitude,longitude,ID,income,kidhome,teenhome,dt_customer,numwebvisitsmonth
0,,housemaid,married,basic_4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,,4.857,5191.0,no,2019-08-02,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079,161770,1,0,2012-04-04,29
1,57.0,services,married,high_school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,,,5191.0,no,2016-09-14,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097,85477,1,1,2012-12-30,7
2,37.0,services,married,high_school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,,4.857,5191.0,no,2019-02-15,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b,147233,1,1,2012-02-02,5
3,40.0,admin_,married,basic_6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,,,5191.0,no,2015-11-29,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e,121393,1,2,2012-12-21,29
4,56.0,services,married,high_school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,,,5191.0,no,2017-01-29,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,63164,1,2,2012-06-20,20


In [6]:
# -------------------------------------------------------------------------
# CELDA 3: GUARDADO DE LA TABLA MAESTRA
# -------------------------------------------------------------------------

nombre_archivo = 'datos_finales_analisis.csv'
ruta_guardado = f'../data/procesados/{nombre_archivo}'

# Guardamos sin el √≠ndice de pandas
df_final.to_csv(ruta_guardado, index=False)

print("üéâ ¬°PROCESO COMPLETO!")
print(f"üíæ Archivo maestro guardado en: {ruta_guardado}")

üéâ ¬°PROCESO COMPLETO!
üíæ Archivo maestro guardado en: ../data/procesados/datos_finales_analisis.csv
