# üè¶ Proyecto: Limpieza de Datos de Marketing (Banco)

## üìã Descripci√≥n
Procesamiento del archivo `bank-additional.csv`. Se limpian textos, se gestionan nulos y se corrigen formatos num√©ricos y de fecha usando funciones personalizadas.

## üìÇ Archivos
* **Entrada:** `data/bank-additional.csv`
* **Salida:** `data/procesados/bank_clean.csv`

## ‚öôÔ∏è Estructura y Funciones
* **Celda 1:** Configuraci√≥n y Carga.
* **Celda 2:** **Estandarizaci√≥n General**
    * Limpieza de t√≠tulos (`sl.limpiar_titulos`)
    * Limpieza de textos y caracteres raros (`sl.limpiar_texto`)
* **Celda 3:** **Correcciones Espec√≠ficas**
    * Renombrado de clave ID (`sl.cambiar_nombres`)
    * Gesti√≥n de 'unknown' (`sl.reemplazar_valor`)
    * Traducci√≥n y formato de fechas (`sl.arreglar_fecha`)
* **Celda 4:** **Limpieza Num√©rica**
    * Conversi√≥n de textos con comas a n√∫meros (`sl.limpiar_numeros`)
    * Eliminaci√≥n de duplicados (`sl.eliminar_duplicados`)
* **Celda 5:** **Cierre**
    * Eliminaci√≥n de columnas basura (`sl.eliminar_columnas`)
    * Guardado CSV.

In [1]:
# -------------------------------------------------------------------------
# CELDA 1: CARGA DE LIBRER√çAS Y DATOS
# -------------------------------------------------------------------------

# 1. CONFIGURACI√ìN
%load_ext autoreload
%autoreload 2

import pandas as pd
import numpy as np
import os
import sys

# VISUALIZACI√ìN: Ver todas las columnas (sin puntos suspensivos)
pd.set_option('display.max_columns', None)

# Conectamos con la carpeta de funciones
sys.path.append(os.path.abspath(".."))

from src import sp_lim as sl
from src import sp_eda as se

# 2. CARGAR DATOS
df_original = pd.read_csv('../data/bank-additional.csv')

# 3. CREAR COPIA DE TRABAJO
df_banco = df_original.copy()

print(f"‚úÖ Configuraci√≥n lista. Copia cargada: {df_banco.shape}")
display(df_banco.head(2))

‚úÖ Configuraci√≥n lista. Copia cargada: (43000, 24)


Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [2]:
# -------------------------------------------------------------------------
# CELDA 2: ESTANDARIZACI√ìN GENERAL
# -------------------------------------------------------------------------

# 1. ARREGLAR T√çTULOS DE COLUMNAS
# (convierte 'emp.var.rate' en 'emp_var_rate')
sl.limpiar_titulos(df_banco)

# 2. ARREGLAR TEXTOS
# (convierte 'Admin.' en 'admin_')
# Protegemos 'id_' y 'date'.
columnas_intocables = ['id_', 'date']

sl.limpiar_texto(df_banco, columnas_a_ignorar=columnas_intocables)

print("‚úÖ Estandarizaci√≥n completada.")
print("As√≠ se ve ahora:")
display(df_banco.head(3))

‚úÖ T√≠tulos de columnas estandarizados.
üßπ Limpiando contenido de 10 columnas...
‚úÖ Textos estandarizados (sin √±).
‚úÖ Estandarizaci√≥n completada.
As√≠ se ve ahora:


Unnamed: 0,unnamed:_0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,y,date,latitude,longitude,id_
0,0,,housemaid,married,basic_4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,1,57.0,services,married,high_school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,2,37.0,services,married,high_school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b


In [3]:
# -------------------------------------------------------------------------
# CELDA 3: CORRECCIONES ESPEC√çFICAS
# -------------------------------------------------------------------------

# 1. Cambiar el nombre de id_ a ID
sl.cambiar_nombres(df_banco, {'id_': 'ID'})

# 2. Gestionar valores 'unknown' (AQU√ç ES EL SITIO IDEAL)
# Como ya ejecutaste limpiar_texto en la celda anterior, todo est√° en min√∫sculas
columnas_con_unknown = ['job', 'marital', 'education', 'default', 'housing', 'loan']

for col in columnas_con_unknown:
    sl.reemplazar_valor(df_banco, col, 'unknown', 'desconocido')

# 3. Arreglar la fecha
sl.arreglar_fecha(df_banco, 'date')

print("‚úÖ Nombres cambiados, 'unknown' gestionados y fecha arreglada.")
print(df_banco[['ID', 'date']].dtypes) # Para comprobar
display(df_banco.head(3))

üîÑ En columna 'job': se han cambiado 0 veces 'unknown' por 'desconocido'.
üîÑ En columna 'marital': se han cambiado 0 veces 'unknown' por 'desconocido'.
üîÑ En columna 'education': se han cambiado 0 veces 'unknown' por 'desconocido'.
üîÑ En columna 'default': se han cambiado 0 veces 'unknown' por 'desconocido'.
üîÑ En columna 'housing': se han cambiado 0 veces 'unknown' por 'desconocido'.
üîÑ En columna 'loan': se han cambiado 0 veces 'unknown' por 'desconocido'.
‚úÖ Nombres cambiados, 'unknown' gestionados y fecha arreglada.
ID              object
date    datetime64[ns]
dtype: object


Unnamed: 0,unnamed:_0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,y,date,latitude,longitude,ID
0,0,,housemaid,married,basic_4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2019-08-02,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,1,57.0,services,married,high_school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,2016-09-14,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,2,37.0,services,married,high_school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2019-02-15,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b


In [4]:
# -------------------------------------------------------------------------
# CELDA 4: N√öMEROS Y LIMPIEZA FINAL
# -------------------------------------------------------------------------

# 1. ARREGLAR N√öMEROS
# Estas columnas suelen dar problemas por las comas
cols_numericas = ['emp_var_rate', 'cons_price_idx', 'cons_conf_idx', 'euribor3m', 'nr_employed']

# Llamamos a tu funci√≥n
sl.limpiar_numeros(df_banco, cols_numericas)

# 2. ELIMINAR DUPLICADOS
# Limpieza de higiene b√°sica
sl.eliminar_duplicados(df_banco)

# 3. VERIFICACI√ìN FINAL
print("\n--- INFO FINAL ---")
df_banco.info()

‚úÖ Columna 'emp_var_rate' convertida a num√©rico.
‚úÖ Columna 'cons_price_idx' convertida a num√©rico.
‚úÖ Columna 'cons_conf_idx' convertida a num√©rico.
‚úÖ Columna 'euribor3m' convertida a num√©rico.
‚úÖ Columna 'nr_employed' convertida a num√©rico.
‚úÖ No hab√≠a duplicados.

--- INFO FINAL ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43000 entries, 0 to 42999
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   unnamed:_0      43000 non-null  int64         
 1   age             37880 non-null  float64       
 2   job             42655 non-null  object        
 3   marital         42915 non-null  object        
 4   education       41193 non-null  object        
 5   default         34019 non-null  float64       
 6   housing         41974 non-null  float64       
 7   loan            41974 non-null  float64       
 8   contact         43000 non-null  object        
 9   duration      

In [5]:
# -------------------------------------------------------------------------
# CELDA 5: LIMPIEZA FINAL Y GUARDADO
# -------------------------------------------------------------------------

# 1. BORRAR LA COLUMNA SOBRANTE
# Quitamos la columna basura 'unnamed:_0'
sl.eliminar_columnas(df_banco, ['unnamed:_0'])

# 2. GUARDADO EN CARPETA 'PROCESADOS'
# La ruta es: Atr√°s (..) -> entra en data -> entra en procesados -> nombre del archivo
ruta_guardado = '../data/procesados/bank_clean.csv'

df_banco.to_csv(ruta_guardado, index=False)

print(f"‚úÖ ¬°TRABAJO TERMINADO!")
print(f"üíæ Archivo limpio guardado en: {ruta_guardado}")

# 3. VERIFICACI√ìN FINAL
print("\n--- VISTA PREVIA DEL ARCHIVO LIMPIO ---")
display(df_banco.head(5))

print("\n--- INFORMACI√ìN T√âCNICA ---")
df_banco.info()

üóëÔ∏è Columnas eliminadas: ['unnamed:_0']
‚úÖ ¬°TRABAJO TERMINADO!
üíæ Archivo limpio guardado en: ../data/procesados/bank_clean.csv

--- VISTA PREVIA DEL ARCHIVO LIMPIO ---


Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,y,date,latitude,longitude,ID
0,,housemaid,married,basic_4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,2019-08-02,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,married,high_school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,-36.4,,5191.0,no,2016-09-14,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,37.0,services,married,high_school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,2019-02-15,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,40.0,admin_,married,basic_6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,-36.4,,5191.0,no,2015-11-29,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,56.0,services,married,high_school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,-36.4,,5191.0,no,2017-01-29,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb



--- INFORMACI√ìN T√âCNICA ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43000 entries, 0 to 42999
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   age             37880 non-null  float64       
 1   job             42655 non-null  object        
 2   marital         42915 non-null  object        
 3   education       41193 non-null  object        
 4   default         34019 non-null  float64       
 5   housing         41974 non-null  float64       
 6   loan            41974 non-null  float64       
 7   contact         43000 non-null  object        
 8   duration        43000 non-null  int64         
 9   campaign        43000 non-null  int64         
 10  pdays           43000 non-null  int64         
 11  previous        43000 non-null  int64         
 12  poutcome        43000 non-null  object        
 13  emp_var_rate    43000 non-null  float64       
 14  cons_price_idx  42529 n