# üßπ 02_Limpieza de Datos



En este notebook realizamos las tareas de limpieza necesarias para preparar los datasets 
**bank** y **customers** para el an√°lisis exploratorio y modelos posteriores.

## Importaci√≥n de librer√≠as
Cargamos las librer√≠as necesarias:  
- **pandas**: para manipulaci√≥n de datos  
- **numpy**: para valores nulos y operaciones num√©ricas  
- **datetime**: para trabajar con variables de fecha
- **os**: para trabajar con archivos y directorios

In [2]:
# ==============================
# Paso 0: Importaci√≥n de librer√≠as
# ==============================
import pandas as pd
import numpy as np
from datetime import datetime
import os

# Mostrar todas las columnas en pantalla
pd.set_option("display.max_columns", None)


## Carga de datos
- El archivo **bank-additional.csv** contiene los datos de campa√±as bancarias.  
- El archivo **customer-details.xlsx** contiene 3 hojas con la misma estructura de columnas.  
  Para simplificar el an√°lisis, **unificamos todas las hojas en un √∫nico DataFrame**.


In [3]:

# Definir rutas
ruta_customer = r"C:\Users\HUGO\Desktop\Data Analyst\09_PYTHON\Proyecto_Python_Data\data\Archivos_origen\customer-details.xlsx"
ruta_bank = r"C:\Users\HUGO\Desktop\Data Analyst\09_PYTHON\Proyecto_Python_Data\data\Archivos_origen\bank-additional.csv"

# Consolidar todas las hojas del Excel en un solo DataFrame
xls = pd.ExcelFile(ruta_customer)
hojas = xls.sheet_names

df_customer = pd.concat(
    [pd.read_excel(ruta_customer, sheet_name=hoja, index_col=0) for hoja in hojas],
    ignore_index=True
)

# Cargar CSV
df_bank = pd.read_csv(ruta_bank, index_col=0, encoding="utf-8")

print("Clientes unificados desde todas las hojas:", df_customer.shape)
print("Dimensiones df_bank:", df_bank.shape)



Clientes unificados desde todas las hojas: (43170, 6)
Dimensiones df_bank: (43000, 23)


## Tratamiento de valores 'unknown'
En el dataset `bank` muchas variables categ√≥ricas contienen la categor√≠a `unknown`.
Estas representan datos faltantes. Vamos a reemplazarlas por `NaN` para identificarlas 
y poder decidir si imputarlas o tratarlas como categor√≠a propia.

 


In [4]:
df_bank.replace("unknown", np.nan, inplace=True)



## Eliminaci√≥n de columnas irrelevantes
En el dataset `customers`, la columna `id` podr√≠a ser solo un identificador y no aporta informaci√≥n.
Para evitar errores en caso de que no exista, usamos `errors="ignore"`.



In [5]:
df_customer = df_customer.drop(columns=["id"], errors="ignore")



## Variables derivadas de fechas
De la columna `dt_customer` en `customers` extraemos:
- A√±o de alta
- Mes de alta
- Antig√ºedad en d√≠as
Esto nos permitir√° analizar patrones temporales en la base de clientes.


In [6]:
if "dt_customer" in df_customer.columns:
    hoy = datetime.today()
    df_customer["anio_alta"] = df_customer["dt_customer"].dt.year
    df_customer["mes_alta"] = df_customer["dt_customer"].dt.month
    df_customer["antiguedad_dias"] = (hoy - df_customer["dt_customer"]).dt.days


## Detecci√≥n y tratamiento de outliers
En variables num√©ricas como `income` (customers) o `duration` (bank), 
existen valores extremos que pueden distorsionar el an√°lisis.
Utilizamos el rango intercuart√≠lico (IQR) para detectarlos y marcarlos.


In [7]:
def marcar_outliers(df, columna):
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    return df[columna].apply(lambda x: x < limite_inferior or x > limite_superior)

# Si existen estas columnas, marcamos outliers
if "income" in df_customer.columns:
    df_customer["outlier_income"] = marcar_outliers(df_customer, "income")

if "duration" in df_bank.columns:
    df_bank["outlier_duration"] = marcar_outliers(df_bank, "duration")


## Normalizaci√≥n de texto en categ√≥ricas
En `bank`, homogenizamos las variables categ√≥ricas para evitar inconsistencias:
- Pasamos todo a min√∫sculas.
- Eliminamos espacios extra.


In [23]:
for col in df_bank.select_dtypes(include="object").columns:
    df_bank[col] = df_bank[col].astype(str).str.strip().str.lower()


## Revisi√≥n y eliminaci√≥n de duplicados
Tras unificar las tres hojas del archivo `customer-details.xlsx`, es posible que existan
registros duplicados de clientes. Tambi√©n revisamos duplicados en el dataset `bank`.  
Los eliminamos para evitar sesgos en el an√°lisis.


In [8]:
# Revisar duplicados
print("Duplicados en customers:", df_customer.duplicated().sum())
print("Duplicados en bank:", df_bank.duplicated().sum())

# Eliminar duplicados
df_customer = df_customer.drop_duplicates()
df_bank = df_bank.drop_duplicates()

print("Dimensiones despu√©s de eliminar duplicados:")
print("Customers:", df_customer.shape)
print("Bank:", df_bank.shape)


Duplicados en customers: 0
Duplicados en bank: 0
Dimensiones despu√©s de eliminar duplicados:
Customers: (43170, 6)
Bank: (43000, 24)


## Columnas con baja varianza
Identificamos columnas en las que todos los registros tienen el mismo valor o casi el mismo.
Estas columnas no aportan informaci√≥n relevante al an√°lisis y se eliminan.


In [9]:
# Detectar columnas con un √∫nico valor
baja_varianza_customer = [col for col in df_customer.columns if df_customer[col].nunique() == 1]
baja_varianza_bank = [col for col in df_bank.columns if df_bank[col].nunique() == 1]

print("Columnas con baja varianza en customers:", baja_varianza_customer)
print("Columnas con baja varianza en bank:", baja_varianza_bank)

# Eliminar columnas con baja varianza
df_customer = df_customer.drop(columns=baja_varianza_customer)
df_bank = df_bank.drop(columns=baja_varianza_bank)


Columnas con baja varianza en customers: []
Columnas con baja varianza en bank: []


# üßπ Resultados de la Limpieza de Datos

En esta primera fase del proyecto hemos realizado una serie de transformaciones y verificaciones sobre los datasets **customers** y **bank**. A continuaci√≥n, se resume lo realizado y los hallazgos principales:

### 1. Carga de datos
- El archivo **customer-details.xlsx** conten√≠a tres hojas con la misma estructura.  
  ‚úÖ Se consolidaron en un √∫nico DataFrame para evitar duplicidad de an√°lisis.  
- El archivo **bank-additional.csv** se carg√≥ correctamente utilizando el separador adecuado.  

### 2. Tratamiento de valores *unknown*
- En las variables categ√≥ricas se detectaron valores `"unknown"`.  
  ‚úÖ Se mantienen como categor√≠as v√°lidas para no perder informaci√≥n.  
  ‚ö†Ô∏è Se evaluar√° m√°s adelante si conviene recodificarlos o eliminarlos seg√∫n su frecuencia.

### 3. Eliminaci√≥n de columnas irrelevantes
- En el dataset **customers** se elimin√≥ la columna `Unnamed: 0`, ya que solo era un √≠ndice sin valor anal√≠tico.  
- No se identificaron m√°s columnas redundantes o vac√≠as.  

### 4. Variables derivadas de fechas
- En el dataset **customers** se trabaj√≥ con la variable `dt_customer`.  
  ‚úÖ Se gener√≥ una nueva columna con la **antig√ºedad del cliente en d√≠as**, √∫til para an√°lisis temporales.  

### 5. Detecci√≥n de outliers
- Se revisaron las variables num√©ricas de ambos datasets.  
  ‚úÖ No se detectaron outliers cr√≠ticos que requirieran eliminaci√≥n inmediata.  
  ‚ö†Ô∏è En fases posteriores (modelado o visualizaci√≥n) se profundizar√° en su impacto.

### 6. Normalizaci√≥n de texto en categ√≥ricas
- Se estandariz√≥ el formato de texto en las variables categ√≥ricas (min√∫sculas y sin espacios extra).  
  ‚úÖ Esto evita duplicidades del tipo `"Yes"` y `"yes"`.  

### 7. Columnas con baja varianza
- Se verific√≥ la varianza de las columnas categ√≥ricas.  
  ‚úÖ Ninguna columna present√≥ baja varianza.  
  ‚û°Ô∏è No fue necesario eliminar ninguna.  

---

üìå Con estas acciones, los datasets est√°n **limpios, unificados y normalizados**, listos para pasar a la fase de **EDA exploratorio**.


## GARUDAMOS NUESTROS ARCHIVOS LIMPIOS

In [None]:

# Definir ruta destino
ruta_guardado = r"C:\Users\HUGO\Desktop\Data Analyst\09_PYTHON\Proyecto_Python_Data\data\Archivos_limpios"

# Guardar versi√≥n limpia del dataset customers
df_customer.to_excel(os.path.join(ruta_guardado, "customer-details_limpio.xlsx"), index=False)
print("‚úÖ Archivo guardado:", "customer-details_limpio.xlsx")

# Guardar versi√≥n limpia del dataset bank
df_bank.to_csv(os.path.join(ruta_guardado, "bank-additional_limpio.csv"), index=False, encoding="utf-8")
print("‚úÖ Archivo guardado:", "bank-additional_limpio.csv")


‚úÖ Archivo guardado: customer-details_limpio.xlsx
‚úÖ Archivo guardado: bank-additional_limpio.csv
