# Fase 2: Limpieza y Transformación

#### 1. Importamos las librerías necesarias y agregamos la ruta de nuestro archivo .py 

In [None]:
import sys
import pandas as pd

# Agregamos la ruta
sys.path.append('../')

# Importamos la función procesar_dataframe de limpieza.py
from src.limpieza import procesar_dataframe

# Importamos los dos diccionarios de variables.py
from src.variables import cambiar_nombre_columnas, cambiar_tipo_columnas

#### 2. Cargamos el dataframe transformado, hacemos la llamada a la función y comprobamos los cambios

In [None]:
# Cargamos el DataFrame
df_csv = pd.read_csv('../data/transform_data/transform_Data.csv', low_memory=False)

# Llamamos a la función procesar_dataframe con los diccionarios importados
df = procesar_dataframe(df_csv, cambiar_nombre_columnas, cambiar_tipo_columnas)

# Verificamos el resultado mostrando las primeras filas
df.dtypes

#### 3. Analizamos si existen o no valores duplicados, para poder reducir el tamaño del archivo y mejorar la velocidad del fichero

In [None]:
# Comprobamos si existen valores duplicados
if df.duplicated().values.any():
    print("Existen valores duplicados por eliminar")
else:
    print("No existen valores duplicados")

# Comprobamos y verificamos que no existen valores duplicados
df.duplicated().sum()

#### 4. Analizamos si existen o no valores nulos

In [None]:
# Calculamos cuantos valores nulos existen
print("Los valores nulos existentes por columna son:")
df.isnull().sum()

In [None]:
# Calculamos el % de nulos en cada columna, para saber la cantidad de nulos que hemos obtenido
df.isnull().mean() * 100

In [None]:
# Sustituimos los nulos en las columnas numéricas, por la mediana de cada columna
numerical_columns = df.select_dtypes(include=['float64', 'int64']).columns
df[numerical_columns] = df[numerical_columns].fillna(df[numerical_columns].median())

In [None]:
# Sustituimos los nulos en las columnas categóricas, por la moda de cada columna
categorical_columns = df.select_dtypes(include=['object']).columns
df[categorical_columns] = df[categorical_columns].fillna(df[categorical_columns].mode().iloc[0])

In [None]:
# Verificamos que ya no hay valores nulos
df.isnull().sum()

# Verificamos algunas estadísticas descriptivas después del cambio
df.describe()

#### 5. Realizamos la estandarización de valores categóricos, para evitar posibles conflictos que nos pueda causar el set de datos. Esto es útil a la hora de una búsqueda específica de valores, que contengan espacios y causen conflicto

In [None]:
for columna in df.select_dtypes(include=['object']).columns:
    # Rellenar NaN con una cadena vacía y luego aplicar las transformaciones
    df[columna] = df[columna].fillna('').astype(str).str.strip().str.lower()

# Verificamos que se aplicaron los cambios
df.head()

#### 6. Analizamos las columnas categóricas

In [None]:
# Verificamos posibles erratas o valores mal escritos, con head mostramos los 20 valores de mayor frecuencia
for col in df.select_dtypes(include=['object']).columns:
    print(f"\n🔹 Columna: {col}")
    print(df_csv[col].value_counts(dropna=False).head(20))

In [None]:
# Eliminamos espacios en blanco, espacios dobles o caracteres
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()
    df[col] = df[col].replace(r'\s+', ' ', regex=True)

#### 7. Analizamos las columnas numéricas

In [None]:
# Revisamos las estadísticas generales
df_csv.describe()

In [None]:
# Detectamos valores fuera de rango, por ejemplo si obtenemos una edad negativa
for col in df.select_dtypes(include=['number']).columns:
    print(f"\n🔹 Columna: {col}")
    print(f"Valores únicos: {df[col].nunique()}")
    print(f"Máximo: {df[col].max()}, Mínimo: {df[col].min()}")

#### 8. Cálculo del Método de Rango Intercuartílico (IQR)

In [None]:
# Detectamos valores bajos o altos que podrían causar conflicto
import numpy as np

for col in df.select_dtypes(include=['number']).columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    outliers = df[(df[col] < (Q1 - 1.5 * IQR)) | (df[col] > (Q3 + 1.5 * IQR))]
    print(f"\n🔹 Columna: {col} - Outliers encontrados: {outliers.shape[0]}")

#### 9. Guardamos el CSV con la limpieza final realizada

In [None]:
df.to_csv('../data/transform_data/bank_clean.csv', index=False)