# Fase 2: Limpieza y Transformación

#### 1. Importamos las librerías necesarias

In [None]:
import sys
import pandas as pd

#### 2. Agregamos la ruta de nuestro archivo .py e importamos la función y los diccionarios

In [None]:
# Agregamos la ruta
sys.path.append('../')

# Importamos la función procesar_dataframe de limpieza.py
from src.limpieza import procesar_dataframe

# Importamos los dos diccionarios de variables.py
from src.variables import cambiar_nombre_columnas, cambiar_tipo_columnas

#### 3. Cargamos el dataframe transformado, hacemos la llamada a la función y comprobamos los cambios

In [None]:
# Cargamos el DataFrame
df_csv = pd.read_csv('../data/transform_data/transform_Data.csv', low_memory=False)

# Llamamos a la función procesar_dataframe con los diccionarios importados
df = procesar_dataframe(df_csv, cambiar_nombre_columnas, cambiar_tipo_columnas)

# Verificamos el resultado mostrando las primeras filas
df.dtypes

#### 4. Analizamos si existen o no valores duplicados, para poder reducir el tamaño del archivo y mejorar la velocidad del fichero

In [None]:
# Comprobamos si existen valores duplicados
if df.duplicated().values.any():
    print("Existen valores duplicados por eliminar")
else:
    print("No existen valores duplicados")

# Comprobamos y verificamos que no existen valores duplicados
print(df.duplicated().sum())

#### 5. Analizamos y eliminamos los valores nulos existentes, con el fin de obtener un set de datos lo más eficiente posible

In [None]:
# Calculamos cuantos valores nulos existen
print("Los valores nulos existentes por columna son:")
print(df.isnull().sum())

In [None]:
# Reemplazamos los valores nulos por 0
df.fillna(0, inplace=True)
print("✅ Todos los valores nulos han sido reemplazados por 0.")

In [None]:
# Comprobamos si existen valores nulos
if df.isnull().values.any():
    print("❌ Todavía hay valores nulos en los datos.")
else:
    print("✅ Todos los valores nulos han sido reemplazados por 0.")

# Comprobamos y verificamos que no existen valores nulos
print(df.isnull().sum())

#### 6. Realizamos la estandarización de valores categóricos, para evitar posibles conflictos que nos pueda causar el set de datos. Esto es útil a la hora de una búsqueda específica de valores, que contengan espacios y causen conflicto

In [None]:
for columna in df.select_dtypes(include=['object']).columns:
    # Rellenar NaN con una cadena vacía y luego aplicar las transformaciones
    df[columna] = df[columna].fillna('').astype(str).str.strip().str.lower()

# Verificamos que se aplicaron los cambios
print(df.head())