Este cuaderno sirve para probar el framework como un cliente.

In [1]:
#--------------------------------- IMPORTACIONES
#-----------------------------------------------
import pandas as pd

from framework.datasource import CSVDataSource
from framework.processor  import DataProcessor
from framework.cleaner    import Cleaner, TypeOnlyCleaner



In [2]:
#----------------------------------- IDataSource
#-----------------------------------------------
DATA_PATH = "datasets/madrid_2001_2018_calidad_aire.csv"

csv_source = CSVDataSource(DATA_PATH)
df = csv_source.load()

# Comprobar si cargó el dataset
#print("Primeras filas:")
#display(df.head())
#print("\nShape:", df.shape)
#print("\nTipos de dato por columna:")
#print(df.dtypes)

In [3]:
#----------------------------------- IDataSource
#-----------------------------------------------
processor = DataProcessor()

# tupla numero registros y columnas
print("Shape via processor:", processor.get_shape(df))
# diccionario columna y tipo dato
print("Dtypes via processor:", processor.get_dtypes(df))
# lista con columnas
print("Columns via processor:", processor.get_columns(df))

Shape via processor: (3808224, 19)
Dtypes via processor: {'date': 'object', 'BEN': 'float64', 'CH4': 'float64', 'CO': 'float64', 'EBE': 'float64', 'MXY': 'float64', 'NMHC': 'float64', 'NO': 'float64', 'NO_2': 'float64', 'NOx': 'float64', 'OXY': 'float64', 'O_3': 'float64', 'PM10': 'float64', 'PM25': 'float64', 'PXY': 'float64', 'SO_2': 'float64', 'TCH': 'float64', 'TOL': 'float64', 'station': 'int64'}
Columns via processor: ['date', 'BEN', 'CH4', 'CO', 'EBE', 'MXY', 'NMHC', 'NO', 'NO_2', 'NOx', 'OXY', 'O_3', 'PM10', 'PM25', 'PXY', 'SO_2', 'TCH', 'TOL', 'station']


In [4]:
# pasar `station` a categoría
caster = TypeOnlyCleaner(dtype_map={"station": "category"})
df2 = caster.clean(df)

# Compruebo
print(df2.dtypes["station"])          # category
print(df2.attrs["cleaning_log"])      # mensajes de conversión

category
["Columna 'station' convertida a tipo category."]


In [5]:
#-------------------------------------- ICleaner

#copias para test
df_a = df2
df_b = df2
df_c = df2
df_d = df2

# cleaner por defecto: elimina columnas con mas del 70% nulos, imputa media y con Desconocido, elimina constantes y vacias, y convierte fechas
cleaner_default = Cleaner()
df_cleaned = cleaner_default.clean(df2)
print("\nDefault Cleaner -> shape:", df_cleaned.shape)
print("Log (primeras 5 entradas):")
for line in df_cleaned.attrs["cleaning_log"][:100]:
    print(" -", line)


Default Cleaner -> shape: (3808224, 9)
Log (primeras 5 entradas):
 - Columna 'date' convertida a datetime.
 - 'date' imputada con 'Desconocido'.
 - Columna 'BEN' eliminada (> 73% nulos).
 - Columna 'CH4' eliminada (> 100% nulos).
 - 'CO' imputada con media.
 - Columna 'EBE' eliminada (> 74% nulos).
 - Columna 'MXY' eliminada (> 92% nulos).
 - Columna 'NMHC' eliminada (> 72% nulos).
 - 'NO' imputada con media.
 - 'NO_2' imputada con media.
 - 'NOx' imputada con media.
 - Columna 'OXY' eliminada (> 92% nulos).
 - 'O_3' imputada con media.
 - 'PM10' imputada con media.
 - Columna 'PM25' eliminada (> 79% nulos).
 - Columna 'PXY' eliminada (> 92% nulos).
 - 'SO_2' imputada con media.
 - Columna 'TCH' eliminada (> 71% nulos).
 - Columna 'TOL' eliminada (> 73% nulos).
 - 'station' imputada con 'Desconocido'.


In [6]:
# strategy_numeric='drop': elimina columnas con mas del 70% nulos, elimina registros con numericos nulos e imputa con desconocido, elimina constantes y vacias, y convierte fechas
cleaner_drop_num = Cleaner(strategy_numeric="drop")
df_cleanA = cleaner_drop_num.clean(df_a)
print("\nstrategy_numeric='drop' -> shape:", df_cleanA.shape)
print("Log (primeras 5 entradas):")
for line in df_cleanA.attrs["cleaning_log"][:100]:
    print(" -", line)


strategy_numeric='drop' -> shape: (146924, 14)
Log (primeras 5 entradas):
 - Columna 'date' convertida a datetime.
 - 'date' imputada con 'Desconocido'.
 - Columna 'BEN' eliminada (> 73% nulos).
 - Columna 'CH4' eliminada (> 100% nulos).
 - Dropped 1157212 filas con nulos en 'CO'.
 - Columna 'EBE' eliminada (> 73% nulos).
 - Columna 'MXY' eliminada (> 88% nulos).
 - Dropped 1815336 filas con nulos en 'NMHC'.
 - Columna 'NO' eliminada (> 87% nulos).
 - Dropped 1277 filas con nulos en 'NO_2'.
 - Dropped 99308 filas con nulos en 'NOx'.
 - Dropped 462372 filas con nulos en 'OXY'.
 - Dropped 1292 filas con nulos en 'O_3'.
 - Dropped 518 filas con nulos en 'PM10'.
 - Dropped 123203 filas con nulos en 'PM25'.
 - Dropped 61 filas con nulos en 'PXY'.
 - Dropped 32 filas con nulos en 'SO_2'.
 - Dropped 364 filas con nulos en 'TCH'.
 - Dropped 325 filas con nulos en 'TOL'.
 - 'station' imputada con 'Desconocido'.


In [7]:
# strategy_categorical='drop': elimina columnas con mas del 70% nulos, imputa media y elimina regostrso categoricos con nulos, elimina constantes y vacias, y convierte fechas
cleaner_drop_cat = Cleaner(strategy_categorical="drop")
df_cleanB = cleaner_drop_cat.clean(df_b)
print("\nstrategy_categorical='drop' -> shape:", df_cleanB.shape)
print("Log (primeras 5 entradas):")
for line in df_cleanB.attrs["cleaning_log"][:100]:
    print(" -", line)


strategy_categorical='drop' -> shape: (3808224, 9)
Log (primeras 5 entradas):
 - Columna 'date' convertida a datetime.
 - Dropped 0 filas con nulos en 'date'.
 - Columna 'BEN' eliminada (> 73% nulos).
 - Columna 'CH4' eliminada (> 100% nulos).
 - 'CO' imputada con media.
 - Columna 'EBE' eliminada (> 74% nulos).
 - Columna 'MXY' eliminada (> 92% nulos).
 - Columna 'NMHC' eliminada (> 72% nulos).
 - 'NO' imputada con media.
 - 'NO_2' imputada con media.
 - 'NOx' imputada con media.
 - Columna 'OXY' eliminada (> 92% nulos).
 - 'O_3' imputada con media.
 - 'PM10' imputada con media.
 - Columna 'PM25' eliminada (> 79% nulos).
 - Columna 'PXY' eliminada (> 92% nulos).
 - 'SO_2' imputada con media.
 - Columna 'TCH' eliminada (> 71% nulos).
 - Columna 'TOL' eliminada (> 73% nulos).
 - Dropped 0 filas con nulos en 'station'.


In [8]:
# drop_empty_const=False: elimina columnas con mas del 70% nulos, imputa media y con Desconocido, NO elimina constantes y vacias, y convierte fechas
cleaner_no_drop = Cleaner(drop_empty_const=False)
df_cleanC = cleaner_no_drop.clean(df_c)
print("\ndrop_empty_const=False -> shape:", df_cleanC.shape)
print("Log (primeras 5 entradas):")
for line in df_cleanC.attrs["cleaning_log"][:100]:
    print(" -", line)


drop_empty_const=False -> shape: (3808224, 9)
Log (primeras 5 entradas):
 - Columna 'date' convertida a datetime.
 - 'date' imputada con 'Desconocido'.
 - Columna 'BEN' eliminada (> 73% nulos).
 - Columna 'CH4' eliminada (> 100% nulos).
 - 'CO' imputada con media.
 - Columna 'EBE' eliminada (> 74% nulos).
 - Columna 'MXY' eliminada (> 92% nulos).
 - Columna 'NMHC' eliminada (> 72% nulos).
 - 'NO' imputada con media.
 - 'NO_2' imputada con media.
 - 'NOx' imputada con media.
 - Columna 'OXY' eliminada (> 92% nulos).
 - 'O_3' imputada con media.
 - 'PM10' imputada con media.
 - Columna 'PM25' eliminada (> 79% nulos).
 - Columna 'PXY' eliminada (> 92% nulos).
 - 'SO_2' imputada con media.
 - Columna 'TCH' eliminada (> 71% nulos).
 - Columna 'TOL' eliminada (> 73% nulos).
 - 'station' imputada con 'Desconocido'.


In [9]:
# Umbral de nulos más estricto (null_threshold=0.3): elimina columnas con mas del 30% nulos, imputa media y con Desconocido, elimina constantes y vacias, y convierte fechas
cleaner_strict = Cleaner(null_threshold=0.3)
df_cleanD = cleaner_strict.clean(df_d)
print("\nnull_threshold=0.3 -> shape:", df_cleanD.shape)
print("Log (primeras 5 entradas):")
for line in df_cleanD.attrs["cleaning_log"][:100]:
    print(" -", line)


null_threshold=0.3 -> shape: (3808224, 6)
Log (primeras 5 entradas):
 - Columna 'date' convertida a datetime.
 - 'date' imputada con 'Desconocido'.
 - Columna 'BEN' eliminada (> 73% nulos).
 - Columna 'CH4' eliminada (> 100% nulos).
 - Columna 'CO' eliminada (> 30% nulos).
 - Columna 'EBE' eliminada (> 74% nulos).
 - Columna 'MXY' eliminada (> 92% nulos).
 - Columna 'NMHC' eliminada (> 72% nulos).
 - Columna 'NO' eliminada (> 60% nulos).
 - 'NO_2' imputada con media.
 - Columna 'NOx' eliminada (> 38% nulos).
 - Columna 'OXY' eliminada (> 92% nulos).
 - 'O_3' imputada con media.
 - 'PM10' imputada con media.
 - Columna 'PM25' eliminada (> 79% nulos).
 - Columna 'PXY' eliminada (> 92% nulos).
 - 'SO_2' imputada con media.
 - Columna 'TCH' eliminada (> 71% nulos).
 - Columna 'TOL' eliminada (> 73% nulos).
 - 'station' imputada con 'Desconocido'.


In [10]:
# tupla numero registros y columnas
print("Shape via processor:", processor.get_shape(df_cleaned))
# diccionario columna y tipo dato
print("Dtypes via processor:", processor.get_dtypes(df_cleaned))
# lista con columnas
print("Columns via processor:", processor.get_columns(df_cleaned))

Shape via processor: (3808224, 9)
Dtypes via processor: {'date': 'datetime64[ns]', 'CO': 'float64', 'NO': 'float64', 'NO_2': 'float64', 'NOx': 'float64', 'O_3': 'float64', 'PM10': 'float64', 'SO_2': 'float64', 'station': 'category'}
Columns via processor: ['date', 'CO', 'NO', 'NO_2', 'NOx', 'O_3', 'PM10', 'SO_2', 'station']
