In [None]:
import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.preprocessing import StandardScaler

# 1. Cargar la base de datos
ruta_entrada = "master_limpio.xlsx"
ruta_salida  = "master_limpio_imputado.xlsx"

df = pd.read_excel(ruta_entrada, parse_dates=['datetime'])
df = df.sort_values('datetime')

# 2. Separar columna de fecha y variables numéricas
df.set_index('datetime', inplace=True)
data_numeric = df.select_dtypes(include=[np.number])

# 3. Escalar variables
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data_numeric)

# 4. Imputación con KNNImputer
imputer = KNNImputer(
    n_neighbors=5,
    weights="distance",
    metric="nan_euclidean"
)

data_imputed_scaled = imputer.fit_transform(data_scaled)

# 5. Des-escalar los datos a sus unidades originales
data_imputed = scaler.inverse_transform(data_imputed_scaled)

# Reconstruir DataFrame con el mismo índice y nombres de columnas
df_imputed = pd.DataFrame(data_imputed,
                          index=data_numeric.index,
                          columns=data_numeric.columns)

# 6. Verificación rápida de faltantes antes/después
print("Proporción de NA por columna (antes de imputar):")
print(data_numeric.isna().mean().round(3))

print("\nNúmero total de NA (después de imputar):")
print(df_imputed.isna().sum().sum())  # debería ser 0

# 7. Guardar el archivo final
df_final = df_imputed.copy()
df_final.reset_index(inplace=True)

df_final.to_excel(ruta_salida, index=False)
print(f"\nArchivo con datos imputados guardado como: {ruta_salida}")

Proporción de NA por columna (antes de imputar):
CENTRO_CO         0.029
CENTRO_NOX        0.058
CENTRO_PM10       0.025
CENTRO_PM2.5      0.125
CENTRO_O3         0.064
NORESTE2_CO       0.388
NORESTE2_NOX      0.520
NORESTE2_O3       0.521
NORESTE2_PM10     0.332
NORESTE2_PM2.5    0.399
NORESTE_CO        0.104
NORESTE_NOX       0.248
NORESTE_O3        0.264
NORESTE_PM10      0.031
NORESTE_PM2.5     0.066
SURESTE2_CO       0.293
SURESTE2_NOX      0.235
SURESTE2_O3       0.312
SURESTE2_PM10     0.050
SURESTE2_PM2.5    0.128
SUR_CO            0.239
SUR_NOX           0.209
SUR_O3            0.238
SUR_PM10          0.023
SUR_PM2.5         0.303
dtype: float64

Número total de NA (después de imputar):
0

Archivo con datos imputados guardado como: master_limpio_imputado.xlsx
