In [2]:
import json
import pandas as pd
from pathlib import Path
import cudf
import shutil
import rmm
import gc
import cupy as cp
import numpy as np
# from cuml.ensemble import IsolationForest NO furula, dependency hell as√≠ que
from sklearn.ensemble import IsolationForest

# Secci√≥n de configuraci√≥n de entorno
Variables de entorno


In [3]:
BASE_DIR = Path("~/Projects/proyecto-computacion-I/data/datasets/raw").expanduser()
OUTPUT_DIR = Path("~/Projects/proyecto-computacion-I/data/datasets/processed/measurements.parquet").expanduser()
# os.environ["CUDA_VISIBLE_DEVICES"] = "0"
#
# Limpieza previa de archivos Usar si se cambian nombres de atributos por el Hive style
if OUTPUT_DIR.exists():
    print(f"Limpiando directorio antiguo: {OUTPUT_DIR}")
    shutil.rmtree(OUTPUT_DIR)

Limpiando directorio antiguo: /home/duo/Projects/proyecto-computacion-I/data/datasets/processed/measurements.parquet


Verificaci√≥n de GPU pre cudf

In [4]:
import pynvml

try:
    pynvml.nvmlInit()
    device_count = pynvml.nvmlDeviceGetCount()
    print(f"GPUs detectadas: {device_count}")
    for i in range(device_count):
        handle = pynvml.nvmlDeviceGetHandleByIndex(i)
        name = pynvml.nvmlDeviceGetName(handle)
        print(f"GPU {i}: {name}")
except Exception as e:
    print(f"Error detectando GPU: {e}")

GPUs detectadas: 1
GPU 0: NVIDIA GeForce RTX 5090


Activar memoria RAM de apoyo

In [5]:
rmm.reinitialize(managed_memory=True)

Parseador JSON -> DF para concadenar posteriormente, aseguramos acceso O(N)

In [6]:
def process_json(filepath, batch_name):
    """Lee un JSON y devuelve un DataFrame aplanado."""
    with open(filepath, 'r') as f:
        data = json.load(f)

    # Extraer metadatos globales del archivo
    resp = data.get('response', {})
    metric_name = resp.get('nombre')
    unit = resp.get('unidad')

    # Extraer la lista de valores
    valores = resp.get('valores', [])

    if not valores:
        return pd.DataFrame()

    # Crear DataFrame
    df = pd.DataFrame(valores)

    # Limpieza y Tipado (CRUCIAL para Parquet/cuDF)
    # 1. Convertir tiempo a datetime real
    if 'tiempo' in df.columns:
        df['timestamp'] = pd.to_datetime(df['tiempo'], format='%d/%m/%Y %H:%M')

    # 2. Asegurar que valor sea float
    if 'valor' in df.columns:
        df['value'] = pd.to_numeric(df['valor'], errors='coerce')

    # 3. A√±adir columnas de contexto
    df['metric'] = metric_name
    df['unit'] = unit
    df['batch'] = batch_name

    # Opcional: Extraer sensor del nombre del archivo si no est√° en el JSON
    # C302_AMONIO.json -> C302
    sensor_from_filename = filepath.stem.split('_')[0]
    df['sensor_id'] = sensor_from_filename

    # Seleccionar solo columnas √∫tiles para ahorrar espacio
    # Tag se puede obtener combinando unit con sensor_id as√≠ que lo descartamos
    cols_to_keep = ['timestamp', 'value', 'sensor_id', 'metric', 'unit', 'batch']
    return df[cols_to_keep]

In [7]:
all_dfs = []

for batch_dir in BASE_DIR.glob('batch*'):
    print(f"Procesando {batch_dir.name}...")

    # Recorrer jsons
    for json_file in batch_dir.glob('*.json'):
        try:
            df_temp = process_json(json_file, batch_dir.name)
            if not df_temp.empty:
                all_dfs.append(df_temp)
        except Exception as e:
            print(f"Error en {json_file}: {e}")

Procesando batch2...
Procesando batch4...
Procesando batch1...
Procesando batch3...


# Inicio de la l√≥gica de desduplicaci√≥n

Concadenamos y ordenamos por batch y fecha, as√≠ nos aseguramos de que la √∫ltima escritura manda.

In [8]:
raw_df = pd.concat(all_dfs, ignore_index=True)
raw_df.sort_values(by=['batch', 'timestamp'], inplace=True)

In [9]:
print(f"Registros crudos totales: {len(raw_df):,}")
print("Muestra de datos crudos:")
display(raw_df.head())

Registros crudos totales: 209,031
Muestra de datos crudos:


Unnamed: 0,timestamp,value,sensor_id,metric,unit,batch
104594,2025-10-02 14:00:00,7.4,C323,PH,ph,batch1
104835,2025-10-02 14:00:00,0.1,C322,AMONIO,ppm,batch1
105076,2025-10-02 14:00:00,2.2,C342,CLOROFILA,¬µg/l,batch1
106277,2025-10-02 14:00:00,1.9,C323,CARBONO ORGANICO,ppm,batch1
106758,2025-10-02 14:00:00,12.6,C313,CLOROFILA,ppb,batch1


Definimos qu√© hace √∫nica a una medici√≥n y detectamos duplicados para saber cu√°ntos hay

Le dice a pandas (cu pandas) que busque duplicados en las columnas elegidas que devuelve una boooleana. Marca todas las filas como duplicados False y a la √∫ltima fila de los duplicados la marca como True

la suma de booleanos dan el n√∫mero de duplicados

In [10]:
subset_unique = ['timestamp', 'sensor_id', 'metric']
dupes_count = raw_df.duplicated(subset=subset_unique, keep='last').sum()

print(f"Duplicados detectados (solapamiento de batches): {dupes_count:,}")

Duplicados detectados (solapamiento de batches): 29,078


In [11]:
clean_df = raw_df.drop_duplicates(subset=subset_unique, keep='last').copy()
print(f"Registros finales √∫nicos: {len(clean_df):,}")
print(f"Se han eliminado {len(raw_df) - len(clean_df)} filas redundantes.")

Registros finales √∫nicos: 179,953
Se han eliminado 29078 filas redundantes.


# Inicio serializaci√≥n

Convertimos los tipos de datos a category, al guardar en Parquet, esto crear√° un "Dictionary Encoding" autom√°tico.

1. Guarda los Valores √önicos (El Diccionario): pandas crea una lista interna de todos los valores √∫nicos que aparecen en esa columna.

2. Guarda √çndices (Los C√≥digos): En lugar de almacenar el texto repetido en cada fila, la columna solo almacena un c√≥digo num√©rico (un entero peque√±o) que apunta a la posici√≥n del valor real en esa lista de valores √∫nicos.

In [12]:
cols_to_convert = ['tag', 'sensor_id', 'metric', 'unit', 'batch']

for col in cols_to_convert:
    if col in clean_df.columns:
        clean_df[col] = clean_df[col].astype('category')

    print("Guardando a Parquet con categor√≠as nativas...")

clean_df.to_parquet(
    OUTPUT_DIR,
    partition_cols=['batch'],
    engine='pyarrow',
    compression='snappy',
    index=False
)
print(f"Datos guardados en {OUTPUT_DIR}")

Guardando a Parquet con categor√≠as nativas...
Guardando a Parquet con categor√≠as nativas...
Guardando a Parquet con categor√≠as nativas...
Guardando a Parquet con categor√≠as nativas...
Guardando a Parquet con categor√≠as nativas...
Datos guardados en /home/duo/Projects/proyecto-computacion-I/data/datasets/processed/measurements.parquet


# Limpieza

Aunque en producci√≥n usaremos el script de limpieza antes de guardar, aqu√≠ aprovechamos la potencia de la rtx5090 para limpiar y analizar antes de redactar el pipeline definitivo de preprocesamiento de datos.

## Pruebas iniciales

Encontramos primero a los culpables para el posterior infilling

In [13]:
# 1. Recargar los datos limpios
df_gpu = cudf.read_parquet(OUTPUT_DIR)
print(f"Analizando {len(df_gpu):,} filas en GPU...\n")

Analizando 179,953 filas en GPU...



### Duplicados

Los duplicados los matamos directamente sin miramientos. Aunque no deber√≠an haberse guardado pues los duplicados se tiran antes de escribir a parquet.

In [14]:
print(f"Filas antes de limpiar: {len(df_gpu):,}")

# Identificamos duplicados bas√°ndonos en la CLAVE PRIMARIA compuesta
# Mismo sensor + Misma m√©trica + Mismo instante de tiempo = Dato duplicado
subset_unique = ['sensor_id', 'metric', 'timestamp']
df_gpu = df_gpu.drop_duplicates(subset=subset_unique, keep='last')

print(f"Filas tras limpiar:     {len(df_gpu):,}")

Filas antes de limpiar: 179,953
Filas tras limpiar:     179,953


### Nulos
A veces al parsear los tipos aparecen nulos

In [15]:
nulos = df_gpu.isna().sum()
if nulos.sum() > 0:
    print("ADVERTENCIA: Se han encontrado valores nulos:")
    print(nulos[nulos > 0])
else:
    print("No hay valores nulos (NaN).")

No hay valores nulos (NaN).


### Valores negativos
Seg√∫n la f√≠sica todas nuestras magnitudes manejadas no pueden ser negativas:



Ver tipos de magnitudes

In [16]:
print(df_gpu['metric'].unique())

0                   PH
1               AMONIO
2            CLOROFILA
3     CARBONO ORGANICO
4     OXIGENO DISUELTO
5        CONDUCTIVIDAD
6             TURBIDEZ
7          TEMPERATURA
8         FICOCIANINAS
9                NIVEL
10            FOSFATOS
11            NITRATOS
Name: metric, dtype: object


Ninguna magnitud puede ser negativa

In [17]:
# PH, Turbidez, etc., no pueden ser negativos.
# Filtramos solo columnas num√©ricas
negativos = df_gpu[df_gpu['value'] < 0]

if len(negativos) > 0:
    print(f"\nADVERTENCIA: Hay {len(negativos)} mediciones con valor negativo.")
    # Mostramos qu√© m√©tricas son las culpables
    print(negativos['metric'].value_counts())
else:
    print("\nNo hay valores negativos imposibles.")


ADVERTENCIA: Hay 28 mediciones con valor negativo.
metric
FICOCIANINAS    28
Name: count, dtype: int64


### Investigaci√≥n de ceros

Sensores rotos o r√≠os secos

In [18]:
ceros = df_gpu[df_gpu['value'] == 0]
if len(ceros) > 0:
    print(f"\nINFO: Hay {len(ceros)} mediciones con valor 0.0.")
    print("Revisar si son reales (ej: lluvia) o error de sensor.")


INFO: Hay 26763 mediciones con valor 0.0.
Revisar si son reales (ej: lluvia) o error de sensor.


### Investigaci√≥n de outliers

Nuestras magnitudes siguen distribuciones normales o log-normales

Temperatura, nivel, PH y concentraci√≥n de ox√≠geno siguen distribuciones normales (esperable)

Todas las dem√°s magnitudes siguen distribuciones log normales, es decir, son de cola pesada, donde media >> mediana

Utilizaremos Rolling Z-Score est√°ndar para encontrar outliers en distribuciones normales y transformaci√≥n logar√≠tmica + rolling z-score para las dem√°s

Para cada valor calculamos un Z score que es b√°sicamente (valor - media)/ desviaci√≥n t√≠pica -> Si supera umbral de aceptaci√≥n es un outlier

Recordamos que estamos intentando encontrar vertidos ilegales (aunque muy raros) que son outliers por naturaleza, as√≠ que vamos a ser generosos con el Z-score

In [19]:
metrics_normal = ['PH', 'TEMPERATURA', 'OXIGENO DISUELTO', 'NIVEL']
metrics_log = ['AMONIO', 'TURBIDEZ', 'NITRATOS', 'FOSFATOS',
               'CLOROFILA', 'FICOCIANINAS', 'CONDUCTIVIDAD', 'CARBONO ORGANICO']
WINDOW_SIZE = 96
MIN_PERIODS = 24
MAX_ZSCORE = 6
EPSILON = 1e-6

Atenci√≥n trabajando con el dataset he encontrado que Window_size = 24 (un d√≠a) hac√≠a matem√°ticamente inexacto al modelo Si tenemos una ventana con pocos datos o si el dato es un pico muy fuerte, el pico dispara la media hacia arriba o desploma la desviaci√≥n est√°ndar. Se ha incrementado a 4 d√≠as para por ejemplo, minimizar los eventos como lluvias para que el z-score no se acostumbre

Resultado: El Z-Score se auto-limita. Matem√°ticamente, nunca puede superar sqrt(N‚àí1) (aproximadamente) en una ventana de tama√±o N.

Preparar los datos

In [20]:
df_gpu = df_gpu.reset_index(drop=True)

In [21]:
df_gpu = df_gpu.sort_values(['sensor_id', 'metric', 'timestamp'])
df_gpu['trans_value'] = df_gpu['value']

Creamos una columna con la copia de los valores y le aplicamos el logaritmo natural de 1 + x a las m√©tricas que pueden seguir una distribuci√≥n exponencial

Recordamos que no existen valores negativos medici√≥n, pero s√≠ puede existir valor 0. As√≠ que esto protege a la GPU en las matem√°ticas.

In [22]:
mask_log = df_gpu['metric'].isin(metrics_log)
df_gpu.loc[mask_log, 'trans_value'] = cp.log1p(df_gpu.loc[mask_log, 'value'])

Calcular z-score

Comparamos con las 12h antes y 12h despu√©s porque center=true

Usamos la funci√≥n de pandas (implementaci√≥n RAPIDS) de rolling

In [23]:
grouped = df_gpu.groupby(['sensor_id', 'metric'])
roll_mean = grouped['trans_value'].rolling(WINDOW_SIZE, center=True, min_periods=MIN_PERIODS).mean()
roll_std = grouped['trans_value'].rolling(WINDOW_SIZE, center=True, min_periods=MIN_PERIODS).std()


En cudf/pandas, el resultado de groupby().rolling() tiene un MultiIndex (claves de grupo + √≠ndice original).
Necesitamos soltar los niveles del grupo para alinear con df_gpu.
El nivel del √≠ndice original suele estar al final.

In [24]:
roll_mean_values = roll_mean.reset_index(level=[0, 1], drop=True)
roll_std_values  = roll_std.reset_index(level=[0, 1], drop=True)

Aseguramos que estamos alineados (ordenamos ambos por √≠ndice por si acaso)
Esto es costoso pero seguro. Si conf√≠as en el sort inicial, puedes omitir el sort_index final.

In [25]:
roll_mean_values = roll_mean_values.sort_index()
roll_std_values = roll_std_values.sort_index()
df_gpu = df_gpu.sort_index()

Calculamos cu√°ntas desviaciones est√°ndar se aleja un valor

L√≥gica inteligente con CuPy:
Si std > EPSILON, usamos std. Si es 0 o muy chico, usamos EPSILON para no dividir por 0.

Evitamos aplicar epsilon a todo porque aten√∫a los datos (aumenta el denominador de z-score)

In [26]:
numerator = df_gpu['trans_value'] - roll_mean_values
denominator = cp.where(roll_std_values > EPSILON, roll_std_values, EPSILON)

z_scores = numerator / denominator

Si std era NaN (ej. ventana de 1 dato), el z-score ser√° NaN. Convertir a 0.

In [27]:
z_scores = z_scores.fillna(0)

Analizamos la sensibilidad que queremos aplicar

Sigma 3: Muy estricto. Eliminar√° muchas cosas (quiz√°s datos reales pero raros).

Sigma 10: Muy laxo. Solo eliminar√° errores catastr√≥ficos.

In [28]:
total_rows = len(df_gpu)
print(f"Total registros: {total_rows:,}")
print("\nImpacto de diferentes umbrales (Sigma):")

for sigma in np.arange(1.0, 10.0, 0.1):
    outliers = (z_scores.abs() > sigma).sum()
    percent = (outliers / total_rows) * 100
    print(f"Sigma {sigma}: Eliminar√≠a {outliers:,} registros ({percent:.4f}%)")

    if sigma == MAX_ZSCORE:
        df_gpu['is_outlier'] = z_scores.abs() > sigma


Total registros: 179,953

Impacto de diferentes umbrales (Sigma):
Sigma 1.0: Eliminar√≠a 30,624 registros (17.0178%)
Sigma 1.1: Eliminar√≠a 25,439 registros (14.1365%)
Sigma 1.2000000000000002: Eliminar√≠a 20,712 registros (11.5097%)
Sigma 1.3000000000000003: Eliminar√≠a 16,863 registros (9.3708%)
Sigma 1.4000000000000004: Eliminar√≠a 13,587 registros (7.5503%)
Sigma 1.5000000000000004: Eliminar√≠a 10,959 registros (6.0899%)
Sigma 1.6000000000000005: Eliminar√≠a 8,873 registros (4.9307%)
Sigma 1.7000000000000006: Eliminar√≠a 7,162 registros (3.9799%)
Sigma 1.8000000000000007: Eliminar√≠a 5,738 registros (3.1886%)
Sigma 1.9000000000000008: Eliminar√≠a 4,659 registros (2.5890%)
Sigma 2.000000000000001: Eliminar√≠a 3,839 registros (2.1333%)
Sigma 2.100000000000001: Eliminar√≠a 3,157 registros (1.7543%)
Sigma 2.200000000000001: Eliminar√≠a 2,635 registros (1.4643%)
Sigma 2.300000000000001: Eliminar√≠a 2,243 registros (1.2464%)
Sigma 2.4000000000000012: Eliminar√≠a 1,900 registros (1.0558%)

In [29]:
print(f"Z-Score M√°ximo encontrado en todo el dataset: {z_scores.max():.4f}")
print(f"Z-Score M√≠nimo encontrado en todo el dataset: {z_scores.min():.4f}")

print("\nINSPECCI√ìN DE LOS 'PEORES' CASOS")
# Vamos a ver las filas que tienen los Z-Scores m√°s altos (los que est√°n en ese limbo de 1.x)
df_gpu['z_score_abs'] = z_scores.abs()
top_outliers = df_gpu.nlargest(10, 'z_score_abs')
print(top_outliers[['sensor_id', 'metric', 'timestamp', 'value', 'trans_value', 'z_score_abs']].to_pandas())

Z-Score M√°ximo encontrado en todo el dataset: 9.6959
Z-Score M√≠nimo encontrado en todo el dataset: -9.6956

INSPECCI√ìN DE LOS 'PEORES' CASOS
       sensor_id            metric           timestamp     value  trans_value  \
70276       C326            AMONIO 2025-11-03 05:00:00  0.019803     0.019803   
134144      C343      FICOCIANINAS 2025-12-02 05:00:00  0.095310     0.095310   
40969       C327     CONDUCTIVIDAD 2025-10-10 11:00:00  0.000000     0.000000   
114003      C315                PH 2025-11-28 09:00:00  0.000000     0.000000   
25442       C344     CONDUCTIVIDAD 2025-10-07 11:00:00  4.394449     4.394449   
114117      C315     CONDUCTIVIDAD 2025-11-28 09:00:00  0.000000     0.000000   
130380      C314     CONDUCTIVIDAD 2025-12-01 12:00:00  2.995732     2.995732   
109286      C343     CONDUCTIVIDAD 2025-11-27 11:00:00  8.006701     8.006701   
114058      C315  CARBONO ORGANICO 2025-11-28 09:00:00  0.000000     0.000000   
82232       C315          NITRATOS 2025-11-05 

### Investigaci√≥n profunda de outliers

Utilizamos IsolationForest para encontrar datos outliers tanto por m√©trica simple como con z-score, como por m√©tricas compuestas.

Debemos pasar de un formato largo a un formato ancho para este an√°lisis. Esto generar√° muchas columnas huecas. Nuestra estrategia es entrenar un IsolationForest para cada conjunto de estaciones con m√©tricas similares

Isolation forest busca qu√© tan f√°cil es aislar un dato del resto aplicando cortes arbitraarios en el dataset. Encuentra r√°pidamente a outliers. Es un algoritmo no supervisado.


NOS TRAEMOS LOS DATOS A CPU POR DEPENDENCY HELL DE RAPIDS QUE NO ME CONSIGUE ENCONTRAR LA CLASE ISOLATION FOREST

Pivotar la tabla puede tardar u poco

In [34]:
df_pd = df_gpu.to_pandas()
df_pivot = df_pd.pivot_table(
    index=['sensor_id', 'timestamp'],
    columns='metric',
    values='trans_value' # Usamos el valor transformado (log) que es m√°s "digerible"
)
print(f"Dimensiones de la tabla pivotada: {df_pivot.shape}")

Dimensiones de la tabla pivotada: (24880, 12)


Identificar el "Perfil" de cada estaci√≥n, para cada sensor_id, vemos qu√© columnas NO son nulas nunca (o casi nunca)

Un truco r√°pido: Agrupamos por sensor_id y vemos si la columna tiene datos (podemos hacerlo porque s√© como vienen)

In [35]:
sensor_profiles = df_pivot.groupby('sensor_id').apply(
    lambda x: tuple(sorted(x.dropna(axis=1, how='all').columns))
)

Agrupamos por perfil

Esto nos da algo como:
* C001: ('PH', 'TEMPERATURA')
* C002: ('AMONIO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
* C003: ('PH', 'TEMPERATURA')  <-- Mismo perfil que C001

In [38]:
print("\nAgrupando estaciones por tipos de sensores...")
unique_profiles = sensor_profiles.unique()
print(f"Se han encontrado {len(unique_profiles)} configuraciones de sensores distintas.")
print(unique_profiles)


Agrupando estaciones por tipos de sensores...
Se han encontrado 13 configuraciones de sensores distintas.
[('AMONIO', 'CONDUCTIVIDAD', 'NITRATOS', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('CLOROFILA', 'CONDUCTIVIDAD', 'FICOCIANINAS', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('AMONIO', 'CARBONO ORGANICO', 'CONDUCTIVIDAD', 'FOSFATOS', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('AMONIO', 'CARBONO ORGANICO', 'CONDUCTIVIDAD', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('AMONIO', 'CONDUCTIVIDAD', 'NITRATOS', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('AMONIO', 'CARBONO ORGANICO', 'CONDUCTIVIDAD', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('AMONIO', 'CARBONO ORGANICO', 'CONDUCTIVIDAD', 'FOSFATOS', 'NITRATOS', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('CONDUCTIVIDAD', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ')
 ('TEMPERATURA',)
 ('CONDUCTIVIDAD', 'OXIGE

Iteramos cada modelo y entrenamos un modelo espec√≠fico

In [52]:
results = []

for i, profile in enumerate(unique_profiles):
    # Sensores que tienen este perfil exacto
    sensors_in_profile = sensor_profiles[sensor_profiles == profile].index

    print(f"\n--- Grupo {i+1}/{len(unique_profiles)}: {profile} ---")

    # .loc devuelve una vista o copia dependiendo del contexto.
    # A√±adimos .copy() para asegurarnos de que es un objeto independiente y evitar Warnings
    subset = df_pivot.loc[df_pivot.index.get_level_values('sensor_id').isin(sensors_in_profile), list(profile)].copy()

    # Limpieza de huecos temporales
    subset = subset.ffill().dropna()

    if len(subset) < 100:
        print(f"   Muy pocos datos para entrenar. Saltando perfil.")
        continue

    # Entrenar Isolation Forest
    iso_forest = IsolationForest(
        n_estimators=100,
        contamination=0.005,
        n_jobs=-1,
        random_state=69420
    )

    iso_forest.fit(subset)

    # 1. Predicci√≥n binaria (Anomaly: True/False)
    preds = iso_forest.predict(subset)

    # 2. Puntuaci√≥n continua (Normality Score)
    scores = iso_forest.decision_function(subset)

    # Guardamos AMBOS resultados en el dataframe
    subset['is_anomaly_multivariate'] = preds == -1
    subset['normality_score'] = scores

    # Logging: Contamos anomal√≠as solo para informar por pantalla
    n_anomalies = subset['is_anomaly_multivariate'].sum()
    print(f"   Procesado. Detectadas {n_anomalies} anomal√≠as.")

    # Guardamos el subset completo (con anomal√≠as Y datos normales puntuados)
    results.append(subset)


--- Grupo 1/13: ('AMONIO', 'CONDUCTIVIDAD', 'NITRATOS', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ') ---
   Procesado. Detectadas 13 anomal√≠as.

--- Grupo 2/13: ('CLOROFILA', 'CONDUCTIVIDAD', 'FICOCIANINAS', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ') ---
   Procesado. Detectadas 34 anomal√≠as.

--- Grupo 3/13: ('AMONIO', 'CARBONO ORGANICO', 'CONDUCTIVIDAD', 'FOSFATOS', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ') ---
   Procesado. Detectadas 17 anomal√≠as.

--- Grupo 4/13: ('AMONIO', 'CARBONO ORGANICO', 'CONDUCTIVIDAD', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ') ---
   Procesado. Detectadas 21 anomal√≠as.

--- Grupo 5/13: ('AMONIO', 'CONDUCTIVIDAD', 'NITRATOS', 'NIVEL', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ') ---
   Procesado. Detectadas 5 anomal√≠as.

--- Grupo 6/13: ('AMONIO', 'CARBONO ORGANICO', 'CONDUCTIVIDAD', 'OXIGENO DISUELTO', 'PH', 'TEMPERATURA', 'TURBIDEZ') ---
   Procesado. Detectadas 9 anomal√≠as.

--- Gru

Concadenar resultados

In [53]:
df_final_scored = pd.concat(results)
print(f"\nProceso terminado. Total registros puntuados: {len(df_final_scored):,}")
print("\nTop 5 Anomal√≠as m√°s extremas (Score m√°s negativo):")
print(df_final_scored.sort_values('normality_score', ascending=True).head(5))


Proceso terminado. Total registros puntuados: 24,880

Top 5 Anomal√≠as m√°s extremas (Score m√°s negativo):
metric                         AMONIO  CONDUCTIVIDAD  NITRATOS  \
sensor_id timestamp                                              
C315      2025-11-28 09:00:00     0.0       0.000000       0.0   
C306      2025-12-10 11:00:00     0.0       0.000000       NaN   
C317      2025-11-06 07:00:00     NaN            NaN       NaN   
          2025-11-06 06:00:00     NaN            NaN       NaN   
C316      2025-12-01 11:00:00     NaN       6.566672       NaN   

metric                         OXIGENO DISUELTO   PH  TEMPERATURA  TURBIDEZ  \
sensor_id timestamp                                                           
C315      2025-11-28 09:00:00               0.0  0.0          0.0  0.000000   
C306      2025-12-10 11:00:00               0.0  0.0          0.0  0.000000   
C317      2025-11-06 07:00:00               NaN  NaN         11.9       NaN   
          2025-11-06 06:00:00    

Muy raro la observaci√≥n en la central C310:

La Hip√≥tesis del Modelo: El Isolation Forest ha detectado un patr√≥n extra√±o:

Ox√≠geno Disuelto subiendo r√°pido: Pasar de 5.5 a 7.3 en 4 horas sin que cambie la temperatura es raro (normalmente el ox√≠geno sube si baja la temperatura o si hay mucha fotos√≠ntesis, pero la Turbidez es constante).

Nitratos clavados en 0.0: En un r√≠o con Amonio presente (1.8 - 1.9, que es detectable), tener Nitratos absolutos en 0.0 es qu√≠micamente sospechoso (el ciclo del nitr√≥geno suele convertir algo de amonio en nitratos).

Se investiga m√°s abajo en la secci√≥n de investigaci√≥n

Procedemos a usar isolation forest para la tarea contraria - el registro m√°s representativo del dataset

Ordenar los datos m√°s altos, los m√°s densos, m√°s representativos:

In [51]:
print("\nTop 5 Registros m√°s 'Normales/Centrales' (Score m√°s alto):")
print(df_final_scored.sort_values('normality_score', ascending=False).head(5))

Los 5 registros m√°s est√°ndar o centrales del r√≠o:
metric                         AMONIO  CARBONO ORGANICO  CONDUCTIVIDAD  \
sensor_id timestamp                                                      
C333      2025-11-04 22:00:00     0.0          3.258097       7.256297   
          2025-11-04 03:00:00     0.0          3.258097       7.255591   
          2025-11-04 21:00:00     0.0          3.258097       7.251345   
          2025-11-05 00:00:00     0.0          3.258097       7.268920   
          2025-11-04 12:00:00     0.0          3.258097       7.282761   

metric                         FOSFATOS  NITRATOS  OXIGENO DISUELTO   PH  \
sensor_id timestamp                                                        
C333      2025-11-04 22:00:00  0.148420   6.25575              3.98  7.2   
          2025-11-04 03:00:00  0.148420   6.25575              3.96  7.2   
          2025-11-04 21:00:00  0.165514   6.25575              4.02  7.2   
          2025-11-05 00:00:00  0.148420   6.2557

Estaci√≥n C333 (Noviembre 2025):

* PH: 7.2 (Perfectamente neutro/sano).

* TEMPERATURA: ~16¬∫C (Razonable para oto√±o).

* OXIGENO: ~4.0 (Un poco bajo, pero estable).

* AMONIO: 0.0 (Limpio).

* NITRATOS: ~6.2 (Estables).

Diagn√≥stico: Este es el "Golden Batch". As√≠ se ve el r√≠o cuando est√° tranquilo. Es muy valioso saber esto, porque cualquier desviaci√≥n futura se debe comparar contra estos valores, no contra la media global (que podr√≠a estar sucia).

Se profundizar√° con esto en el an√°lisis exploratorio pues necesitamos calibrar el r√≠o

TODO CONTINUAR CON LA INVESTIGACI√ìN DE LOS VALORES Y EL INFILLING

## Investigaci√≥n

### Isolation forest

Investigaci√≥n sospechosos identificado por Isolation Forest

In [44]:
# Verificamos los datos crudos originales de la C310 antes de pivotar
print("Inspecci√≥n de la estaci√≥n C310:")
inspect_c310 = df_gpu[df_gpu['sensor_id'] == 'C310'].to_pandas()

# Vemos qu√© m√©tricas tiene y cu√°ntos datos hay de cada una
metrics_count = inspect_c310.groupby('metric')['value'].count()
print(metrics_count)

# Vemos una muestra de esos Nitratos sospechosos
print("\nMuestra de Nitratos en C310:")
print(inspect_c310[inspect_c310['metric'] == 'NITRATOS'].tail(5))
print(inspect_c310[inspect_c310['metric'] == 'OXIGENO DISUELTO'].tail(5))
print(inspect_c310[inspect_c310['metric'] == 'TEMPERATURA'].tail(5))

Inspecci√≥n de la estaci√≥n C310:
metric
AMONIO              829
CONDUCTIVIDAD       829
NITRATOS            829
OXIGENO DISUELTO    829
PH                  829
TEMPERATURA         829
TURBIDEZ            829
Name: value, dtype: int64

Muestra de Nitratos en C310:
                 timestamp  value sensor_id    metric unit   batch  \
178914 2025-12-10 20:00:00    0.0      C310  NITRATOS  ppm  batch4   
179131 2025-12-10 21:00:00    0.0      C310  NITRATOS  ppm  batch4   
179348 2025-12-10 22:00:00    0.0      C310  NITRATOS  ppm  batch4   
179565 2025-12-10 23:00:00    0.0      C310  NITRATOS  ppm  batch4   
179782 2025-12-11 00:00:00    0.0      C310  NITRATOS  ppm  batch4   

        trans_value  z_score_abs  
178914          0.0          0.0  
179131          0.0          0.0  
179348          0.0          0.0  
179565          0.0          0.0  
179782          0.0          0.0  
                 timestamp  value sensor_id            metric unit   batch  \
179013 2025-12-10 20:00:00

Diagn√≥stico: Seguramente ese sensor est√© roto o offline

In [31]:
print("INVESTIGACI√ìN FICOCIANINAS")
ficos_neg = df_gpu[
    (df_gpu['metric'] == 'FICOCIANINAS') &
    (df_gpu['value'] < 0)
    ]

print(ficos_neg['value'].describe())

print("\nEjemplos de valores negativos:")
print(ficos_neg['value'].head(5))

üî¨ INVESTIGACI√ìN FICOCIANINAS
count    28.000000
mean     -0.109567
std       0.022259
min      -0.223144
25%      -0.105361
50%      -0.105361
75%      -0.105361
max      -0.105361
Name: value, dtype: float64

Ejemplos de valores negativos:
51882    -0.105361
52099    -0.105361
104613   -0.105361
104830   -0.105361
105047   -0.105361
Name: value, dtype: float64


In [32]:
df_gpu

Unnamed: 0,timestamp,value,sensor_id,metric,unit,batch,trans_value,z_score_abs
0,2025-10-02 14:00:00,7.400000,C323,PH,ph,batch1,7.400000,4.440892e-09
1,2025-10-02 14:00:00,0.095310,C322,AMONIO,ppm,batch1,0.095310,1.774644e+00
2,2025-10-02 14:00:00,1.163151,C342,CLOROFILA,¬µg/l,batch1,1.163151,6.388911e-01
3,2025-10-02 14:00:00,1.064711,C323,CARBONO ORGANICO,ppm,batch1,1.064711,1.691932e+00
4,2025-10-02 14:00:00,2.610070,C313,CLOROFILA,ppb,batch1,2.610070,3.181695e+00
...,...,...,...,...,...,...,...,...
179948,2025-12-11 00:00:00,12.400000,C314,TEMPERATURA,¬∫C,batch4,12.400000,1.294686e+00
179949,2025-12-11 00:00:00,0.000000,C308,AMONIO,mg/l,batch4,0.000000,0.000000e+00
179950,2025-12-11 00:00:00,8.300000,C329,PH,ph,batch4,8.300000,8.571429e-01
179951,2025-12-11 00:00:00,0.993252,C304,FOSFATOS,ppm,batch4,0.993252,4.415303e+00


In [33]:
print(df_gpu[df_gpu['metric'] == 'AMONIO']['value'].describe())

count    14097.000000
mean         0.879319
std          1.036941
min          0.000000
25%          0.095310
50%          0.405465
75%          1.332366
max          4.875197
Name: value, dtype: float64
