# Detección de Consumos Anómalos con Aprendizaje Supervisado

Este notebook muestra paso a paso cómo entrenar un modelo supervisado para detectar consumos anómalos de agua usando Python y scikit-learn.

In [None]:
# Importar librerías necesarias
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## Simulación de datos de consumo de agua

Simularemos un pequeño conjunto de datos donde cada fila representa una lectura de consumo de agua. La columna `es_anomalo` indica si el consumo es considerado anómalo (1) o normal (0).

In [None]:
# Simular datos de consumo de agua
# Cada fila: [consumo_litros, hora_dia, dia_semana, usuario_id, es_anomalo]
data = [
    [10, 8, 1, 1, 0],
    [12, 9, 1, 1, 0],
    [50, 3, 2, 2, 1],  # anómalo
    [11, 10, 1, 1, 0],
    [9, 8, 2, 2, 0],
    [55, 2, 3, 2, 1],  # anómalo
    [10, 8, 3, 1, 0],
    [13, 9, 4, 1, 0],
    [60, 1, 5, 2, 1],  # anómalo
    [12, 10, 6, 1, 0],
]
df = pd.DataFrame(data, columns=["consumo_litros", "hora_dia", "dia_semana", "usuario_id", "es_anomalo"])
df

## Separar variables predictoras y objetivo

Seleccionamos las columnas que usaremos como variables de entrada (X) y la columna objetivo (y) que indica si el consumo es anómalo.

In [None]:
# Separar variables predictoras y objetivo
X = df[["consumo_litros", "hora_dia", "dia_semana", "usuario_id"]]
y = df["es_anomalo"]
X.head(), y.head()

## Dividir los datos en entrenamiento y prueba

Dividimos los datos para entrenar el modelo con una parte y evaluar su desempeño con la otra.

In [None]:
# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print('Tamaño entrenamiento:', X_train.shape)
print('Tamaño prueba:', X_test.shape)

## Entrenar el modelo supervisado

Entrenamos un RandomForestClassifier con los datos de entrenamiento.

In [None]:
# Entrenar modelo supervisado
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

## Evaluar el modelo

Evaluamos el desempeño del modelo con los datos de prueba y mostramos un reporte de clasificación.

In [None]:
# Evaluar el modelo
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

## Predicción con nuevos datos

Probamos el modelo con un nuevo registro de consumo para ver si lo clasifica como anómalo o no.

In [None]:
# Ejemplo de predicción con nuevos datos
nuevo_consumo = pd.DataFrame([[52, 2, 4, 2]], columns=["consumo_litros", "hora_dia", "dia_semana", "usuario_id"])
prediccion = clf.predict(nuevo_consumo)
print("¿Es anómalo?", "Sí" if prediccion[0] == 1 else "No")

## Visualización de datos

A continuación, se muestran ejemplos de cómo graficar los datos para análisis exploratorio 

In [None]:
# Importar librerías de visualización
default_backend = None
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Gráfica 1: Histograma de consumo de litros
plt.figure(figsize=(6,4))
sns.histplot(df['consumo_litros'], bins=8, kde=True)
plt.title('Distribución de consumo de litros')
plt.xlabel('Consumo (litros)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Gráfica 2: Boxplot de consumo por clase anómala
plt.figure(figsize=(6,4))
sns.boxplot(x='es_anomalo', y='consumo_litros', data=df)
plt.title('Consumo de litros según si es anómalo o no')
plt.xlabel('¿Es anómalo? (0=No, 1=Sí)')
plt.ylabel('Consumo (litros)')
plt.show()

In [None]:
# Gráfica 3: Conteo de registros anómalos vs normales
plt.figure(figsize=(5,3))
sns.countplot(x='es_anomalo', data=df)
plt.title('Cantidad de registros anómalos vs normales')
plt.xlabel('¿Es anómalo? (0=No, 1=Sí)')
plt.ylabel('Cantidad')
plt.show()