# **E7: Detección de Anomalías con Isolation Forest**  

## **Objetivo**  
Implementar **Isolation Forest** para detectar anomalías en datos de consumo energético y meteorología.  

## **Datos de entrada**  
Un dataset con las siguientes columnas:  
- **Consumo Energía (kWh)**  
- **Generación FV (kWh)**  
- **Temperatura (°C)**  
- **Radiación Solar (W/m²)**  

---

# **Pasos a seguir**  

## 1️⃣ Cargar y visualizar los datos  

In [None]:
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  

# Cargar dataset
df = pd.read_csv("data/m4_datos_energia_canarias.csv", usecols=range(1, 6) )

df['Fecha'] = pd.to_datetime(df['Fecha'])
df = df.set_index('Fecha')
# Ver las primeras filas
print(df.head())



In [None]:
df.describe()

In [None]:
# Visualizar las variables clave
df.plot(subplots=True, figsize=(10, 8))
plt.show()

---

## 2️⃣ Preprocesamiento  
- **Rellenar valores nulos**  
- **Normalizar datos** para mejorar la detección  

In [None]:
# Rellenar valores nulos
df.interpolate(inplace=True)

# Normalización Min-Max
df_normalized = (df - df.min()) / (df.max() - df.min())

In [None]:
# Visualizar las variables clave
df_normalized.plot(subplots=True, figsize=(10, 8))
plt.show()

---

## 3️⃣ Entrenar Isolation Forest  

In [None]:
from sklearn.ensemble import IsolationForest  

# Inicializar modelo  
model = IsolationForest(contamination=0.10, random_state=42)  

# Entrenar y predecir anomalías  
df["Anomaly"] = model.fit_predict(df_normalized)  

# Mostrar conteo de anomalías detectadas
print(df["Anomaly"].value_counts())

In [None]:
# Contar el número total de anomalías detectadas
num_anomalies = (df["Anomaly"] == -1).sum()
print(f"Número total de anomalías detectadas: {num_anomalies}")


---

## 4️⃣ Visualizar anomalías  

In [None]:
# 5️⃣ Gráfico de línea con anomalías
plt.figure(figsize=(12, 6))
plt.plot(df.index, df["Consumo Energía (kWh)"], label="Serie Original", color="blue")
plt.scatter(df.index[df["Anomaly"] == -1], df["Consumo Energía (kWh)"][df["Anomaly"] == -1],
            color='red', label='Anomalías', marker='o')
plt.xlabel("Tiempo")
plt.ylabel("Consumo Energía (kWh)")
plt.title("Serie Temporal con Anomalías Detectadas")
plt.legend()
plt.show()

In [None]:
# Aumentamos el zoom en el primer trimestre
plot_df = df[df.index.month < 4]
# 5️⃣ Gráfico de línea con anomalías
plt.figure(figsize=(12, 6))
plt.plot(plot_df.index, plot_df["Consumo Energía (kWh)"], label="Serie Original", color="blue")
plt.xlabel("Tiempo")
plt.ylabel("Consumo Energía (kWh)")
plt.title("Serie Temporal sin Anomalías Detectadas")
plt.legend()
plt.show()

In [None]:
# 5️⃣ Gráfico de línea con anomalías
plt.figure(figsize=(12, 6))
plt.plot(plot_df.index, plot_df["Consumo Energía (kWh)"], label="Serie Original", color="blue", marker="x")
plt.scatter(plot_df.index[plot_df["Anomaly"] == -1], plot_df["Consumo Energía (kWh)"][plot_df["Anomaly"] == -1],
            color='red', label='Anomalías', marker='o')
plt.xlabel("Tiempo")
plt.ylabel("Consumo Energía (kWh)")
plt.title("Serie Temporal con Anomalías Detectadas")
plt.legend()
plt.show()

---

# **Conclusión**  
- Los puntos rojos en la gráfica representan anomalías detectadas.  
- Probar a ajustar el hiperparámetro `contamination` para ver cómo varía la detección.
- Probar a visualizar otros rangos para completar el análisis del detector