In [15]:
# 1. Librer√≠as que usaremos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, confusion_matrix
from datetime import datetime
import matplotlib
matplotlib.use('Agg')  # para que no abra ventanas
import joblib, json, os, markdown, weasyprint
from IPython.display import Markdown, display

# 2. Crear carpetas dentro de 5_Report
base_report = "/home/davidperlaza14/Proyectos/ValleAnomalia/5_Report"
OUT_DIR = os.path.join(base_report, "salida")
ASSETS  = os.path.join(base_report, "assets")
os.makedirs(OUT_DIR, exist_ok=True)
os.makedirs(ASSETS, exist_ok=True)

print("‚úÖ Carpetas preparadas")

‚úÖ Carpetas preparadas


In [16]:
# 3. Cargar CSV y modelo (desde la ra√≠z del repo)
BASE_DIR = "/home/davidperlaza14/Proyectos/ValleAnomalia"
CSV_PATH = f"{BASE_DIR}/3_Model/predicciones_100k.csv"
MODEL_PATH = f"{BASE_DIR}/3_Model/iforest_100k.pkl"

df = pd.read_csv(CSV_PATH)
y_true = (df["status"] == "failed").astype(int)
y_pred = df["anomaly"]

print(f"Datos cargados: {len(df)} filas")

Datos cargados: 100000 filas


In [17]:
# 4. Guardar classification report como tabla PNG
report = classification_report(y_true, y_pred, target_names=["Normal", "Anomalia"], output_dict=True)
report_df = pd.DataFrame(report).transpose()

fig, ax = plt.subplots(figsize=(6, 3))
sns.heatmap(report_df.iloc[:-1, :-1], annot=True, fmt=".2f", cmap="Blues", cbar=False, ax=ax)
ax.set_title("Classification Report ‚Äì Isolation Forest")
plt.tight_layout()
plt.savefig(f"{ASSETS}/classification_report.png", dpi=300, bbox_inches="tight")
plt.close()
print("‚úÖ classification_report.png guardada")

‚úÖ classification_report.png guardada


In [18]:
# 5. Matriz de confusi√≥n
plt.figure(figsize=(4, 3))
sns.heatmap(confusion_matrix(y_true, y_pred), annot=True, fmt="d", cmap="Blues",
            xticklabels=["Normal", "Anomalia"], yticklabels=["Normal", "Anomalia"])
plt.title("Matriz de Confusi√≥n")
plt.ylabel("Real"); plt.xlabel("Predicci√≥n")
plt.savefig(f"{ASSETS}/confusion_matrix.png", dpi=300, bbox_inches="tight")
plt.close()
print("‚úÖ confusion_matrix.png guardada")

‚úÖ confusion_matrix.png guardada


In [19]:
# 6. Plantilla del informe (Python f-string)
fecha = datetime.now().strftime("%d/%m/%Y")

md_text = f"""
# Informe T√©cnico ‚Äì Detecci√≥n de Anomal√≠as en Logs del Valle
**Fecha de generaci√≥n:** {fecha}  
**Autor:**  ‚Äì Proyecto Acad√©mico de Ciberseguridad

## 1. Resumen Ejecutivo
Se implement√≥ un modelo **Isolation Forest** capaz de detectar **intentos de intrusi√≥n** en logs de entidades gubernamentales con **precisi√≥n del 100 %** y **recall del 99 %**, sobre un dataset de **100 000 eventos** con **5 000 ataques sint√©ticos**.

## 2. Metodolog√≠a
### 2.1 Dataset
- **Origen:** Logs sint√©ticos generados con Python (librer√≠a Faker).  
- **Vol√∫men:** 100 000 filas.  
- **Campos:** timestamp, src_ip, dst_ip, service, status, user_agent, bytes.  

### 2.2 Modelo
- **Algoritmo:** Isolation Forest (√°rboles de aislamiento).  
- **Contaminaci√≥n:** 5 %.  
- **Features:** hora del d√≠a, bytes, origen (interno/externo), servicio, estado.  

## 3. Resultados
### 3.1 M√©tricas
![Classification Report](assets/classification_report.png)

### 3.2 Matriz de Confusi√≥n
![Confusion Matrix](assets/confusion_matrix.png)

### 3.3 Dashboard en Kibana
![Dashboard](assets/dashboard_screenshot.png)

## 4. Conclusiones y Pr√≥ximos Pasos
- El sistema **no genera falsos positivos**, ideal para equipos SOC.  
- Se detecta **99 % de los ataques reales**.  
- **Pr√≥ximo paso:** Probar con logs reales en producci√≥n y ajustar umbral din√°micamente.

---
**Nota:** Este informe fue generado autom√°ticamente desde un notebook de Jupyter.
"""

# Guardar .md
with open(f"{OUT_DIR}/informe.md", "w", encoding="utf-8") as f:
    f.write(md_text)

print("‚úÖ Markdown creado: informe.md")

‚úÖ Markdown creado: informe.md


In [20]:
# 7. Leer markdown y convertir a HTML
html = markdown.markdown(md_text, extensions=['extra', 'codehilite'])

# 8. A√±adir CSS bonito
css = """
<style>
body{font-family:Arial,Helvetica,sans-serif;margin:40px;line-height:1.6}
h1{color:#005a9c;border-bottom:2px solid #005a9c}
h2{color:#0078d4}
img{max-width:100%;height:auto;margin:20px 0}
table{border-collapse:collapse;width:100%}
th,td{border:1px solid #ddd;padding:8px}
th{background-color:#f2f2f2}
</style>
"""

full_html = f"<html><head><meta charset='utf-8'>{css}</head><body>{html}</body></html>"

# 9. Guardar PDF
weasyprint.HTML(string=full_html, base_url=".").write_pdf(f"{OUT_DIR}/Valle_Anomalia_Reporte.pdf")
print("‚úÖ PDF generado: Valle_Anomalia_Reporte.pdf")

‚úÖ PDF generado: Valle_Anomalia_Reporte.pdf


In [21]:
# 10. Comprobar que existe y peso
import os
ruta_pdf = f"{OUT_DIR}/Valle_Anomalia_Reporte.pdf"
if os.path.exists(ruta_pdf):
    size = os.path.getsize(ruta_pdf) / 1024
    print(f"üìÑ {ruta_pdf} listo ({size:.1f} KB)")
else:
    print("‚ùå No se cre√≥ el PDF")

üìÑ /home/davidperlaza14/Proyectos/ValleAnomalia/5_Report/salida/Valle_Anomalia_Reporte.pdf listo (145.9 KB)
