# Exploración de Datos HDFS
---

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from pathlib import Path

In [None]:
# Cargar datos
df = pd.read_csv('data/processed/hdfs_processed.csv')

In [None]:
# Asegurarse de que 'plots' existe
plots_dir = Path('outputs/plots')
plots_dir.mkdir(parents=True, exist_ok=True)

In [None]:
# Estadísticas básicas
total = len(df)
anom_count = int(df['label'].sum())
anom_pct = df['label'].mean() * 100
print(f"Total logs: {total}")
print(f"Anomalías: {anom_count} ({anom_pct:.2f}%)")

In [None]:
# Top 10 mensajes más frequentes
top_messages = df['message'].value_counts().head(10)

plt.figure(figsize=(10, 6))
top_messages.plot(kind='barh')
plt.gca().invert_yaxis()  # most frequent on top
plt.title('Top 10 Mensajes más Frecuentes')
plt.xlabel('Frecuencia')
plt.tight_layout()
plt.savefig(plots_dir / 'top_messages.png', dpi=120)
plt.show()

In [None]:
# Ejemplo de anomalías
anom_df = df[df['label'] == 1]
k = min(5, len(anom_df))
print("\nEjemplo de anomalías:")
print(anom_df[['message', 'block_id']].sample(k, random_state=42) if k > 0 else "No hay anomalías etiquetadas.")