# 🔍 Análisis Exploratorio de Datos - Anti-Keylogger Dataset

Este notebook realiza un análisis exploratorio completo de los datasets de detección de keyloggers, incluyendo limpieza de datos, análisis estadístico y preparación para machine learning.

## 📊 Objetivos del Análisis

1. **Explorar** los datasets raw (38k y 500k registros)
2. **Limpiar** datos inconsistentes y valores faltantes
3. **Analizar** distribuciones y patrones
4. **Preparar** datos para modelos ML avanzados
5. **Exportar** en formatos eficientes (Parquet, HDF5)

---

## 1. 📚 Import Required Libraries

Importamos las bibliotecas esenciales para data science, visualización y machine learning.

In [1]:
# Data manipulation and analysis
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Visualization libraries
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Machine learning libraries
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc

# Data format handlers
import pickle
import json
from datetime import datetime

# Set visualization style
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configure pandas display options
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("✅ Bibliotecas importadas exitosamente")
print(f"📅 Fecha de análisis: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

✅ Bibliotecas importadas exitosamente
📅 Fecha de análisis: 2025-09-18 11:40:47


## 2. 📂 Load and Explore Raw Datasets

Cargamos los datasets raw y exploramos su estructura básica.

In [2]:
# Define data paths
DATA_DIR = Path("../data/raw")
PROCESSED_DIR = Path("../data/processed")
MODELS_DIR = Path("../models")

# Create directories if they don't exist
PROCESSED_DIR.mkdir(parents=True, exist_ok=True)

# Load datasets
print("🔄 Cargando datasets...")

try:
    # Load small dataset (~38k records)
    df_small = pd.read_csv(DATA_DIR / "keylogger_dataset_small.csv", low_memory=False)
    print(f"✅ Dataset pequeño cargado: {df_small.shape[0]:,} filas, {df_small.shape[1]} columnas")
    
    # Load large dataset (~500k records) - sample first to avoid memory issues
    df_large_sample = pd.read_csv(DATA_DIR / "keylogger_dataset_large.csv", nrows=50000, low_memory=False)
    print(f"✅ Muestra del dataset grande cargada: {df_large_sample.shape[0]:,} filas, {df_large_sample.shape[1]} columnas")
    
    # Get basic info about large dataset without loading it all
    with open(DATA_DIR / "keylogger_dataset_large.csv", 'r') as f:
        line_count = sum(1 for line in f) - 1  # Subtract header
    print(f"📊 Dataset grande completo: {line_count:,} filas estimadas")
    
except FileNotFoundError as e:
    print(f"❌ Error: {e}")
    print("Asegúrate de que los archivos estén en la carpeta data/raw/")
except Exception as e:
    print(f"❌ Error inesperado: {e}")

🔄 Cargando datasets...
✅ Dataset pequeño cargado: 38,998 filas, 86 columnas
✅ Dataset pequeño cargado: 38,998 filas, 86 columnas
✅ Muestra del dataset grande cargada: 50,000 filas, 86 columnas
✅ Muestra del dataset grande cargada: 50,000 filas, 86 columnas
📊 Dataset grande completo: 523,617 filas estimadas
📊 Dataset grande completo: 523,617 filas estimadas
