# Ejercicios Prácticos - Módulo 5: Implementación con Ejemplos del Libro/Repositorio Cylance

**Objetivo:** Interactuar con el código y los datos del repositorio `cylance/IntroductionToMachineLearningForSecurityPros`. Analizar, ejecutar (o replicar partes de) un ejemplo específico (Clasificación de archivos PE de Chapter 3), comprender su flujo de trabajo, interpretar sus resultados en el contexto de la ciberseguridad y experimentar con modificaciones.

## 1. Configuración del Entorno

**Ejercicio 1.1: Clonar el Repositorio**

Utiliza `git clone` para descargar el contenido del repositorio de Cylance en tu entorno de Colab.

In [None]:
!git clone https://github.com/cylance/IntroductionToMachineLearningForSecurityPros.git

**Ejercicio 1.2: Instalar Dependencias (Si es necesario)**

El repositorio puede tener un archivo `requirements.txt`. Aunque no todos los scripts lo necesiten, es buena práctica intentar instalar las dependencias. Navega al directorio del repositorio y lista los archivos para encontrarlo. Si existe, instálalo usando `pip`.

*Nota: La instalación puede tardar un poco. Puede que algunas dependencias muy antiguas no funcionen directamente en Colab actual, pero intentaremos trabajar con las librerías ya incluidas (Pandas, Scikit-learn) que son las más importantes para nuestro análisis.*

In [None]:
# Navegar al directorio (si es necesario, aunque usualmente Colab clona en /content/)
%cd IntroductionToMachineLearningForSecurityPros

# Listar archivos para verificar si existe requirements.txt
!ls

# Si ves 'requirements.txt', descomenta e intenta instalarlo
# !pip install -r requirements.txt

# Volver al directorio /content/ por si acaso para mantener rutas consistentes
%cd /content/

## 2. Explorando el Ejemplo: Clasificación de Archivos PE (Chapter 3)

**Referencia:** Nos centraremos en el ejemplo `pe_classify.py` dentro del directorio `IntroductionToMachineLearningForSecurityPros/Chapter3/`.

**Ejercicio 2.1: Examinar el Script (Lectura)**

1.  Navega (mentalmente o usando `!cat` o el explorador de archivos de Colab) al archivo `IntroductionToMachineLearningForSecurityPros/Chapter3/pe_classify.py`.
2.  Léelo por encima. No necesitas entender cada línea perfectamente, pero intenta identificar:
    * ¿Qué librerías principales importa (ej. pandas, sklearn)?
    * ¿Qué archivo de datos parece cargar o utilizar? (Busca nombres de archivo como `.csv`).
    * ¿Qué tipo de modelo de Machine Learning parece estar utilizando (ej. RandomForest, LogisticRegression, etc.)?
    * ¿Cómo parece evaluar el modelo (qué métricas busca)?

*Nota: Si ejecutar `!cat` produce demasiado texto, puedes abrir el archivo desde el panel izquierdo de Colab (pestaña "Archivos") navegando a la carpeta.*

In [None]:
# Puedes usar 'cat' para ver el contenido del script directamente aquí (puede ser largo)
# !cat IntroductionToMachineLearningForSecurityPros/Chapter3/pe_classify.py

# Alternativamente, usa el explorador de archivos de Colab para abrirlo y leerlo.

**Ejercicio 2.2: Cargar los Datos**

Basado en tu lectura del script (o explorando el directorio `Chapter3/data/`), el archivo de datos probablemente sea `pe_section_headers.csv`.

1.  Define la ruta correcta a este archivo dentro de la estructura clonada.
2.  Carga este archivo CSV en un DataFrame de Pandas llamado `df_pe`.
3.  Muestra las primeras filas (`.head()`), información general (`.info()`) y las columnas (`.columns`).

In [None]:
import pandas as pd

# Define la ruta al archivo de datos
# Ajusta si la estructura del repo cambia en el futuro
data_path = "IntroductionToMachineLearningForSecurityPros/Chapter3/data/pe_section_headers.csv"

try:
    df_pe = pd.read_csv(data_path)
    print("Datos cargados exitosamente.")

    print("\n--- Primeras filas (head) ---")
    print(df_pe.head())
    
    print("\n--- Información (.info) ---")
    df_pe.info()

    print("\n--- Columnas ---")
    print(df_pe.columns)

except FileNotFoundError:
    print(f"Error: No se encontró el archivo en la ruta: {data_path}")
    print("Asegúrate de haber clonado el repositorio correctamente y que la ruta es correcta.")
    df_pe = None # Para evitar errores posteriores si falla la carga


## 3. Comprendiendo el Código y los Datos

**Ejercicio 3.1: Identificar Features y Target**

Observando las columnas del DataFrame `df_pe`:
1.  ¿Cuál columna crees que es la **variable objetivo** (target) que el modelo intenta predecir (es decir, si es malware o no)?
2.  Las otras columnas son las **features** (características) extraídas de las cabeceras de sección de los archivos PE. ¿Qué tipo de información parecen representar estas features (ej. nombres de secciones, tamaños, entropía, características virtuales/raw)?

**Escribe tu respuesta aquí:**

1.  *La columna target probablemente es: ...*
2.  *Las features representan: ...*

**Ejercicio 3.2: Preprocesamiento Aplicado**

Revisando el script `pe_classify.py` (o asumiendo buenas prácticas):
1.  ¿Crees que sería necesario aplicar **escalado** a estas features antes de entrenar un modelo como RandomForest o Logistic Regression? ¿Por qué sí o por qué no?
2.  ¿Hay alguna feature очевидно **categórica** que necesite codificación (como One-Hot Encoding)? (Basado en los nombres y `df_pe.info()`).

**Escribe tu respuesta aquí:**

1.  *Escalado: (Sí/No/Depende)... porque...*
2.  *Codificación Categórica: (Sí/No)... Feature(s): ...*

## 4. Replicando el Análisis Básico en Colab

**Objetivo:** Vamos a replicar los pasos clave de entrenar y evaluar un modelo similar al del script, pero directamente en nuestro notebook para mayor control y comprensión.

In [None]:
# Importar librerías necesarias si no están ya importadas
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier # Asumimos que el script usa RF, ajústalo si usa otro
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Verificar si df_pe se cargó correctamente
if df_pe is not None:
    # 1. Separar Features (X) y Target (y)
    # Asume que la columna target se llama 'malware' (ajusta si es diferente)
    if 'malware' in df_pe.columns:
        y = df_pe['malware']
        # Usar todas las demás columnas como features (simple inicial)
        # El script original podría seleccionar features específicas o excluir algunas
        # Excluimos columnas no numéricas obvias si no se preprocesan (ej. 'name', 'hash')
        potential_feature_cols = df_pe.select_dtypes(include=np.number).columns.tolist()
        if 'malware' in potential_feature_cols:
             potential_feature_cols.remove('malware') # Quitar la etiqueta de las features
        
        # Verifica si hay columnas no numéricas que deberías excluir o codificar
        # Por simplicidad, aquí solo usamos las numéricas.
        X = df_pe[potential_feature_cols]
        print(f"Usando {len(X.columns)} features numéricas.")

        # 2. Dividir en Train/Test
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
        print(f"Datos divididos: {X_train.shape[0]} entrenamiento, {X_test.shape[0]} prueba.")
        
        # 3. Preprocesamiento (Opcional/Necesario)
        # Si decidiste que escalar es necesario (ej. para LR, KNN), hazlo aquí.
        # Para RandomForest, a menudo no es estrictamente necesario.
        # scaler = StandardScaler()
        # X_train_scaled = scaler.fit_transform(X_train)
        # X_test_scaled = scaler.transform(X_test)
        # Por ahora, usaremos los datos sin escalar con RandomForest
        X_train_processed = X_train
        X_test_processed = X_test
        
        # 4. Crear y Entrenar Modelo (ej. RandomForest)
        # Usa parámetros similares a los que pudiste ver en el script si es posible
        model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1) # n_jobs=-1 usa todos los cores
        print("\nEntrenando el modelo RandomForest...")
        model.fit(X_train_processed, y_train)
        print("Entrenamiento completado.")
        
        # 5. Predecir en el conjunto de prueba
        y_pred = model.predict(X_test_processed)
        
        # 6. Evaluar
        print("\n--- Evaluación del Modelo Replicado (PE Classification) ---")
        accuracy = accuracy_score(y_test, y_pred)
        precision = precision_score(y_test, y_pred) # Asume clase 1 (malware) es la positiva
        recall = recall_score(y_test, y_pred)    # Asume clase 1 (malware) es la positiva
        f1 = f1_score(y_test, y_pred)       # Asume clase 1 (malware) es la positiva
        cm = confusion_matrix(y_test, y_pred)
        
        print(f"Accuracy: {accuracy:.4f}")
        print(f"Precision (para clase 1): {precision:.4f}")
        print(f"Recall (para clase 1): {recall:.4f}")
        print(f"F1-score (para clase 1): {f1:.4f}")
        print("Matriz de Confusión:")
        disp = ConfusionMatrixDisplay(confusion_matrix=cm)
        disp.plot()
        plt.show()
    else:
        print("Error: La columna 'malware' no se encontró en el DataFrame.")
        print("Verifica el nombre correcto de la columna target en el Ejercicio 3.1.")
else:
    print("Error: El DataFrame df_pe no fue cargado. No se puede continuar.")


**Ejercicio 4.1: Interpretación de Resultados**

Observa las métricas de evaluación obtenidas:
1.  ¿Qué significa el valor de **Recall** obtenido en el contexto de la detección de malware? ¿Es un valor alto o bajo deseable para Recall en este caso? ¿Por qué?
2.  ¿Qué significa el valor de **Precision**? ¿Qué representa un Falso Positivo en este contexto (columna FP de la matriz)?
3.  Basado en las métricas, ¿considerarías que este modelo replicado es efectivo para detectar malware en este dataset?

**Escribe tu respuesta aquí:**

1.  *Recall significa... Es deseable un Recall (alto/bajo)... porque...*
2.  *Precision significa... Un Falso Positivo aquí es...*
3.  *El modelo parece (efectivo/poco efectivo/etc.)... porque...*

## 5. Experimentación

**Ejercicio 5.1: Cambiar Parámetros del Modelo**

1.  Vuelve a entrenar el `RandomForestClassifier`, pero esta vez cambia un hiperparámetro, por ejemplo, `n_estimators` a `50` (menos árboles) o `max_depth` a `10` (limitar profundidad del árbol).
2.  Re-evalúa el modelo con este cambio.
3.  ¿Cómo afectó el cambio a las métricas de rendimiento (Accuracy, Precision, Recall, F1)? ¿Y al tiempo de entrenamiento (aunque no lo medimos explícitamente)?

In [None]:
# Verifica si los datos están disponibles
if 'X_train_processed' in locals() and df_pe is not None and 'malware' in df_pe.columns:
    # 1. Crear y Entrenar Modelo con parámetros cambiados
    model_exp = RandomForestClassifier(n_estimators=50, # Cambiado de 100
                                     max_depth=10,     # Añadido límite de profundidad
                                     random_state=42, 
                                     n_jobs=-1)
    print("\nEntrenando el modelo RandomForest (Experimento)...")
    model_exp.fit(X_train_processed, y_train)
    print("Entrenamiento completado.")

    # 2. Predecir y Evaluar
    y_pred_exp = model_exp.predict(X_test_processed)
    
    print("\n--- Evaluación del Modelo (Experimento) ---")
    accuracy_exp = accuracy_score(y_test, y_pred_exp)
    precision_exp = precision_score(y_test, y_pred_exp)
    recall_exp = recall_score(y_test, y_pred_exp)
    f1_exp = f1_score(y_test, y_pred_exp)
    cm_exp = confusion_matrix(y_test, y_pred_exp)
    
    print(f"Accuracy: {accuracy_exp:.4f}")
    print(f"Precision: {precision_exp:.4f}")
    print(f"Recall: {recall_exp:.4f}")
    print(f"F1-score: {f1_exp:.4f}")
    print("Matriz de Confusión:")
    disp_exp = ConfusionMatrixDisplay(confusion_matrix=cm_exp)
    disp_exp.plot()
    plt.show()
    
    # 3. Compara los resultados (responde en celda Markdown)
else:
    print("Error: Los datos procesados (X_train_processed, etc.) no están disponibles.")

**Respuesta a la Pregunta 5.1 (Comparación):**

*El cambio en los parámetros (n_estimators/max_depth) resultó en... (métricas más altas/bajas/similares). El tiempo de entrenamiento probablemente fue... (mayor/menor/similar)*

**Ejercicio 5.2: Probar un Modelo Diferente**

1.  Ahora, en lugar de RandomForest, prueba con `LogisticRegression` (como hiciste en el Módulo 4). Recuerda que para Logistic Regression, **sí es recomendable escalar** los datos.
2.  Aplica `StandardScaler` a `X_train` y `X_test` (asegúrate de hacer `fit_transform` en train y solo `transform` en test).
3.  Entrena `LogisticRegression` con los datos escalados.
4.  Evalúa el rendimiento y compáralo con los resultados del RandomForest original.

In [None]:
# Importar StandardScaler y LogisticRegression si no están ya
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# Verificar si los datos originales están disponibles
if 'X_train' in locals() and 'X_test' in locals():
    # 2. Escalar Datos
    print("\nEscalando datos para Logistic Regression...")
    scaler_lr = StandardScaler()
    X_train_lr_scaled = scaler_lr.fit_transform(X_train)
    X_test_lr_scaled = scaler_lr.transform(X_test)
    print("Datos escalados.")
    
    # 3. Crear y Entrenar Logistic Regression
    log_reg_model = LogisticRegression(random_state=42, max_iter=1000) # Aumentar max_iter si no converge
    print("Entrenando Logistic Regression...")
    log_reg_model.fit(X_train_lr_scaled, y_train)
    print("Entrenamiento completado.")
    
    # 4. Predecir y Evaluar
    y_pred_lr_exp = log_reg_model.predict(X_test_lr_scaled)
    
    print("\n--- Evaluación del Modelo (Logistic Regression) ---")
    accuracy_lr_exp = accuracy_score(y_test, y_pred_lr_exp)
    precision_lr_exp = precision_score(y_test, y_pred_lr_exp)
    recall_lr_exp = recall_score(y_test, y_pred_lr_exp)
    f1_lr_exp = f1_score(y_test, y_pred_lr_exp)
    cm_lr_exp = confusion_matrix(y_test, y_pred_lr_exp)

    print(f"Accuracy: {accuracy_lr_exp:.4f}")
    print(f"Precision: {precision_lr_exp:.4f}")
    print(f"Recall: {recall_lr_exp:.4f}")
    print(f"F1-score: {f1_lr_exp:.4f}")
    print("Matriz de Confusión:")
    disp_lr_exp = ConfusionMatrixDisplay(confusion_matrix=cm_lr_exp)
    disp_lr_exp.plot()
    plt.show()
    
    # Compara mentalmente con RandomForest original
else:
    print("Error: Los datos originales (X_train, X_test) no están disponibles.")

## 6. Reflexión Final

**Ejercicio 6.1: Desafíos y Aprendizajes**

Reflexiona sobre el proceso de trabajar con este ejemplo del repositorio:
1.  ¿Qué fue lo más desafiante: entender el código del script original, cargar/entender los datos, replicar el análisis, o interpretar los resultados?
2.  ¿Qué concepto de los módulos anteriores (Python, Pandas, Scikit-learn básico, teoría de ML) te resultó más útil para abordar este ejercicio?
3.  ¿Cómo difiere este ejemplo (datos, complejidad) de los ejercicios más simples de los módulos anteriores?

**Escribe tu reflexión aquí:**

1.  *Lo más desafiante fue...*
2.  *El concepto más útil fue...*
3.  *Este ejemplo difiere en...*

--- 
¡Felicidades por completar este módulo! Has dado un paso importante al interactuar con código y datos más realistas de Machine Learning aplicado a ciberseguridad. Este proceso de analizar, replicar y experimentar con ejemplos existentes es una habilidad clave para seguir aprendiendo y aplicando estas técnicas.