# Ejercicios Conceptuales - Módulo 3: Fundamentos de IA y Machine Learning

**Objetivo:** Consolidar la comprensión de los conceptos teóricos fundamentales de la Inteligencia Artificial (IA) y el Machine Learning (ML), sus tipos, el proceso estándar y la terminología clave, aplicados al contexto de la ciberseguridad.

## 1. IA vs. ML

**Ejercicio 1.1: Definiciones Propias**

En tus propias palabras, explica brevemente:
1. ¿Qué es la Inteligencia Artificial (IA)?
2. ¿Qué es el Machine Learning (ML)?
3. ¿Cuál es la relación principal entre IA y ML?

**Escribe tu respuesta aquí:**

1.  *IA es...*
2.  *ML es...*
3.  *La relación es...*

## 2. Tipos de Aprendizaje Automático (Machine Learning)

**Ejercicio 2.1: Identificación de Problemas**

Para cada uno de los siguientes escenarios de ciberseguridad, identifica qué tipo principal de Machine Learning se aplicaría (Elige entre: **Clasificación**, **Regresión**, **Clustering**):

1.  Determinar si un archivo ejecutable es 'malware' o 'benigno' basándose en sus características estáticas (tamaño, secciones, etc.).
2.  Predecir la puntuación de riesgo (un valor numérico entre 0 y 100) de una nueva vulnerabilidad basándose en su descripción y tipo.
3.  Agrupar automáticamente alertas de seguridad similares generadas por un SIEM para reducir el ruido, sin saber de antemano cuáles son los grupos 'correctos'.
4.  Decidir si un intento de login es 'legítimo' o 'fraudulento' basándose en la IP de origen, hora del día y comportamiento previo del usuario.
5.  Estimar la cantidad de tráfico de red (en Gigabytes) que generará un ataque DDoS basándose en las características iniciales observadas.
6.  Descubrir patrones anómalos en el tráfico de red que no corresponden a comportamientos conocidos, para identificar posibles ataques zero-day.

**Escribe tus respuestas aquí:**

1.  *Tipo de ML: ...*
2.  *Tipo de ML: ...*
3.  *Tipo de ML: ...*
4.  *Tipo de ML: ...*
5.  *Tipo de ML: ...*
6.  *Tipo de ML: ...*

**Ejercicio 2.2: Supervisado vs. No Supervisado**

Explica brevemente la diferencia fundamental entre el aprendizaje supervisado y el no supervisado. ¿Qué papel juegan las 'etiquetas' (labels) en esta diferencia?

**Escribe tu respuesta aquí:**

*La diferencia principal es... Las etiquetas son importantes porque...*

## 3. El Proceso de Machine Learning

**Ejercicio 3.1: Orden de Pasos**

Ordena los siguientes pasos generales del proceso de Machine Learning:

* Evaluación del Modelo
* Entrenamiento del Modelo
* Selección del Modelo
* Despliegue (Puesta en producción)
* Recolección de Datos
* Preprocesamiento de Datos e Ingeniería de Características

**Escribe el orden correcto aquí:**

1.  ...
2.  ...
3.  ...
4.  ...
5.  ...
6.  ...

**Ejercicio 3.2: Importancia del Preprocesamiento**

¿Por qué es crucial la etapa de 'Preprocesamiento de Datos e Ingeniería de Características'? Menciona al menos un ejemplo de preprocesamiento que podría ser necesario al trabajar con logs de seguridad.

**Escribe tu respuesta aquí:**

*Es crucial porque... Un ejemplo de preprocesamiento en logs podría ser...*

## 4. Conceptos Clave: Features, Labels, Datasets

**Ejercicio 4.1: Features y Labels en Phishing**

Imagina que quieres construir un modelo para detectar si una URL es de 'phishing' o 'legítima'.

1.  Menciona al menos 3 posibles *features* (características) que podrías extraer de la URL para usar en tu modelo.
2.  ¿Cuál sería la *label* (etiqueta) que tu modelo intentaría predecir?

**Escribe tus respuestas aquí:**

1.  *Features posibles: ...*
2.  *Label: ...*

**Ejercicio 4.2: Propósito de los Conjuntos de Datos**

Explica brevemente cuál es el propósito principal de cada uno de estos conjuntos de datos en el desarrollo de un modelo de ML:

1.  Conjunto de Entrenamiento (Training Set)
2.  Conjunto de Prueba (Test Set)
3.  Conjunto de Validación (Validation Set - opcional pero común)

**Escribe tus respuestas aquí:**

1.  *Training Set se usa para...*
2.  *Test Set se usa para...*
3.  *Validation Set se usa para...*

**Ejercicio 4.3: Ilustración de División Train/Test (Código)**

El siguiente código usa la función `train_test_split` de `scikit-learn` para dividir datos simulados (`X`) y sus etiquetas (`y`) en conjuntos de entrenamiento y prueba. Ejecútalo y observa cómo se dividen los datos. 

*Nota: Esto es solo para ilustrar la división, no estamos entrenando un modelo aquí.*

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split

# Datos simulados (features): 10 ejemplos, 2 características cada uno
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], 
                [11, 12], [13, 14], [15, 16], [17, 18], [19, 20]])

# Etiquetas simuladas (0 o 1)
y = np.array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])

# Dividir los datos (80% entrenamiento, 20% prueba)
# random_state asegura que la división sea la misma cada vez que se ejecuta
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Forma de X (original):", X.shape)
print("Forma de y (original):", y.shape)
print("---")
print("Forma de X_train:", X_train.shape)
print("Forma de y_train:", y_train.shape)
print("---")
print("Forma de X_test:", X_test.shape)
print("Forma de y_test:", y_test.shape)

# Puedes imprimir los arrays para ver qué datos cayeron en cada conjunto
# print("\nX_train:\n", X_train)
# print("\nX_test:\n", X_test)

## 5. Problemas Comunes: Overfitting y Underfitting

**Ejercicio 5.1: Explicaciones**

Explica con tus palabras:
1.  ¿Qué significa que un modelo está **sobreajustado** (overfitting)? ¿Cómo se manifestaría esto al comparar su rendimiento en el conjunto de entrenamiento vs. el conjunto de prueba?
2.  ¿Qué significa que un modelo está **subajustado** (underfitting)? ¿Cómo se manifestaría su rendimiento?

**Escribe tus respuestas aquí:**

1.  *Overfitting es... Se vería como...*
2.  *Underfitting es... Se vería como...*

## 6. Métricas de Evaluación Básicas (Interpretación Conceptual)

**Ejercicio 6.1: Matriz de Confusión y Accuracy**

Imagina que un modelo de detección de malware ha sido probado en 1000 archivos. La matriz de confusión resultante es:

|                | Predicho: Benigno | Predicho: Malware |
|----------------|-----------------|-------------------|
| **Real: Benigno** | 950 (TN)        | 10 (FP)           |
| **Real: Malware** | 5 (FN)          | 35 (TP)           |

Donde:
* TN = True Negatives (Benignos correctamente clasificados)
* FP = False Positives (Benignos clasificados como Malware - Falsa Alarma)
* FN = False Negatives (Malware clasificado como Benigno - Fallo Peligroso)
* TP = True Positives (Malware correctamente clasificado)

1.  Calcula la **Accuracy** (Exactitud) del modelo. Accuracy = (TP + TN) / Total.
2.  ¿Cuántos archivos de malware reales **no** fueron detectados por el modelo?

In [None]:
# Calcula la Accuracy aquí
TN = 950
FP = 10
FN = 5
TP = 35

Total = TN + FP + FN + TP

# accuracy = ...
# print(f"Total de archivos: {Total}")
# print(f"Accuracy: {accuracy:.4f}") # :.4f formatea a 4 decimales

# Responde a la pregunta 2 aquí (puedes usar un print)
# print(f"Número de malware no detectado (FN): {FN}")

**Ejercicio 6.2: Precision vs. Recall (Contexto)**

Recordando las definiciones:
* **Precision** (Precisión) = TP / (TP + FP) - *De todo lo que predije como Positivo, ¿cuánto era realmente Positivo?* (Minimiza Falsos Positivos)
* **Recall** (Sensibilidad/Exhaustividad) = TP / (TP + FN) - *De todos los Positivos reales, ¿cuántos encontré?* (Minimiza Falsos Negativos)

Considera los siguientes escenarios:

1.  **Escenario A:** Estás construyendo un sistema para detectar intrusiones de red muy peligrosas. Un **Falso Negativo** (no detectar una intrusión real) tendría consecuencias catastróficas. Un Falso Positivo (investigar una alerta que no era real) es molesto pero manejable. ¿Priorizarías optimizar la **Precision** o el **Recall** de la clase 'Intrusión'? ¿Por qué?

2.  **Escenario B:** Estás construyendo un filtro anti-spam para correos electrónicos. Un **Falso Positivo** (marcar un correo importante como spam) es muy problemático para el usuario. Un Falso Negativo (dejar pasar algo de spam) es molesto pero menos grave. ¿Priorizarías optimizar la **Precision** o el **Recall** de la clase 'Spam'? ¿Por qué?

**Escribe tus respuestas aquí:**

1.  *Escenario A: Priorizaría... porque...*
2.  *Escenario B: Priorizaría... porque...*

**Ejercicio 6.3: Limitaciones de la Accuracy**

Imagina un dataset donde el 99% de los logs de red son tráfico normal ('Benigno') y solo el 1% es tráfico de ataque ('Malicioso'). Un modelo muy simple podría decidir clasificar *siempre* como 'Benigno'.

1.  ¿Qué Accuracy tendría este modelo tan simple en ese dataset?
2.  ¿Sería útil este modelo para detectar ataques? ¿Por qué la Accuracy puede ser engañosa en datasets desbalanceados?

**Escribe tus respuestas aquí:**

1.  *La Accuracy sería aproximadamente...*
2.  *El modelo sería (útil/inútil) porque... La Accuracy es engañosa aquí porque...*

--- 
¡Felicidades! Has repasado los conceptos teóricos clave del Machine Learning. Entender estos fundamentos es esencial antes de empezar a implementar y evaluar modelos en el próximo módulo.