# Laboratorio 3

El modelo predice el Attack Type (tipo de ataque) basado en las columnas textuales: 'Scenario Description', 'Tools Used', 'Attack Steps ', 'Vulnerability' y 'Tags'. Estas se combinan en una sola característica de texto y se vectorizan usando TF-IDF.

---
#### Paso 1: Importar librerías y cargar el dataset

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.preprocessing import LabelEncoder
import numpy as np

# Cargar el dataset
df = pd.read_csv('Attack_Dataset.csv')


# Limpiar columna extra si existe
if 'Unnamed: 15' in df.columns:
    df = df.drop('Unnamed: 15', axis=1)

# Combinar columnas textuales en una sola para vectorización
df['combined_text'] = df['Scenario Description'].fillna('') + ' ' + \
                      df['Tools Used'].fillna('') + ' ' + \
                      df['Attack Steps '].fillna('') + ' ' + \
                      df['Vulnerability'].fillna('') + ' ' + \
                      df['Tags'].fillna('')

# --- LIMPIEZA Y AGRUPAMIENTO DE LA ETIQUETA target (Attack Type)
# Normalizar: strip y lowercase
df['Attack Type'] = df['Attack Type'].astype(str).str.strip().str.lower()
df['Attack Type'].replace({'': 'unknown', 'nan': 'unknown'}, inplace=True)

# Agrupar clases raras: mantener top-K y el resto como 'other'
vc = df['Attack Type'].value_counts()
top_k = 15
top = vc.nlargest(top_k).index
df['Attack Type_grouped'] = df['Attack Type'].where(df['Attack Type'].isin(top), other='other')

# Usar la columna agrupada como target
y = df['Attack Type_grouped']

# Codificar etiquetas
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

---
### Paso 2: Preprocesamiento y vectorización

In [8]:
# Vectorización TF-IDF
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')  # Limitamos a 5000 features para eficiencia
X = vectorizer.fit_transform(df['combined_text'])

# Dividir en train/test (intentamos usar stratify para mantener distribución)
from collections import Counter
min_count = min(dict(Counter(y_encoded)).values())
stratify_param = y_encoded if min_count > 1 else None
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42, stratify=stratify_param)

---
### Paso 3: Crear y entrenar el modelo

In [9]:
# Crear el modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)  # 100 árboles, usa todos los cores

# Entrenar
model.fit(X_train, y_train)

# Evaluar en test
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

# Información adicional
print('Número de clases objetivo:', len(label_encoder.classes_))

labels = np.unique(np.concatenate([y_test, y_pred]))
try:
    target_names = label_encoder.inverse_transform(labels)
except Exception:
    target_names = [str(l) for l in labels]
print(classification_report(y_test, y_pred, labels=labels, target_names=target_names))

Accuracy: 0.9384506544039618
Número de clases objetivo: 16
                                  precision    recall  f1-score   support

               data exfiltration       0.00      0.00      0.00        11
default credentials exploitation       1.00      0.50      0.67        10
            dependency confusion       1.00      0.22      0.36        18
            fuzzer configuration       1.00      0.27      0.42        15
 hardware interface exploitation       1.00      0.03      0.06        32
                hmi exploitation       0.00      0.00      0.00        10
             malicious libraries       1.00      0.07      0.12        15
               malicious library       0.00      0.00      0.00        14
     malicious peripheral attack       0.00      0.00      0.00        10
      misuse of legitimate tools       0.00      0.00      0.00        11
                           other       0.94      1.00      0.97      2618
            privilege escalation       0.00      0.0

  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


---
### Paso 4: Cómo utilizar el modelo para predicciones <br>
Para hacer predicciones con valores propios o aleatorios:
- **Valores propios:** Proporciona un diccionario con las claves: 'Scenario Description', 'Tools Used', 'Attack Steps ', 'Vulnerability', 'Tags'. Cada uno es un string.
- **Valores aleatorios:** Selecciona una fila aleatoria del dataset y predice sobre ella (para simular).

In [10]:
def predict_attack_type(new_data, is_dict=True):
    """
    Predice el Attack Type dado un diccionario o una fila aleatoria.
    
    - Si is_dict=True: new_data es un dict con claves: 'Scenario Description', 'Tools Used', 
      'Attack Steps ', 'Vulnerability', 'Tags'.
    - Si is_dict=False: Selecciona una fila aleatoria del dataset.
    """
    if not is_dict:
        # Aleatorio: seleccionar fila random
        random_row = df.sample(1)
        combined = random_row['combined_text'].values[0]
        true_label = random_row['Attack Type'].values[0]
        print(f"Usando fila aleatoria (True Attack Type: {true_label})")
    else:
        # Propios: combinar textos
        combined = new_data.get('Scenario Description', '') + ' ' + \
                   new_data.get('Tools Used', '') + ' ' + \
                   new_data.get('Attack Steps ', '') + ' ' + \
                   new_data.get('Vulnerability', '') + ' ' + \
                   new_data.get('Tags', '')
    
    # Vectorizar
    new_vector = vectorizer.transform([combined])
    
    # Predecir
    pred_encoded = model.predict(new_vector)
    pred_label = label_encoder.inverse_transform(pred_encoded)[0]
    
    return pred_label

# Ejemplo con valores propios
custom_data = {
    'Scenario Description': 'A login form fails to validate input',
    'Tools Used': 'Burp Suite, SQLMap',
    'Attack Steps ': 'Enter payload OR 1=1',
    'Vulnerability': 'Unsanitized input',
    'Tags': 'SQLi, Web Security'
}
print("Predicción propia:", predict_attack_type(custom_data))

# Ejemplo aleatorio
print("Predicción aleatoria:", predict_attack_type(None, is_dict=False))

Predicción propia: other
Usando fila aleatoria (True Attack Type: fuzzing execution)
Predicción aleatoria: other
