In [None]:
# Importar las librerías necesarias
import pandas as pd
import numpy as np

# Librerías para preprocesamiento y modelado
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# Modelos de aprendizaje automático
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb

# Modelos de aprendizaje profundo
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM
from tensorflow.keras.utils import to_categorical

# Configurar el entorno para evitar advertencias innecesarias
import warnings
warnings.filterwarnings('ignore')


In [None]:
cic_data = [] # Datasets

cic_data


In [None]:
# Cargar datos benignos y maliciosos de la cámara Danmini Doorbell
benign_data = pd.read_csv('benign_data.csv')
malicious_data = pd.read_csv('malicious_data.csv')

# Agregar una columna para etiquetar los datos
benign_data['Class'] = 'Benign'
malicious_data['Class'] = 'Malicious'

# Combinar los datos benignos y maliciosos
nbaiot_data = pd.concat([benign_data, malicious_data], ignore_index=True)

# Mostrar las primeras filas del conjunto de datos
print("\nPrimeras filas de N-BaIoT:")
print(nbaiot_data.head())


In [None]:
# Verificar valores faltantes en CIC-DDoS2019
print("\nValores faltantes en CIC-DDoS2019:")
print(cic_data.isnull().sum())

# Eliminar filas con valores faltantes
cic_data.dropna(inplace=True)

# Verificar valores faltantes en N-BaIoT
print("\nValores faltantes en N-BaIoT:")
print(nbaiot_data.isnull().sum())

# Eliminar filas con valores faltantes
nbaiot_data.dropna(inplace=True)


In [None]:
# Crear un objeto LabelEncoder
label_encoder = LabelEncoder()

# Codificar las etiquetas en CIC-DDoS2019
cic_data['Label'] = label_encoder.fit_transform(cic_data['Label'])

# Codificar las etiquetas en N-BaIoT
nbaiot_data['Class'] = label_encoder.fit_transform(nbaiot_data['Class'])


In [None]:
# Eliminar columnas no relevantes en CIC-DDoS2019
columns_to_drop_cic = ['Flow ID', ' Source IP', ' Destination IP', ' Timestamp']
cic_data.drop(columns=columns_to_drop_cic, inplace=True, errors='ignore')

# Si hay columnas irrelevantes en N-BaIoT, eliminarlas (ajustar según corresponda)
# columns_to_drop_nbaiot = ['ColumnaIrrelevante1', 'ColumnaIrrelevante2']
# nbaiot_data.drop(columns=columns_to_drop_nbaiot, inplace=True)


In [None]:
# Separar características y etiquetas en CIC-DDoS2019
cic_features = cic_data.drop('Label', axis=1)
cic_labels = cic_data['Label']

# Separar características y etiquetas en N-BaIoT
nbaiot_features = nbaiot_data.drop('Class', axis=1)
nbaiot_labels = nbaiot_data['Class']

# Escalar las características utilizando StandardScaler
scaler_cic = StandardScaler()
cic_features_scaled = scaler_cic.fit_transform(cic_features)

scaler_nbaiot = StandardScaler()
nbaiot_features_scaled = scaler_nbaiot.fit_transform(nbaiot_features)


In [None]:
# Distribución de clases en CIC-DDoS2019
print("\nDistribución de clases en CIC-DDoS2019:")
print(cic_labels.value_counts())

# Distribución de clases en N-BaIoT
print("\nDistribución de clases en N-BaIoT:")
print(nbaiot_labels.value_counts())


In [None]:
# División en conjuntos de entrenamiento y prueba para CIC-DDoS2019
cic_X_train, cic_X_test, cic_y_train, cic_y_test = train_test_split(
        cic_features_scaled, cic_labels, test_size=0.2, random_state=42, stratify=cic_labels)

# División en conjuntos de entrenamiento y prueba para N-BaIoT
nbaiot_X_train, nbaiot_X_test, nbaiot_y_train, nbaiot_y_test = train_test_split(
        nbaiot_features_scaled, nbaiot_labels, test_size=0.2, random_state=42, stratify=nbaiot_labels)


In [None]:
# Modelo Random Forest para CIC-DDoS2019
rf_model_cic = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model_cic.fit(cic_X_train, cic_y_train)

# Modelo Random Forest para N-BaIoT
rf_model_nbaiot = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model_nbaiot.fit(nbaiot_X_train, nbaiot_y_train)


In [None]:
# Predicciones y evaluación para CIC-DDoS2019
cic_y_pred_rf = rf_model_cic.predict(cic_X_test)
print("\nReporte de clasificación para Random Forest en CIC-DDoS2019:")
print(classification_report(cic_y_test, cic_y_pred_rf))

# Predicciones y evaluación para N-BaIoT
nbaiot_y_pred_rf = rf_model_nbaiot.predict(nbaiot_X_test)
print("\nReporte de clasificación para Random Forest en N-BaIoT:")
print(classification_report(nbaiot_y_test, nbaiot_y_pred_rf))


In [None]:
# Modelo XGBoost para CIC-DDoS2019
xgb_model_cic = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss', random_state=42)
xgb_model_cic.fit(cic_X_train, cic_y_train)

# Modelo XGBoost para N-BaIoT
xgb_model_nbaiot = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss', random_state=42)
xgb_model_nbaiot.fit(nbaiot_X_train, nbaiot_y_train)


In [None]:
# Predicciones y evaluación para CIC-DDoS2019
cic_y_pred_xgb = xgb_model_cic.predict(cic_X_test)
print("\nReporte de clasificación para XGBoost en CIC-DDoS2019:")
print(classification_report(cic_y_test, cic_y_pred_xgb))

# Predicciones y evaluación para N-BaIoT
nbaiot_y_pred_xgb = xgb_model_nbaiot.predict(nbaiot_X_test)
print("\nReporte de clasificación para XGBoost en N-BaIoT:")
print(classification_report(nbaiot_y_test, nbaiot_y_pred_xgb))


In [None]:
# Redimensionar los datos para que sean compatibles con LSTM
# Añadir una dimensión temporal (timesteps = 1)

# Para CIC-DDoS2019
cic_X_train_lstm = cic_X_train.reshape((cic_X_train.shape[0], 1, cic_X_train.shape[1]))
cic_X_test_lstm = cic_X_test.reshape((cic_X_test.shape[0], 1, cic_X_test.shape[1]))

# Para N-BaIoT
nbaiot_X_train_lstm = nbaiot_X_train.reshape((nbaiot_X_train.shape[0], 1, nbaiot_X_train.shape[1]))
nbaiot_X_test_lstm = nbaiot_X_test.reshape((nbaiot_X_test.shape[0], 1, nbaiot_X_test.shape[1]))


In [None]:
# Convertir etiquetas a formato categórico (one-hot encoding)

# Para CIC-DDoS2019
num_classes_cic = len(np.unique(cic_y_train))
cic_y_train_cat = to_categorical(cic_y_train, num_classes=num_classes_cic)
cic_y_test_cat = to_categorical(cic_y_test, num_classes=num_classes_cic)

# Para N-BaIoT
num_classes_nbaiot = len(np.unique(nbaiot_y_train))
nbaiot_y_train_cat = to_categorical(nbaiot_y_train, num_classes=num_classes_nbaiot)
nbaiot_y_test_cat = to_categorical(nbaiot_y_test, num_classes=num_classes_nbaiot)


In [None]:
# Modelo LSTM para CIC-DDoS2019
model_cic = Sequential()
model_cic.add(LSTM(64, input_shape=(cic_X_train_lstm.shape[1], cic_X_train_lstm.shape[2])))
model_cic.add(Dense(num_classes_cic, activation='softmax'))

# Compilar el modelo
model_cic.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenar el modelo
print("\nEntrenando modelo LSTM para CIC-DDoS2019...")
model_cic.fit(cic_X_train_lstm, cic_y_train_cat, epochs=5, batch_size=64, validation_data=(cic_X_test_lstm, cic_y_test_cat))

# Modelo LSTM para N-BaIoT
model_nbaiot = Sequential()
model_nbaiot.add(LSTM(64, input_shape=(nbaiot_X_train_lstm.shape[1], nbaiot_X_train_lstm.shape[2])))
model_nbaiot.add(Dense(num_classes_nbaiot, activation='softmax'))

# Compilar el modelo
model_nbaiot.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenar el modelo
print("\nEntrenando modelo LSTM para N-BaIoT...")
model_nbaiot.fit(nbaiot_X_train_lstm, nbaiot_y_train_cat, epochs=5, batch_size=64, validation_data=(nbaiot_X_test_lstm, nbaiot_y_test_cat))


In [None]:
# Evaluación para CIC-DDoS2019
print("\nEvaluando modelo LSTM para CIC-DDoS2019...")
cic_y_pred_lstm = model_cic.predict(cic_X_test_lstm)
cic_y_pred_lstm_classes = np.argmax(cic_y_pred_lstm, axis=1)

print("\nReporte de clasificación para LSTM en CIC-DDoS2019:")
print(classification_report(cic_y_test, cic_y_pred_lstm_classes))

# Evaluación para N-BaIoT
print("\nEvaluando modelo LSTM para N-BaIoT...")
nbaiot_y_pred_lstm = model_nbaiot.predict(nbaiot_X_test_lstm)
nbaiot_y_pred_lstm_classes = np.argmax(nbaiot_y_pred_lstm, axis=1)

print("\nReporte de clasificación para LSTM en N-BaIoT:")
print(classification_report(nbaiot_y_test, nbaiot_y_pred_lstm_classes))


In [None]:
# Aquí puedes comparar las métricas obtenidas por cada modelo en ambos conjuntos de datos
# Por ejemplo, podrías crear un DataFrame con las precisiones de cada modelo

# Suponiendo que ya has almacenado las métricas relevantes
results = {
    'Modelo': ['Random Forest', 'XGBoost', 'LSTM'],
    'CIC-DDoS2019 Accuracy': [
        rf_model_cic.score(cic_X_test, cic_y_test),
        xgb_model_cic.score(cic_X_test, cic_y_test),
        model_cic.evaluate(cic_X_test_lstm, cic_y_test_cat, verbose=0)[1]
    ],
    'N-BaIoT Accuracy': [
        rf_model_nbaiot.score(nbaiot_X_test, nbaiot_y_test),
        xgb_model_nbaiot.score(nbaiot_X_test, nbaiot_y_test),
        model_nbaiot.evaluate(nbaiot_X_test_lstm, nbaiot_y_test_cat, verbose=0)[1]
    ]
}

results_df = pd.DataFrame(results)
print("\nComparación de precisiones entre modelos y conjuntos de datos:")
print(results_df)
