# Setup

In [1]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

# Common imports
import numpy as np
import os

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)


# creo el csv a tratar

In [2]:
import pandas as pd

non_malicious_data = pd.read_csv("DatosDeTraficoBueno.csv")
malicious_data = pd.read_csv("DatosDeTraficoMalo_5vs1.csv")


# Limpieza de características

In [3]:
#Elimina datos
#columnas_a_eliminar = ['exaddr','engine_type','engine_id','dst_mask','src_mask', 'dst_mask','src_as','dst_as','#:unix_secs','unix_nsecs','sysuptime','first','last','nexthop']
columnas_a_eliminar = ['srcaddr','dstaddr','exaddr','engine_type','engine_id','dst_mask','src_mask', 'dst_mask','src_as','dst_as','#:unix_secs','unix_nsecs','sysuptime','first','last','nexthop']
malicious_data = malicious_data.drop(columnas_a_eliminar, axis=1)
non_malicious_data = non_malicious_data.drop(columnas_a_eliminar, axis=1)

In [4]:
malicious_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 615081 entries, 0 to 615080
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype
---  ------     --------------   -----
 0   dpkts      615081 non-null  int64
 1   doctets    615081 non-null  int64
 2   input      615081 non-null  int64
 3   output     615081 non-null  int64
 4   srcport    615081 non-null  int64
 5   dstport    615081 non-null  int64
 6   prot       615081 non-null  int64
 7   tos        615081 non-null  int64
 8   tcp_flags  615081 non-null  int64
dtypes: int64(9)
memory usage: 42.2 MB


In [5]:
malicious_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 615081 entries, 0 to 615080
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype
---  ------     --------------   -----
 0   dpkts      615081 non-null  int64
 1   doctets    615081 non-null  int64
 2   input      615081 non-null  int64
 3   output     615081 non-null  int64
 4   srcport    615081 non-null  int64
 5   dstport    615081 non-null  int64
 6   prot       615081 non-null  int64
 7   tos        615081 non-null  int64
 8   tcp_flags  615081 non-null  int64
dtypes: int64(9)
memory usage: 42.2 MB


# Clasificación


In [6]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.linear_model import Perceptron
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay


In [7]:

# Agregar una columna de etiquetas a cada conjunto de datos
malicious_data['etiqueta'] = 1
non_malicious_data['etiqueta'] = 0
# Combinar los conjuntos de datos y mezclarlos aleatoriamente
datos = pd.concat([malicious_data, non_malicious_data]).sample(frac=1, random_state=2)

X = datos.drop('etiqueta', axis=1)
y = datos['etiqueta']
# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

from sklearn.preprocessing import MinMaxScaler
# Inicializa el escalador
scaler = MinMaxScaler()

# Ajusta el escalador a los datos de entrenamiento y luego transforma los datos de entrenamiento
X_train = scaler.fit_transform(X_train)

# Usa el escalador ajustado para transformar los datos de prueba
X_test = scaler.transform(X_test)



In [8]:

def evaluate_classification_model(y_true, y_pred):
    # Calcular la precisión del modelo
    accuracy = accuracy_score(y_true, y_pred)
    print('Precisión del modelo: {:.2f}%'.format(accuracy * 100))
    
    # Recall
    recall = recall_score(y_true, y_pred)
    print('Recall: {:.2f}%'.format(recall * 100))
    
    # Precisión
    precision = precision_score(y_true, y_pred)
    print('Precisión: {:.2f}%'.format(precision * 100))
    
    # F1 Score
    f1 = f1_score(y_true, y_pred)
    print('F1 Score: {:.2f}%'.format(f1 * 100))

    # Imprimir matriz de confusión
    cm = confusion_matrix(y_true, y_pred)
    cmd = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["No malicioso", "Malicioso"])
    
    # Dibujar la matriz de confusión
    fig, ax = plt.subplots(figsize=(5, 5))
    cmd.plot(ax=ax, cmap=plt.cm.Blues)
    plt.show()

In [9]:
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Función para evaluar el modelo sin CV
def evaluate_classification_model_no_cv(model, X_test, y_test):
    # Realizar predicciones con el modelo
    y_pred = model.predict(X_test)

    # Calcular la precisión del modelo
    accuracy = accuracy_score(y_test, y_pred)
    print('Precisión del modelo sin CV: {:.2f}%'.format(accuracy * 100))
    
    # Recall
    recall = recall_score(y_test, y_pred)
    print('Recall sin CV: {:.2f}%'.format(recall * 100))
    
    # Precisión
    precision = precision_score(y_test, y_pred)
    print('Precisión sin CV: {:.2f}%'.format(precision * 100))
    
    # F1 Score
    f1 = f1_score(y_test, y_pred)
    print('F1 Score sin CV: {:.2f}%'.format(f1 * 100))

    # Imprimir matriz de confusión
    cm = confusion_matrix(y_test, y_pred)
    cmd = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["No malicioso", "Malicioso"])
    
    # Dibujar la matriz de confusión
    fig, ax = plt.subplots(figsize=(5, 5))
    cmd.plot(ax=ax, cmap=plt.cm.Blues)
    plt.show()

# Función para evaluar el modelo con CV
def evaluate_classification_model_with_cv(model, X, y, cv=5):
    # Realiza la validación cruzada y obtén las predicciones
    y_pred = cross_val_predict(model, X, y, cv=cv)

    # Calcular la precisión del modelo
    accuracy = accuracy_score(y, y_pred)
    print('Precisión del modelo con CV: {:.2f}%'.format(accuracy * 100))
    
    # Recall
    recall = recall_score(y, y_pred)
    print('Recall con CV: {:.2f}%'.format(recall * 100))
    
    # Precisión
    precision = precision_score(y, y_pred)
    print('Precisión con CV: {:.2f}%'.format(precision * 100))
    
    # F1 Score
    f1 = f1_score(y, y_pred)
    print('F1 Score con CV: {:.2f}%'.format(f1 * 100))

    # Imprimir matriz de confusión
    cm = confusion_matrix(y, y_pred)
    cmd = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["No malicioso", "Malicioso"])
    
    # Dibujar la matriz de confusión
    fig, ax = plt.subplots(figsize=(5, 5))
    cmd.plot(ax=ax, cmap=plt.cm.Blues)
    plt.show()



# KNeighbors

In [None]:
model = KNeighborsClassifier()

# Se entrena el modelo con los datos de entrenamiento
model.fit(X_train, y_train)


# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)


# LogisticRegression

In [None]:
model = LogisticRegression(max_iter=1000)
# Se entrena el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)

# LinearSVC

In [None]:

model = LinearSVC(max_iter=1000)
# Se entrena el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)

# Perceptron

In [None]:
import matplotlib.pyplot as plt

model = Perceptron(random_state=42)
# Se entrena el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)

# RandomForestClassifier

In [None]:
model = RandomForestClassifier()
# Se entrena el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Se hacen predicciones con los datos de prueba
predictions = model.predict(X_test)

evaluate_classification_model(y_test, predictions)

# Decision tree

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Crear el modelo de árbol de decisión
model = DecisionTreeClassifier()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)



# AdaBoost

In [None]:
from sklearn.ensemble import AdaBoostClassifier

# Crear el modelo Adaboost
model = AdaBoostClassifier()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)


# xgboost

In [None]:
import xgboost as xgb

# Crear el modelo XGBoost
model = xgb.XGBClassifier()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)


# naive bayes

In [None]:

from sklearn.naive_bayes import GaussianNB

# Crear el modelo de clasificador Naive Bayes
model = GaussianNB()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluación sin CV
evaluate_classification_model_no_cv(model, X_test, y_test)

# Evaluación con CV

evaluate_classification_model_with_cv(model, X, y, cv=5)

# Ensemble Classifier con votación mayoritaria para mejorar la precisión

In [None]:
"""from sklearn.ensemble import VotingClassifier
# Crear el ensemble classifier con votación mayoritaria
ensemble_model = VotingClassifier(estimators=[('lr', best_model2), ('perceptron', best_model4), ('lsvc', best_model3), ('rf', best_model5), ('knn', best_model1)], voting='hard')

# Entrenar el ensemble classifier
ensemble_model.fit(X_train, y_train)

# Hacer predicciones con el ensemble classifier
predictions = ensemble_model.predict(X_test)

# Evaluar el rendimiento del ensemble classifier
accuracy = accuracy_score(y_test, predictions)
print('Precisión del ensemble classifier: {:.2f}%'.format(accuracy * 100))"""