In [1]:
from dns_attacks_detection import *

Hasta ahora hemos seleccionado los 3 mejores modelos usando el vector de características "extract_features_with_letters_and_numbers", que contiene 4 características, y los 3 mejores modelos usando el vector de características "extract_features_with_letter_counting", que contiene un número mucho mayor de características, ya que cuenta la aparación de cada letra o número.

Ahora podemos comparar el rendimiento de estos 6 modelos y 2 vectores de características con un nuevo conjunto de datos mucho mayor que el conjunto de datos trabajado anteriormente, que ninguno de los modelos ha visto antes.

# extract_features_with_letters_and_numbers

## Cargar los datos y generar el vector de características

In [2]:
dns = create_feature_vector_from_log_file('5OCT.log', extract_features_with_letters_and_numbers)
features_test = dns.drop('attack', 1)
labels_test = dns['attack']

## Analizar los modelos

In [3]:
directory = './models/extract_features_with_letters_and_numbers/'

### Decision Trees

In [4]:
tree_clf = joblib.load(directory + 'decision_trees.pkl')

In [5]:
final_precision, final_recall, final_f1 = evaluate_model_with_precision_and_recall(
    tree_clf, features_test, labels_test)
print("Precision: ", final_precision, "\nRecall: ", final_recall, "\nF1: ", final_f1)

Precision:  0.952051651809 
Recall:  0.907129250851 
F1:  0.929047733269


### Decision Trees + KNN

In [6]:
tree_knn_clf = joblib.load(directory + 'decision_trees+knn.pkl')

In [7]:
final_precision, final_recall, final_f1 = evaluate_model_with_precision_and_recall(
    tree_knn_clf, features_test, labels_test)
print("Precision: ", final_precision, "\nRecall: ", final_recall, "\nF1: ", final_f1)

Precision:  0.961409777489 
Recall:  0.924241951098 
F1:  0.942459559292


### K-Nearest-Neighbors

In [8]:
knn_clf = joblib.load(directory + 'k_nearest_neighbors.pkl')

In [9]:
final_precision, final_recall, final_f1 = evaluate_model_with_precision_and_recall(
    knn_clf, features_test, labels_test)
print("Precision: ", final_precision, "\nRecall: ", final_recall, "\nF1: ", final_f1)

Precision:  0.973928253193 
Recall:  0.921556381351 
F1:  0.947018804955


# extract_features_with_letter_counting

## Cargar los datos y generar el vector de características

In [10]:
dns = create_feature_vector_from_log_file('5OCT.log', extract_features_with_letter_counting)
features_test = dns.drop('attack', 1)
labels_test = dns['attack']

## Analizar los modelos

In [11]:
directory = './models/extract_features_with_letter_counting/'

### Decision Trees

In [12]:
tree_clf = joblib.load(directory + 'decision_trees.pkl')

In [13]:
final_precision, final_recall, final_f1 = evaluate_model_with_precision_and_recall(
    tree_clf, features_test, labels_test)
print("Precision: ", final_precision, "\nRecall: ", final_recall, "\nF1: ", final_f1)

Precision:  0.998795964855 
Recall:  0.958467351591 
F1:  0.9782161809


### K-Nearest-Neighbors

In [14]:
knn_clf = joblib.load(directory + 'k_nearest_neighbors.pkl')

In [15]:
final_precision, final_recall, final_f1 = evaluate_model_with_precision_and_recall(
    knn_clf, features_test, labels_test)
print("Precision: ", final_precision, "\nRecall: ", final_recall, "\nF1: ", final_f1)

Precision:  0.998738708028 
Recall:  0.914904912094 
F1:  0.954985494964


### Support Vector Machines (Gaussian RBF Kernel)

In [16]:
svm_clf_rbf = joblib.load(directory + 'support_vector_machines_RBF_kernel.pkl')

In [17]:
final_precision, final_recall, final_f1 = evaluate_model_with_precision_and_recall(
    svm_clf_rbf, features_test, labels_test)
print("Precision: ", final_precision, "\nRecall: ", final_recall, "\nF1: ", final_f1)

Precision:  0.998808181672 
Recall:  0.968304031477 
F1:  0.983319591552


Usando el vector de características más reducido, el modelo que parece dar mejores resultados es "K-Nearest-Neighbors". Su exhaustividad es ligeramente menor que el modelo conjunto de "Decision Trees + KNN", pero su precisión es algo mayor, quedando con una puntuación F1 más alta y un valor de exahustividad del 92%.

Usando el vector de características más extenso, el modelo con mejor rendimiento es "Support Vector Machines (Gaussian RBF Kernel)", alcanzando una exhaustividad de casi un 97%.

Parece que el vector de características más extenso da un mejor resultado que el que contiene menos características, pero el costo computacional para trabajar con él también es más alto. Por lo tanto se deberá tener en cuenta si la preferencia es tener el mayor rendimiento posible sin tener en cuenta el costo computacional, o sin embargo, el rendimiento del vector que es más pequeño es suficiente, dado su menor costo.