# IDS basico con KDD

In [62]:
import pandas as pd
from tensorflow.keras.utils import get_file

def Banner_Presentacion():
    print("****************************************") 
    print("*                                      *")
    print("*                IDS_ALPHA             *")
    print("*                                      *")
    print("****************************************")
    print('--- Opciones: ---')
    print('0. Origen de archivos')
    print('1. Analizar datos')    
    pass

def Origen_Archivo_URL():
    archivo1 = input('Nombre del archivo: ')
    archivo2 = input('Direccion url: ')
    return get_file(archivo1, origin= archivo2)
#//////////////////////////////////////////////////////////////////////////////////

Banner_Presentacion()
op = int(input('> '))
while op < 0 or op > 1:
    op = int(input('*** Intente de nuevo ***\n> '))
    
path = get_file('kddcup.data_10_percent.gz', origin=
        'http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz')

if op == 0:
    try:
        path = Origen_Archivo_URL()
    except:
        print('Error con el origen de datos')
        raise
    print("--- Se cambio el origen del dataset ---")
    
    
print("Carpeta Origen: ",path) 
df = pd.read_csv(path, header=None)

print("Filas encontradas: ",format(len(df)))
df.dropna(inplace=True,axis=1) 

# este archivo csv no tiene cabezeras para las columnas
df.columns = [
    'duration',
    'protocol',
    'service',
    'flag',
    'src_bytes',
    'dst_bytes',
    'land',
    'wrong_fragment',
    'urgent',
    'hot',
    'num_failed_logins',
    'logged_in',
    'num_compromised',
    'root_shell',
    'su_attempted',
    'num_root',
    'num_file_creations',
    'num_shells',
    'num_access_files',
    'num_outbound_cmds',
    'is_host_login',
    'is_guest_login',
    'count',
    'srv_count',
    'serror_rate',
    'srv_serror_rate',
    'rerror_rate',
    'srv_rerror_rate',
    'same_srv_rate',
    'diff_srv_rate',
    'srv_diff_host_rate',
    'dst_host_count',
    'dst_host_srv_count',
    'dst_host_same_srv_rate',
    'dst_host_diff_srv_rate',
    'dst_host_same_src_port_rate',
    'dst_host_srv_diff_host_rate',
    'dst_host_serror_rate',
    'dst_host_srv_serror_rate',
    'dst_host_rerror_rate',
    'dst_host_srv_rerror_rate',
    'outcome'
]

# mostrar 5 filas
display(df[0:5])

****************************************
*                                      *
*                IDS_ALPHA             *
*                                      *
****************************************
--- Opciones: ---
0. Origen de archivos
1. Analizar datos
> 1
Carpeta Origen:  C:\Users\Usuario\.keras\datasets\kddcup.data_10_percent.gz
Filas encontradas:  494021


Unnamed: 0,duration,protocol_type,...,dst_host_srv_rerror_rate,outcome
0,0,tcp,...,0.0,normal.
1,0,tcp,...,0.0,normal.
2,0,tcp,...,0.0,normal.
3,0,tcp,...,0.0,normal.
4,0,tcp,...,0.0,normal.


# Analizando un conjunto de datos
Antes de preprocesar el conjunto de datos KDD99, echemos un vistazo a las columnas y distribuciones individuales. Puede usar la siguiente secuencia de comandos para brindar una descripción general de alto nivel de cómo aparece un conjunto de datos.

In [67]:
import pandas as pd
import os
import numpy as np
from sklearn import metrics
from scipy.stats import zscore

def Categorias(values):
    result = []
    s = values.value_counts()
    t = float(len(values))
    for v in s.index:
        result.append("{}:{}%".format(v,round(100*(s[v]/t),2)))
    return "[{}]".format(",".join(result))
        
def Analizar(df):
    print()
    cols = df.columns.values
    total = float(len(df))

    print("Filas: ",format(int(total)))
    for col in cols:
        uniques = df[col].unique()
        unique_count = len(uniques)
        if unique_count>100:
            print("** {}:{} ({}%)".format(col,unique_count,int(((unique_count)/total)*100)))
        else:
            print("** {}:{}".format(col,Categorias(df[col])))
            Categorias(df[col])

El análisis analiza cuántos valores únicos están presentes. Por ejemplo, la duración, que es un valor numérico, tiene 2495 valores únicos y hay una superposición del 0%. Un valor text / categórico como protocol_type solo tiene unos pocos valores únicos, y el programa muestra los porcentajes de cada uno. Las columnas con una gran cantidad de valores únicos no muestran sus recuentos de elementos para ahorrar espacio de visualización.

In [68]:
Analizar(df)


Filas:  494021
** duration:2495 (0%)
** protocol_type:[icmp:57.41%,tcp:38.47%,udp:4.12%]
** service:[ecr_i:56.96%,private:22.45%,http:13.01%,smtp:1.97%,other:1.46%,domain_u:1.19%,ftp_data:0.96%,eco_i:0.33%,ftp:0.16%,finger:0.14%,urp_i:0.11%,telnet:0.1%,ntp_u:0.08%,auth:0.07%,pop_3:0.04%,time:0.03%,csnet_ns:0.03%,remote_job:0.02%,imap4:0.02%,gopher:0.02%,domain:0.02%,discard:0.02%,iso_tsap:0.02%,systat:0.02%,echo:0.02%,shell:0.02%,rje:0.02%,sql_net:0.02%,whois:0.02%,printer:0.02%,courier:0.02%,nntp:0.02%,sunrpc:0.02%,netbios_ssn:0.02%,mtp:0.02%,klogin:0.02%,uucp_path:0.02%,vmnet:0.02%,bgp:0.02%,uucp:0.02%,supdup:0.02%,ssh:0.02%,nnsp:0.02%,login:0.02%,hostnames:0.02%,daytime:0.02%,efs:0.02%,netbios_ns:0.02%,link:0.02%,pop_2:0.02%,ldap:0.02%,netbios_dgm:0.02%,exec:0.02%,http_443:0.02%,name:0.02%,kshell:0.02%,ctf:0.02%,netstat:0.02%,Z39_50:0.02%,IRC:0.01%,urh_i:0.0%,X11:0.0%,tim_i:0.0%,pm_dump:0.0%,red_i:0.0%,tftp_u:0.0%]
** flag:[SF:76.6%,S0:17.61%,REJ:5.44%,RSTR:0.18%,RSTO:0.12%,SH:0.02

** dst_host_srv_serror_rate:[0.0:81.16%,1.0:17.61%,0.01:0.99%,0.02:0.14%,0.03:0.03%,0.04:0.02%,0.05:0.01%,0.06:0.01%,0.08:0.0%,0.5:0.0%,0.07:0.0%,0.1:0.0%,0.09:0.0%,0.11:0.0%,0.17:0.0%,0.14:0.0%,0.12:0.0%,0.96:0.0%,0.33:0.0%,0.67:0.0%,0.97:0.0%,0.25:0.0%,0.98:0.0%,0.4:0.0%,0.75:0.0%,0.48:0.0%,0.83:0.0%,0.16:0.0%,0.93:0.0%,0.69:0.0%,0.2:0.0%,0.91:0.0%,0.78:0.0%,0.95:0.0%,0.8:0.0%,0.92:0.0%,0.68:0.0%,0.29:0.0%,0.38:0.0%,0.88:0.0%,0.3:0.0%,0.32:0.0%,0.94:0.0%,0.57:0.0%,0.63:0.0%,0.62:0.0%,0.31:0.0%,0.85:0.0%,0.56:0.0%,0.81:0.0%,0.74:0.0%,0.86:0.0%,0.13:0.0%,0.23:0.0%,0.18:0.0%,0.64:0.0%,0.46:0.0%,0.52:0.0%,0.66:0.0%,0.6:0.0%,0.84:0.0%,0.55:0.0%,0.9:0.0%,0.15:0.0%,0.79:0.0%,0.82:0.0%,0.87:0.0%,0.47:0.0%,0.53:0.0%,0.45:0.0%,0.42:0.0%,0.24:0.0%]
** dst_host_rerror_rate:101 (0%)
** dst_host_srv_rerror_rate:101 (0%)
** outcome:[smurf.:56.84%,neptune.:21.7%,normal.:19.69%,back.:0.45%,satan.:0.32%,ipsweep.:0.25%,portsweep.:0.21%,warezclient.:0.21%,teardrop.:0.2%,pod.:0.05%,nmap.:0.05%,guess_pass

# Codificar el vector de características¶
Usamos las mismas dos funciones proporcionadas anteriormente para preprocesar los datos. El primero codifica Z-Scores y el segundo crea variables ficticias a partir de columnas categóricas.

In [69]:
# Codificar una columna numérica como zscores
def encode_numeric_zscore(df, name, mean=None, sd=None):
    if mean is None:
        mean = df[name].mean()

    if sd is None:
        sd = df[name].std()

    df[name] = (df[name] - mean) / sd
    
# Codificar valores de texto en variables ficticias (es decir, [1,0,0],
# [0,1,0], [0,0,1] para rojo, verde, azul)
def encode_text_dummy(df, name):
    dummies = pd.get_dummies(df[name])
    for x in dummies.columns:
        dummy_name = f"{name}-{x}"
        df[dummy_name] = dummies[x]
    df.drop(name, axis=1, inplace=True)

Nuevamente, al igual que hicimos para la detección de anomalías, preprocesamos el conjunto de datos. Convertimos todos los valores numéricos a Z-Score y traducimos todas las variables categóricas a ficticias.

In [70]:
# Ahora codifique el vector de características

encode_numeric_zscore(df, 'duration')
encode_text_dummy(df, 'protocol_type')
encode_text_dummy(df, 'service')
encode_text_dummy(df, 'flag')
encode_numeric_zscore(df, 'src_bytes')
encode_numeric_zscore(df, 'dst_bytes')
encode_text_dummy(df, 'land')
encode_numeric_zscore(df, 'wrong_fragment')
encode_numeric_zscore(df, 'urgent')
encode_numeric_zscore(df, 'hot')
encode_numeric_zscore(df, 'num_failed_logins')
encode_text_dummy(df, 'logged_in')
encode_numeric_zscore(df, 'num_compromised')
encode_numeric_zscore(df, 'root_shell')
encode_numeric_zscore(df, 'su_attempted')
encode_numeric_zscore(df, 'num_root')
encode_numeric_zscore(df, 'num_file_creations')
encode_numeric_zscore(df, 'num_shells')
encode_numeric_zscore(df, 'num_access_files')
encode_numeric_zscore(df, 'num_outbound_cmds')
encode_text_dummy(df, 'is_host_login')
encode_text_dummy(df, 'is_guest_login')
encode_numeric_zscore(df, 'count')
encode_numeric_zscore(df, 'srv_count')
encode_numeric_zscore(df, 'serror_rate')
encode_numeric_zscore(df, 'srv_serror_rate')
encode_numeric_zscore(df, 'rerror_rate')
encode_numeric_zscore(df, 'srv_rerror_rate')
encode_numeric_zscore(df, 'same_srv_rate')
encode_numeric_zscore(df, 'diff_srv_rate')
encode_numeric_zscore(df, 'srv_diff_host_rate')
encode_numeric_zscore(df, 'dst_host_count')
encode_numeric_zscore(df, 'dst_host_srv_count')
encode_numeric_zscore(df, 'dst_host_same_srv_rate')
encode_numeric_zscore(df, 'dst_host_diff_srv_rate')
encode_numeric_zscore(df, 'dst_host_same_src_port_rate')
encode_numeric_zscore(df, 'dst_host_srv_diff_host_rate')
encode_numeric_zscore(df, 'dst_host_serror_rate')
encode_numeric_zscore(df, 'dst_host_srv_serror_rate')
encode_numeric_zscore(df, 'dst_host_rerror_rate')
encode_numeric_zscore(df, 'dst_host_srv_rerror_rate')



df.dropna(inplace=True,axis=1)
df[0:5]
# Este es el vector de características numéricas, ya que va a la red neuronal

Unnamed: 0,duration,src_bytes,...,is_guest_login-0,is_guest_login-1
0,-0.067792,-0.002879,...,1,0
1,-0.067792,-0.00282,...,1,0
2,-0.067792,-0.002824,...,1,0
3,-0.067792,-0.00284,...,1,0
4,-0.067792,-0.002842,...,1,0


In [73]:
# Convertir de numpy - Classification
x_columns = df.columns.drop('outcome')
x = df[x_columns].values
dummies = pd.get_dummies(df['outcome']) # Clasificacion
outcomes = dummies.columns
num_classes = len(outcomes)
y = dummies.values

Intentaremos predecir qué tipo de ataque se está llevando a cabo. La columna de resultados especifica el tipo de ataque. Un valor de normal indica que no hay ningún ataque en curso. Mostramos los resultados; algunos tipos de ataques son mucho más raros que otros.

In [74]:
df.groupby('outcome')['outcome'].count()

outcome
back.               2203
buffer_overflow.      30
                    ... 
warezclient.        1020
warezmaster.          20
Name: outcome, Length: 23, dtype: int64

# Entrene la red neuronal
Ahora entrenamos la red neuronal para clasificar los diferentes resultados de KDD99. El código proporcionado aquí implementa un sistema neuronal relativamente simple con dos capas ocultas. Lo entrenamos con los datos KDD99 proporcionados.

In [55]:

import pandas as pd
import io
import requests
import numpy as np
import os
from sklearn.model_selection import train_test_split
from sklearn import metrics
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation
from tensorflow.keras.callbacks import EarlyStopping

In [56]:
# Cree una división de prueba / Prueba del 25%
# Dividir en pruebas
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.25, random_state=42)

# Crear red neuronal
model = Sequential()
model.add(Dense(10, input_dim=x.shape[1], activation='relu'))
model.add(Dense(50, input_dim=x.shape[1], activation='relu'))
model.add(Dense(10, input_dim=x.shape[1], activation='relu'))
model.add(Dense(1, kernel_initializer='normal'))
model.add(Dense(y.shape[1],activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')
monitor = EarlyStopping(monitor='val_loss', min_delta=1e-3, 
                        patience=5, verbose=1, mode='auto',
                           restore_best_weights=True)
model.fit(x_train,y_train,validation_data=(x_test,y_test),
          callbacks=[monitor],verbose=2,epochs=1000)

Train on 370515 samples, validate on 123506 samples
Epoch 1/1000
370515/370515 - 83s - loss: 0.1155 - val_loss: 0.0387
Epoch 2/1000
370515/370515 - 73s - loss: 0.0382 - val_loss: 0.0310
Epoch 3/1000
370515/370515 - 70s - loss: 0.0334 - val_loss: 0.0257
Epoch 4/1000
370515/370515 - 69s - loss: 0.0276 - val_loss: 0.0230
Epoch 5/1000
370515/370515 - 61s - loss: 0.0296 - val_loss: 0.0217
Epoch 6/1000
370515/370515 - 61s - loss: 0.0264 - val_loss: 0.0206
Epoch 7/1000
370515/370515 - 62s - loss: 0.0271 - val_loss: 0.0202
Epoch 8/1000
370515/370515 - 63s - loss: 0.0214 - val_loss: 0.0230
Epoch 9/1000
370515/370515 - 70s - loss: 0.0326 - val_loss: 0.0184
Epoch 10/1000
370515/370515 - 69s - loss: 0.0206 - val_loss: 0.0178
Epoch 11/1000
370515/370515 - 68s - loss: 0.0333 - val_loss: 0.0190
Epoch 12/1000
370515/370515 - 70s - loss: 0.0203 - val_loss: 0.0177
Epoch 13/1000
370515/370515 - 69s - loss: 0.0265 - val_loss: 0.0175
Epoch 14/1000
Restoring model weights from the end of the best epoch.
370

<tensorflow.python.keras.callbacks.History at 0x2959fe65908>

Ahora podemos evaluar la red neuronal. Como puede ver, la red neuronal alcanza una tasa de precisión del 99%.

In [85]:
#metaestimador que se ajusta a varios clasificadores de árboles de decisión en varias submuestras del conjunto de datos
from sklearn.ensemble import RandomForestClassifier 
from sklearn.linear_model import LogisticRegression
#Modelo para Regresion Logistica
from sklearn import linear_model
# implementa funciones que evalúan el error de predicción para propósitos específicos
from sklearn.metrics import (precision_score, recall_score, f1_score, accuracy_score)
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import Normalizer
from sklearn.tree import DecisionTreeClassifier

In [86]:
# Calculamos la precision de una prediccion
pred = model.predict(x_test)
pred = np.argmax(pred,axis=1)
y_eval = np.argmax(y_test,axis=1)

#calcula la exactitud del conjunto
exactitud = metrics.accuracy_score(y_eval, pred)

#calcula la recuperacion de valores verdaderos positivos y falsos negativos
recuperacion = metrics.recall_score(y_eval, pred, average="weighted")

#relacion de verdaderos positivos y falsos positivos
precision = metrics.precision_score(y_eval, pred, average="weighted")

#promedio ponderado de la precision y recuperacion, donde 1 es la mejor puntuacion y 0 la peor
f1 = metrics.f1_score(y_eval, pred, average="weighted")


print("Exactitud: ",exactitud)
print("Precision: ",precision)
print("Recuperacion: ",recuperacion)
print("Puntuacion F1: ",f1)

Exactitud:  0.9974980972584327
Precision:  0.9965363501059151
Recuperacion:  0.9974980972584327
Puntuacion F1:  0.996985509627602
