# Visualizacion del conjunto de datos 

Este es un Notebook se muestran algunos de los mecanismos mas utilizados para la visualizacion de datos 

## DataSet: Conjunto de datos 

### Descripcion

NSL-KDD is a data set suggested to solve some of the inherent problems of the KDD'99 data set which are mentioned in. Although, this new version of the KDD data set still suffers from some of the problems discussed by McHugh and may not be a perfect representative of existing real networks, because of the lack of public data sets for network-based IDSs, we believe it still can be applied as an effective benchmark data set to help researchers compare different intrusion detection methods. Furthermore, the number of records in the NSL-KDD train and test sets are reasonable. This advantage makes it affordable to run the experiments on the complete set without the need to randomly select a small portion. Consequently, evaluation results of different research work will be consistent and comparable.

Ficheros de datos
* <span style="color:green"> **KDDTrain+.ARFF**: The full NSL-KDD train set with binary labels in ARFF format </span>

* <span style="color:green">KDDTrain+.TXT: The full NSL-KDD train set including attack-type labels and difficulty level in CSV format. </span>
* KDDTrain+_20Percent.ARFF: A 20% subset of the KDDTrain+.arff file
KDDTrain+_20Percent.TXT: A 20% subset of the KDDTrain+.txt file
KDDTest+.ARFF: The full NSL-KDD test set with binary labels in ARFF format
KDDTest+.TXT: The full NSL-KDD test set including attack-type labels and difficulty level in CSV format
KDDTest-21.ARFF: A subset of the KDDTest+.arff file which does not include records with difficulty level of 21 out of 21
KDDTest-21.TXT: A subset of the KDDTest+.txt file which does not include records with difficulty level of 21 out of 21

In [1]:
# lectura de dataset mediante funciones de python
import pandas as pd
ruta_archivo = "datasets/NSL-KDD/KDDTrain+.txt"

# Leer el archivo usando with open
with open(ruta_archivo, 'r') as train_set:
    # Leer todas las líneas
    lineas = train_set.readlines()
pd

FileNotFoundError: [Errno 2] No such file or directory: 'datasets/NSL-KDD/KDDTrain+.txt'

In [None]:
# lectura de dataset mediante funciones de python
with open("datasets/NSL-KDD/KDDTrain+.txt") as train_set:
    df = train_set.readlines()
df

In [None]:
import pandas as pd
df=pd.read_csv("datasets/NSL-KDD/KDDTrain+.txt")
df

In [None]:
# Mostrar los ficheros en el directorio del dataset
import os

os.listdir("datasets/NSL-KDD/")

An ARFF (Attribute-Relation File Format) file is an ASCII text file that describes a list of instances sharing a set of attributes. ARFF files were developed by the Machine Learning Project at the Department of Computer Science of The University of Waikato for use with the Weka machine learning software. Más información: https://www.cs.waikato.ac.nz/ml/weka/arff.html

the weka fue hecho enla universidad de wicato

In [None]:
# instalamos un nuevo pquete en el kernel de jupiter notebook actual para parcear ficheros a ARLF
import sys 

!{sis.executable} -m pip install liac-arff

In [None]:
pip install liac-arff

In [None]:
#lectura del data set que se encuentra en formato . arff
import arff

with open("datasets/NSL-KDD/KDDTrain+.arff",'r') as train_set:
    df=arff.load(train_set)

df.keys()

In [None]:
df["data"]

In [None]:
df["attributes"]  #llamamos los atributos 

In [None]:
# parcera los atributos y obtener unicamente los nombres
attributos=[attr[0] for attr in df["attributes"] ]
attributos

In [None]:
#leer el data set
df =pd.DataFrame(df["data"], columns = attributos)
df

Llegados a este punto lo ideal es construir una funcion que perminta leer el dataset de manera mas limpia  este tipo de practicas son de gran utilidad para que nuestros códigos en jupiter noteboock sea mas modular y pueda reutilizarse de manera mas sencilla para futuros ejercicios 

In [None]:
def load_kdd_dataset(data_path):
    """lectura del dataset NSL-KDD."""
    with open(data_path, 'r') as train_set:
        dataset = arff.load(train_set)
    attributes=[attr[0] for attr in dataset["attributes"]]
    return pd.DataFrame(dataset["data"], columns=attributes) 

In [None]:
load_kdd_dataset('datasets/NSL-KDD/KDDTrain+.arff')

# 2.- Funciones basicas de visualizacion de datos 

* el proceso de visualizacion siempre debe realizarse sobre el trainig-set. Esto evita que nuestro entrenamiento genere intuiciones del test-set que se imcorpora en nuestro módelo.
* Una buena practica es crear una copia de training-set y jugar con ella de esta manera si se realizan tranformaciones que dañen el training-set el original no se vea afectado 

In [None]:
# lectura y copia del df
df_orig = load_kdd_dataset('datasets/NSL-KDD/KDDTrain+.arff')
df= df_orig.copy()

In [None]:
df.head(10)

In [None]:
#mostrando la info basica sobre el dataset
df.info()

In [None]:
#mostrar informacion estadistica  sobre el dataset 
df.describe()
#valores  ponderados 25%,50%,75%

In [None]:
#mostrar los valores unicos que tiene un atributo determinado
df["protocol_type"].value_counts()

In [None]:
#anomalos y no anomalos
df["class"].value_counts()

In [None]:
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
df["protocol_type"].hist()

In [None]:
data=df["protocol_type"]
plt.hist(data)
plt.show()

In [None]:
df.hist(bins=50 , figsize=(20,15))
plt.show()

In [None]:
df.plot()
plt.show()

# 3.- FUNCIONES AVANSADAS DE VISUALIZACION DE LOS DATOS 
### Buscando Correlaciones 
* se puede calcular el coheficiente de correlacion estándar  para validar la correlacion entre cada par de atributos el coheficiente de correlacion solo mide **Correalciones lineales** esto quiere decir que si x va hacia arriba me diria si y va hacia arriba o hacia abajo
*  **hay que intentar buscar correalciones sobre todo con el atributo objetivo (el que se desea predecir ), en este caso es CLASS**

In [None]:
# el atributo class de nuestro conjunto de dato tiene valores categoricos
df["class"]

In [None]:
# tranformar los valores del atributo class de categoricos a numericos 
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()
df["class"] = labelencoder.fit_transform(df["class"])
df

In [None]:
# Mostrar la correlacion entre los atributos de dataset
corr_matrix = df.corr(numeric_only=True)
corr_matrix["class"].sort_values(ascending=False)

In [None]:
#mostrar correlacion lineal entre todos los atributos del dataset
df.corr(numeric_only=True)

In [None]:
#representar la graficamente la matriz de correlacion 
corr=df.corr(numeric_only = True)
fig, ax =plt.subplots(figsize=(8,8))
ax.matshow(corr)
plt.xticks(range(len(corr.columns)),corr.columns);
plt.yticks(range(len(corr.columns)),corr.columns);

In [None]:
# Representar graficamente las correalciones
from pandas.plotting import scatter_matrix
atributes=["same_srv_rate","dst_host_srv_count","class","dst_host_same_srv_rate"]
scatter_matrix(df[atributes],figsize=(12,8))
plt.show()