### RFE ELIMINACIÓN DE CARACTERÍSTICAS RECURSIVA 

La Eliminación de Características Recursiva (Recursive Feature Elimination, RFE) es un método de selección de características que elimina recursivamente atributos y construye un modelo con los atributos restantes. Utiliza la precisión del modelo para identificar qué atributos (y combinación de atributos) contribuyen más a predecir la variable objetivo.

In [1]:
import pandas as pd
df=pd.read_csv("dataset/data/sample_4M_cod.csv", dtype='int64')

In [2]:
X = df.copy()
y = X.pop("AttackCod")

### Info

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000000 entries, 0 to 3999999
Data columns (total 42 columns):
 #   Column                       Dtype
---  ------                       -----
 0   L4_SRC_PORT                  int64
 1   L4_DST_PORT                  int64
 2   PROTOCOL                     int64
 3   L7_PROTO                     int64
 4   IN_BYTES                     int64
 5   IN_PKTS                      int64
 6   OUT_BYTES                    int64
 7   OUT_PKTS                     int64
 8   TCP_FLAGS                    int64
 9   CLIENT_TCP_FLAGS             int64
 10  SERVER_TCP_FLAGS             int64
 11  FLOW_DURATION_MILLISECONDS   int64
 12  DURATION_IN                  int64
 13  DURATION_OUT                 int64
 14  MIN_TTL                      int64
 15  MAX_TTL                      int64
 16  LONGEST_FLOW_PKT             int64
 17  SHORTEST_FLOW_PKT            int64
 18  MIN_IP_PKT_LEN               int64
 19  MAX_IP_PKT_LEN               int64
 20  SR

In [5]:
X.columns

Index(['L4_SRC_PORT', 'L4_DST_PORT', 'PROTOCOL', 'L7_PROTO', 'IN_BYTES',
       'IN_PKTS', 'OUT_BYTES', 'OUT_PKTS', 'TCP_FLAGS', 'CLIENT_TCP_FLAGS',
       'SERVER_TCP_FLAGS', 'FLOW_DURATION_MILLISECONDS', 'DURATION_IN',
       'DURATION_OUT', 'MIN_TTL', 'MAX_TTL', 'LONGEST_FLOW_PKT',
       'SHORTEST_FLOW_PKT', 'MIN_IP_PKT_LEN', 'MAX_IP_PKT_LEN',
       'SRC_TO_DST_SECOND_BYTES', 'DST_TO_SRC_SECOND_BYTES',
       'RETRANSMITTED_IN_BYTES', 'RETRANSMITTED_IN_PKTS',
       'RETRANSMITTED_OUT_BYTES', 'RETRANSMITTED_OUT_PKTS',
       'SRC_TO_DST_AVG_THROUGHPUT', 'DST_TO_SRC_AVG_THROUGHPUT',
       'NUM_PKTS_UP_TO_128_BYTES', 'NUM_PKTS_128_TO_256_BYTES',
       'NUM_PKTS_256_TO_512_BYTES', 'NUM_PKTS_512_TO_1024_BYTES',
       'NUM_PKTS_1024_TO_1514_BYTES', 'TCP_WIN_MAX_IN', 'TCP_WIN_MAX_OUT',
       'ICMP_TYPE', 'ICMP_IPV4_TYPE', 'DNS_QUERY_ID', 'DNS_QUERY_TYPE',
       'DNS_TTL_ANSWER', 'FTP_COMMAND_RET_CODE', 'Label', 'Dataset'],
      dtype='object')

### RFE

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

### 22

In [13]:
# Crear el estimador de Random Forest
estimator = RandomForestClassifier(n_estimators=50, random_state=42)

# Crear el selector RFE con el estimador de Random Forest
selector = RFE(estimator, n_features_to_select=22, step=1)

# Ajustar RFE al conjunto de entrenamiento
selector = selector.fit(X_train, y_train)

# Evaluar el modelo en el conjunto de validación para encontrar el mejor número de características
valid_score = accuracy_score(y_valid, selector.predict(X_valid))

# Una vez elegido el número óptimo de características y ajustado el modelo final
# se evalúa en el conjunto de prueba
test_score = accuracy_score(y_test, selector.predict(X_test))

print(f"Validación de precisión con las características seleccionadas: {valid_score}")
print(f"Prueba de precisión con las características seleccionadas: {test_score}")

Validación de precisión con las características seleccionadas: 0.999545
Prueba de precisión con las características seleccionadas: 0.9994933333333333


In [14]:
# 'X' es un DataFrame de pandas y las columnas son las características
feature_names = X.columns

# Obtener las características seleccionadas en base al atributo support_
selected_features = feature_names[selector.support_]

# Imprimir las características seleccionadas
print("Características seleccionadas:")
for feature in selected_features:
    print(feature)

Características seleccionadas:
L4_DST_PORT
L7_PROTO
IN_BYTES
IN_PKTS
OUT_BYTES
OUT_PKTS
CLIENT_TCP_FLAGS
FLOW_DURATION_MILLISECONDS
DURATION_IN
DURATION_OUT
MIN_TTL
MAX_TTL
LONGEST_FLOW_PKT
SHORTEST_FLOW_PKT
MIN_IP_PKT_LEN
MAX_IP_PKT_LEN
SRC_TO_DST_SECOND_BYTES
SRC_TO_DST_AVG_THROUGHPUT
DST_TO_SRC_AVG_THROUGHPUT
NUM_PKTS_UP_TO_128_BYTES
TCP_WIN_MAX_IN
TCP_WIN_MAX_OUT


### 24

In [5]:
# Crear el estimador de Random Forest
estimator = RandomForestClassifier(n_estimators=50, random_state=42)

# Crear el selector RFE con el estimador de Random Forest
selector = RFE(estimator, n_features_to_select=24, step=1)

# Ajustar RFE al conjunto de entrenamiento
selector = selector.fit(X_train, y_train)

# Evaluar el modelo en el conjunto de validación para encontrar el mejor número de características
valid_score = accuracy_score(y_valid, selector.predict(X_valid))

# Una vez elegido el número óptimo de características y ajustado el modelo final
# se evalúa en el conjunto de prueba
test_score = accuracy_score(y_test, selector.predict(X_test))

print(f"Validación de precisión con las características seleccionadas: {valid_score}")
print(f"Prueba de precisión con las características seleccionadas: {test_score}")

Validación de precisión con las características seleccionadas: 0.9995333333333334
Prueba de precisión con las características seleccionadas: 0.99953


In [6]:
# 'X' es un DataFrame de pandas y las columnas son las características
feature_names = X.columns

# Obtener las características seleccionadas en base al atributo support_
selected_features = feature_names[selector.support_]

# Imprimir las características seleccionadas
print("Características seleccionadas:")
for feature in selected_features:
    print(feature)

Características seleccionadas:
L4_SRC_PORT
L4_DST_PORT
L7_PROTO
IN_BYTES
IN_PKTS
OUT_BYTES
OUT_PKTS
CLIENT_TCP_FLAGS
FLOW_DURATION_MILLISECONDS
DURATION_IN
DURATION_OUT
MIN_TTL
MAX_TTL
LONGEST_FLOW_PKT
SHORTEST_FLOW_PKT
MIN_IP_PKT_LEN
MAX_IP_PKT_LEN
SRC_TO_DST_SECOND_BYTES
DST_TO_SRC_SECOND_BYTES
SRC_TO_DST_AVG_THROUGHPUT
DST_TO_SRC_AVG_THROUGHPUT
NUM_PKTS_UP_TO_128_BYTES
TCP_WIN_MAX_IN
TCP_WIN_MAX_OUT
