
# Detecção de Intrusões em Redes Usando Machine Learning

## 1. Introdução

A segurança de redes de computadores é um desafio crítico na era digital. Ataques como DoS, DDoS e port scans estão entre os mais frequentes, podendo comprometer servidores e usuários finais. Este trabalho tem como objetivo aplicar uma técnica de aprendizado de máquina para detectar automaticamente tentativas de intrusão com base em dados de tráfego de rede.
    


## 2. Fundamentação Teórica

Neste estudo, será utilizada a técnica de **Random Forest**, uma abordagem supervisionada que constrói um conjunto de árvores de decisão para realizar classificações com alta precisão. Essa técnica é conhecida por lidar bem com dados tabulares e problemas de classificação multiclasses.
    


## 3. Metodologia

O dataset escolhido foi retirado da plataforma Kaggle:  
> [Network Intrusion Detection Dataset](https://www.kaggle.com/datasets/sampadab17/network-intrusion-detection)

O conjunto contém registros de tráfego de rede rotulados como normal ou pertencentes a diferentes tipos de ataques.

As etapas metodológicas incluem:

- Carregamento e visualização dos dados
- Limpeza e pré-processamento
- Treinamento do modelo
- Avaliação usando métricas padrão
    

In [5]:

# 4.1 Importação de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
    

In [None]:

# 4.2 Carregamento do dataset
df = pd.read_csv("Test_data.csv")

# Visualização inicial
df.head()
    

Unnamed: 0,duration,protocol_type,service,flag,src_bytes,dst_bytes,land,wrong_fragment,urgent,hot,...,dst_host_count,dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,dst_host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,dst_host_srv_rerror_rate
0,0,tcp,private,REJ,0,0,0,0,0,0,...,255,10,0.04,0.06,0.0,0.0,0.0,0.0,1.0,1.0
1,0,tcp,private,REJ,0,0,0,0,0,0,...,255,1,0.0,0.06,0.0,0.0,0.0,0.0,1.0,1.0
2,2,tcp,ftp_data,SF,12983,0,0,0,0,0,...,134,86,0.61,0.04,0.61,0.02,0.0,0.0,0.0,0.0
3,0,icmp,eco_i,SF,20,0,0,0,0,0,...,3,57,1.0,0.0,1.0,0.28,0.0,0.0,0.0,0.0
4,1,tcp,telnet,RSTO,0,15,0,0,0,0,...,29,86,0.31,0.17,0.03,0.02,0.0,0.0,0.83,0.71


In [8]:

# 4.3 Pré-processamento
# Verificar valores ausentes
print(df.isnull().sum())

# Codificar variáveis categóricas, se necessário
label_encoder = LabelEncoder()
df['Label'] = label_encoder.fit_transform(df['Label'])

# Separar atributos e rótulo
X = df.drop('Label', axis=1)
y = df['Label']

# Padronizar os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)
    

duration                       0
protocol_type                  0
service                        0
flag                           0
src_bytes                      0
dst_bytes                      0
land                           0
wrong_fragment                 0
urgent                         0
hot                            0
num_failed_logins              0
logged_in                      0
num_compromised                0
root_shell                     0
su_attempted                   0
num_root                       0
num_file_creations             0
num_shells                     0
num_access_files               0
num_outbound_cmds              0
is_host_login                  0
is_guest_login                 0
count                          0
srv_count                      0
serror_rate                    0
srv_serror_rate                0
rerror_rate                    0
srv_rerror_rate                0
same_srv_rate                  0
diff_srv_rate                  0
srv_diff_h

KeyError: 'Label'

In [None]:

# 4.4 Treinamento do modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Previsão
y_pred = model.predict(X_test)
    

In [None]:

# 4.5 Avaliação do modelo
print("Relatório de Classificação:")
print(classification_report(y_test, y_pred))

print("Matriz de Confusão:")
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Blues')
plt.xlabel("Previsto")
plt.ylabel("Verdadeiro")
plt.show()
    


## 5. Resultados e Discussão

O modelo apresentou bons resultados na detecção de ataques, com destaque para a alta precisão nas classes majoritárias. É importante observar se há desbalanceamento nas classes, o que pode impactar a performance para ataques raros.
    


## 6. Conclusão

Este trabalho demonstrou a viabilidade do uso de modelos de machine learning para detecção de intrusões em redes. O algoritmo escolhido obteve desempenho satisfatório, e futuros trabalhos podem explorar técnicas como redes neurais profundas, autoencoders ou ensemble learning.
    


## 7. Referências

- Scikit-learn Documentation: https://scikit-learn.org/stable/  
- Kaggle Dataset: https://www.kaggle.com/datasets/sampadab17/network-intrusion-detection  
- Artigo base sobre NSL-KDD: Tavallaee et al. (2009)
    