In [None]:
# An√°lise Explorat√≥ria de Dados (EDA) - Detec√ß√£o de Ataques de Rede

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
%matplotlib inline

print("üìä Iniciando An√°lise Explorat√≥ria de Dados")

In [None]:
# 1. CARREGAMENTO E VIS√ÉO GERAL DOS DADOS

# Carregamento dos dados processados
df = pd.read_csv('../data/processed/flows.csv')

print(f"‚úÖ Dados carregados com sucesso!")
print(f"üìà Dimens√µes do dataset: {df.shape[0]} fluxos, {df.shape[1]} features")
print(f"üîç Primeiras linhas:")
display(df.head())

In [None]:
# 2. ESTRUTURA E TIPOS DE DADOS

print("üî¨ Informa√ß√µes sobre os dados:")
print(f"üìä Formato: {df.shape}")
print(f"üíæ Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print()

print("üìã Tipos de dados:")
display(df.dtypes.to_frame('Tipo'))
print()

print("‚ùå Valores ausentes:")
missing = df.isnull().sum()
missing_pct = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'Valores Ausentes': missing,
    'Percentual (%)': missing_pct
}).round(2)
display(missing_df[missing_df['Valores Ausentes'] > 0])

In [None]:
# 3. ESTAT√çSTICAS DESCRITIVAS

print("üìà Resumo estat√≠stico das features num√©ricas:")
numeric_cols = ['bytes', 'pkts', 'duration', 'iat_mean', 'iat_std']
desc_stats = df[numeric_cols + ['label']].describe()
display(desc_stats.round(4))

print()
print("üéØ Estat√≠sticas por classe (Normal vs Ataque):")
stats_by_label = df.groupby('label')[numeric_cols].describe()
display(stats_by_label.round(4))

In [None]:
# 4. AN√ÅLISE DE BALANCEAMENTO DAS CLASSES

print("‚öñÔ∏è Distribui√ß√£o das classes:")
label_counts = df['label'].value_counts().sort_index()
label_props = df['label'].value_counts(normalize=True).sort_index()

balance_df = pd.DataFrame({
    'Classe': ['Normal (0)', 'Ataque (1)'],
    'Quantidade': label_counts.values,
    'Propor√ß√£o (%)': (label_props.values * 100).round(2)
})

display(balance_df)

# Visualiza√ß√£o
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# Gr√°fico de barras
balance_df.plot(x='Classe', y='Quantidade', kind='bar', ax=ax1, color=['skyblue', 'salmon'])
ax1.set_title('üìä Distribui√ß√£o Absoluta das Classes')
ax1.set_xlabel('Classe')
ax1.set_ylabel('N√∫mero de Fluxos')
ax1.tick_params(axis='x', rotation=0)

# Gr√°fico de pizza
ax2.pie(balance_df['Quantidade'], labels=balance_df['Classe'], autopct='%1.1f%%', 
        colors=['skyblue', 'salmon'], startangle=90)
ax2.set_title('ü•ß Propor√ß√£o das Classes')

plt.tight_layout()
plt.show()

# An√°lise de balanceamento
ratio = label_counts.iloc[1] / label_counts.iloc[0]
print(f"üìä Propor√ß√£o Ataque/Normal: {ratio:.3f}")
if ratio < 0.1:
    print("‚ö†Ô∏è  Dataset muito desbalanceado - considere t√©cnicas de balanceamento")
elif ratio < 0.5:
    print("‚ö†Ô∏è  Dataset moderadamente desbalanceado")
else:
    print("‚úÖ Dataset relativamente balanceado")

In [None]:
# 5. DISTRIBUI√á√ïES UNIVARIADAS DAS FEATURES

print("üìä Analisando distribui√ß√µes das features num√©ricas...")

fig, axes = plt.subplots(3, 2, figsize=(15, 12))
axes = axes.ravel()

for i, col in enumerate(numeric_cols):
    # Histograma com curva de densidade
    axes[i].hist(df[col], bins=50, alpha=0.7, density=True, color='skyblue', edgecolor='black')
    
    # Estat√≠sticas da distribui√ß√£o
    mean_val = df[col].mean()
    median_val = df[col].median()
    std_val = df[col].std()
    
    # Linhas de refer√™ncia
    axes[i].axvline(mean_val, color='red', linestyle='--', label=f'M√©dia: {mean_val:.2f}')
    axes[i].axvline(median_val, color='green', linestyle='--', label=f'Mediana: {median_val:.2f}')
    
    axes[i].set_title(f'üìà Distribui√ß√£o de {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Densidade')
    axes[i].legend()
    axes[i].grid(True, alpha=0.3)
    
    # Teste de normalidade
    _, p_value = stats.normaltest(df[col].dropna())
    normality = "Normal" if p_value > 0.05 else "N√£o Normal"
    axes[i].text(0.02, 0.98, f'Normalidade: {normality}\nSkew: {df[col].skew():.2f}', 
                transform=axes[i].transAxes, verticalalignment='top',
                bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8))

# Remove o subplot extra
if len(numeric_cols) < len(axes):
    fig.delaxes(axes[-1])

plt.tight_layout()
plt.show()

print("\nüîç Interpreta√ß√£o das distribui√ß√µes:")
for col in numeric_cols:
    skew = df[col].skew()
    print(f"‚Ä¢ {col}: Assimetria = {skew:.2f} ", end="")
    if abs(skew) < 0.5:
        print("(distribui√ß√£o aproximadamente sim√©trica)")
    elif abs(skew) < 1:
        print("(distribui√ß√£o moderadamente assim√©trica)")
    else:
        print("(distribui√ß√£o altamente assim√©trica)")

In [None]:
# 6. AN√ÅLISE COMPARATIVA POR CLASSE (NORMAL VS ATAQUE)

print("üéØ Comparando distribui√ß√µes entre classes Normal e Ataque...")

fig, axes = plt.subplots(3, 2, figsize=(15, 12))
axes = axes.ravel()

for i, col in enumerate(numeric_cols):
    # Boxplot comparativo
    box_data = [df[df['label'] == 0][col].dropna(), df[df['label'] == 1][col].dropna()]
    box = axes[i].boxplot(box_data, labels=['Normal', 'Ataque'], patch_artist=True)
    
    # Colorir as caixas
    colors = ['lightblue', 'lightcoral']
    for patch, color in zip(box['boxes'], colors):
        patch.set_facecolor(color)
    
    axes[i].set_title(f'üì¶ {col} por Classe')
    axes[i].set_ylabel(col)
    axes[i].grid(True, alpha=0.3)
    
    # Estat√≠sticas comparativas
    normal_mean = df[df['label'] == 0][col].mean()
    attack_mean = df[df['label'] == 1][col].mean()
    
    # Teste t para diferen√ßa de m√©dias
    _, p_value = stats.ttest_ind(
        df[df['label'] == 0][col].dropna(), 
        df[df['label'] == 1][col].dropna()
    )
    
    significance = "Significativa" if p_value < 0.05 else "N√£o Significativa"
    
    axes[i].text(0.02, 0.98, 
                f'Normal: {normal_mean:.2f}\nAtaque: {attack_mean:.2f}\nDif: {significance}', 
                transform=axes[i].transAxes, verticalalignment='top',
                bbox=dict(boxstyle='round', facecolor='lightyellow', alpha=0.8))

# Remove o subplot extra
if len(numeric_cols) < len(axes):
    fig.delaxes(axes[-1])

plt.tight_layout()
plt.show()

# An√°lise quantitativa das diferen√ßas
print("\nüìä Resumo das diferen√ßas entre classes:")
comparison_stats = []

for col in numeric_cols:
    normal_data = df[df['label'] == 0][col]
    attack_data = df[df['label'] == 1][col]
    
    _, p_value = stats.ttest_ind(normal_data.dropna(), attack_data.dropna())
    effect_size = (attack_data.mean() - normal_data.mean()) / df[col].std()
    
    comparison_stats.append({
        'Feature': col,
        'Normal_Mean': normal_data.mean(),
        'Attack_Mean': attack_data.mean(),
        'Diferen√ßa_%': ((attack_data.mean() - normal_data.mean()) / normal_data.mean() * 100),
        'P_Value': p_value,
        'Effect_Size': effect_size
    })

comparison_df = pd.DataFrame(comparison_stats)
display(comparison_df.round(4))

print("\nüîç Features mais discriminativas (por tamanho do efeito):")
top_features = comparison_df.reindex(comparison_df['Effect_Size'].abs().sort_values(ascending=False).index)
for _, row in top_features.head(3).iterrows():
    print(f"‚Ä¢ {row['Feature']}: Effect Size = {row['Effect_Size']:.3f}")

In [None]:
# 7. AN√ÅLISE DE CORRELA√á√ïES

print("üîó Analisando correla√ß√µes entre features...")

# Matriz de correla√ß√£o
corr_matrix = df[numeric_cols].corr()

# Visualiza√ß√£o da matriz de correla√ß√£o
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Heatmap principal
sns.heatmap(corr_matrix, annot=True, fmt='.3f', cmap='RdBu_r', center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": .8}, ax=ax1)
ax1.set_title('üå°Ô∏è Matriz de Correla√ß√£o (Pearson)')

# Heatmap apenas das correla√ß√µes fortes (|r| > 0.5)
strong_corr = corr_matrix.copy()
strong_corr[abs(strong_corr) < 0.5] = 0
sns.heatmap(strong_corr, annot=True, fmt='.3f', cmap='RdBu_r', center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": .8}, ax=ax2)
ax2.set_title('üî• Correla√ß√µes Fortes (|r| ‚â• 0.5)')

plt.tight_layout()
plt.show()

# Identificar correla√ß√µes mais fortes
print("\nüìà Correla√ß√µes mais fortes entre features:")
# Criar matriz triangular superior para evitar duplicatas
upper_triangle = np.triu(np.ones_like(corr_matrix, dtype=bool), k=1)
correlation_pairs = []

for i in range(len(corr_matrix.columns)):
    for j in range(i+1, len(corr_matrix.columns)):
        if upper_triangle[i, j]:
            feature1 = corr_matrix.columns[i]
            feature2 = corr_matrix.columns[j]
            correlation = corr_matrix.iloc[i, j]
            correlation_pairs.append({
                'Feature_1': feature1,
                'Feature_2': feature2,
                'Correla√ß√£o': correlation,
                'Magnitude': abs(correlation)
            })

correlation_df = pd.DataFrame(correlation_pairs)
correlation_df = correlation_df.sort_values('Magnitude', ascending=False)

print("Top 5 correla√ß√µes mais fortes:")
display(correlation_df.head().round(3))

# Interpreta√ß√£o das correla√ß√µes
print("\nüîç Interpreta√ß√£o das correla√ß√µes:")
for _, row in correlation_df.head(3).iterrows():
    corr_val = row['Correla√ß√£o']
    if abs(corr_val) >= 0.7:
        strength = "muito forte"
    elif abs(corr_val) >= 0.5:
        strength = "forte"
    elif abs(corr_val) >= 0.3:
        strength = "moderada"
    else:
        strength = "fraca"
    
    direction = "positiva" if corr_val > 0 else "negativa"
    print(f"‚Ä¢ {row['Feature_1']} ‚Üî {row['Feature_2']}: Correla√ß√£o {strength} {direction} ({corr_val:.3f})")

# An√°lise de multicolinearidade
print(f"\n‚ö†Ô∏è Poss√≠veis problemas de multicolinearidade (|r| > 0.8):")
high_corr = correlation_df[correlation_df['Magnitude'] > 0.8]
if len(high_corr) > 0:
    for _, row in high_corr.iterrows():
        print(f"‚Ä¢ {row['Feature_1']} ‚Üî {row['Feature_2']}: {row['Correla√ß√£o']:.3f}")
else:
    print("‚úÖ Nenhuma correla√ß√£o extremamente alta detectada")

In [None]:
# 8. AN√ÅLISE BIVARIADA - SCATTER PLOTS

print("üé® Criando scatter plots para visualizar rela√ß√µes entre features...")

# Pairplot com distin√ß√£o por classe
g = sns.pairplot(data=df[numeric_cols + ['label']], 
                 hue='label', 
                 plot_kws={'alpha': 0.6, 's': 30},
                 diag_kind='hist',
                 palette=['skyblue', 'salmon'])

# Personalizar o plot
g.fig.suptitle('üîç An√°lise Bivariada - Rela√ß√µes entre Features por Classe', 
               y=1.02, fontsize=16, fontweight='bold')

# Adicionar legendas personalizadas
for ax in g.axes.flat:
    if ax.legend_:
        ax.legend(labels=['Normal', 'Ataque'], loc='best')

plt.show()

# An√°lise de separabilidade das classes
print("\nüéØ An√°lise de separabilidade entre classes:")
print("Esta visualiza√ß√£o ajuda a identificar:")
print("‚Ä¢ Features que separam bem as classes (pontos bem agrupados por cor)")
print("‚Ä¢ Rela√ß√µes lineares ou n√£o-lineares entre features")
print("‚Ä¢ Poss√≠veis clusters nos dados")
print("‚Ä¢ Outliers que podem afetar o modelo")

# Scatter plots individuais mais detalhados para as top 3 correla√ß√µes
if len(correlation_df) >= 3:
    fig, axes = plt.subplots(1, 3, figsize=(18, 5))
    
    for i in range(3):
        row = correlation_df.iloc[i]
        feature1, feature2 = row['Feature_1'], row['Feature_2']
        
        # Scatter plot colorido por classe
        normal_data = df[df['label'] == 0]
        attack_data = df[df['label'] == 1]
        
        axes[i].scatter(normal_data[feature1], normal_data[feature2], 
                       alpha=0.6, c='skyblue', label='Normal', s=30)
        axes[i].scatter(attack_data[feature1], attack_data[feature2], 
                       alpha=0.6, c='salmon', label='Ataque', s=30)
        
        axes[i].set_xlabel(feature1)
        axes[i].set_ylabel(feature2)
        axes[i].set_title(f'{feature1} vs {feature2}\n(r = {row["Correla√ß√£o"]:.3f})')
        axes[i].legend()
        axes[i].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

In [None]:
# 9. DETEC√á√ÉO E AN√ÅLISE DE OUTLIERS

print("üîç Detectando e analisando outliers nos dados...")

def detect_outliers_iqr(data, column):
    """Detecta outliers usando o m√©todo IQR (Interquartile Range)"""
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

# An√°lise de outliers por feature
outlier_summary = []
fig, axes = plt.subplots(3, 2, figsize=(15, 12))
axes = axes.ravel()

for i, col in enumerate(numeric_cols):
    outliers, lower, upper = detect_outliers_iqr(df, col)
    outlier_count = len(outliers)
    outlier_pct = (outlier_count / len(df)) * 100
    
    # Armazenar informa√ß√µes do outlier
    outlier_summary.append({
        'Feature': col,
        'Total_Outliers': outlier_count,
        'Percentual_Outliers': outlier_pct,
        'Normal_Outliers': len(outliers[outliers['label'] == 0]),
        'Attack_Outliers': len(outliers[outliers['label'] == 1]),
        'Lower_Bound': lower,
        'Upper_Bound': upper
    })
    
    # Visualiza√ß√£o
    axes[i].boxplot([df[df['label'] == 0][col], df[df['label'] == 1][col]], 
                   labels=['Normal', 'Ataque'], patch_artist=True)
    
    # Destacar outliers
    normal_outliers = outliers[outliers['label'] == 0][col]
    attack_outliers = outliers[outliers['label'] == 1][col]
    
    if len(normal_outliers) > 0:
        axes[i].scatter([1] * len(normal_outliers), normal_outliers, 
                       color='blue', alpha=0.6, s=20, label=f'Outliers Normal ({len(normal_outliers)})')
    if len(attack_outliers) > 0:
        axes[i].scatter([2] * len(attack_outliers), attack_outliers, 
                       color='red', alpha=0.6, s=20, label=f'Outliers Ataque ({len(attack_outliers)})')
    
    axes[i].set_title(f'üì¶ {col}\nOutliers: {outlier_count} ({outlier_pct:.1f}%)')
    axes[i].grid(True, alpha=0.3)
    if len(normal_outliers) > 0 or len(attack_outliers) > 0:
        axes[i].legend()

# Remove subplot extra
if len(numeric_cols) < len(axes):
    fig.delaxes(axes[-1])

plt.tight_layout()
plt.show()

# Resumo dos outliers
outlier_df = pd.DataFrame(outlier_summary)
print("\nüìä Resumo de Outliers por Feature:")
display(outlier_df.round(2))

# An√°lise mais detalhada
print("\nüîç An√°lise detalhada dos outliers:")
total_outliers = outlier_df['Total_Outliers'].sum()
print(f"‚Ä¢ Total de outliers detectados: {total_outliers}")
print(f"‚Ä¢ Percentual m√©dio de outliers: {outlier_df['Percentual_Outliers'].mean():.2f}%")

most_outliers = outlier_df.loc[outlier_df['Total_Outliers'].idxmax()]
print(f"‚Ä¢ Feature com mais outliers: {most_outliers['Feature']} ({most_outliers['Total_Outliers']} outliers)")

# Distribui√ß√£o de outliers por classe
total_normal_outliers = outlier_df['Normal_Outliers'].sum()
total_attack_outliers = outlier_df['Attack_Outliers'].sum()
print(f"‚Ä¢ Outliers em tr√°fego normal: {total_normal_outliers}")
print(f"‚Ä¢ Outliers em tr√°fego de ataque: {total_attack_outliers}")

# An√°lise de outliers extremos (Z-score > 3)
print("\n‚ö†Ô∏è Outliers extremos (Z-score > 3):")
extreme_outliers_found = False

for col in numeric_cols:
    z_scores = np.abs(stats.zscore(df[col].dropna()))
    extreme_outliers = df[z_scores > 3]
    
    if len(extreme_outliers) > 0:
        extreme_outliers_found = True
        normal_extreme = len(extreme_outliers[extreme_outliers['label'] == 0])
        attack_extreme = len(extreme_outliers[extreme_outliers['label'] == 1])
        print(f"‚Ä¢ {col}: {len(extreme_outliers)} outliers extremos (Normal: {normal_extreme}, Ataque: {attack_extreme})")

if not extreme_outliers_found:
    print("‚úÖ Nenhum outlier extremo detectado")

print("\nüí° Recomenda√ß√µes:")
high_outlier_features = outlier_df[outlier_df['Percentual_Outliers'] > 10]
if len(high_outlier_features) > 0:
    print("‚ö†Ô∏è Features com muitos outliers (>10%):")
    for _, row in high_outlier_features.iterrows():
        print(f"   ‚Ä¢ {row['Feature']}: {row['Percentual_Outliers']:.1f}% - considere transforma√ß√£o ou remo√ß√£o")
else:
    print("‚úÖ Percentual de outliers aceit√°vel em todas as features")

# 10. CONCLUS√ïES E INSIGHTS

## üéØ Principais Descobertas da EDA

### Estrutura dos Dados
- **Tamanho do dataset**: N√∫mero total de fluxos e features analisadas
- **Qualidade dos dados**: Presen√ßa de valores ausentes e tipos de dados
- **Balanceamento**: Distribui√ß√£o entre tr√°fego normal e de ataque

### Features Mais Discriminativas
- **Bytes**: Diferen√ßas no volume de dados transferidos
- **Pacotes**: N√∫mero de pacotes por fluxo
- **Dura√ß√£o**: Tempo de dura√ß√£o dos fluxos
- **Inter-arrival times**: Padr√µes temporais entre pacotes

### Padr√µes Identificados
- **Tr√°fego Normal**: Caracter√≠sticas t√≠picas observadas
- **Tr√°fego de Ataque**: Padr√µes an√¥malos detectados
- **Correla√ß√µes**: Rela√ß√µes importantes entre features

### Outliers e Anomalias
- **Preval√™ncia**: Percentual de outliers em cada feature
- **Distribui√ß√£o**: Como os outliers se distribuem entre as classes
- **Impacto**: Poss√≠vel influ√™ncia nos modelos de ML

## üìà Recomenda√ß√µes para Modelagem

1. **Pr√©-processamento**:
   - Normaliza√ß√£o/padroniza√ß√£o das features
   - Tratamento de outliers (remo√ß√£o ou transforma√ß√£o)
   - Engenharia de features baseada nas correla√ß√µes encontradas

2. **Sele√ß√£o de Features**:
   - Priorizar features com maior poder discriminativo
   - Considerar remo√ß√£o de features altamente correlacionadas

3. **Valida√ß√£o**:
   - Aten√ß√£o ao balanceamento das classes
   - Uso de m√©tricas apropriadas para datasets desbalanceados
   - Valida√ß√£o cruzada estratificada

4. **Modelos Sugeridos**:
   - Random Forest (robusto a outliers)
   - SVM (bom para separa√ß√£o de classes)
   - Gradient Boosting (captura rela√ß√µes complexas)

## üîç Pr√≥ximos Passos

1. **Feature Engineering**: Criar novas features baseadas nos insights
2. **Modelagem**: Treinar e comparar diferentes algoritmos
3. **Valida√ß√£o**: Avaliar performance com m√©tricas apropriadas
4. **Interpretabilidade**: Analisar import√¢ncia das features nos modelos