# Exploratory Data Analysis (EDA)

Exploratory Data Analysis (EDA) é uma etapa fundamental no processo de Ciência de Dados, cujo objetivo é compreender melhor os dados antes da aplicação de modelos ou técnicas mais avançadas. Durante o EDA, são utilizadas técnicas estatísticas, matemáticas e de visualização para:

* **Explorar a estrutura dos dados**: identificar tipos de variáveis, distribuições, valores ausentes e outliers.
* **Resumir características principais**: obter medidas descritivas como média, mediana, variância e correlação.
* **Visualizar padrões**: usar gráficos (histogramas, boxplots, scatter plots, heatmaps, etc.) para detectar tendências, relações e possíveis anomalias.
* **Gerar hipóteses iniciais**: levantar insights que podem guiar as próximas etapas da análise ou do desenvolvimento de modelos preditivos.

O EDA não apenas garante uma compreensão mais profunda do conjunto de dados, mas também ajuda a evitar erros e a tomar decisões mais embasadas em todo o ciclo de análise.

Instalar os pacotes necessários:

In [None]:
!pip3 install opendatasets pandas kaggle

## 1. Kaggle CLI – Instalação e Uso

O **Kaggle CLI** permite interagir com a plataforma Kaggle diretamente pelo terminal, facilitando o download de datasets, submissão de competições e gerenciamento de kernels.

### 1.1 Pré-requisitos

* Python 3.7+ instalado
* `pip` configurado
* Conta no [Kaggle](https://www.kaggle.com)

### 1.2 Instalação

```bash
pip install kaggle
```

Verifique a instalação:

```bash
kaggle --version
```

### 1.3 Configuração da API

1. Acesse [Kaggle – Account Settings](https://www.kaggle.com/account).
2. Vá em **API > Create New API Token**.
3. Um arquivo chamado `kaggle.json` será baixado (contendo suas credenciais).
4. Coloque o arquivo na pasta correta:

   * Linux/MacOS:

     ```bash
     mkdir -p ~/.kaggle
     mv ~/Downloads/kaggle.json ~/.kaggle/
     chmod 600 ~/.kaggle/kaggle.json
     ```
   * Windows:
     Coloque o arquivo em:

     ```
     C:\Users\<SeuUsuario>\.kaggle\kaggle.json
     ```

### 1.4 Comandos Básicos

#### Listar competições

```bash
kaggle competitions list
```

#### Fazer download de dataset

```bash
kaggle datasets download -d <username>/<dataset-name>
```

Exemplo:

```bash
kaggle datasets download -d jsrojas/labeled-network-traffic-flows-114-applications --path datasets
```

#### Descompactar o dataset baixado

```bash
unzip datasets/labeled-network-traffic-flows-114-applications.zip -d ./datasets
```

#### Participar de competições

Baixar os dados de uma competição:

```bash
kaggle competitions download -c <competition-name>
```

Enviar uma submissão:

```bash
kaggle competitions submit -c <competition-name> -f submission.csv -m "Mensagem da submissão"
```

### 1.5 Dicas Úteis

* Sempre mantenha o arquivo `kaggle.json` **em local seguro**, pois ele contém sua chave de API.
* É possível integrar o Kaggle CLI a notebooks e pipelines automatizados (ex.: Google Colab, Jupyter, scripts de ETL).
* Para ver todos os comandos disponíveis:

  ```bash
  kaggle --help
  ```

## 2. Roteiro de EDA na Prática

## 2.1 Introdução

* Explicar o que é EDA e sua importância.
* Apresentar o dataset: *Labeled Network Traffic Flows*.
  * Objetivo: identificar padrões e diferenças entre classes.


## 2.2 Preparação dos Dados

* Importar bibliotecas (`pandas`, `numpy`, `matplotlib`, `seaborn`).
* Carregar o dataset com `pd.read_csv()`.
* Exibir informações iniciais:
  * `.head()`, `.info()`, `.describe()`.
  * Tipos de dados e valores ausentes.


## 2.3 Análise Univariada

* Usar gráficos de barras e `value_counts()` para contar instâncias por classe.
* Continuar explorando estatísticas descritivas (média, mediana, desvio-padrão).


## 2.4 Análise Bivariada

* Explorar correlações entre variáveis numéricas (heatmap de `seaborn`).
* Relacionar características específicas (ex.: duração, bytes enviados/recebidos) com o tipo de protocolo.
* Utilizar scatter plots e boxplots para observar diferenças.


## 2.5 Análise de Outliers

* Discutir a presença de valores extremos e seu impacto na análise.


## 2.6 Insights Iniciais

* Há desequilíbrio de classes? (importante para machine learning).
* Quais variáveis parecem redundantes ou pouco informativas?


## 2.7 Conclusão

* Destacar como o EDA ajuda a entender o dataset antes da modelagem.

### Preparação do Ambiente

In [None]:
# ========================================
# Preparação do Ambiente
# ========================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns



### Configurar o estilo e carregar o dataset

In [None]:
# Configurações de estilo
sns.set(style="whitegrid", palette="muted")
plt.rcParams["figure.figsize"] = (10, 6)

nRowsRead = 1000 # utilizar 'None' se quiser ler todo o arquivo
# Carregar dataset (ajuste o caminho conforme necessário)
df = pd.read_csv("datasets/Unicauca-dataset-April-June-2019-Network-flows.csv", nrows=nRowsRead)

### Exploração inicial

In [None]:
# ========================================
# Exploração Inicial
# ========================================
print("Dimensões do dataset:", df.shape)
print("\nTipos de dados:")
print(df.dtypes.value_counts())

print("\nVisualizando as 5 primeiras linhas:")
print(df.head())

print("\nResumo estatístico:")
print(df.describe())

# Verificar valores ausentes
print("\nValores ausentes por coluna:")
print(df.isnull().sum())

### Análise univariada

In [None]:
# ========================================
# Análise Univariada
# ========================================
# Distribuição das classes
print("\nDistribuição dos protocolos:")
print(df['proto'].value_counts())

sns.countplot(data=df, x="proto")
plt.title("Distribuição dos protocolos")
plt.show()

# Exemplo: distribuição de uma variável numérica
sns.histplot(df['src_port'], bins=50, kde=True)
plt.title("Distribuição da variável porta de origenm (src_port)")
plt.show()

### Análise bivariada

#### Mapa de correlação entre as variáveis numéricas

In [None]:
# ========================================
# Análise Bivariada
# ========================================
# Correlação entre variáveis numéricas
corr = df.corr(numeric_only=True)
sns.heatmap(corr, cmap="coolwarm", annot=False)
plt.title("Mapa de Correlação")
plt.show()

#### Relação entre as variáveis 'flowDuration' e 'f_flowEnd'

In [None]:
# Relação entre duração do fluxo e protocolo
sns.boxplot(data=df, x="proto", y="flowDuration")
plt.title("Comparação da variável 'flowDuration' por protocolo")
plt.show()

#### Relação entre o total de pacotes e o total de bytes

In [None]:
# Relação entre pktTotalCount (total de pacotes) e octetTotalCount (total de bytes)
sns.scatterplot(data=df, x="pktTotalCount", y="octetTotalCount", alpha=0.6)
plt.title("TotPkts vs TotBytes (com rótulo)")
plt.show()

### Análise de *outliers*

In [None]:
# ========================================
# Outliers
# ========================================
sns.boxplot(x=df["flowDuration"])
plt.title("Outliers em 'flowDuration'")
plt.show()

### *Insights*

In [None]:
# ========================================
# Insights
# ========================================
# Exemplo de verificação de desbalanceamento de classes
class_counts = df['proto'].value_counts(normalize=True)
print("\nProporção dos protocolos utilizados (%):")
print(class_counts * 100)