# Comparação de Algoritmos de Aprendizado Supervisionado em Problemas de Classificação

- Gabriel Peres de Souza
- João Carlos dos Santos Correia
- Rodrigo Macedo Júnior

## Importando bibliotecas

In [None]:
#     Importação das bibliotecas.

## Carregamento dos Dados
O conjunto de dados utilizado neste estudo é o **"Dodgers Loop Sensor"**, obtido do repositório da UCI Machine Learning. O objetivo central é a classificação de dias em que ocorreram jogos de beisebol do time Dodgers, em Los Angeles, com base em dados de um sensor de contagem de veículos.

Os dados foram coletados por um sensor de laço indutivo em uma rampa de acesso para uma rodovia, estrategicamente posicionada para capturar um sinal de tráfego sutil, que se manifesta principalmente como um aumento no fluxo de veículos ao final das partidas. As medições foram agregadas a cada 5 minutos ao longo de 25 semanas, resultando em um dataset rico para a análise de anomalias no fluxo de tráfego.

In [None]:
#    Carregamento e descrição da base de dados.

## Pré-processamento dos dados (se precisar)

In [None]:
# dados faltantes, transformação de dados categóricos em numéricos,
# escalas diferentes, outliers, dados desbalanceados, dados duplicados ou inconsistentes, ...

## Implementação dos algoritmos escolhidos
Para este problema de classificação, foram selecionados dois algoritmos de aprendizado supervisionado com abordagens distintas para a criação de fronteiras de decisão: a Regressão Logística, implementada com o otimizador Gradiente Descendente Estocástico (SGD), e o k-Vizinhos Mais Próximos (k-NN). O objetivo é comparar seus desempenhos e determinar qual modelo é mais eficaz para detectar os eventos de interesse.

In [None]:
# Descrição dos Algoritmos

## 1º Algoritmo

### Regressão Logística (treinada com Gradiente Descendente Estocástico)

A Regressão Logística é um modelo linear que calcula diretamente a probabilidade de uma instância pertencer à classe positiva. Isso é feito através da função sigmoide, que mapeia qualquer valor real para o intervalo entre 0 e 1.

Neste trabalho, os parâmetros do modelo são otimizados utilizando o **Gradiente Descendente Estocástico (SGD)**, um método eficiente para minimizar a função de perda logística (entropia cruzada).

In [None]:
# Implementação

## 2º Algorimo

### k-Vizinhos Mais Próximos (k-NN)

O k-NN é um algoritmo de aprendizado baseado em instâncias, também conhecido como "lazy learner", pois não constrói um modelo explícito durante o treinamento.

Para classificar uma nova amostra, o k-NN calcula sua distância em relação a todas as amostras de treino. Em seguida, ele seleciona os *k* vizinhos mais próximos e a classificação é definida pela classe majoritária entre eles (votação). A eficácia do algoritmo depende criticamente da escolha do hiperparâmetro *k* e da métrica de distância utilizada (neste estudo, a distância Euclidiana).

In [None]:
# Implementação

# Avaliação dos Modelos com métricas e grafos

Para garantir que a avaliação do desempenho dos modelos seja robusta e generalize bem para dados não vistos, foi utilizada a técnica de **validação cruzada k-fold estratificada com k=10**.

O desempenho foi medido utilizando um conjunto abrangente de métricas derivadas da matriz de confusão, conforme trabalhado em aula:
- **Acurácia**: Percentual total de classificações corretas.
- **Precisão**: Dentre todas as previsões de "evento", quantas estavam corretas.
- **Revocação (Recall)**: De todos os "eventos" reais, quantos o modelo conseguiu identificar.
- **F1-Score**: Média harmônica entre precisão e revocação, útil para dados desbalanceados.
- **Curva ROC e AUC**: A Área Sob a Curva ROC (AUC) mede a capacidade do modelo de distinguir entre as classes, independentemente do limiar de classificação.

In [None]:
# Lembre-se de utilizar validação cruzada para divisão
# do conjunto de dados e métricas adequadas ao problema de classificação.

# Discussão dos resultados
### Análise e Discussão dos Resultados

A análise comparativa dos modelos revelou uma clara superioridade do k-NN para este problema de classificação.

#### Desempenho Geral
O modelo **k-NN demonstrou ser superior em quase todas as métricas**, incluindo acurácia (97,37%), precisão (78,44%), f1-score (75,92%) e AUC (0.980). Em contraste, a Regressão Logística (SGD) obteve um desempenho notavelmente inferior na maioria dessas métricas, embora tenha apresentado uma revocação mais alta.

#### Análise do k-NN
Com a configuração otimizada de **k=5** e utilizando a distância Euclidiana, o k-NN provou ser um classificador não apenas preciso, mas também bem balanceado. Suas métricas de precisão e revocação (73,55%) são equilibradas, o que o torna um modelo robusto e confiável para a aplicação prática de detecção de eventos. A análise da matriz de confusão mostra que ele classificou corretamente a grande maioria das instâncias, com um número baixo de falsos positivos e falsos negativos.

#### Análise da Regressão Logística (SGD)
O modelo de Regressão Logística apresentou um comportamento desequilibrado. Embora tenha alcançado uma **revocação altíssima de 87,18%**, identificando a maioria dos jogos que realmente ocorreram, isso veio ao custo de uma **precisão extremamente baixa de apenas 14,06%**. Na prática, isso significa que o modelo gerou um número excessivo de alarmes falsos (15.129 falsos positivos), o que limita severamente sua utilidade em um cenário real onde o custo de um falso alarme é relevante. O baixo f1-score (24,22%) reflete essa falta de equilíbrio.

#### Conclusão da Análise
A Curva ROC confirma a superioridade do k-NN, que obteve um **AUC de 0.980**, muito próximo do ideal 1.0, indicando uma excelente capacidade de discriminação entre as classes. O SGD, com um AUC de 0.814, embora bom, foi significativamente inferior

Conclui-se que a capacidade do **k-NN de capturar padrões locais e não lineares nos dados foi fundamental para seu sucesso**. A Regressão Logística, por ser um modelo linear, não conseguiu modelar a complexa relação entre o fluxo de tráfego e a ocorrência de jogos com a mesma eficácia.

In [None]:
# Discussão

## Metodologia
 
Nesta seção, detalhamos o processo adotado para comparar algoritmos de classificação supervisionada, com foco em Regressão Logística (SGD) e k-Vizinhos Mais Próximos (k-NN). O objetivo é avaliar o desempenho dos modelos em um conjunto de dados real, utilizando validação rigorosa e métricas variadas.
 
**Algoritmos utilizados:**
- **Regressão Logística (SGDClassifier, loss='log_loss')**: Algoritmo linear, eficiente para grandes volumes de dados e robusto a ruídos. Utiliza gradiente descendente estocástico para otimização.
- **k-Vizinhos Mais Próximos (k-NN)**: Algoritmo não paramétrico que considera a proximidade entre exemplos para realizar a classificação. Foram testados diferentes valores de *k* e métricas de distância para encontrar a melhor configuração.
 
**Engenharia de atributos:**
A partir das variáveis originais `Date` e `Time`, foram extraídos diversos atributos temporais: ano, mês, dia, dia da semana, dia do ano, hora, minuto, minutos desde meia-noite e indicador de fim de semana. O atributo `Count` foi mantido, e o alvo de classificação é o evento `Event` (binário: 0/1).
 
**Validação e métricas:**
Para garantir uma avaliação robusta, foi utilizada **validação cruzada k-fold (k=10)**, permitindo estimativas mais confiáveis do desempenho dos modelos. As métricas reportadas incluem:
- **Acurácia**: Proporção de acertos totais.
- **Precisão**: Proporção de positivos previstos que são realmente positivos.
- **Sensibilidade (Recall)**: Proporção de positivos reais corretamente identificados.
- **F1-score**: Média harmônica entre precisão e recall.
- **ROC e AUC**: Curva ROC e área sob a curva, avaliando a capacidade de separação dos modelos.
 
## Dados TODO Peres
 
A descrição detalhada dos dados será incluída posteriormente.

## Execução dos scripts
 
- `sgd_logreg.py`: executa a análise com regressão logística (SGD)
- `knn_model.py`: executa a análise com KNN (grid reduzido)
- `test_models.py`: executa ambos e salva os resultados em JSON
- `compare_plots.py`: gera gráficos comparativos (barras e ROC)
 
Os dados gerados ficam em `data/`.

In [None]:
# Executa os scripts principais para treinar e avaliar os modelos
%run python data/test_models.py
%run python data/compare_plots.py

In [None]:
import json, pandas as pd
from IPython.display import Image, display
with open('data/sgd_results.json') as f: sgd=json.load(f)
with open('data/knn_results.json') as f: knn=json.load(f)
metrics=['accuracy','precision','recall','f1','roc_auc']
df=pd.DataFrame({'SGD (Regressão logística)':[sgd['metrics_point_on_full'][m] for m in metrics], 'KNN':[knn['metrics_point_on_full'][m] for m in metrics]}, index=metrics)
display(df.style.format('{:.4f}'))
display(Image(filename='data/metrics_comparison.png'))
display(Image(filename='data/roc_both.png'))

In [None]:
# Carrega e exibe a comparação dos resultados dos modelos
import json, pandas as pd
from IPython.display import Image, display
with open('data/sgd_results.json') as f: sgd=json.load(f)
with open('data/knn_results.json') as f: knn=json.load(f)
metrics=['accuracy','precision','recall','f1','roc_auc']
df=pd.DataFrame({'SGD (Regressão logística)':[sgd['metrics_point_on_full'][m] for m in metrics], 'KNN':[knn['metrics_point_on_full'][m] for m in metrics]}, index=metrics)
display(df.style.format('{:.4f}'))
display(Image(filename='data/metrics_comparison.png'))
display(Image(filename='data/roc_both.png'))