# Análise Exploratória e Experimental

**Disciplina:** Redes Neurais Artificiais 2025.1

**Professora orientadora:**
Elloa B. Guedes (ebgcosta@uea.edu.br)

**Integrantes da equipe:**
* Adriana Raffaella Dos Santos Fonseca (ardsf.eng23@uea.edu.br)
* Ana Flavia De Castro Segadilha Da Silva (afdcsds.eng23@uea.edu.br)
* Davi Aguiar Moreira (dam.eng23@uea.edu.br)
* Guilherme Goncalves Moraes (ggm.eng23@uea.edu.br)
* Ian Garrido Reis (igr.eng23@uea.edu.br)
* Luiz Fernando Borges Brito (lfbb.eng23@uea.edu.br)
* Pedro Vitor Barros Maranhão (pvbm.eng23@uea.edu.br)
* Rita De Cassia Brasil Alves (rdcba.eng23@uea.edu.br)
* Yago De Oliveira Feitoza (ydof.eng21@uea.edu.br)

---

## 1. Introdução

Este relatório apresenta uma análise exploratória e experimental de um problema de classificação multiclasse envolvendo dados astronômicos do Sloan Digital Sky Survey (SDSS). O objetivo é categorizar corpos celestes em três classes principais: **galáxias (GALAXY), quasares (QSO)** e **estrelas (STAR)**. A etapa exploratória foca na compreensão e limpeza dos dados, enquanto a etapa experimental avalia o desempenho de Redes Neurais Artificiais (RNAs) aplicadas ao problema.

---

## 2. Análise Exploratória

### 2.1 Visão Geral do Dataset

- Fonte: Sloan Digital Sky Survey (SDSS)
- Tamanho: 100.000 amostras
- Atributos: 17 preditores + 1 variável alvo (classe)
- Classes: `GALAXY`, `QSO` (quasar) e `STAR`

### 2.2 Importação e Pré-processamento

- Bibliotecas utilizadas: `pandas`, `numpy`, `matplotlib`, `seaborn`, `sklearn.preprocessing`
- Remoção de colunas não informativas: `obj_ID`, `alpha`, `delta`, `run_ID`, entre outras
- Tratamento de valores extremos: remoção de amostras com valor `-9999.0`
- Renomeação de colunas para maior clareza (ex: `u → uv`, `g → green`)

### 2.3 Análise Estatística

- As distribuições das variáveis foram inspecionadas com histogramas
- A remoção do outlier influente melhorou a normalidade dos dados
- Não há valores nulos

### 2.4 Visualização e Distribuição de Classes

- Gráficos de barras mostraram a seguinte distribuição de classes:
  - **Galáxias**: ~59.5%
  - **Estrelas**: ~21.6%
  - **Quasares**: ~18.8%
- A distribuição é desbalanceada, com predominância da classe "galáxia"

### 2.5 Pontos Fortes e Melhorias

#### Pontos Fortes
- Processo bem documentado e justificado
- Visualizações adequadas
- Limpeza e organização eficientes

#### Melhorias Sugeridas
- Análise de correlação entre variáveis
- Verificação do balanceamento com medidas quantitativas (e.g., gráfico de barras com percentuais)
- Normalização/padronização das features
- Visualizações multivariadas (pairplots, heatmaps)

---

## 3. Análise Experimental com Redes Neurais

### 3.1 Abordagens Avaliadas

- **Abordagem 1 – Divisão 60/40**: Dados divididos em 60% treino / 40% teste, sem balanceamento
- **Abordagem 2 – Downsampling**: Conjunto de treino balanceado artificialmente (11.299 amostras por classe)

---

### 3.2 Arquiteturas Avaliadas

#### Baseadas na regra da pirâmide (α = 3):
- Número de neurônios decresce geometricamente (entrada → camada oculta → saída)

#### Arbitrárias:
- Configurações customizadas como ((32, 64), `'adam'`, `'relu'`)

---

### 3.3 Métricas de Avaliação

## Tabela Comparativa: Desempenho das Abordagens com Arquiteturas de RNA

| Abordagem    | Arquitetura            | Tipo        | Acurácia       | Precisão       | Revocação      | F1-Score       | Observações                                                        |
|--------------|-------------------------|-------------|----------------|----------------|----------------|----------------|---------------------------------------------------------------------|
| 60/40        | #1 (Regra da Pirâmide)  | Pirâmide    | 0.9681±0.0012  | 0.9680±0.0012  | 0.9681±0.0012  | 0.9678±0.0012  | Leve viés para galáxias                                            |
| 60/40        | #3 (Regra da Pirâmide)  | Pirâmide    | 0.9683±0.0009  | 0.9682±0.0009  | 0.9683±0.0009  | 0.9680±0.0009  | Alta estabilidade                                                  |
| 60/40        | #1 (32,64), Adam, ReLU  | Arbitrária  | **0.9703±0.0009** | **0.9703±0.0009** | **0.9703±0.0009** | **0.9702±0.0009** | Melhor desempenho geral                                            |
| 60/40        | #3 (Arbitrária)         | Arbitrária  | 0.9699±0.0009  | 0.9698±0.0009  | 0.9699±0.0009  | 0.9696±0.0010  | Desempenho sólido e consistente                                    |
| Downsampling | #1 (Regra da Pirâmide)  | Pirâmide    | 0.9632±0.0017  | 0.9635±0.0016  | 0.9632±0.0017  | 0.9632±0.0017  | Boa generalização com menor viés                                   |
| Downsampling | #2 (Regra da Pirâmide)  | Pirâmide    | 0.9472±0.0070  | 0.9484±0.0063  | 0.9472±0.0070  | 0.9472±0.0069  | Resultados mais instáveis                                          |
| Downsampling | #1 (32,64), Adam, ReLU  | Arbitrária  | 0.9670±0.0015  | 0.9672±0.0014  | 0.9670±0.0015  | 0.9670±0.0015  | Melhor desempenho entre os modelos balanceados                     |
| Downsampling | #3 (Arbitrária)         | Arbitrária  | 0.9668±0.0008  | 0.9670±0.0008  | 0.9668±0.0008  | 0.9668±0.0008  | Modelo mais estável da abordagem balanceada                        |


---

### 3.4 Matrizes de Confusão

- A **Abordagem 1** teve maior sensibilidade na classe galáxia, porém com menor equilíbrio nas demais
- A **Abordagem 2** gerou uma matriz mais simétrica, com desempenho equilibrado nas três classes

---

## 4. Conclusões Finais

### Integração da Análise Exploratória e Experimental

- A análise exploratória indicou a necessidade de tratamento do desbalanceamento, o que foi efetivamente aplicado na Abordagem 2
- As RNAs se mostraram eficazes mesmo com dados desbalanceados, com desempenho superior na Abordagem 1
- O pré-processamento cuidadoso influenciou diretamente a estabilidade dos modelos

### Comparação das Abordagens

| Critério               | Abordagem 1 (60/40)         | Abordagem 2 (Downsampling)     |
|------------------------|-----------------------------|----------------------------------|
| Desempenho máximo      | **F1 = 0.9702**              | F1 = 0.9670                      |
| Balanceamento          | Desbalanceada               | Balanceada (por downsampling)   |
| Tempo de treino        | Maior                       | Menor                            |
| Generalização          | Alta (baixa variação)       | Alta                             |

---

## 5. Recomendações e Trabalhos Futuros

- Testar técnicas alternativas de balanceamento, como **SMOTE**, **ADASYN** ou **oversampling aleatório**
- Empregar técnicas de redução de dimensionalidade (PCA, t-SNE) para melhor visualização
- Avaliar redes mais profundas e arquiteturas como CNNs 1D ou MLPs regulares com Dropout
- Analisar a importância relativa das features com métodos como Permutation Importance ou SHAP

---

## 6. Referências

- Bishop, C. M. (2006). *Pattern Recognition and Machine Learning*. Springer.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). *Deep Learning*. MIT Press.
- Pedregosa et al. (2011). *Scikit-learn: Machine Learning in Python*. Journal of Machine Learning Research.
