# Projeto 2 - T320 (1S2025)


### Instruções

1. Quando você terminar os exercícios do projeto, vá até o menu do Jupyter ou Colab e selecione a opção para fazer download do notebook.
    * Os notebooks tem extensão .ipynb.
    * Este deve ser o arquivo que você irá entregar.
    * No Jupyter vá até a opção **File** -> **Download as** -> **Notebook (.ipynb)**.
    * No Colab vá até a opção **File** -> **Download .ipynb**.
2. Após o download do notebook, vá até a aba de tarefas do MS Teams, localize a tarefa referente a este projeto e faça o upload do seu notebook. Veja que há uma opção de anexar arquivos à tarefa.
3. Atente-se ao prazo de entrega definido na tarefa do MS Teams. Entregas fora do prazo não serão aceitas.
4. **O projeto pode ser resolvido em grupos de no MÁXIMO 3 alunos**.
5. Todas as questões têm o mesmo peso.
6. Questões copiadas de outros grupos serão anuladas em todos os grupos com a mesma resposta.
7. Não se esqueça de colocar seu(s) nome(s) e número(s) de matrícula no campo abaixo. Substitua os nomes que já estão no campo abaixo.
8. Você pode consultar todo o material de aula.
9. A interpretação faz parte do projeto. Leia o enunciado de cada questão atentamente!
10. Boa sorte!

**Nomes e matrículas**:

1. Nome do primeiro aluno - Matrícula do primeiro aluno
2. Nome do segundo aluno - Matrícula do segundo aluno
3. Nome do terceiro aluno - Matrícula do terceiro aluno

### 1) Exercício sobre classificação por MLP
Cada vez mais, a área de inteligência artificial se mostra uma aliada à área de saúde. Assim, dentro desse contexto, vamos analisar e projetar modelos para categorizar a possibilidade de uma paciente estar com câncer de mama.
Devido à complexidade para a tomada de decisão, vamos utilizar de classificação por redes neurais.

No dataset fornecido, temos as informações abaixo. Percebam que existem 10 atributos e que a variável alvo pode assumir apenas 2 valores.

| #  |       Nome da Variável        |                         Descrição                          |
|----|-------------------------------|----------------------------------------------------------|
| 1  | Clump_thickness               | Espessura do aglomerado celular                           |
| 2  | Uniformity_of_cell_size       | Uniformidade do tamanho das células                       |
| 3  | Uniformity_of_cell_shape      | Uniformidade do formato das células                       |
| 4  | Marginal_adhesion             | Aderência marginal                                        |
| 5  | Single_epithelial_cell_size   | Tamanho de células epiteliais isoladas                    |
| 6  | Bare_nuclei                   | Núcleos nus (ausência de citoplasma)                     |
| 7  | Bland_chromatin               | Cromatina branda                                          |
| 8  | Normal_nucleoli               | Nucléolos normais                                         |
| 9 | Mitoses                       | Contagem de mitoses (divisão celular)                     |
|    | **Variável Alvo**             | **Diagnóstico (ex: benigno/maligno)**  |
| 10 | Class                         | 2 - benigno 4 - maligno                  |

1. Analise a tabela acima e responda, este é um problema de classificação binário ou multiclasses?

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

2. Execute a célula abaixo para instalar a biblioteca ucirepo, que baixará as informações que vamos utilizar.

In [None]:
pip install ucimlrepo

3. Execute a célula de código abaixo para baixar e organizar o dataset que iremos utilizar.

In [None]:
from ucimlrepo import fetch_ucirepo
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, recall_score, confusion_matrix
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import  StandardScaler
from sklearn.model_selection import GridSearchCV
import seaborn as sns

# Reseta o gerador de sequências pseudo-aleatórias.
seed = 190
np.random.seed(seed)

# Baixa a base de dados.
breast_cancer_wisconsin_original = fetch_ucirepo(id=15)

XRaw = breast_cancer_wisconsin_original.data.features.copy()
yRaw = breast_cancer_wisconsin_original.data.targets.copy()

X = pd.DataFrame()
y = pd.DataFrame()

XRaw["Class"] = yRaw["Class"]
X = XRaw.dropna()

y["Class"] = X["Class"]
X = X.drop("Class", axis=1)

# Convert the labels.
c = {2:0, 4:1}
y.Class = [c[item] for item in y.Class]

X = X.to_numpy()
y = y.to_numpy().reshape(y.shape[0])

print("Dimensões de X", X.shape)
print("Dimensões de y:", y.shape)

# Plote o gráfico de barras.
bars = plt.bar(['0', '1'], [np.sum(y == 0), np.sum(y == 1)])
# Adicionar valores nas barras
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, height,
             f'{int(height)}',
             ha='center', va='bottom')
plt.title('Quantidade de exemplos por classe')
plt.xlabel('Valores', fontsize=10)
plt.ylabel('Contagem', fontsize=10)
plt.show()

4. Analise o gráfico de barras acima e responda, o conjunto de dados é balanceado ou desbalanceado? **Justifique sua resposta**.

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

5. Divida o conjunto original de dados em 70% para treino e 30% para teste.

**Dica**
+ Use a função `train_test_split`.
+ Configure o parâmetro `random_state` com a semente definida no item 1, i.e., ` random_state=seed`.

In [None]:
# Digite aqui o código do exercício.

6. Padronize os conjuntos de treinamento e teste. Daqui em diante, use apenas os conjuntos padronizados.

**Dicas**
+ Os valores para a padronização dos dois conjuntos são calculados em cima da base de treinamento e aplicados ao conjunto de teste.

In [None]:
# Digite aqui o código do exercício.

7. Considerando o problema que você tem em mãos e que a base de dados é desbalanceada, qual é a métrica de classificação mais adequada para se avaliar um modelo de classificação? **Justifique sua resposta**

**Dicas**
+ Para esta tarefa de classificação, o que é mais custoso, um falso positivo (a paciente não tem câncer, mas o classificador diz que ela tem câncer) ou um falso negativo (a paciente tem câncer, mas o classificador diz que não tem câncer)?
+ Reveja a parte V de classificação.

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

8. Use busca em grade (`GridSearchCV`) e o **conjunto de treinamento** para treinar um objeto da classe `MLPClassifier` e encontrar os valores ideais para alguns hiperparâmetros da rede MLP. **Aqui você usará a métrica de classificação escolhida no item anterior como métrica de otimização da rede neural MLP**.

**Dica**

+ Ao instanciar o objeto da classe `MLPClassifier` configure o parâmetro de entrada `max_iter` com o valor 2000.
+ Use **grid search** (`GridSearchCV`) para encontrar: (i) o número ideal de camadas escondidas, (ii) o número ideal de nós em cada camada escondida, (iii) a função de ativação ideal dos nós, (iv) o melhor otimizador e (v) o valor da semente do gerador de sequências pseudo-aleatórias.
+ O `GridSearchCV` deve testar o  seguinte conjunto de parâmetros e valores:
    * `'hidden_layer_sizes'` com os valores `()`, `(2,)`, `(4,2)` e `(3,2,1)`.
    * `'activation'` com os valores `'logistic'`, `'tanh'` e `'relu'`.
    * `'solver'` com os valores `'lbfgs'`, `'sgd'` e `'adam'`.
    * `'random_state'` com os valores `1`, `17`, `27`, `78`, `142` e `322`.
+ O treinamento pode ser demorado, então pegue um lanche, água ou café e descanse.
+ Ao instanciar o objeto da classe `GridSearchCV`, configure o número de folds para o k-Fold igual a 5, ou seja, `cv=5` e a pontuação como sendo a métrica de classificação escolhida no item anterior, ou seja, `scoring='métrica escolhida'`, onde a métrica escolhida deve ser `'recall'` ou `'precision'`.
+ Para que o código de alguns itens a seguir funcione corretamente, use `reg` como o nome para a instância do objeto da classe `GridSearchCV`.

In [None]:
# Digite aqui o código do exercício.

9. Imprima os melhores hiperparâmetros encontrados pela busca em grade.

In [None]:
# Digite aqui o código do exercício.

10. Calcule a métrica definida no item 7 (precisão ou recall) usando os conjuntos de treinamento e de teste.

**Dicas**
+ Use uma das funções, `recall_score` ou `precision_score`, dependendo da métrica definida no item 7.
+ A documentação das duas funções pode ser encontrada em https://scikit-learn.org/stable/api/sklearn.metrics.html

In [None]:
# Digite aqui o código do exercício.

11. Apresente a matriz de confusão do modelo usando o conjunto de teste.

In [None]:
# Digite aqui o código do exercício.

12. Com base nos resultados encontrados acima, responda: É possível afirmar que o modelo pode atuar de forma autonoma, dispensando a necessidade de um time de médicos?

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

13. Qual deveria ser a métrica de classificação a ser usada caso falsos positivos e falsos negativos tivessem o mesmo custo para a aplicação?

**Dica**
+ Reveja a parte V de classificação.

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

### 2) Exercício sobre a seleção de métrica de classificação para um sistema de detecção de ocupação em edifícios corporativos

Neste exercício vamos analisar o uso e impacto de métricas de classificação por meio de uma situação real.

Uma empresa de tecnologia está desenvolvendo um sistema para otimizar o uso de energia em edifícios corporativos. O sistema utiliza sensores para detectar se uma sala está ocupada e, com base nisso, controla o ar-condicionado e a iluminação. Falsos positivos (prever que a sala está ocupada quando está vazia) são críticos, pois resultam em desperdício significativo de energia e custos operacionais elevados. Por outro lado, falsos negativos (prever que a sala está vazia quando está ocupada) têm um impacto menor, já que os usuários podem reativar manualmente os sistemas se necessário.

O dataset que utilizaremos é o **Occupancy Detection**, o qual contém dados de sensores coletados a cada minuto, incluindo:

  + Temperatura (°C)
  + Umidade (%)
  + Nível de luminosidade (lux)
  + Concentração de CO₂ (ppm)
  + Rótulo de ocupação (binário: 0 para sala "vazia", 1 para "ocupada").

O objetivo é classificar corretamente o estado de ocupação da sala com base nos sensores.

1. Considerando a situação descrita acima, qual a métrica de classificação ideal para o problema?

Justifique qual métrica de classificação deve ser maximizada para este sistema, considerando os custos associados a falsos positivos e falsos negativos.

**Dica**

+ Reveja a parte V de classificação.  


<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

2. Execute a célula de código abaixo para dividir os dados em conjuntos de treinamento e teste, instanciar alguns classificadores, treiná-los e realizar predições, utilizando 3 modelos distintos de classificação.

- Este código fornece modelos já treinados, acessíveis pelas variáveis:

  + `model1`: Regressor logístico  
  + `model2`: Rede neural
  + `model3`: Classificador aleatório

In [None]:
# Instala o pacote necessário
!pip install ucimlrepo

# Importa os códigos necessários
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report, precision_score
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from ucimlrepo import fetch_ucirepo

# Reseta o gerador de sequências pseudo-aleatórias.
seed = 42
np.random.seed(seed)

# Baixa a base de dados.
occupancy = fetch_ucirepo(id=357)
df = occupancy.data.features.copy()
df['Occupancy'] = occupancy.data.targets.copy()
df = df.dropna()

# Pré-processamento
X = df[['Temperature', 'Humidity', 'Light', 'CO2']]
y = df['Occupancy'].astype(int)

# Divide a base de dados em conjuntos de treinamento e teste.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=seed)

# Padroniza as features (importante para regressão logística e MLP)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Treinamento do regressor logístico
model1 = LogisticRegression(max_iter=1000, random_state=seed)
model1.fit(X_train, y_train)
predict1 = model1.predict(X_test)

# Treinamento da rede neural
model2 = MLPClassifier(hidden_layer_sizes=(32,16), max_iter=1000, random_state=seed)
model2.fit(X_train, y_train)
predict2 = model2.predict(X_test)

# Treinamento do classificador aleatório
model3 = DummyClassifier(strategy='uniform', random_state=seed)
model3.fit(X_train, y_train)
predict3 = model3.predict(X_test)

3. Com base nas predições (*predicts*) obtidas no item anterior, gere a matriz de confusão para cada um dos modelos utilizados.

**Dicas**

- Os valores de predição foram salvos como:  
  + *predict1*: Regressor logístico  
  + *predict2*: Rede neural
  + *predict3*: Classificador aleatório  
- Para resolver este item, baseie-se no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).


In [None]:
# Digite aqui o código do exercício.

4. Considerando a métrica de classificação que você definiu como mais relevante no item 1, responda:

+ Qual dos três modelos apresentados pode ser considerado o mais adequado para o problema do exercício? **Justifique sua escolha**.
+ Utilize a matriz de confusão para calcular o valor da métrica de classificação escolhida para cada modelo.

**Dicas**

+ Qual modelo maximiza a métrica de classificação escolhida?
+ Reveja a parte V de classificação.  

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

5. Execute a célula de código abaixo, ela plota número de exemplos de cada classe utilizando um gráfico de barras. Analise o gráfico gerado.

In [None]:
bars = plt.bar(['Classe 0','Classe 1'], [len(y[y==0]), len(y[y==1])])
plt.bar_label(bars)
plt.grid()
plt.title('Balanceamento das classes')
plt.xlabel('Classes', fontsize=10)
plt.ylabel('Distribuição das classes de saída no dataset', fontsize=10)
plt.show()

6. Com base no gráfico de distribuição das classes, responda:

+ As classes estão balanceadas?
+ A acurácia é uma métrica que poderia ser usada neste caso?
+ O que pode acontecer com um modelo de aprendizado de máquina, como uma rede neural, que é treinado com classes desbalanceadas (ou seja, o modelo "vê" muito mais exemplos de uma classe do que de outra durante o treinamento)?

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

7. Gere o relatório de métricas de classificação para o melhor modelo treinado, seguindo a maximização da métrica definida. Utilize a função `classification_report`. Use o conjunto de teste.

**Dica**
- O vetor de rótulos de teste é a variável `y_test`.

In [None]:
# Digite aqui o código do exercício.

8. Após analisar o reporte de classificação acima, responda:

+ Por que os valores de precisão `macro avg` e `weighted avg` são diferentes.
+ Por que o valor da precisão `weighted avg` é maior do que a precisão `macro avg`?

**Dica**

+ Para resolver este item, baseie-se no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

### 3) Exercício sobre comparação de modelos de classificação


Você foi contratado por uma organização de certificação de vinhos na Itália, responsável por garantir a autenticidade da origem de vinhos produzidos na região. Recentemente, houve denúncias de falsificação em que vinhos de cultivares menos valorizados estão sendo rotulados como pertencentes a cultivares premium, prejudicando a reputação da região. Para combater isso, a organização deseja desenvolver um sistema de classificação automática que identifique a cultivar do vinho (entre três possíveis) com base em sua composição química.

Seu objetivo é desenvolver um **modelo de aprendizado de máquina** que auxilie no processo de avaliação dos vinhos, automatizando a classificação da região com base em características químicas e físicas de cada amostra.

O conjunto de dados fornecido contém informações químicas dos vinhos e dados sobre sua origem.

| #  | Nome da Variável              | Descrição                                                                 |
|----|-------------------------------|---------------------------------------------------------------------------|
| 1  | Alcohol                       | Teor alcoólico do vinho                                                   |
| 2  | Malic_acid                    | Ácido málico — influencia o gosto e a acidez                              |
| 3  | Ash                           | Cinzas resultantes da queima do vinho (resíduos minerais)                 |
| 4  | Alcalinity_of_ash             | Alcalinidade das cinzas — relacionada à composição dos minerais           |
| 5  | Magnesium                     | Teor de magnésio — importante para a fermentação                          |
| 6  | Total_phenols                 | Fenóis totais — influenciam no sabor e no envelhecimento                  |
| 7  | Flavanoids                    | Subtipo de fenóis — importantes para a cor e o sabor                      |
| 8  | Nonflavanoid_phenols          | Fenóis não flavonoides — com menor influência sensorial                   |
| 9  | Proanthocyanins               | Compostos relacionados à adstringência e à cor                            |
| 10 | Color_intensity               | Intensidade da cor do vinho                                               |
| 11 | Hue                           | Tonalidade da cor                                                         |
| 12 | OD280/OD315_of_diluted_wines | Absorbância em dois comprimentos de onda — relacionada à qualidade fenólica |
| 13 | Proline                       | Aminoácido relacionado ao aroma e ao corpo do vinho                       |
|    | **Variável Alvo (classe)**             | **Classe do vinho (1, 2 ou 3)** — tipos de vinho cultivados na região. Considere:  0 - Norte italiano;  1 - Sudeste italiano;  2 - Sudoeste italiano                                                     |


1. Execute a célula de código abaixo para baixar a base de dados.

In [None]:
# Instala o pacote necessário
!pip install ucimlrepo

# Importa os códigos necessários
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.multiclass import OneVsRestClassifier
from sklearn.multiclass import OneVsOneClassifier
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, roc_curve, accuracy_score, auc
from sklearn.preprocessing import label_binarize
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from ucimlrepo import fetch_ucirepo

# Reseta o gerador de sequências pseudo-aleatórias.
seed = 42
np.random.seed(seed)

# Baixe a base de dados.
wine_quality = fetch_ucirepo(id=109)

X = wine_quality.data.features.copy() # Features - variaveis de entrada
y = wine_quality.data.targets.copy() # rótulos

# Convert the labels.
c = {1:0, 2:1, 3:2}
y['class'] = [c[item] for item in y['class']]
y = np.ravel(y)

2. Execute a célula de código abaixo. Ela plota o número de exemplos em cada classe utilizando um gráfico de barras. Analise a quantidade de exemplos em cada classe.


In [None]:
bars = plt.bar(['Classe 0',' 1', ' 2'], [len(y[y==0]), len(y[y==1]), len(y[y==2])])
plt.bar_label(bars)
plt.grid()
plt.title('Train')
plt.xlabel('Classes', fontsize=12)
plt.ylabel('Quantidade de exemplos de cada classe', fontsize=12)
plt.show()

3. Após analisar a figura acima, responda:

+ A base de dados é balanceada?
+ Se a base de dados for balanceada, podemos usar a acurácia como uma métrica para se medir o desempenho do modelo? **Justifique suas respostas**.

**Dicas**
+ Considere que uma base de dados é desbalanceada se pelo menos uma das classes tem 2 vezes mais amostras que as demais.
+ Reveja a parte V de classificação.

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**

4. Divida a base de dados em conjuntos de treinamento e teste. Divida em 70% para treinamento e 30% para teste. Use a semente definida no item 1.

In [None]:
# Digite aqui o código do exercício.

5. Padronize os conjuntos de treinamento e teste. Daqui em diante, use apenas os conjuntos padronizados.

**Dicas**
+ Os valores para a padronização dos dois conjuntos são calculados em cima da base de treinamento e aplicados ao conjunto de teste.

In [None]:
# Digite aqui o código do exercício.

6. Treine um regressor softmax com o conjunto de treinamento e após, imprima as acurácias de treinamento e teste. Use a semente definida no item 1. Chame a variável contendo o regressor softmax de `model1`.

 **Dica**

+ Para resolver este item, baseie-se no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).



In [None]:
# Digite aqui o código do exercício.

7. Com base nas predições obtidas anteriormente para o conjunto de teste, gere a matriz de confusão do regressor softmax.

**Dicas**

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).

In [None]:
# Digite aqui o código do exercício.

8. Plote a curva ROC e a área abaixo da curva do regressor softmax para cada uma das classes usando o conjunto de teste.

**Dicas**
+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).

In [None]:
# Digite aqui o código do exercício.

9. Treine uma rede neural MLP para classificação com o conjunto de treinamento e, após, imprima as acurácias de treinamento e teste. Use a semente definida no item 1. Chame a variável contendo o regressor softmax de `model2`. Você pode configurar o número de camadas ocultas, o número de nós em cada camada oculta, a função de ativação e o otimizador da forma que você desejar.

 **Dica**

+ Para resolver este item, baseie-se no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).

In [None]:
# Digite aqui o código do exercício.

10. Com base nas predições obtidas no item anterior para o conjunto de teste, gere a matriz de confusão da rede neural.

**Dicas**

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).

In [None]:
# Digite aqui o código do exercício.

11. Plote a curva ROC e a área abaixo da curva da rede neural para cada uma das classes usando o conjunto de teste.

**Dicas**
+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_metrics.ipynb).

In [None]:
# Digite aqui o código do exercício.

12. Com base em todos os resultados anteriores, qual é o melhor modelo? **Justifique sua resposta**.


<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

**Resposta**