# Exercício de Programação: Regressão Logística e Softmax com MNIST

Neste exercício, você aplicará os conceitos de Regressão Logística para classificação binária e Regressão Softmax para classificação multiclasse. Usaremos o famoso dataset MNIST, que consiste em imagens de dígitos manuscritos.

**Objetivos:**
1. Treinar um classificador binário para identificar se um dígito é '5' ou 'não-5'.
2. Treinar um classificador multiclasse para identificar os dígitos de 0 a 9.
3. Avaliar a performance de ambos os modelos.

## 1. Preparação do Ambiente e Carregamento dos Dados

Primeiro, vamos importar as bibliotecas necessárias e carregar o dataset MNIST.

Também vamos pré-processar os dados: 
- Dividir em conjuntos de treino e teste.
- Escalar os valores dos pixels para melhorar a performance do gradiente descendente.
- Remodelar as imagens de 28x28 para vetores de 784 dimensões, que é o formato esperado por um classificador como `LogisticRegression`.

In [1]:
import numpy as np
# carrega o dataset de dígitos manuscritos
from sklearn.datasets import load_digits
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# Carregar o dataset MNIST
digits = load_digits()
# X contém os valores dos pixels (cada imagem é transformada em uma lista de 64 números).
# y contém o rótulo (número real) de cada imagem (0 a 9).
X, y = digits.data, digits.target

# Dividir em conjuntos de treino e teste
# Treino (X_train, y_train) → usado para ensinar o modelo (1600 exemplos).
# Teste (X_test, y_test) → usado para verificar se ele aprendeu bem (restante dos exemplos).
X_train, X_test = X[:1600], X[1600:]
y_train, y_test = y[:1600], y[1600:]

# Escalar os pixels
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Remodelar as imagens para vetores 1D (28*28 = 784)
# reshape “achata” as imagens em vetores de uma única linha (1D).
# Como cada imagem é 8x8, ela vira um vetor com 64 valores.
# Isso é necessário porque a regressão logística espera vetores, não imagens 2D.
X_train_flat = X_train.reshape(X_train.shape[0], -1)
X_test_flat = X_test.reshape(X_test.shape[0], -1)

print(f"Formato dos dados de treino: {X_train_flat.shape}")
print(f"Formato dos dados de teste: {X_test_flat.shape}")

Formato dos dados de treino: (1600, 64)
Formato dos dados de teste: (197, 64)


## 2. Treinando um Classificador Binário (5 ou não-5)

Agora, vamos criar um classificador para uma tarefa binária: detectar se um dígito é o número 5 ou não. Para isso, precisamos ajustar nossos rótulos (`y_train` e `y_test`).

In [None]:
# Criar os rótulos para a classificação binária (True para 5, False para outros)
y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)

# SEU CÓDIGO AQUI: Treine o modelo usando o conjunto de treinamento (X_train_flat, y_train_5)

# O parâmetro max_iter=1000 serve para garantir que o modelo tenha iterações suficientes para 
# convergir (ou seja, aprender bem).
# Usamos max_iter=1000 para garantir a convergência
log_reg = LogisticRegression(max_iter=1000)

# ----------------

print("Modelo de Regressão Logística treinado!")

Modelo de Regressão Logística treinado!


### Avaliação do Classificador Binário

Com o modelo treinado, vamos avaliar sua acurácia no conjunto de teste.

In [None]:
from sklearn.metrics import accuracy_score

# SEU CÓDIGO AQUI: Faça as previsões no conjunto de teste e calcule a acurácia.
# Dica: Você pode usar o método .score() do modelo, que faz isso diretamente.

# ----------------


Acurácia do classificador '5 ou não-5': 0.9848


## 3. Treinando um Classificador Multiclasse (Regressão Softmax)

O `LogisticRegression` do Scikit-Learn automaticamente lida com a classificação multiclasse usando a estratégia "um-contra-o-resto" (OvR) por padrão. Para usar a Regressão Softmax (também chamada de Regressão Logística Multinomial), podemos definir o argumento `multi_class='multinomial'`.

Vamos treinar um novo modelo para classificar todos os 10 dígitos (0 a 9).

In [None]:
# SEU CÓDIGO AQUI: Treine o modelo softmax usando o conjunto de treinamento com todas as classes (X_train_flat, y_train).

# Inicializar o modelo de Regressão Softmax
# Usamos max_iter=1000 para garantir a convergência.

# ----------------

print("Modelo de Regressão Softmax treinado!")

Modelo de Regressão Softmax treinado!


### Avaliação do Classificador Multiclasse

Por fim, avaliamos o modelo multiclasse no conjunto de teste.

In [None]:
# SEU CÓDIGO AQUI: Calcule e imprima a acurácia do modelo multiclasse no conjunto de teste.

# ----------------


Acurácia do classificador multiclasse (Softmax): 0.9188


## Conclusão

Parabéns! Você implementou e avaliou com sucesso dois tipos de classificadores lineares:
1. Um classificador de Regressão Logística para uma tarefa binária.
2. Um classificador de Regressão Softmax para uma tarefa multiclasse.

Você deve notar que, embora simples, esses modelos já alcançam uma acurácia razoavelmente alta para o reconhecimento de dígitos.