## Expandindo para $k$ classes

Podemos usar Regressão Logística para mais de uma duas classes ($k > 2$)

### Função Softmax

Dado um vetor $\mathbf{x}$, a função Softmax computa um score $s_k(\mathbf{x})$ para cada classe $k$, então estima a probabilidade de cada classe.

$$\hat{p}_k = \sigma(\mathbf{s}(\mathbf{x}))_k = \frac{e^{s_k(\mathbf{x})}}{\sum_{j=1}^K e^{s_j(\mathbf{x})}}$$

* $K$ - número de classes
* $\mathbf{s}(\mathbf{x})$ - vetor contendo todos os scores de cada classe de uma observação $x$
* $\sigma(\mathbf{s}(\mathbf{x}))_k$ - a probabilidade estimada ($\hat{p}_k$) que a obsevação $x$ pertence a classe $k$, dado os scores de cada classe para $x$

In [None]:
# Exemplo para 3 classes
# p_hat = [0.25, 0.50, 0.25]
# y_hat = 2 # indice 2

### Regressão Softmax

Que nem a Regressão Logística, a Regressão Softmax prevê a classe com maior probabilidade estimada (que é simplesmente a classe com o maior score)

$$\hat{y} = \max_k \sigma(\mathbf{s}(\mathbf{x}))_k = \max_k s_k(\mathbf{x})$$

### Regressão Softmax (Regressão Logística Multinomial)
Usar a função do Scikit-Learn [`sklearn.linear_model.Logistic Regression()`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)

Não possui opções de controle da taxa de aprendizagem do Método do Gradiente Descendente

#### Argumentos:
* `multi_class` - `str`
    * `'ovr'` - Binário ($k=2$)
    * `'multinomial'` - Multiclasses ($k > 2$)
    * `'auto'` - se baseia nas dimensões da `array` `y` que é passada no `.fit()`
* `max_iter` - `int` - Número máximo de iterações do *Gradient Descent*
* `tol` - Tolerância - Critério de parada de treino
* `random_state` - `int` - seed do gerador de número randômicos (replicabilidade)

#### Retorna:
* Objeto `estimator` do Scikit-Learn

#### O que muda da Regressão Logística?
Agora o meu $y$ é uma matriz (2-D) e não um vetor (1-D)

### Métrica de Desempenho de uma Regressão Softmax

**Cross Entropy**: Estender a Log Loss para mais que duas classes

$$Cross~Entropy = -\frac{1}{m} \sum_{i=1}^{m} \sum_{k=1}^K y_k^{(i)} \log (\hat{p}_k^{(i)})$$

* $y_k^{(i)}$ é a probabilidade alvo que a observação $i$ pertence à classe $k$. De maneira geral, ou é $1$ ou $0$, dependendo de qual classe $i$ pertence.

## Atividade - Regressão com o dataset [Iris](https://scikit-learn.org/stable/datasets/index.html#iris-dataset)

Edgar Anderson coletou os dados para quantificar a variação morfológica das flores de íris de três espécies relacionadas.

O conjunto de dados consiste em 50 amostras de cada uma das três espécies de Iris (Setosa, Virginica e Versicolor). Quatro características foram medidas em cada amostra (cm):

* $N = 150$
* Atributos: 4
    * `sepal length (cm)` - Cumprimento da Sépala
    * `sepal width (cm)` - Largura da Sépala
    * `petal length (cm)` - Cumprimento da Pétala
    * `petal width (cm)` - Largua da Sépala
* Variável dependente: Tipo de espécie de Iris
    * `0` - Setosa
    * `1` - Virginica
    * `2` - Versicolor

* Achar a acurácia do modelo nos dados de teste e os respectivos coeficientes dos atributos ($\theta_i$) e viés/constante ($\theta_0$)

>Obs: usar `test_size = 0.25` e `random_state = 123`

<img src="https://github.com/storopoli/ciencia-de-dados/blob/main/notebooks/images/iris-species.png?raw=1" alt="iris-sepals-petals" style="width: 600px;"/>

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()
X = iris['data']
y = iris['target']

In [4]:
print('Nomes dos Atributos: ', iris['feature_names'], '\n')
print('Tamanho de X: ', X.shape, '\n')
print('Tamanho de y: ', y.shape, '\n')

Nomes dos Atributos:  ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] 

Tamanho de X:  (150, 4) 

Tamanho de y:  (150,) 



In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=123)

In [7]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [9]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [12]:
y_test

array([1, 2, 2, 1, 0, 2, 1, 0, 0, 1, 2, 0, 1, 2, 2, 2, 0, 0, 1, 0, 0, 2,
       0, 2, 0, 0, 0, 2, 2, 0, 2, 2, 0, 0, 1, 1, 2, 0])

In [10]:
y_pred

array([1, 2, 2, 1, 0, 2, 1, 0, 0, 1, 2, 0, 1, 2, 2, 2, 0, 0, 1, 0, 0, 1,
       0, 2, 0, 0, 0, 2, 2, 0, 2, 2, 0, 0, 1, 1, 2, 0])

In [13]:
from sklearn.metrics import accuracy_score, classification_report

print("Acurácia:", accuracy_score(y_test, y_pred))

Acurácia: 0.9736842105263158


In [14]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        16
           1       0.89      1.00      0.94         8
           2       1.00      0.93      0.96        14

    accuracy                           0.97        38
   macro avg       0.96      0.98      0.97        38
weighted avg       0.98      0.97      0.97        38

