[View in Colaboratory](https://colab.research.google.com/github/calicinio/Testando/blob/master/Copy_of_RegressaoMultinomial.ipynb)

# Grupo 2

Fellipe Fernandes Goulart dos Santos \\
Josué Fernando Leal Granados \\
Pedro Henrique da Cruz Santos \\
Walace da Silva Castro

Email: pedrohcs89santos@gmail.com 

# Regressão Multinomial

## Introdução

A regressão logística é uma técnica estatística utilizada para solucionar  problemas de classificação binária e de regressão. Quando a variável de saída assume dois valores distintos, o problema de aprendizado é definido como um problema de classificação binária. Por outro lado, quando a  variável de saída é contínua, define-se o mesmo como um problema de regressão. 

Na sua forma mais geral, a regressão logística também pode ser utilizada para solucionar problemas de multi-classificação. Tal modelo é conhecido como regressão logística multinomial. Diferentemente da classificação binária, no problema de multi-classificação, a variável de saída pode assumir vários valores distintos. Pode-se citar, por exemplo, uma situação na qual é desejável identificar se um determinado animal é um tipo de cachorro, gato ou sapo (como ilustrado na figura abaixo).

De forma geral, pode-se dizer que a regressão logística multinomial é uma generalização da regressão logística. A diferença entre ambas não está apenas no tipo de problema a ser resolvido (classificação binária e multi-classificação). Na regressão logística, por exemplo, a função que calcula as probabilidades dos possíveis resultados é a função *Sigmoid*. Na multinomial, por sua vez, a função aplicada é a função *Softmax*.

Diante desse contexto, o presente notebook aborda os conceitos relacionados à regressão logística multinomial e a sua aplicação em problemas de multi-classificação. Inicialmente, uma introdução é realizada e um fluxograma do modelo é apresentado. Por fim, dois problemas de multi-classificação são utilizados para exemplificar a utilização dessa técnica.

<img src="https://i0.wp.com/dataaspirant.com/wp-content/uploads/2017/03/Multinomial-Logistic-Regression-model.jpg?w=700&ssl=1">

## Fluxograma

A imagem abaixo ilustra o fluxograma do modelo de regressão logística multinomial. Para simplificar o processo de compreensão, vamos dividir o classificador em diferentes estágios, desde as entradas até a saída do mesmo. Assim, é possível discutir cada estágio em detalhes.

<img src="https://i2.wp.com/dataaspirant.com/wp-content/uploads/2017/03/Multinomial-Logistic-Classifier-compressor.jpg?w=700&ssl=1">

1.   **Entradas:** Como o próprio nome diz, são as entradas do modelo. Vale ressaltar que, caso haja uma variável categórica (e.g. gênero), por exemplo, a mesma deve ser codificada em valores numéricos para que o modelo possa funcionar de forma adequada. Esse pré-processamento de dados é exemplificado mais adiante neste notebook.

2.   **Modelo Linear:** A equação do modelo linear é a mesma utilizada no modelo de regressão linear. Na qual: $X$ é o conjunto de entradas e $w$ e $b$ são os coeficientes. A partir daí, as saídas desse modelo são chamados de *scores* ou *logits*, os quais serão aplicados na função *Softmax*.

3.    **Função Softmax:** A função *Softmax* é uma função probabilística que fornece as probabilidades a partir dos valores de *score*. De forma geral, essa função retorna um alto valor para o maior valor de *score*. Vale ainda ressaltar que as probabilidades calculadas estão na faixa de valores entre 0 e 1. Além disso, a soma de todas elas deve ser sempre igual a 1.

4.  **Entropia Cruzada:** A entropia cruzada é a última etapa da regressão logística multinomial. Tal função é utilizada para encontrar a distância de similaridade entre as probabilidades calculadas a partir da função *Softmax* e a matriz *One-Hot-Encoding*. *One-Hot-Encoding* é um método para representar a saída (*targets*) em uma codificação binária. Neste caso, a saída deste método possui elementos binários (0 e 1), sendo 1 para a classe escolhida e 0 para as demais.

É importante ressaltar que o processo de treinamento é feito conforme o valor da distância de similaridade. Para as classes corretas, tal distância terá menor valor. Caso contrário, os valores envolvidos serão maiores. Além disso, cada observação no conjunto de treinamento irá passar por todos os estágios mencionados no fluxograma. A partir daí, os valores dos pesos $w$ serão calculados e corrigidos pelo processo de otimização.

## Modelo

### Modelo de Regressão Logística:

O modelo de regressão logística (para problemas binários) relaciona $p$ variáveis independentes $x_1,x_2,...,x_p$ a uma variável dependente $Y$, a qual pode assumir dois estados possíveis (e. g. 0 ou 1). 

Em relação ao seu funcionamento, inicialmente, aplica-se o modelo linear associado a uma transformação conhecida como transformação *logit*, a qual é denotada por $g(x)$. Em seguida calcula-se o valor de probabilidade de ocorrência do evento baseado no valor de $g(x)$. O modelo matemático deste procedimento é apresentado abaixo:

$g(x) = ln[\frac{P(Y=1|x)}{P(Y=0|x)}]=\beta_{10}+\beta_{11}.x_1+\beta_{12}.x_2+...+\beta.x^{'}=x^{'}.\beta$

$P(Y=0|x) = \frac{1}{1+e^{g(x)}}$

$P(Y=1|x) = \frac{e^{g(x)}}{1+e^{g(x)}}=1-P(Y=0|x)$

Onde $\beta$ são os parâmetros do modelo estimados pelo método de máxima verossimilhança. Vale ressaltar que a transformação *logit* é uma função linear nos parâmetros $\beta$, contínua e que pode variar de $-\infty$ a $+\infty$.

Em relação à função logística, existem pelo menos duas razões para a utilização da mesma na análise de variáveis-resposta dicotômicas:

*   Do ponto de vista matemático, é extremamente flexível e fácil de ser utilizada;
*   Permite uma interpretação de resultados bastante rica e direta.
	
A figura abaixo apresenta a função logística $Psi$ com o seu característico formato em ‘S’ e a relação linear entre uma única variável $x$ e o *logit* $g(x)$.

<img src="http://cmq.esalq.usp.br/BIE5781/lib/exe/fetch.php?media=historico:2014:ensaios:figura2.png">

### Modelo de Regressão Logística Multinomial:

O modelo de regressão logística, originalmente desenvolvido para variáveis binárias, pode ser estendido para variáveis-resposta politômicas (três ou mais classes). Com o objetivo de mostrar seu funcionamento, considere um exemplo com apenas três classes, digamos $0$, $1$ e $2$.

Neste caso, o modelo logístico terá duas funções *logit*: a razão entre $Y=1$ e $Y=0$ e a razão entre $Y=2$ e $Y=0$. Perceba que a classe $Y=0$ foi assumida como base ou referência. Assim, as duas funções *logit* são escritas como segue:

$g_1(x) = ln[\frac{P(Y=1|x)}{P(Y=0|x)}]=\beta_{10}+\beta_{11}.x_1+\beta_{12}.x_2+...+\beta_{1p}.x_p=x^{'}.\beta_1$

$g_2(x) = ln[\frac{P(Y=2|x)}{P(Y=0|x)}]=\beta_{20}+\beta_{21}.x_1+\beta_{22}.x_2+...+\beta_{2p}.x_p=x^{'}.\beta_2$

A partir das funções lineares $g_i (x)$, cujos parâmetros $\beta_1$ e $\beta_2$ são estimados por máxima verossimilhança, é possível calcular as probabilidades condicionais de ocorrência de cada categoria de $Y$ dado um vetor de observações $x$. Isto é:

$P(Y=0|x) = \frac{1}{1+e^{g_1(x)}+e^{g_2(x)}}$

$P(Y=1|x) = \frac{e^{g_1(x)}}{1+e^{g_1(x)}+e^{g_2(x)}}$

$P(Y=2|x) = \frac{e^{g_2(x)}}{1+e^{g_1(x)}+e^{g_2(x)}}$

De forma generalizada, na regressão logística para variáveis-resposta com $k$ classes sendo $k≥3$, a probabilidade de uma dada observação $x$ pertencer a uma das classes $y_i$ é estimada diretamente por meio da seguinte expressão:

$P(Y=y_i|x) = \frac{e^{g_i(x)}}{\sum_{j=0}^{k-1}e^{g_j(x)}}$

Onde a função *logit*, assumindo a classe $y_k$ como referência, é dada por:

$g_i(x) = ln[\frac{P(Y=y_i|x)}{P(Y=y_k|x)}]=\beta_{i0}+\beta_{i1}.x_1+\beta_{i2}.x_2+...+\beta_{ip}.x_p=x^{'}.\beta_i$

$i=1,2,...,k-1$

$g_k(x)=0$

Ressalta-se que no procedimento descrito até o momento, a probabilidade $P$ é calculada com uso da função *Softmax* (Etapa 3 do fluxograma). Sendo assim, ao considerar as classes $y_1,y_2,…,y_k$da variável dependente $Y$, podemos afirmar que:

$\sum_{i=1}^{k}P(y_i|x)=1$

A partir dessas probabilidades, a regra de classificação para alocar uma observação $x$ numa determinada classe $y_i$ é muito simples e é apresentada abaixo:

$x \in y_i se P(y_i|x)>P(y_j|x)  \forall j\ne i$

O processo de estimativa dos parâmetros em regressão logística é baseado na maximização da função de verossimilhança $l(x,\beta)$. Para tornar possível a realização deste procedimento são necessárias $n$ amostras de treinamento $x_1,x_2,…,x_n$, cujas classes a que pertencem são conhecidas. Além disso, os vetores solução $b_i$ que maximizam a função $l(x,\beta)$ são aqueles que tornam máxima a probabilidade da particular amostra de treinamento ter sido selecionada. 

## Bibliotecas:

Neste notebook, inicialmente importaremos alguns métodos que serão utilizados ao longo deste notebook. 

In [0]:
import pandas as pd
import numpy as np
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt
from sklearn import linear_model
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn import metrics
import plotly.graph_objs as go
import plotly.plotly as py
from plotly.graph_objs import *
py.sign_in('Your_ployly_username', 'API_key')

## Base de Dados: Abalone

A seguir, vamos utilizar o modelo de regressão logística multinomial por meio da biblioteca scikit-learn. Como problema de multi-classificação, utiliza-se o conjunto de dados Abalone disponível no UCI Machine Learning Repository (Repositório de Aprendizado de Máquina da UCI. Irvine, CA: Universidade da Califórnia, School of Information and Computer Science), e presente no seguinte link: http://archive.ics.uci.edu/ml/datasets/Abalone.


In [2]:
#Inicialmente o conjunto de dados Abalone é carregado

abalone = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data',
                        names=['Sex','Length','Diameter','Height',
                                             'Whole Weight','Shucked Weight',
                                             'Viscera Weight','Shell Weight',
                                             'Rings'])
abalone.head()

Unnamed: 0,Sex,Length,Diameter,Height,Whole Weight,Shucked Weight,Viscera Weight,Shell Weight,Rings
0,M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
1,M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7
2,F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9
3,M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10
4,I,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,7


### Pré-processamento dos Dados: 

Ao observar os dados no conjunto Abalone, a maioria dos atributos são de natureza numérica, exceto pela variável "Sexo". Na qual é possível observar valores como: "Masculino", "Feminino" e "Infantil". Neste último caso, é interessante ressaltar que, quando jovem, o sexo de um abalone não é facilmente determinado e, por isso, utiliza-se o termo "Infantil". 

Diante disso, a variável "Sexo" pode ser codificada em outras três variáveis: “Masculino”, “Feminino” e “Infantil”. Dentre essas opções, um valor unitário indica que tal observação pertence à categoria em questão, e um valor nulo indica o contrário.


In [3]:
#criando as novas variáveis
abalone['Male'] = (abalone['Sex']=='M').astype(int)
abalone['Female'] = (abalone['Sex']=='F').astype(int)
abalone['Infant'] = (abalone['Sex']=='I').astype(int)

#removendo a coluna "sex" do conjunto de dados
abalone = abalone.drop(['Sex'],axis=1)
abalone.describe()

Unnamed: 0,Length,Diameter,Height,Whole Weight,Shucked Weight,Viscera Weight,Shell Weight,Rings,Male,Female,Infant
count,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0,4177.0
mean,0.523992,0.407881,0.139516,0.828742,0.359367,0.180594,0.238831,9.933684,0.365813,0.312904,0.321283
std,0.120093,0.09924,0.041827,0.490389,0.221963,0.109614,0.139203,3.224169,0.481715,0.463731,0.467025
min,0.075,0.055,0.0,0.002,0.001,0.0005,0.0015,1.0,0.0,0.0,0.0
25%,0.45,0.35,0.115,0.4415,0.186,0.0935,0.13,8.0,0.0,0.0,0.0
50%,0.545,0.425,0.14,0.7995,0.336,0.171,0.234,9.0,0.0,0.0,0.0
75%,0.615,0.48,0.165,1.153,0.502,0.253,0.329,11.0,1.0,1.0,1.0
max,0.815,0.65,1.13,2.8255,1.488,0.76,1.005,29.0,1.0,1.0,1.0


Agora temos dez entradas que são utilizadas para realizar a predição: *Length, Diameter, Height, Whole Weight, Shucked Weight, Viscera Weight, Shell Weight, Male, Female, Infant*. Ao observar os dados, é possível verificar que o valor mínimo da variável height é igual a zero. Tal valor claramente não faz sentido. Vamos examinar essas instâncias mais de perto: 


In [4]:
abalone[abalone['Height']==0]

Unnamed: 0,Length,Diameter,Height,Whole Weight,Shucked Weight,Viscera Weight,Shell Weight,Rings,Male,Female,Infant
1257,0.43,0.34,0.0,0.428,0.2065,0.086,0.115,8,0,0,1
3996,0.315,0.23,0.0,0.134,0.0575,0.0285,0.3505,6,0,0,1


Percebe-se que, provavelmente, o valor *Height* nessas observações está faltando ou que, talvez, o mesmo possa não ter sido medido por algum motivo. Sendo assim, dado que são poucas instâncias, é mais fácil simplesmente ignorá-las.

In [0]:
abalone = abalone[abalone['Height']>0]

Além dos passos realizados até então, é interessante normalizar os dados de entrada para que estes fiquem na mesma faixa de valores. Para tal, você pode utilizar a função *scale* presente no pacote *preprocessing* da biblioteca scikit-learn. Lembre-se que as variáveis codificadas (“Masculino”, “Feminino” e “Infantil”) não devem ser normalizadas.


In [0]:
X = abalone.drop(['Rings'],axis=1)
Y = abalone['Rings']

#convertendo para float
X = X.values.astype(np.float)

# Normalizando os valores de entrada necessários
## INSIRA SEU CÓDIGO AQUI
temp_X = preprocessing.scale(X[:, 0:7])
X = np.c_[temp_X, X[ : , 7:10]]

Uma vez que os dados já estão preparados, a próxima etapa é separá-los em dados de treinamento e de teste. 

In [0]:
# separando os dados em conjunto de treinamento e de teste 
xtrain,xtest, ytrain, ytest = train_test_split(X,Y,train_size=0.7)

###Aplicação da Regressão

A partir dos dados de treinamento, utilize a biblioteca scikit-learn para construir o modelo de regressão logística multinomial. Dica: pesquise a função *LogisticRegression* com a utilização do parâmetro *multi_class* atribuído com o valor *multinomial*. Além disso, lembre-se que  para o conjunto de dados abalone é normal a obtenção de uma acurária relativamente baixa.



In [45]:
# Construção do modelo de regressão multinomial:
model = linear_model.LogisticRegression(solver = 'lbfgs' , multi_class='multinomial')

# Utilizando o modelo para predizer as observações de teste
ypred = model.fit(xtrain, ytrain).predict(xtest)

# Visualização do valor de acurácia para o conjunto de teste:
print "Regressão Multinomial --> Acurácia no teste: ", metrics.accuracy_score(ytest, ypred)

Regressão Multinomial --> Acurácia no teste:  0.2583732057416268


## Base de Dados: Glass


Além da base de dados Abalone, também utilizaremos o conjunto de dados Glass disponível no UCI Machine Learning Repository. Sendo assim, inicialmente os dados são carregados:

In [46]:
#Inicialmente o conjunto de dados Glass é carregado

glass_data_headers = ["Id", "RI", "Na", "Mg", "Al", "Si", "K", "Ca", "Ba", "Fe", "glass-type"]
glass_data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data", names=glass_data_headers)

print "Número de Observações: ", len(glass_data.index)
print "Número de Colunas: ", len(glass_data.columns)
print "Cabeçalho: ", glass_data.columns.values

Número de Observações:  214
Número de Colunas:  11
Cabeçalho:  ['Id' 'RI' 'Na' 'Mg' 'Al' 'Si' 'K' 'Ca' 'Ba' 'Fe' 'glass-type']


Logo após, os dados devem ser normalizados e separados em conjunto de treinamento e de teste:

In [0]:
X = glass_data[glass_data_headers[:-1]]
Y = glass_data[glass_data_headers[-1]]

#convertendo para float
X = X.values.astype(np.float)

# Normalizando os valores de entrada necessários
## INSIRA SEU CÓDIGO AQUI
X = preprocessing.scale(X)

#separação dos dados em conjunto de treinamento e de teste
xtrain, xtest, ytrain, ytest = train_test_split(X, Y, train_size=0.7)

A partir dos dados de treinamento, utilize novamente a biblioteca scikit-learn para construir o modelo de regressão logística multinomial. Dica: repita os passos utilizados anteriormente para a construção do modelo.

In [55]:
# Construção do modelo de regressão multinomial:
model = linear_model.LogisticRegression(solver = 'newton-cg' , multi_class='multinomial')

# Utilizando o modelo para predizer as observações de teste
ypred = model.fit(xtrain, ytrain).predict(xtest)

# Visualização do valor de acurácia para o conjunto de teste:
print "Regressão Multinomial --> Acurácia no teste: ", metrics.accuracy_score(ytest, ypred)

Regressão Multinomial --> Acurácia no teste:  0.8372093023255814
