<a href="https://colab.research.google.com/github/anselmo-pitombeira/Notebooks/blob/master/regressao_logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regressão Logística

Neste notebook, ilustramos uma aplicação da técnica de regressão logística ao conjunto de dados clássico sobre vinhos de três variedades diferentes. O objetivo é classificar os vinhos a partir da observação de 13 diferentes *features* (ou características). O conjunto de dados está disponível em https://archive.ics.uci.edu/ml/datasets/wine.

## Importação das funções

In [38]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_wine

## Leitura dos dados
Note que a função load_wine já carrega os dados desse exemplo clássico. Os dados são carregados como um dicionário. `data` contém os dados dos *features* e `target` da variável resposta como arrays NumPy, respectivamente.

In [39]:
dados = load_wine()
print("Chaves do dicionário:", list(dados.keys()))

Chaves do dicionário: ['data', 'target', 'target_names', 'DESCR', 'feature_names']


Pode-se ver que há 13 *features* e 178 observações no total:

In [40]:
print("Formato dos dados de features = ", dados['data'].shape)
print("Formato dos dados da variávels resposta = ", dados['target'].shape)
print("Vetor de classes = ", dados['target'])

Formato dos dados de features =  (178, 13)
Formato dos dados da variávels resposta =  (178,)
Vetor de classes =  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]


## Separação do conjunto de dados em treino e teste

Para testar a precisão da classificação da regressão logística, vamos dividir o conjunto de dados em um conjunto de *treino*, o qual usaremos para ajustar os parâmetros do modelo, e um conjunto de *teste*, o qual utilizaremos para testar o modelo. Note que separamos 70% da amostra para treino e 30% para teste:

In [41]:
X = dados['data']
y = dados['target']
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=42)

##Padronização dos dados

Consiste em usar a transformação-z (escore padrão) para deixar os *features* na mesma escala. A padronização é frequentemente usada em regressão logística uma vez que facilita a convergência do algoritmo de ajuste dos parâmetros.

In [42]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_treino = scaler.fit_transform(X_treino)
X_teste = scaler.fit_transform(X_teste)

##Criação do modelo e ajuste dos parâmetros

In [43]:
modelo = LogisticRegression()
modelo.fit(X_treino,y_treino)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

##Aplicação do modelo aos dados de teste

A função `predict` prevê a classe de cada amostra de vinho dados os *features* observados, enquanto a função `score` computa a ''acurácia'' das previsões. A acurácia corresponde ao percentual de amostras de vinho classificadas corretamente. Note que a regressão logística resultou em uma acurácia de aproximadamente 98%.

In [44]:
y_previsto = modelo.predict(X_teste)
acuracia = modelo.score(X_teste,y_teste)
print("Acurácia = ", acuracia)

Acurácia =  0.9814814814814815
