## Imports

In [1]:
import numpy as np

import sklearn.datasets
import sklearn.linear_model
import sklearn.cross_validation
import sklearn.metrics

## Carregando um dataset padrão
O dataset iris é um dataset padrão de aprendizado de máquina, presente na biblioteca Scikit Learn para fácil inclusão.

O dataset consiste de três tipos da flor iris, com atributos de cada tipo como cumprimento das pétalas.

Para mais informações, visite http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html e https://en.wikipedia.org/wiki/Iris_flower_data_set

In [2]:
# Colocamos os atributos na variável 'X', e as classes na variável 'y'
iris = sklearn.datasets.load_iris()
X = iris.data
y = iris.target

# Na próxima linha, separamos os dados em dois conjuntos, treino e teste.
# O treino será utilizado para construir o modelo de classificação, e o teste será utilizado para avaliá-lo.
X_treino, X_teste, y_treino, y_teste = sklearn.cross_validation.train_test_split(X, y, random_state=0)

## Treino

Agora, construiremos um modelo utilizando os dados de treino. A construção do modelo faz parte da fase de *Representação*, como comentamos nas aulas. Também faz parte desta fase a escolha e transformação dos atributos, ou *feature engineering*. Neste exemplo, iremos utilizar os atributos padrão do dataset iris.

Para este exemplo, utilizaremos o modelo Regressão Logística para a classificação (http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)

In [3]:
classificador = sklearn.linear_model.LogisticRegression()

# Nesta linha, utilizamos o treino para construir o modelo com a chamada 'fit'
classificador.fit(X_treino, y_treino)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

## Teste
Com a nossa representação construída, podemos passar para a próxima fase, a de *Avaliação*.

Primeiro, geramos as predições para os dados de teste, utilizando o modelo construído, e depos avaliamos os resultados.

In [4]:
# Com o modelo treinado, podemos gerar nossas predições para os dados de teste, 'y_pred'
y_pred = classificador.predict(X_teste)

In [5]:
# Agora, podemos comparar as predições 'y_pred' com os valores reais 'y_teste'
# Existem várias funções auxiliares no Scikit Learn para isso.

# Aqui, imprimimos a precisão, revocação, f1-score e support (quantas instâncias têm a classe respectiva à linha
# da tabela de métricas impressa)
print(sklearn.metrics.classification_report(y_teste, y_pred))

             precision    recall  f1-score   support

          0       1.00      1.00      1.00        13
          1       1.00      0.69      0.81        16
          2       0.64      1.00      0.78         9

avg / total       0.92      0.87      0.87        38



In [6]:
# É possível visualizar a matriz de confusão para as as predições. No caso do dataset iris, isso significa mostrar
# quantas predições da classe 0 eram realmente classe 0, 1 ou 2,
# quantas predições da classe 1 eram realmente classe 0, 1 ou 2, e
# quantas predições da classe 2 eram realmente classe 0, 1 ou 2.
print(sklearn.metrics.confusion_matrix(y_teste, y_pred))

[[13  0  0]
 [ 0 11  5]
 [ 0  0  9]]


## Otimização
Uma das fases mais importantes do processo de aprendizado de máquina, a *Otimização*, consiste em ajustar os parâmetros do modelo para conseguir melhores resultados.

Uma das formas de se fazer isso é com a busca em grid, *gridsearch*. Escolhemos alguns parâmetros possíveis, e o gridsearch executa o nosso modelo com as diversas combinações possíveis, mantendo aquela com os melhores resultados.

Repare que de fato ocorre uma melhora na classificação.

In [7]:
# Definimos aqui os dois parâmetros que serão combinados, 'penalty' e 'C', e os valores possíveis que cada um pode assumir
parametros = {'penalty': ['l1', 'l2'], 'C':[1, 5, 10, 50, 100]}

# Criamos um classificador tipo grid search, que irá buscar os melhores parâmetros com uma validação cruzada
classificador = sklearn.linear_model.LogisticRegression()
gridsearch = sklearn.grid_search.GridSearchCV(classificador, parametros)
gridsearch.fit(X_treino, y_treino)

print('Melhores parâmetros:')
print(gridsearch.best_params_)

# Fazemos as predições utilizando a melhor combinação de parâmetros do modelo
y_pred = gridsearch.predict(X_teste)

print('\nNovas métricas:')
print(sklearn.metrics.classification_report(y_teste, y_pred))
print(sklearn.metrics.confusion_matrix(y_teste, y_pred))

Melhores parâmetros:
{'penalty': 'l1', 'C': 100}

Novas métricas:
             precision    recall  f1-score   support

          0       1.00      1.00      1.00        13
          1       1.00      0.94      0.97        16
          2       0.90      1.00      0.95         9

avg / total       0.98      0.97      0.97        38

[[13  0  0]
 [ 0 15  1]
 [ 0  0  9]]
