Machine Learning
==

O aprendizado de máquina é uma atividade relevante para o Cientista de Dados.

Para saber mais sobre aprendizado de máquina, sua história e benefícios, leia os seguintes materiais:
- https://en.wikipedia.org/wiki/Arthur_Samuel
- https://www.wired.com/insights/2014/03/use-data-tell-future-understanding-machine-learning/

Seguem alguns exemplos de aplicações de aprendizado de máquina:
- filtragem de spam em emails (http://en.wikipedia.org/wiki/Email_filtering) 
- Reconhecimento Ótico de Caracteres (OCR)(http://en.wikipedia.org/wiki/Optical_character_recognition)
- Sistemas de Recomendação (http://en.wikipedia.org/wiki/Recommender_systems)
- Visão Computacional (http://en.wikipedia.org/wiki/Computer_vision)

O aprendizado de máquina pode ser supervisionado ou não supervisionado. 

Aprendizado Supervisionado
--

Quando temos alguns dados e sabemos a sua categoria, classe ou resultado esperado, podemos ensinar a máquina a predizer o resultado com nas características desses dados de treinamento. Para tanto, apresentamos os dados e o resultado esperado, e o modelo 'aprende' a dar a resposta esperada para os mesmos dados e para dados similares.

Maiores detalhes em: http://en.wikipedia.org/wiki/Supervised_Learning

Algumas tarefas comuns de aprendizado supervisionado são:

- Classificação (http://en.wikipedia.org/wiki/Statistical_classification)
- Regressão (http://en.wikipedia.org/wiki/Regression_analysis

Mais abaixo, vamos trabalhar com Classificação.

Aprendizado não-supervisionado
--

O aprendizado não-supervisionado é usado quando não conhecemos muito bem o domínio da aplicação e queremos treinar um modelo sem ter um exemplo das respostas esperadas. Maiores detalhes em: http://en.wikipedia.org/wiki/Unsupervised_learning

Algumas tarefas comuns de aprendizado supervisionado são:

- Análise de conglomerados (Cluster Analysis)(http://en.wikipedia.org/wiki/Data_clustering)
- PCA - Correlaciona ou avalia se variáveis são correlacionadas (http://www.wikipedia.org/wiki/principal_component_analysis)

Em outra aula vamos estudar um pouco mais sobre Análise de Conglomerados.

Classificação 
--

Para aprender como podemos criar um classificador, vamos utilicar a biblioteca 'sklearn', que possui diversos classificadores pré-programados. 

Para gerar um classificador e iniciar a classificação de elementos, necessitamos seguir um conjunto de passos:

1. Definir um conjunto de dados de treinamento e um conjunto de testes. Para nossa sorte, a biblioteca 'sklearn' já vem com vários conjuntos de dados que podemos usar como exemplos. Eles já estão preparados, anotados e subdivididos nesses 2 conjuntos.

2. Carregar e representar os elementos em memória. Vamos utilizar um conjunto de arrays, um para cada conjunto (treino e teste), além de um array contendo a informação de qual é o resultado (classe) esperada para cada elemento. 

3. Treinar modelo. De posse das representações de cada elemento (dados + classe esperada), podemos iniciar a etapa de treinamento do classificador. Existem vários classificadores. Vamos escolher um dos mais simples. A ideia consiste em mostrar ao modelo um elemento e sua classe esperada e esperar que o modelo aprenda. 

4. Realizar a predição de categorias. Ou seja, apresentar um elemento ao modelo treinado e receber sua categoria prevista pelo modelo.

5. Avaliar o modelo, i.e., verificar se as categorias preditas pelo modelo são iguais as previstas (originais) e calcular o grau de acurácia. 

In [2]:
# seleciona o módulo de data-sets da biblioteca 'sklearn' e permite carregar um deles
# perceba que a biblioteca já possui vários data-sets pré-processados e catalogados para utilização imediata
from sklearn import datasets

# carrega o data-set 'Iris' (detalhes em: https://en.wikipedia.org/wiki/Iris_flower_data_set)
iris = datasets.load_iris()

# mostra o conjunto de dados lido
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

Perceba que o conjunto de dados é composto de vários elementos (um por linha), cada um com 4 atributos!

O trecho seguinte comprova isso, demonstrando o shape (formato) dos dados (i.e., 150 elementos de 4 dimensões):

In [3]:
# mostra o formato dos dados (quantidade de elementos, dimensões
iris.data.shape

(150, 4)

O conjunto de dados foi pré-analisado e cada elemento foi categorizado por um especialista. Ao todo, existem 3 classes, representadas pelos códigos 0, 1 e 2. Veja o conjunto de dados e seu formato:

In [4]:
# classes esperadas
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [5]:
# mostra o formato dos dados (150 elementos indicando as classes de cada)
iris.target.shape

(150,)

Vamos agora iniciar o processo de treinamento e avaliar o quão correto ele é. Uma abordagem clássica consiste em dividir o conjunto de dados em duas partes: uma para o treinamento do modelo e a outra para testes do modelo. Uma independente da outra.

Para tanto, vamos dividir o conjunto de dados em duas partes, utilizando o comando 'train_test_split':

In [42]:
from sklearn import model_selection

# divisão em dados de treino e dados de teste com a função 'train_test_split'
# ela recebe 3 parâmetros: os dados, as categorias e a proporção de dados que será separada para testes (40%, no caso) 
X_treinamento, X_teste, y_treinamento, y_teste = model_selection.train_test_split(iris.data, iris.target, test_size=0.7)

# X_treinamento armazenará o subconjunto de dados escolhido para o treinamento do modelo (60% dos dados)
# X_teste armazenará o subconjunto de dados escolhido para teste do modelo (40% dos dados)
# x_treinamento armazena as classes de cada elemento do conjunto de treinamento
# y_teste armazena as classes de cada elemento do conjunto de testes

# Veja seu conteudo:

In [7]:
X_treinamento

array([[6.3, 3.3, 4.7, 1.6],
       [5.8, 2.7, 3.9, 1.2],
       [5.7, 2.6, 3.5, 1. ],
       [6.3, 2.8, 5.1, 1.5],
       [6.6, 3. , 4.4, 1.4],
       [5.8, 4. , 1.2, 0.2],
       [6.7, 3. , 5. , 1.7],
       [5.1, 3.5, 1.4, 0.2],
       [5. , 3.2, 1.2, 0.2],
       [4.6, 3.4, 1.4, 0.3],
       [5.4, 3.7, 1.5, 0.2],
       [5.9, 3. , 4.2, 1.5],
       [5.4, 3. , 4.5, 1.5],
       [6.2, 3.4, 5.4, 2.3],
       [6.3, 2.5, 4.9, 1.5],
       [5. , 3.4, 1.6, 0.4],
       [5.1, 3.8, 1.9, 0.4],
       [6. , 2.2, 4. , 1. ],
       [7.6, 3. , 6.6, 2.1],
       [4.3, 3. , 1.1, 0.1],
       [5.6, 2.5, 3.9, 1.1],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.4, 3.7, 1. ],
       [5.4, 3.4, 1.5, 0.4],
       [5.7, 4.4, 1.5, 0.4],
       [4.6, 3.2, 1.4, 0.2],
       [7.2, 3.6, 6.1, 2.5],
       [4.7, 3.2, 1.6, 0.2],
       [5.8, 2.6, 4. , 1.2],
       [6.8, 3. , 5.5, 2.1],
       [5.3, 3.7, 1.5, 0.2],
       [6.4, 3.1, 5.5, 1.8],
       [5.8, 2.8, 5.1, 2.4],
       [5.1, 2.5, 3. , 1.1],
       [6. , 3

In [8]:
X_teste

array([[7.4, 2.8, 6.1, 1.9],
       [4.8, 3.1, 1.6, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [7.2, 3. , 5.8, 1.6],
       [6.4, 3.2, 5.3, 2.3],
       [5.1, 3.5, 1.4, 0.3],
       [6.7, 3.1, 4.7, 1.5],
       [4.7, 3.2, 1.3, 0.2],
       [6.8, 3.2, 5.9, 2.3],
       [5.1, 3.4, 1.5, 0.2],
       [6.7, 3.1, 4.4, 1.4],
       [4.9, 2.5, 4.5, 1.7],
       [5.1, 3.8, 1.5, 0.3],
       [5.6, 2.8, 4.9, 2. ],
       [6.5, 3.2, 5.1, 2. ],
       [6.4, 2.8, 5.6, 2.2],
       [6.8, 2.8, 4.8, 1.4],
       [5.2, 4.1, 1.5, 0.1],
       [6.6, 2.9, 4.6, 1.3],
       [4.8, 3. , 1.4, 0.1],
       [5.8, 2.7, 5.1, 1.9],
       [6.3, 2.3, 4.4, 1.3],
       [5.6, 2.7, 4.2, 1.3],
       [6.2, 2.9, 4.3, 1.3],
       [6. , 2.9, 4.5, 1.5],
       [6.5, 3. , 5.8, 2.2],
       [5.7, 3.8, 1.7, 0.3],
       [6.9, 3.1, 5.1, 2.3],
       [6.3, 2.5, 5. , 1.9],
       [5.4, 3.4, 1.7, 0.2],
       [5.6, 2.9, 3.6, 1.3],
       [4.9, 3.1, 1.5, 0.1],
       [7.7, 3.8, 6.7, 2.2],
       [5. , 3.5, 1.6, 0.6],
       [7.7, 2

Veja seus formatos e perceba que as quantidades estão corretas:

In [35]:
X_treinamento.shape, y_treinamento.shape

((60, 4), (60,))

In [36]:
X_teste.shape, y_teste.shape

((90, 4), (90,))

O próximo passo consiste em treinar um classificador. Existem vários classificadores implementados. 

Um dos classificadores mais simples é o dos 'K Vizinhos mais próximos' (KNN). Para informações sobre o seu funcionamento, leia: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm.

A biblioteca 'sklearn' implementa-o através do módulo 'KNeighborsClassifier'. 

Veja o exemplo:

In [11]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier()
knn.fit(X_treinamento, y_treinamento) 

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

Finalmente, vamos avaliar o quão bem o classificador funciona. Para tanto, basta chamar a função 'score' do modelo e passar o conjunto de dados de teste e os resultados esperados para cada elemento. A linha seguinte faz isso. O resultado é um número entre 0.0 e 1.0 indicando a acurácia do modelo. Quanto mais próximo de 1.0, melhor. 

In [18]:
knn.score(X_teste, y_teste)

0.9666666666666667

Podemos utilizar o modelo para avaliar (predizer) qual seria a classe de um elemento qualquer ou de um conjunto de elementos:

In [13]:
 knn.predict([[ 6.4,  2.9,  4.3,  1.3]])

array([1])

In [14]:
 knn.predict(X_teste)

array([2, 0, 0, 2, 2, 0, 1, 0, 2, 0, 1, 1, 0, 2, 2, 2, 1, 0, 1, 0, 2, 1,
       1, 1, 1, 2, 0, 2, 2, 0, 1, 0, 2, 0, 2, 1, 1, 1, 1, 0, 0, 2, 0, 2,
       2, 2, 2, 2, 0, 1, 0, 1, 2, 0, 1, 0, 0, 0, 1, 2])

Como exemplo adicional, vamos usar uma Support Vector Machine (SVM) com núcleo linear (para informações sobre o funcionamento de uma SVM, leia: https://en.wikipedia.org/wiki/Support_vector_machine.

In [15]:
from sklearn import svm

# cria um classificador SVM e o armazena em clf:
clf = svm.SVC(kernel='linear', C=1).fit(X_treinamento, y_treinamento)

# mostra informações sobre o classificador gerado:
clf

SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

Vamos novamente avaliar o resultado do treinamento do classificador (e comparar com o anterior). Usaremos novamente função 'score', passando o conjunto de dados de teste e os resultados esperados para cada elemento:

In [20]:
clf.score(X_teste, y_teste)

0.9666666666666667

In [17]:
print(clf.predict([[ 6.4,  2.9,  4.3,  1.3]]))

[1]


Exercício
--

Refaça os experimentos, mas utilizando outros classificadores. 

Algumas possibilidades são (entre outros):

- Naive Bayes (GaussianNB)
- Regressão Logística (LogisticRegression)
- Rede Neural (MLPClassifier)
- Random Forest (RandomForestClassifier)
- Gradient Boosting (GradientBoostingClassifier)
- Árvore de Decisão (DecisionTreeClassifier)

Coloque os resultados em uma tabela (dataframe) e depois mostre na tela o resultado do treinamento dos modelos, por classificador. 

Uma comparação (com exemplo de uso) pode ser encontrada em: http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html

A documentação dos classificadores (aprendizado supervisionado) pode ser obtida em: http://scikit-learn.org/stable/supervised_learning.html

Um pequeno tutorial de uso pode ser visto em: http://scikit-learn.org/stable/tutorial/basic/tutorial.html#introduction

In [43]:
import pandas as pd
index = ["GaussianNB","DecisionTree","LogisticRegression"]
columns = ["Score"]
data = []

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB().fit(X_treinamento, y_treinamento)
data.append(clf.score(X_teste, y_teste))

import sklearn
clf = sklearn.tree.DecisionTreeClassifier().fit(X_treinamento, y_treinamento)
data.append(clf.score(X_teste, y_teste))

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression().fit(X_treinamento, y_treinamento)
data.append(clf.score(X_teste, y_teste))

df = pd.DataFrame(data,columns = columns,index = index)
df

Unnamed: 0,Score
GaussianNB,0.933333
DecisionTree,0.933333
LogisticRegression,0.952381


Desafio
--
Escolha outra coleção do sklearn (veja outras opções de datasets em: http://scikit-learn.org/stable/datasets/index.html#datasets) ou do seguinte repositório e realize sua classificação!

- http://archive.ics.uci.edu/ml/datasets.html

Ou ainda, pegue dados do Moodle ou de outro conjunto qualquer para testar seus conhecimentos. Não se esqueça de que é necessário ter os elementos e os resultados esperados!