# Python para Big Data - <span style="color:green">scikit-learn</span>

- É uma biblioteca para aprendizado de máquina em Python, como principal foco:
    - Fornecer ferramentas eficientes e simples para Data Mining e Data Analysis.
    - Acessível para todos e reutilizável em vários contextos
    - Sua construção faz uso do NumPy, SciPy e matplotlib
- Provavelmente um dos melhores frameworks de propósito geral de aprendizado de máquina
- Iniciou como sendo um projeto do Google Summer of Code em 2007 por David Cournapeau, e foi utilizado na tese de Matthieu Brucher.
- Em 2010, INRIA disponibilizou a primeira versão, e financiou o projeto junto com o Google, Tinyclues e a Python Software Foundation.
- Muitas empresas utilizam o scikit-lean, alguns exemplos:
    - Spotify, Evernote, Google, Data Publica, Data Robot
- As principais características:
    - Modelos lineares generalizados
    - SVMs, kNN, Bayes, Decision Trees, Ensembles
    - Algoritmos de Clustering e Density
    - Validação cruzada, Pipelining, Avaliação dos modelos
    - Transformações dos conjuntos de dados
    - Entre outras
    
## O algoritmo kNN

Esse notebook apresenta como utilizar o algoritmo kNN.

- k-Nearest Neighbor (KNN)
    - É um dos algoritmos de classificação clássicos e bem simples.
    - Aprendizado baseado em instâncias:
        - Aprendizado: armazenar todas as instâncias de treinamento;
        - Classificação: descobrir a qual classe uma nova instância pertence baseado na medida de similaridade (e.g., funções de distância).
        - kNN vem sendo utilizado para estimativa estatística e reconhecimento de padrões desde o começo dos anos 70!
   
   
- Para utilizar o kNN é necessário:
    - Um conjunto de exemplos de treinamento.
    - Definir uma métrica para calcular a distância entre os exemplos de treinamento. 
    - Definir o valor de k (o número de vizinhos mais próximos que serão considerados pelo algoritmo).
    

- Portanto, classificar um elemento desconhecido com o algoritmo kNN consiste em:
    - Calcular a distância entre o elemento desconhecido e os outros elementos do conjunto de treinamento.
    - Identificar os k-vizinhos mais próximos.
    - Utilizar o rótulo da classe dos vizinhos mais próximos para determinar o rótulo de classe do elemento desconhecido (votação majoritária).
    

- Para calcular a distância entre dois pontos, pode-se utilizar a distância euclidiana, manhattan e minkowsi.

- A precisão da classificação utilizando o algoritmo KNN depende fortemente do modelo de dados.


- Na maioria das vezes os atributos precisam ser normalizados para evitar que as medidas de distância sejam dominado por um único atributo. Exemplos:
    - Altura de uma pessoa pode variar de 1,20 a 2,10.
    - Peso de uma pessoa pode variar de 40 kg a 150 kg.
    - O salário de uma pessoa pode variar de R\$ 800 a R\$ 20.000.
    
Para ilustrar o uso do kNN com a biblioteca scikit-learn utilizaremos um conjunto de segmentação de pele. Foi criado por Rajen Bhatt, Abhinav Dhall e doado para a Universidade da Califórnia, Irvine em 2012.

- Conjunto de dados de peles coletados randomicamente (das bases FERET e PAL) através de exemplos de R, G, B de imagens com rostos de diversas pessoas, considerando os seguintes atributos:
    - Idade (jovem, adulto ou idoso), Grupo Racial (branco, preto, asiático) e Sexo
    - Total da amostra é de 245.057
        - 50.859 são exemplos de peles
        - 194.198 são exemplos de não-peles.
    - Dimensão 245057 * 4, onde as primeiras 3 colunas são os atributos B(x1), G(x2), e R(x3) e a última coluna é o alvo (y).
    
```
Atributos:
B(x1), G(x2), e R(x3)

Alvo: 
1 (pele) e 2 (Não pele)
```

Mais informações: https://archive.ics.uci.edu/ml/datasets/Skin+Segmentation

### Conjunto de dados

In [1]:
import pandas as pd

In [2]:
arquivo = open('Skin_NonSkin.txt', 'r')

In [3]:
dados = pd.read_table(arquivo)

In [4]:
print(type(dados))

<class 'pandas.core.frame.DataFrame'>


In [5]:
print(dados)

         x1   x2   x3  y
0        74   85  123  1
1        73   84  122  1
2        72   83  121  1
3        70   81  119  1
4        70   81  119  1
5        69   80  118  1
6        70   81  119  1
7        70   81  119  1
8        76   87  125  1
9        76   87  125  1
10       77   88  126  1
11       77   88  126  1
12       77   88  126  1
13       78   89  127  1
14       77   85  125  1
15       78   86  126  1
16       78   86  126  1
17       77   85  125  1
18       76   84  124  1
19       77   85  125  1
20       80   88  128  1
21       83   91  131  1
22       83   91  131  1
23       84   92  132  1
24       84   92  132  1
25       83   91  131  1
26       80   88  128  1
27       78   86  126  1
28       78   86  126  1
29       79   87  127  1
...     ...  ...  ... ..
245027  162  161  110  2
245028  162  161  110  2
245029  162  161  110  2
245030  162  161  110  2
245031  162  161  110  2
245032  162  161  110  2
245033  165  164  113  2
245034  165  164  113  2


Como podemos visualizar, tanto os atributos (x), quanto o alvo (y) estão em uma mesma estrutura. Precisamos separar para facilitar a aplicação desses dados no aprendizado.

In [6]:
y = dados['y']
x = dados.drop('y', axis=1)
print(x[:5])

   x1  x2   x3
0  74  85  123
1  73  84  122
2  72  83  121
3  70  81  119
4  70  81  119


Conforme vimos na descrição do problema, os atributos estão no formato Blue, Green, Red. Para facilitar o entendimento iremos trocar as colunas R e B.

In [7]:
x = x.values[:, [2,1,0]]
print(len(x))

245057


In [8]:
print("Primeiros 5 classificados como 1 (Sim)")
print(x[:5])

Primeiros 5 classificados como 1 (Sim)
[[123  85  74]
 [122  84  73]
 [121  83  72]
 [119  81  70]
 [119  81  70]]


In [9]:
print("Últimos 5 classificados como 2 (Não)")
print(x[:-5])

Últimos 5 classificados como 2 (Não)
[[123  85  74]
 [122  84  73]
 [121  83  72]
 ..., 
 [112 162 163]
 [112 162 163]
 [112 162 163]]


Agora com os dados estruturados, podemos utilizar o algoritmo disponível no scikit-learn para criar o nosso modelo. Primeiro vamos importar o módulo:


In [10]:
from sklearn import neighbors

Criando o classificador knn com k=1

In [11]:
knn = neighbors.KNeighborsClassifier(n_neighbors=1)
print(knn)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')


Vamos alimentar nosso modelo com os atributos e o alvo que foram estruturados anteriormente

In [12]:
knn.fit(x, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')

Com o nosso modelo treinado, podemos prever se um determinado valor R,G,B irá ser classificado como pele ou não. Por exemplo:

![](pele.png)

Qual será a classificação?

In [13]:
prever = knn.predict([[151, 135, 122]])

In [14]:
print(prever)

[1]


Note que com 1 vizinho a classificação foi gerada errada, pois a cor gerada é referente a uma parte do olho. O correto seria classificar como 2, ou seja não sendo um pigmento de pele. No exemplo abaixo, iremos alterar a quantidade de vizinhos para melhorar a precisão do modelo.

### Separar o conjunto em teste e treino.

In [15]:
from sklearn.cross_validation import train_test_split



In [16]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.4, random_state=0)

In [17]:
print(x_treino.shape)
print(y_treino.shape)
print(x_teste.shape)
print(y_teste.shape)

(147034, 3)
(147034,)
(98023, 3)
(98023,)


Recriando o classificador e alimentando-o com os conjuntos de treino.

In [18]:
knn = neighbors.KNeighborsClassifier(n_neighbors=3)
knn.fit(x_treino, y_treino)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')

Realizando a previsão/classificação dos dados de teste com base no treinamento realizado

In [19]:
prever_treino = knn.predict(x_teste)
print(prever_treino)
print(prever_treino.shape)

[2 1 2 ..., 2 2 2]
(98023,)


Com o modelo treinado e validado, podemos classificar novamente um valor RGB.

In [20]:
print(knn.predict([[151, 135, 122]]))

[2]


### Precisão do modelo
Como podemos verificar a precisão do nosso algoritmo? Como utilizar o módulo scikit-learn para auxiliar nessa tarefa? O que podemos considerar?

Vamos utilizar a técnica de validação cruzada para identificar a precisão do modelo através dos dados de treino e teste.

In [21]:
from sklearn.cross_validation import cross_val_score
from sklearn import metrics

Agora basta, imprimir a variação da precisão do conjunto de treino, utilizado o comando:

In [22]:
print(metrics.accuracy_score(y_teste, prever_treino))

0.999581730818


Para utilizar a validação cruzada em todo o conjunto de dados, utilize o comando abaixo:

In [23]:
print(cross_val_score(knn, x, y, cv=3))

[ 0.95460666  0.9863012   0.98920242]


Note que a precisão ficou em torno de 95% mínimo.