<a href="https://colab.research.google.com/github/nadjapereira/python-applications/blob/master/aula3_parte3_scikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python para Big Data - <span style="color:green">scikit-learn</span>

- É uma biblioteca para aprendizado de máquina em Python, como principal foco:
    - Fornecer ferramentas eficientes e simples para Data Mining e Data Analysis.
    - Acessível para todos e reutilizável em vários contextos
    - Sua construção faz uso do NumPy, SciPy e matplotlib
- Provavelmente um dos melhores frameworks de propósito geral de aprendizado de máquina
- Iniciou como sendo um projeto do Google Summer of Code em 2007 por David Cournapeau, e foi utilizado na tese de Matthieu Brucher.
- Em 2010, INRIA disponibilizou a primeira versão, e financiou o projeto junto com o Google, Tinyclues e a Python Software Foundation.
- Muitas empresas utilizam o scikit-lean, alguns exemplos:
    - Spotify, Evernote, Google, Data Publica, Data Robot
- As principais características:
    - Modelos lineares generalizados
    - SVMs, kNN, Bayes, Decision Trees, Ensembles
    - Algoritmos de Clustering e Density
    - Validação cruzada, Pipelining, Avaliação dos modelos
    - Transformações dos conjuntos de dados
    - Entre outras
    
## O algoritmo kNN

Esse notebook apresenta como utilizar o algoritmo kNN.

- k-Nearest Neighbor (KNN)
    - É um dos algoritmos de classificação clássicos e bem simples.
    - Aprendizado baseado em instâncias:
        - Aprendizado: armazenar todas as instâncias de treinamento;
        - Classificação: descobrir a qual classe uma nova instância pertence baseado na medida de similaridade (e.g., funções de distância).
        - kNN vem sendo utilizado para estimativa estatística e reconhecimento de padrões desde o começo dos anos 70!
   
   
- Para utilizar o kNN é necessário:
    - Um conjunto de exemplos de treinamento.
    - Definir uma métrica para calcular a distância entre os exemplos de treinamento. 
    - Definir o valor de k (o número de vizinhos mais próximos que serão considerados pelo algoritmo).
    

- Portanto, classificar um elemento desconhecido com o algoritmo kNN consiste em:
    - Calcular a distância entre o elemento desconhecido e os outros elementos do conjunto de treinamento.
    - Identificar os k-vizinhos mais próximos.
    - Utilizar o rótulo da classe dos vizinhos mais próximos para determinar o rótulo de classe do elemento desconhecido (votação majoritária).
    

- Para calcular a distância entre dois pontos, pode-se utilizar a distância euclidiana, manhattan e minkowsi.

- A precisão da classificação utilizando o algoritmo KNN depende fortemente do modelo de dados.


- Na maioria das vezes os atributos precisam ser normalizados para evitar que as medidas de distância sejam dominado por um único atributo. Exemplos:
    - Altura de uma pessoa pode variar de 1,20 a 2,10.
    - Peso de uma pessoa pode variar de 40 kg a 150 kg.
    - O salário de uma pessoa pode variar de R\$ 800 a R\$ 20.000.
    
Para ilustrar o uso do kNN com a biblioteca scikit-learn utilizaremos um conjunto de segmentação de pele. Foi criado por Rajen Bhatt, Abhinav Dhall e doado para a Universidade da Califórnia, Irvine em 2012.

- Conjunto de dados de peles coletados randomicamente (das bases FERET e PAL) através de exemplos de R, G, B de imagens com rostos de diversas pessoas, considerando os seguintes atributos:
    - Idade (jovem, adulto ou idoso), Grupo Racial (branco, preto, asiático) e Sexo
    - Total da amostra é de 245.057
        - 50.859 são exemplos de peles
        - 194.198 são exemplos de não-peles.
    - Dimensão 245057 * 4, onde as primeiras 3 colunas são os atributos B(x1), G(x2), e R(x3) e a última coluna é o alvo (y).
    
```
Atributos:
B(x1), G(x2), e R(x3)

Alvo: 
1 (pele) e 2 (Não pele)
```

Mais informações: https://archive.ics.uci.edu/ml/datasets/Skin+Segmentation

### Conjunto de dados

In [0]:
import pandas as pd

In [0]:
arquivo = open('Skin_NonSkin.txt', 'r')

In [0]:
dados = pd.read_table(arquivo)

In [0]:
print(type(dados))

In [0]:
print(dados)

Como podemos visualizar, tanto os atributos (x), quanto o alvo (y) estão em uma mesma estrutura. Precisamos separar para facilitar a aplicação desses dados no aprendizado.

In [0]:
y = dados['y']
x = dados.drop('y', axis=1)
print(x[:5])

Conforme vimos na descrição do problema, os atributos estão no formato Blue, Green, Red. Para facilitar o entendimento iremos trocar as colunas R e B.

In [0]:
x = x.values[:, [2,1,0]]
print(len(x))

In [0]:
print("Primeiros 5 classificados como 1 (Sim)")
print(x[:5])

In [0]:
print("Últimos 5 classificados como 2 (Não)")
print(x[:-5])

Agora com os dados estruturados, podemos utilizar o algoritmo disponível no scikit-learn para criar o nosso modelo. Primeiro vamos importar o módulo:


In [0]:
from sklearn import neighbors

Criando o classificador knn com k=1

In [0]:
knn = neighbors.KNeighborsClassifier(n_neighbors=1)
print(knn)

Vamos alimentar nosso modelo com os atributos e o alvo que foram estruturados anteriormente

In [0]:
knn.fit(x, y)

Com o nosso modelo treinado, podemos prever se um determinado valor R,G,B irá ser classificado como pele ou não. Por exemplo:

![](pele.png)

Qual será a classificação?

In [0]:
prever = knn.predict([[151, 135, 122]])

In [0]:
print(prever)

Note que com 1 vizinho a classificação foi gerada errada, pois a cor gerada é referente a uma parte do olho. O correto seria classificar como 2, ou seja não sendo um pigmento de pele. No exemplo abaixo, iremos alterar a quantidade de vizinhos para melhorar a precisão do modelo.

### Separar o conjunto em teste e treino.

In [0]:
from sklearn.model_selection import train_test_split

In [0]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.4, random_state=0)

In [0]:
print(x_treino.shape)
print(y_treino.shape)
print(x_teste.shape)
print(y_teste.shape)

Recriando o classificador e alimentando-o com os conjuntos de treino.

In [0]:
knn = neighbors.KNeighborsClassifier(n_neighbors=3)
knn.fit(x_treino, y_treino)

Realizando a previsão/classificação dos dados de teste com base no treinamento realizado

In [0]:
prever_treino = knn.predict(x_teste)
print(prever_treino)
print(prever_treino.shape)

Com o modelo treinado e validado, podemos classificar novamente um valor RGB.

In [0]:
print(knn.predict([[151, 135, 122]]))

### Precisão do modelo
Como podemos verificar a precisão do nosso algoritmo? Como utilizar o módulo scikit-learn para auxiliar nessa tarefa? O que podemos considerar?

Vamos utilizar a técnica de validação cruzada para identificar a precisão do modelo através dos dados de treino e teste.

In [0]:
from sklearn.model_selection import cross_val_score
from sklearn import metrics

Agora basta, imprimir a variação da precisão do conjunto de treino, utilizado o comando:

In [0]:
print(metrics.accuracy_score(y_teste, prever_treino))

Para utilizar a validação cruzada em todo o conjunto de dados, utilize o comando abaixo:

In [0]:
print(cross_val_score(knn, x, y, cv=3))

Note que a precisão ficou em torno de 95% mínimo.