# KNN _versus_ SGD 

A equipe segue recomendações presentes nas [documentações](http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html) do sklearn.

O terceiro encontro da equipe reuniu esforços para estreitar os métodos de classificação a serem utilizados que trouxessem uma maior acurácia quanto aos resultados. Nesse sentido, primeiramente foi necessário analisar a base de dados, conhecendo a dimensão desta, de modo que observou-se um total de 5.000.000 de registros. Constatou-se que o problema apresentado girava em torno da tarefa de predizer uma categoria por meio de dados que apresentam labels, ou seja, um problema de classificação. 

Pela dimensão do banco optou-se testou-se _Support Vector Classification_ ou SVC, mas não obteve-se sucesso, além disso, não envolvia problemas relacionados a texto, por tanto, a equipe não testou Naive Bayes, partindo então para _Nearest Neighbors Classification_. A princípio mostrou resultados razoáveis, como é possível ver [aqui](#knnAcuracia), entretanto, o número de dados processados não englobava todos os registros do dataset. Por meio do [tutorial](http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html) do scikitlearn, percebeu-se que esse método não era recomendado para conjunto de dados maiores que 100k.

A incompatibilidade relatada, pode ser observada devido ao fato de que com acréscimos no número de registros a serem processados o algorítmo se tornava demasiadamente lento, como pode-se testar e observar na seção [Tempo de Execução](#tempoExecucao).  A partir de então, a equipe optou por testar [SGDClassifier](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html).


## Nearest Neighbors Classification

A classificação baseada em vizinhos é um tipo de aprendizado que se baseia em intâncias : não tenta construir um modelo interno geral, mas simplesmente armazena instâncias dos dados de treinamento. A classificação é calculada a partir de uma votação simples dos vizinhos mais próximos de cada ponto.

A classificação básica de vizinhos mais próximos usa pesos uniformes: o valor atribuído a um ponto é calculado a partir de uma votação simples por maioria  dos vizinhos mais próximos. Em algumas circunstâncias, é melhor ponderar os vizinhos de tal forma que os vizinhos mais próximos contribuam mais para o ajuste.

[Documentação](http://scikit-learn.org/stable/modules/neighbors.html#classification)


## KNeighborsClassifier

É um algorítmo classificador que implementa o voto entre os k vizinhos mais próximos. 

[Documentação](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)

## SGD - Stochastic Gradient Descent

O Algorítmo SGD é uma abordagem simples porém eficiente, sendo esta abordagem, facilmente implementada. A abordagem SGD é utilizada para modelos discriminativos com classificadores lineares sobre funções convexas de perda, tais como a regressão linear.Bastante aplicado em aprendizado de larga escala, o SGDClassifier é a alternativa para bases de dados em que o KNeighborsClassifier se mostra ineficiente.

Por trabalhar com bases de dados de grande volume, o SGD necessita de hiper parametros, ou seja, necessita que sejam analisadas as features mais relevantes. Isso se alcança com uma boa feature selection antes de se aplicar o SGD Classifier.

[Documentação](http://scikit-learn.org/stable/modules/sgd.html)

## SGDClassifier

É um algorítmo classificador que implementa modelos lineares utilizando curvas de gradiente.

[documentacao](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html)

## Importando os módulos necessários



In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_selection import VarianceThreshold

## Importando os dados do arquivo csv (apenas as 100000 observações finais do arquivo)

In [2]:
t = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(9,10,11,12,13,14,15,16,17,18), skip_footer=4900000)
v = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(0), skip_footer=4900000)

## Seletor de features que remove todas as que possuem baixa variação

[Documentação VarianceThreshold](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html)

In [5]:
sel = VarianceThreshold(threshold=(.9 * (1 - .9)))
dataset_susy = sel.fit_transform(t)

## Define parcela de treino e de teste dos dados (30% teste, 70% treino)


In [6]:
dataset_susy[0,:]

t_treino, t_teste, v_treino, v_teste = train_test_split(dataset_susy, v, test_size=0.3, random_state=0)


## Testa o KNeighborsClassifier variando o número de vizinhos para comparar a acurácia 
<a name="knnAcuracia"></a>

In [7]:
for i in range(1, 19):
    knn = KNeighborsClassifier(n_neighbors=i, p=2)
    knn.fit(t_treino, v_treino)
    labels = knn.predict(t_teste)
    print("{} : {}".format(i, knn.score(t_teste, v_teste)))

1 : 0.7100666666666666
2 : 0.7316333333333334
3 : 0.7428333333333333
4 : 0.7538666666666667
5 : 0.7570666666666667
6 : 0.7621666666666667
7 : 0.7650666666666667
8 : 0.7683666666666666
9 : 0.7690666666666667
10 : 0.7701
11 : 0.7734333333333333
12 : 0.7731
13 : 0.7745
14 : 0.7739333333333334
15 : 0.7762
16 : 0.7758333333333334
17 : 0.7783333333333333
18 : 0.7772333333333333


# Marcando tempo de execução com diferentes tamanhos de dataset

<a name="tempoExecucao"></a>

In [None]:
#Importando módulos necessários (SE não foi feito anteriormente)

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_selection import VarianceThreshold

In [None]:
# Executar para 100.000 registros

t = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(9,10,11,12,13,14,15,16,17,18), skip_footer=4900000)
v = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(0), skip_footer=4900000)


In [None]:
# Executar para 200.000 registros

t = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(9,10,11,12,13,14,15,16,17,18), skip_footer=4800000)
v = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(0), skip_footer=4800000)

In [None]:
# Executar para 500.000 registros

t = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(9,10,11,12,13,14,15,16,17,18), skip_footer=4500000)
v = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(0), skip_footer=4500000)

In [None]:
#Prepara treino e Teste

sel = VarianceThreshold(threshold=(.9 * (1 - .9)))
dataset_susy = sel.fit_transform(t)
dataset_susy[0,:]

t_treino, t_teste, v_treino, v_teste = train_test_split(dataset_susy, v, test_size=0.3, random_state=0)



In [8]:
# Tempo de execução (teste para i vizinhos)

import time


for i in range(1, 19):
    inicio = time.time()
    knn = KNeighborsClassifier(n_neighbors=i, p=2)
    knn.fit(t_treino, v_treino)
    labels = knn.predict(t_teste)
    fim = time.time()
    print("{} : {}, tempo de execução (em segundos): {}".format(i, knn.score(t_teste, v_teste), (fim-inicio)))

1 : 0.7100666666666666, tempo de execução: 1.1225450038909912
2 : 0.7316333333333334, tempo de execução: 1.3792622089385986
3 : 0.7428333333333333, tempo de execução: 1.5731890201568604
4 : 0.7538666666666667, tempo de execução: 1.76546311378479
5 : 0.7570666666666667, tempo de execução: 1.9049127101898193
6 : 0.7621666666666667, tempo de execução: 2.0000760555267334
7 : 0.7650666666666667, tempo de execução: 2.1464481353759766
8 : 0.7683666666666666, tempo de execução: 2.1939520835876465
9 : 0.7690666666666667, tempo de execução: 2.291718006134033
10 : 0.7701, tempo de execução: 2.409843921661377
11 : 0.7734333333333333, tempo de execução: 2.4897096157073975
12 : 0.7731, tempo de execução: 2.587857484817505
13 : 0.7745, tempo de execução: 2.6491429805755615
14 : 0.7739333333333334, tempo de execução: 2.7390315532684326
15 : 0.7762, tempo de execução: 2.8591177463531494
16 : 0.7758333333333334, tempo de execução: 2.9757251739501953
17 : 0.7783333333333333, tempo de execução: 3.09821581

Nota-se a partir da célula anterior, que além de o tempo aumentar com o número de registros processados, também aumenta com o número de vizinhos a serem considerados nas interações.
