<h1>Instance-based learning with KNN</h1>

Algoritmo de aprendizado supervisionado usado tanto para classificação quanto para regressão, <br>
embora seja  mais comum em tarefas de classificação. 

<h3>Objetivo do KNN</h3>
Prever a classe (ou valor) de uma nova amostra com base nas k amostras mais próximas no conjunto de <br>
dados de treinamento. 
A ideia central é que pontos semelhantes estão próximos no espaço de características.<br>

<h3>Pré-requisitos</h3>
Dados numéricos ou normalizáveis: 
<ul>
    <li>Um valor de k muito pequeno pode levar a overfitting.</li>
    <li>Um valor de k muito grande pode levar a underfitting.</li>
    <li>Distância Euclidiana (padrão) / Distância de Manhattan, Minkowski, etc.</li>
    <li>Alta dimensionalidade prejudica, o KNN tende a perder eficácia <br>
        (problema da maldição da dimensionalidade).</li>
</ul>

<h3>Vantagens</h3>
<ul>
    <li>Simples de entender e implementar.</li>
    <li>Não requer treinamento explícito (lazy learner).</li>
    <li>Funciona bem em pequenos conjuntos de dados.</li>
</ul>


<h3>Desvantagens</h3>
<ul>
    <li>Lento para previsão em grandes bases, pois calcula distâncias com todos os pontos de treino.</li>
    <li>Sensível a outliers e atributos irrelevantes.</li>
    <li>Desempenho pode cair com muitos atributos ou dados desbalanceados.</li>
</ul>

<h3>Aplicações comuns</h3>
<ul>
    <li>Classificação de imagens (ex: dígitos manuscritos).</li>
    <li>Recomendação de produtos..</li>
    <li>Diagnóstico médico (ex: classificação de doenças).</li>
</ul>       

In [2]:

import numpy as np
import pandas as pd
import spicy
import urllib
import sklearn

import matplotlib.pyplot as plt
from pylab import rcParams

from sklearn import neighbors
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier


In [3]:
rcParams['figure.figsize']=7,4
plt.style.use=['seaborn-whitegrid']
np.set_printoptions(precision=4, suppress=True)


<h2>Carregando o dataset</h2>

In [14]:
cars = pd.read_csv('mtcars.csv')
cars.rename(columns={'Unnamed: 0': 'cars_name'}, inplace=True)
cars.head()

Unnamed: 0,cars_name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [20]:

X_prime = cars[['mpg', 'disp', 'hp', 'wt']].values
y = cars['am'].values

print(f'Amostra dos Preditores: {X_prime[0:5]}\n')
print(f'Amostra dos valores reais: {y[0:5]}\n')


Amostra dos Preditores: [[ 21.    160.    110.      2.62 ]
 [ 21.    160.    110.      2.875]
 [ 22.8   108.     93.      2.32 ]
 [ 21.4   258.    110.      3.215]
 [ 18.7   360.    175.      3.44 ]]

Amostra dos valores reais: [1 1 1 0 0]



<h3>Normalizando od dados</h3>

In [22]:
X = preprocessing.scale(X_prime)


<h3>Dividindo os dados em treino/teste</h3>

In [26]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=.2, random_state = 17)


<h2>Construindo e treinando o modelo</h2>

In [36]:
clf = KNeighborsClassifier()
clf.fit(X_train, y_train)


<h2>Avaliando as predições do modelo</h2>

In [40]:
y_pred = clf.predict(X_test)
print(metrics.classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.80      1.00      0.89         4
           1       1.00      0.67      0.80         3

    accuracy                           0.86         7
   macro avg       0.90      0.83      0.84         7
weighted avg       0.89      0.86      0.85         7

