# KNN e Regressão Linear - Exercício 1

Gabarito por `Adolfo Guimarães`

### Atividade 1

Vamos treinar um modelo de regressão linear para a base de dados a seguir:

[Airfoil Self-Noise Data Set](http://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noise)

A base de dados coleta dados de diferentes tipos de aerofólios em testes do túnel de vento da NASA. O objetivo é estimar o nível de pressão sonora dado características do aerofólio, do seu posicionamente e demais características dos testes realizados.

**Tarefas:**

1. Treine e teste um modelo de Regressão Linear com a base completa.
2. Teste diferentes modelos com diferentes atributos e analise como os atributos influenciam na qualidade da regressão.
3. Escreva ao final uma breve explicação sobre os resultados obtidos.

Todos os testes devem ser feito utilizando validação cruzada de 10 *folds*.

In [2]:
# Carregando a base de dados

import pandas as pd
from sklearn.linear_model import LinearRegression
data = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/00291/airfoil_self_noise.dat',
                   sep="\t",
                   header=None,
                  names=["Frequency","Angle","Chord","Velocity","Suction","Sound"])
data.head()

Unnamed: 0,Frequency,Angle,Chord,Velocity,Suction,Sound
0,800,0.0,0.3048,71.3,0.002663,126.201
1,1000,0.0,0.3048,71.3,0.002663,125.201
2,1250,0.0,0.3048,71.3,0.002663,125.951
3,1600,0.0,0.3048,71.3,0.002663,127.591
4,2000,0.0,0.3048,71.3,0.002663,127.461


In [3]:
feature_columns = ["Frequency","Angle","Chord","Velocity","Suction"]

X = data[feature_columns]
y = data.Sound

O primeiro passo é treinar o modelo de regressão linear com a base completa. Para isso, vamos utilizar validação cruzada de 10 folds para testar. 

In [10]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

lr_complete = LinearRegression()

mean_score = cross_val_score(lr_complete, X, y, cv=10, scoring='r2')
print("Média do R2 com 10 folds: %.4f" % mean_score.mean())

Média do R2 com 10 folds: 0.3932


Podemos testar diferentes configurações da base de dados para analisar a influência dos parâmetros. Vale ressaltar que essa é apenas uma análise preliminar baseada somente nos resultados da escolha dos parâmetros. Uma análise mais profunda requer um pouco mais de análise estatística em cima dos modelos construídos. 

In [19]:
parameters_configuration = [
    ["Frequency"],
    ["Angle"],
    ["Chord"],
    ["Velocity"],
    ["Suction"],
    ["Frequency", "Angle"],
    ["Frequency", "Chord"],
    ["Frequency", "Velocity"],
    ["Frequency", "Suction"],
    ["Angle", "Chord"],
    ["Angle", "Velocity"],
    ["Angle", "Suction"],
    ["Chord", "Velocity"],
    ["Chord", "Suction"],
    ["Velocity", "Suction"]
    
]

for config_ in parameters_configuration:
    X = data[config_]
    y = data.Sound
    
    lr_ = LinearRegression()

    mean_score = cross_val_score(lr_, X, y, cv=10, scoring='r2')
    print("Paramters: %s \n\t R2: %.4f" % (config_, mean_score.mean()))

Paramters: ['Frequency'] 
	 R2: -0.0014
Paramters: ['Angle'] 
	 R2: -0.1630
Paramters: ['Chord'] 
	 R2: -0.0466
Paramters: ['Velocity'] 
	 R2: -0.1220
Paramters: ['Suction'] 
	 R2: -0.0833
Paramters: ['Frequency', 'Angle'] 
	 R2: 0.0009
Paramters: ['Frequency', 'Chord'] 
	 R2: 0.0845
Paramters: ['Frequency', 'Velocity'] 
	 R2: 0.0184
Paramters: ['Frequency', 'Suction'] 
	 R2: 0.1221
Paramters: ['Angle', 'Chord'] 
	 R2: 0.0448
Paramters: ['Angle', 'Velocity'] 
	 R2: -0.1526
Paramters: ['Angle', 'Suction'] 
	 R2: -0.0704
Paramters: ['Chord', 'Velocity'] 
	 R2: -0.0382
Paramters: ['Chord', 'Suction'] 
	 R2: 0.0776
Paramters: ['Velocity', 'Suction'] 
	 R2: -0.0729


Considerando apenas 1 ou 2 atributos, os resultados não foram bons. Entenda como $R^2$ negativo, um modelo que não consegue representar bem os dados. Vamos fazer as possibilidades de 3 e 4 atributos. Para reduzir as possibilidades que tenho que testar, vou usar do teste anterior que teve maior valor para continuar o teste. No caso: `['Frequency', 'Suction']`. 

Mantendo esses dois atributos, vamos variar os demais para gerar os casos com 3 atributos.

In [21]:
parameters_configuration = [
    ["Frequency", "Suction", "Chord"],
    ["Frequency", "Suction", "Velocity"],
    ["Frequency", "Suction", "Angle"]   
]

for config_ in parameters_configuration:
    X = data[config_]
    y = data.Sound
    
    lr_ = LinearRegression()

    mean_score = cross_val_score(lr_, X, y, cv=10, scoring='r2')
    print("Paramters: %s \n\t R2: %.4f" % (config_, mean_score.mean()))

Paramters: ['Frequency', 'Suction', 'Chord'] 
	 R2: 0.3115
Paramters: ['Frequency', 'Suction', 'Velocity'] 
	 R2: 0.1513
Paramters: ['Frequency', 'Suction', 'Angle'] 
	 R2: 0.1158


Seguindo a mesma abordagem, vamos gerar com 4 atributos:

In [22]:
parameters_configuration = [
    ["Frequency", "Suction", "Chord", "Velocity"],
    ["Frequency", "Suction", "Chord", "Angle"],
]

for config_ in parameters_configuration:
    X = data[config_]
    y = data.Sound
    
    lr_ = LinearRegression()

    mean_score = cross_val_score(lr_, X, y, cv=10, scoring='r2')
    print("Paramters: %s \n\t R2: %.4f" % (config_, mean_score.mean()))

Paramters: ['Frequency', 'Suction', 'Chord', 'Velocity'] 
	 R2: 0.3425
Paramters: ['Frequency', 'Suction', 'Chord', 'Angle'] 
	 R2: 0.3469


Observe que em nenhum dos casos, obtivemos resultados melhores do que quando consideramos todos os atributos. No entanto, é fácil perceber, nessa análise preliminar, que os atributos `Frequency`, `Suction` e `Chord` tem forte influência nos resultados finais. 

### Atividade 2

Nesta atividade vamos utilizar a base de dados disponível em: https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.data

O objetivo é classificar animais em espécies de acordo com uma série de características sobre as espécies. 

**Classes:**

* 1: Mammal
* 2: Bird
* 3: Reptile
* 4: Fish
* 5: Amphibian
* 6: Bug 
* 7: Invertebrate

**Tarefas**

1. Divida a base em treino e teste. Utilize para teste 10% da base.
2. Calcule o melhor valor de K na base de treino utilizando validação cruzada com 10 folds.
3. Utilize o melhor modelo encontrado no passo anterior e calcule a acurácia desse modelo na base de testes criada no item 1.
4. Pesquise sobre outro modelo de Classificação e compare-o com o melhor modelo de KNN encontrado.
5. Escreva ao final uma breve explicação sobre os resultados obtidos.

In [25]:
import pandas as pd

data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.data',
                   sep=",",
                   header=None,
                  names=["animal_name","hair","feathers","eggs","milk","airborne",
                        "aquatic","predator","toothed","backbone","breathes",
                        "venomous","fins","legs","tail","domestic","catsize","type"])

features_cols = ["hair","feathers","eggs","milk","airborne",
                        "aquatic","predator","toothed","backbone","breathes",
                        "venomous","fins","legs","tail","domestic","catsize"]
data.head()

Unnamed: 0,animal_name,hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize,type
0,aardvark,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1
1,antelope,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1
2,bass,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4
3,bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1
4,boar,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1


In [26]:
X = data[features_cols]
y = data.type

O primeiro passo é dividir a base em treino e teste:

In [27]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=1)

In [30]:
print("Tamanho da base completa: %s " % str(X.shape))
print("Tamanho da base de treinamento: %s " % str(X_train.shape))
print("Tamanho da base de teste: %s " % str(X_test.shape))

Tamanho da base completa: (101, 16) 
Tamanho da base de treinamento: (90, 16) 
Tamanho da base de teste: (11, 16) 


Em seguida, devemos aplicar a validação cruzada de 10 folds. Vamos ver o que acontece:

In [48]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

knn_3 = KNeighborsClassifier(n_neighbors=3)

scores_ = cross_val_score(knn_3, X_train, y_train, cv=10, scoring='accuracy')



Como estamos utilizando 10 folds, o número mínimo de elementos de cada classe também deve ser 10 para que a divisão proporcional seja realizada em todos os folds. Uma forma de eliminar esse `Warning` é diminuir o número de folds ou executar desta forma. O scikit-learn consegue realizar os testes assim mesmo. No entanto, o ideal seríamos ter mais instâncias de uma determinada classe. Como nosso propósito é mostrar o funcionamento do algoritmo, vamos manter com o warning mas fica o aviso de que precisaríamos melhorar essa distribuição da base. 

Vamos testar para vários valores de K, mas vou usar CV=3 para evitar os Warnings.

In [54]:
for k in range(1, 30):
    knn_ = KNeighborsClassifier(n_neighbors=k)

    scores_ = cross_val_score(knn_, X_train, y_train, cv=3, scoring='accuracy')
    print("K: %i | Acc: %.4f" % (k, scores_.mean()))

K: 1 | Acc: 0.9770
K: 2 | Acc: 0.9316
K: 3 | Acc: 0.8900
K: 4 | Acc: 0.8796
K: 5 | Acc: 0.8454
K: 6 | Acc: 0.8128
K: 7 | Acc: 0.7913
K: 8 | Acc: 0.7794
K: 9 | Acc: 0.7794
K: 10 | Acc: 0.7794
K: 11 | Acc: 0.7794
K: 12 | Acc: 0.7794
K: 13 | Acc: 0.7794
K: 14 | Acc: 0.7794
K: 15 | Acc: 0.7794
K: 16 | Acc: 0.7481
K: 17 | Acc: 0.7148
K: 18 | Acc: 0.7148
K: 19 | Acc: 0.6910
K: 20 | Acc: 0.6910
K: 21 | Acc: 0.6910
K: 22 | Acc: 0.6910
K: 23 | Acc: 0.6465
K: 24 | Acc: 0.6257
K: 25 | Acc: 0.5602
K: 26 | Acc: 0.5602
K: 27 | Acc: 0.5364
K: 28 | Acc: 0.5364
K: 29 | Acc: 0.5364


Vamos aplicar a nossa base de teste: 

In [116]:
knn_ = KNeighborsClassifier(n_neighbors=1)
knn_.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')

In [117]:
acc_test = knn_.score(X_test, y_test)
print("Acurácia na base de teste: %.4f" % acc_test)

Acurácia na base de teste: 0.9091


Podemos melhorar esse resultado? 

Vamos selecionar um modelo "menos superestimado" para tentar generalizar melhor no teste. 

In [119]:
knn_ = KNeighborsClassifier(n_neighbors=3)
knn_.fit(X_train, y_train)
acc_test = knn_.score(X_test, y_test)
print("Acurácia na base de teste: %.4f" % acc_test)

Acurácia na base de teste: 1.0000


Nesse caso, um modelo com acurácia menor na base de treinamento e validação, obteve um resultado melhor na base de testes. No entanto, vale ressaltar que a base possui poucas instâncias. Principalmente, se analisarmos a quantidade por classe. Vamos ver mais a frente que existem outras métricas para avaliar nosso modelo. No entanto, por enquanto, esse teste aqui é suficiente.

## Comparando com outros modelos

Vamos utilizar uma árvore de decisão para esse problema. 

In [112]:
from sklearn import tree

clf_tree = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5, 
                                       min_samples_split=6, min_samples_leaf=5, random_state=1)

scores_ = cross_val_score(clf_tree, X_train, y_train, cv=3, scoring='accuracy')
print("Acc com Árvore de Decisão: %.4f" % scores_.mean())

Acc com Árvore de Decisão: 0.8655


In [113]:
clf_tree.fit(X_train, y_train)
acc_test = clf_tree.score(X_test, y_test)
print("Acurácia na base de teste: %.4f" % acc_test)

Acurácia na base de teste: 0.9091


O uso de uma árvore de decisão não consegue atingir o resultado obtido no KNN. As alterações não melhoraram o resultado gerado com as configurações padrão.