# Ciclo 02 - Exercícios de fim de Ciclo - KNN

## 1.0 - Importando libraries

In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics as mt

### 1.1 - Load Dataset

In [2]:
path = "../dataset/train.csv"

df_root = pd.read_csv(path)

In [3]:
df = df_root.copy()
df.head(100)

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.896360,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.377960,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.282230,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826000,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.853460,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,6389,42,264.484826,2582.60,41914.428500,204.674536,40.053240,5,8,9,57,21,6,26,Não,Não,Negar
96,4784,46,389.229037,707.15,28367.048325,50.346588,40.282555,0,0,2,15,6,0,4989,Não,Não,Conceder
97,9277,30,356.205725,93.73,51526.942250,172.542043,29.139873,100,1,5,12,7,2,5,Sim,Não,Negar
98,10829,34,417.359874,1465.87,39316.599350,101.155542,24.465018,0,6,3,21,9,4,5,Não,Não,Negar


### 1.2 - Checando os tipos da coluna "limite_adicional"

A coluna a coluna "limite adicional" será nosso principal label, é nas outras features que vamos utilizar o treinamento KNN para que ela seja a label prevista.

In [4]:
df.loc[:, 'limite_adicional'].unique()

array(['Negar', 'Conceder'], dtype=object)

A porcentagem de Negar e Conceder da nossa medida de interesse "limite_adicional":

In [5]:
df.loc[:, 'limite_adicional'].value_counts(normalize = True)

Negar       0.841579
Conceder    0.158421
Name: limite_adicional, dtype: float64

# 2.0 - Seleção de Features

Existem features de interesse na nossa base de dados.

In [6]:
df.columns

Index(['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros',
       'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'],
      dtype='object')

In [7]:
label = 'limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

## 3.0 - Treinamento

In [8]:
# Definição de parâmetros
knn_classifier = KNeighborsClassifier( n_neighbors = 7 )

# Treinando o algoritmo com informações já existentes
knn_classifier.fit(x_train, y_train)

Agora, depois do treinamento, vamos fazer uma previsão em cima do aprendizado do KNN:

In [9]:
# Previsão das observações
y_pred = knn_classifier.predict(x_train)

In [10]:
# Comparação de Previsto com o Realizado
df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]
df_result['predicted'] = y_pred

In [11]:
# Obtendo resultados aleatórios com o método do pandas sample()
df_result.sample(10)

Unnamed: 0,id_cliente,idade,limite_adicional,predicted
2821,10453,33,Negar,Negar
5452,4837,2656,Negar,Negar
8803,12051,30,Negar,Negar
6131,11500,38,Negar,Negar
1018,7282,29,Negar,Negar
3634,4953,28,Conceder,Negar
5064,9803,58,Negar,Negar
2121,4418,28,Negar,Negar
2508,7808,39,Negar,Negar
8218,9413,24,Negar,Negar


Como fizemos no começo, vamos agora normalizar a coluna "y_pred" para termos uma noção de como a nossa previsão se saiu em relação aos números originais:

In [12]:
df_result.loc[:, 'predicted'].value_counts(normalize = True)

Negar       0.939789
Conceder    0.060211
Name: predicted, dtype: float64

In [13]:
# Aplicando função para criar uma nova coluna com a comparação entre o real e a previsão
df_result['acertos'] = (df_result.loc[:, ['id_cliente', 'limite_adicional', 'predicted']].apply(lambda x : 1 if x['limite_adicional'] == x['predicted'] else 0, axis = 1))

In [14]:
df_result

Unnamed: 0,id_cliente,idade,limite_adicional,predicted,acertos
0,1767,21,Negar,Negar,1
1,11920,40,Negar,Negar,1
2,8910,36,Negar,Negar,1
3,4964,58,Negar,Negar,1
4,10100,35,Negar,Negar,1
...,...,...,...,...,...
9495,5155,29,Negar,Negar,1
9496,11977,1237,Negar,Negar,1
9497,9278,47,Negar,Negar,1
9498,2525,42,Negar,Negar,1


## 4.0 -  Métricas 

Matrix de confusão

In [15]:
mt.confusion_matrix(y_train, y_pred)

array([[ 369, 1136],
       [ 203, 7792]], dtype=int64)

Acurácia

In [16]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

Precisão

In [17]:
mt.precision_score(y_train, y_pred, pos_label="Conceder")

0.6451048951048951

Acurácia

In [18]:
mt.recall_score(y_train, y_pred, pos_label="Conceder")

0.24518272425249169

## 5.0 - Treinando KNN com diferentes casas de distância

Retreino o algoritmo com os seguintes valores para K: [3, 5, 7, 9, 11, 13,
15, 17, 19 e 21] e anote a acurácia.

### n_neighbors = 3

In [76]:
knn_classifier = KNeighborsClassifier( n_neighbors = 3 )

knn_classifier.fit(x_train, y_train)

y_pred = knn_classifier.predict(x_train)

df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]
df_result['predicted'] = y_pred3

Acurácia do KNN com 3 casas:

In [77]:
mt.accuracy_score(y_train, y_pred)

0.8854736842105263

### n_neighbors = 5 

In [78]:
knn_classifier = KNeighborsClassifier( n_neighbors = 5 )

knn_classifier.fit(x_train, y_train)

y_pred = knn_classifier5.predict(x_train)

df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]

df_result['predicted'] = y_pred

In [79]:
mt.accuracy_score(y_train, y_pred)

0.8667368421052631

### n_neighbors = 7

In [80]:
knn_classifier = KNeighborsClassifier( n_neighbors= 7)

knn_classifier.fit(x_train, y_train)

y_pred = knn_classifier.predict(x_train)

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]

df_results['predicted'] = y_pred

In [81]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

## n_neigbors = 9

In [82]:
knn_classifier = KNeighborsClassifier( n_neighbors= 9) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [83]:
mt.accuracy_score(y_train, y_pred)

0.8528421052631578

## n_neighrs = 11

In [91]:
knn_classifier = KNeighborsClassifier( n_neighbors= 11) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [92]:
mt.accuracy_score(y_train, y_pred)

0.85

## n_neighrs = 13

In [95]:
knn_classifier = KNeighborsClassifier( n_neighbors= 13) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [96]:
mt.accuracy_score(y_train, y_pred)

0.8492631578947368

## n_neighrs = 15

In [97]:
knn_classifier = KNeighborsClassifier( n_neighbors= 15) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [98]:
mt.accuracy_score(y_train, y_pred)

0.848

## n_neighrs = 17

In [110]:
knn_classifier = KNeighborsClassifier( n_neighbors= 17) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [111]:
mt.accuracy_score(y_train, y_pred)

0.8478947368421053

## n_neighrs = 19

In [108]:
knn_classifier = KNeighborsClassifier( n_neighbors= 19) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [109]:
mt.accuracy_score(y_train, y_pred)

0.8478947368421053

## n_neighrs = 21

In [114]:
knn_classifier = KNeighborsClassifier( n_neighbors= 19) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [115]:
mt.accuracy_score(y_train, y_pred)

0.8478947368421053

## 6.0 - Qual o problema principal de usar a métrica acurácia?

Alguns problemas de proporção podem acontecer, quando os dados são muito "enviesados". Posso citar um exemplo de games, por exemplo. Digamos que existe um algoritmo que bane automaticamente pessoas que usaram de comportamento tóxico dentro do jogo. E para testar a eficiência desse algoritmo, treinamos ele a partir da nossa base de dados. Apesar de uma acurácia super alta, temos que levar em conta que, dependendo da comunidade do jogo e da base de dados, a toxicidade não se encontra na maioria dos players, então uma acurácia muito alta, como 97%, pode não dizer muita coisa. Outra problemática é compararmos uma label com aspectos não bem definidos, como tentar prever qual cosmético um jogador irá comprar baseado no seu jogo, sendo que provavelmente algum conteúdo mais nichado passe em branco em relação aos conteúdos mais famosos.

## 7.0 - Explique com um pequeno texto ilustrando a diferença entre a métrica de Precision e Recall e mostrando quando usa deve ser escolhida em relação a outra

Precision: precisão é uma questão de tentativa, acerto ou erro. Digamos que temos um desafio de 10 arremessos no basquete. Se em 5 arremessos, acertamos 5 sextas, nossa precisão será de 5/5 = 100%. Mas pesar de acertamos 100%, por conta do tempo que levamos para acertar, só fizemos 5 arremessos, e não os 10 permitidos.

Recall: o Recall já vem justamente para medir essa quantidade de acertos. Temos 100% de precisão, mas nossa eficiência, nosso recall, foi de apenas 5/10 = 50%. 

Ou seja, quando vamos tentar resolver algum problema de Aprendizado Supervisionado com KNN, devemos olhar bem para o contexto e as características do problema, pois existem cenários em que a Precisão se mostra mais valiosa, assim como em outros contextos o Recall se mostra mais importante.