# Ciclo 02 - Exercícios de fim de Ciclo - KNN

## 1.0 - Importando libraries

In [26]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics as mt

### 1.1 - Load Dataset

In [4]:
path = "../dataset/train.csv"

df_root = pd.read_csv(path)

In [7]:
df = df_root.copy()
df.head(100)

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.896360,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.377960,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.282230,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826000,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.853460,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,6389,42,264.484826,2582.60,41914.428500,204.674536,40.053240,5,8,9,57,21,6,26,Não,Não,Negar
96,4784,46,389.229037,707.15,28367.048325,50.346588,40.282555,0,0,2,15,6,0,4989,Não,Não,Conceder
97,9277,30,356.205725,93.73,51526.942250,172.542043,29.139873,100,1,5,12,7,2,5,Sim,Não,Negar
98,10829,34,417.359874,1465.87,39316.599350,101.155542,24.465018,0,6,3,21,9,4,5,Não,Não,Negar


### 1.2 - Checando os tipos da coluna "limite_adicional"

A coluna a coluna "limite adicional" será nosso principal label, é nas outras features que vamos utilizar o treinamento KNN para que ela seja a label prevista.

In [12]:
df.loc[:, 'limite_adicional'].unique()

array(['Negar', 'Conceder'], dtype=object)

A porcentagem de Negar e Conceder da nossa medida de interesse "limite_adicional":

In [14]:
df.loc[:, 'limite_adicional'].value_counts(normalize = True)

Negar       0.841579
Conceder    0.158421
Name: limite_adicional, dtype: float64

# 2.0 - Seleção de Features

Existem features de interesse na nossa base de dados.

In [16]:
df.columns

Index(['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros',
       'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'],
      dtype='object')

In [18]:
label = 'limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

## 3.0 - Treinamento

In [27]:
# Definição de parâmetros
knn_classifier = KNeighborsClassifier( n_neighbors = 7 )

# Treinando o algoritmo com informações já existentes
knn_classifier.fit(x_train, y_train)

Agora, depois do treinamento, vamos fazer uma previsão em cima do aprendizado do KNN:

In [28]:
# Previsão das observações
y_pred = knn_classifier.predict(x_train)

In [30]:
# Comparação de Previsto com o Realizado
df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]
df_result['predicted'] = y_pred

In [35]:
# Obtendo resultados aleatórios com o método do pandas sample()
df_result.sample(10)

Unnamed: 0,id_cliente,idade,limite_adicional,predicted
5212,7043,29,Negar,Conceder
3815,7477,1413,Negar,Negar
5836,2549,38,Negar,Negar
5343,1224,27,Negar,Negar
8581,3850,21,Negar,Negar
9150,9911,21,Negar,Negar
5510,8465,30,Negar,Negar
5541,11747,26,Negar,Negar
1263,5897,48,Negar,Negar
6989,4156,60,Conceder,Negar


Como fizemos no começo, vamos agora normalizar a coluna "y_pred" para termos uma noção de como a nossa previsão se saiu em relação aos números originais:

In [36]:
df_result.loc[:, 'predicted'].value_counts(normalize = True)

Negar       0.939789
Conceder    0.060211
Name: predicted, dtype: float64

In [37]:
# Aplicando função para criar uma nova coluna com a comparação entre o real e a previsão
df_result['acertos'] = (df_result.loc[:, ['id_cliente', 'limite_adicional', 'predicted']].apply(lambda x : 1 if x['limite_adicional'] == x['predicted'] else 0, axis = 1))

In [38]:
df_result

Unnamed: 0,id_cliente,idade,limite_adicional,predicted,acertos
0,1767,21,Negar,Negar,1
1,11920,40,Negar,Negar,1
2,8910,36,Negar,Negar,1
3,4964,58,Negar,Negar,1
4,10100,35,Negar,Negar,1
...,...,...,...,...,...
9495,5155,29,Negar,Negar,1
9496,11977,1237,Negar,Negar,1
9497,9278,47,Negar,Negar,1
9498,2525,42,Negar,Negar,1


## 4.0 -  Métricas 

Matrix de confusão

In [40]:
mt.confusion_matrix(y_train, y_pred)

array([[ 369, 1136],
       [ 203, 7792]], dtype=int64)

Acurácia

In [42]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

Precisão

In [44]:
mt.precision_score(y_train, y_pred, pos_label="Conceder")

0.6451048951048951

Acurácia

In [46]:
mt.recall_score(y_train, y_pred, pos_label="Conceder")

0.24518272425249169

## 5.0 - Treinando KNN com diferentes casas de distância

Retreino o algoritmo com os seguintes valores para K: [3, 5, 7, 9, 11, 13,
15, 17, 19 e 21] e anote a acurácia.

In [49]:
knn_classifier3 = KNeighborsClassifier( n_neighbors = 3 )

knn_classifier3.fit(x_train, y_train)

In [51]:
y_pred3 = knn_classifier3.predict(x_train)

In [56]:
df_result3 = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]
df_result3['predicted'] = y_pred3

Acurácia do KNN com 3 casas:

In [57]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474