## Ciclo 02 - Aprendizado Supervisionado - Classificação

### 1.0 Import libraries

In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics as mt

### 1.1 - Load Dataset

In [2]:
dataset_path = '../dataset/train.csv'

df_root = pd.read_csv(dataset_path)

df = df_root.copy()

In [3]:
df_root.head()

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar


In [4]:
df.loc[:, 'limite_adicional'].unique()

array(['Negar', 'Conceder'], dtype=object)

In [5]:
# Porcentagem de Negar e Conceder da nossa medida de interessa "limite_adicional"
df.loc[:, 'limite_adicional'].value_counts(normalize = True)

Negar       0.841579
Conceder    0.158421
Name: limite_adicional, dtype: float64

### 2.0 Seleção de Features

In [6]:
df.columns

Index(['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros',
       'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'],
      dtype='object')

In [7]:
# Seleção de Features
# x = features e y = label

label = 'limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']


x_train = df.loc[:, features] # Informações que eu irei me basear...
y_train = df.loc[:, label].values.ravel() # Para tentar chegar nessa informação.

### 3.0 Treinamento

In [8]:
# Definição de parâmetros do treinamento.
k = 7
knn_classifier = KNeighborsClassifier( n_neighbors = k )

# Treinamento do algoritmo
knn_classifier.fit(x_train, y_train)

# Previsão das observações
y_pred = knn_classifier.predict(x_train)

In [9]:
# Comparação de Previsto com o Realizado
df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]
df_result['predicted'] = y_pred

In [10]:
df_result

Unnamed: 0,id_cliente,idade,limite_adicional,predicted
0,1767,21,Negar,Negar
1,11920,40,Negar,Negar
2,8910,36,Negar,Negar
3,4964,58,Negar,Negar
4,10100,35,Negar,Negar
...,...,...,...,...
9495,5155,29,Negar,Negar
9496,11977,1237,Negar,Negar
9497,9278,47,Negar,Negar
9498,2525,42,Negar,Negar


In [11]:
# Pegar resultados e tentar achar algum errado com sample
df_result.loc[:, :].sample(10)

Unnamed: 0,id_cliente,idade,limite_adicional,predicted
5474,10856,59,Negar,Negar
8788,4317,32,Negar,Negar
1961,2474,27,Negar,Negar
1278,10462,25,Negar,Negar
7737,10820,31,Negar,Negar
3574,5938,44,Conceder,Negar
272,7670,49,Negar,Negar
6939,6843,23,Negar,Negar
1293,1431,43,Negar,Negar
3621,7403,49,Negar,Negar


In [12]:
df_result.loc[:, 'predicted'].value_counts(normalize = True)

Negar       0.939789
Conceder    0.060211
Name: predicted, dtype: float64

In [13]:
# Aplicando função para criar uma nova coluna com a comparação entre o real e a previsão
df_result['acertos'] = (df_result.loc[:, ['id_cliente', 'limite_adicional', 'predicted']].apply(lambda x : 1 if x['limite_adicional'] == x['predicted'] else 0, axis = 1))

In [14]:
df_result.loc[:, :].sample(10)

Unnamed: 0,id_cliente,idade,limite_adicional,predicted,acertos
613,2086,18,Negar,Negar,1
1783,7458,32,Negar,Negar,1
2659,11279,59,Negar,Negar,1
3274,5043,26,Conceder,Negar,0
9382,2703,31,Negar,Negar,1
8535,4018,50,Negar,Negar,1
7864,5247,40,Negar,Negar,1
5888,2519,34,Conceder,Negar,0
8729,9929,44,Negar,Negar,1
8647,4596,50,Negar,Negar,1


In [15]:
df_result['acertos'].sum()

8161

In [16]:
df_result.shape

(9500, 5)

### 4.0 Matriz de Confusão

In [17]:
mt.confusion_matrix(y_train, y_pred)

array([[ 369, 1136],
       [ 203, 7792]], dtype=int64)

### 4.1 - Acurácia

In [18]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

### 4.2 Precisão

In [25]:
# Precisão da label positiva 'Conceder'
mt.precision_score(y_train, y_pred, pos_label='Conceder' )

0.6451048951048951

### 4.3 Recall

In [26]:
# Recall da label positiva 'Conceder'
mt.recall_score(y_train, y_pred, pos_label='Conceder' )

0.24518272425249169