# 1. Import libraries 

In [26]:
import pandas as pd 
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics as mt 


# 2. Dataset

In [2]:
dataset_path = '../datasets/train.csv'
df = pd.read_csv(dataset_path)

In [3]:
df.head()

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar


In [12]:
df.loc[:, 'limite_adicional'].value_counts()

Negar       7995
Conceder    1505
Name: limite_adicional, dtype: int64

In [13]:
df.loc[:, 'limite_adicional'].value_counts(normalize=True)

Negar       0.841579
Conceder    0.158421
Name: limite_adicional, dtype: float64

# 3. Seleção de features

In [4]:
df.columns

Index(['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros',
       'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'],
      dtype='object')

In [5]:
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']
label = 'limite_adicional'

x_train = df.loc[:, features]
y_train = df.loc[:, label]

In [6]:
y_train

0       Negar
1       Negar
2       Negar
3       Negar
4       Negar
        ...  
9495    Negar
9496    Negar
9497    Negar
9498    Negar
9499    Negar
Name: limite_adicional, Length: 9500, dtype: object

# 4. Treinamento

In [7]:
# definição de parâmetros do treinamento
k = 7
knn_classifier = KNeighborsClassifier(n_neighbors = k)

# treinamento do algoritmo
knn_classifier.fit(x_train, y_train)

KNeighborsClassifier(n_neighbors=7)

In [8]:
# vamos fazer a predição no mesmo conjunto de treino, só para testar
y_pred = knn_classifier.predict(x_train)

In [9]:
y_pred

array(['Negar', 'Negar', 'Negar', ..., 'Negar', 'Negar', 'Negar'],
      dtype=object)

In [10]:
df_result = df.copy()
df_result['classificacao'] = y_pred
df_result.head()

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional,classificacao
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar,Negar
3,4964,58,321.141267,703.05,51786.826,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar,Negar


# 5. Performance

## 5.1. Matriz de confusão

In [27]:
mt.confusion_matrix(y_train, y_pred)

array([[ 369, 1136],
       [ 203, 7792]])

## 5.2. Acurácia

In [28]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

In [11]:
df_result.sample(15)

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional,classificacao
6325,28,36,224.640333,1233.1,52761.044,397.002249,27.980701,1,3,3,11,8,4,18,Sim,Não,Negar,Negar
5393,8306,40,280.203358,67.59,19628.42231,74.574497,39.277685,2,6,4,7,18,8,20,Não,Não,Negar,Negar
6887,1986,56,404.375752,1238.55,28365.075865,10000.0,38.661332,1,0,2,2,5,3,6,Não,Não,Conceder,Negar
4990,11802,26,221.904746,4578.85,12897.5444,28.474585,30.930985,8,10,5,17,18,12,34,Não,Não,Negar,Negar
7192,4349,25,290.849524,3536.44,22634.15413,10000.0,37.681938,9,6,9,37,27,7,3617,Sim,Não,Negar,Negar
7818,11999,33,1007.320392,705.53,167239.10548,295.899597,30.601809,3,1,7,16,2,1,7,Sim,Não,Negar,Negar
900,8401,32,433.549737,359.85,76024.9936,370.08193,31.082091,0,6,4,14,18,4,2,Sim,Não,Negar,Negar
4107,3111,27,254.693938,1065.71,21081.334995,123.112246,28.429245,4,4,3,8,5,0,11,Não,Não,Conceder,Negar
3259,37,6415,363.272112,3421.66,39813.94298,59.825596,24.639658,5,1231,7,53,21,11,24,Não,Não,Negar,Negar
3712,2900,29,216.890901,3555.25,57147.3525,134.201478,23.412494,8,8,7,39,14,9,33,Não,Não,Negar,Negar


- O algortimo pode cometer alguns erros. 
- Usamos métricas para ver o quão bom ele é na classificação.

In [16]:
df_result['acertos'] = (df_result.loc[:, ['id_cliente', 'limite_adicional', 'classificacao']].apply(lambda x: 1 if x['limite_adicional'] == x['classificacao'] else 0, axis=1))

In [17]:
df_result.loc[:, ['id_cliente', 'idade', 'limite_adicional', 'classificacao', 'acertos']].sample(10)

Unnamed: 0,id_cliente,idade,limite_adicional,classificacao,acertos
9465,2008,42,Conceder,Negar,0
3800,3922,35,Negar,Negar,1
5275,3800,41,Negar,Negar,1
1041,304,34,Negar,Negar,1
3988,11978,30,Negar,Negar,1
7026,9690,44,Negar,Negar,1
897,8241,18,Negar,Negar,1
911,4681,40,Conceder,Negar,0
5535,8095,31,Negar,Negar,1
3727,8361,33,Conceder,Negar,0


In [18]:
df_result['acertos'].sum()

8161

In [19]:
df_result.shape

(9500, 19)

In [24]:
print('Acuracia: {:.2f}%'.format (100*(8161/9500)))

Acuracia: 85.91%
