# Aprendizado Supervisionado - Classificação com KNN

## 1.0 Import libraries

In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics as mt

## 1.1 Load Dataset

In [2]:
dataset_path = '../datasets/train.csv'

df = pd.read_csv(dataset_path)

In [3]:
df.head()

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar


In [4]:
df.loc[:, 'limite_adicional'].unique()

array(['Negar', 'Conceder'], dtype=object)

## 2.0 Seleção de features

In [5]:
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']
label = 'limite_adicional'

x_train = df.loc[:, features]
y_train = df.loc[:, label]

## 3.0 Treinamento

In [6]:
# definição de parametros do treinamento
k = 7
knn_clasifier = KNeighborsClassifier(n_neighbors = k)

# treinamento do algoritmo
knn_clasifier.fit(x_train, y_train)

In [7]:
# predição da classificação dos clientes
y_pred = knn_clasifier.predict(x_train)

In [8]:
df_result = df.copy()
df_result['classificacao'] = y_pred

In [9]:
df_result.loc[:, ['id_cliente', 'idade', 'limite_adicional', 'classificacao']].sample(10)

Unnamed: 0,id_cliente,idade,limite_adicional,classificacao
5055,2023,56,Conceder,Conceder
9271,10337,31,Negar,Negar
2114,5119,47,Negar,Negar
4827,10197,50,Negar,Negar
4543,1353,43,Negar,Negar
9082,6047,36,Negar,Negar
5998,9479,35,Negar,Negar
4332,3299,34,Negar,Negar
4874,9730,22,Conceder,Negar
1699,11028,45,Negar,Negar


## 4.0 Avaliação da Performance

### 4.1 Matriz de Confusão

In [10]:
mt.confusion_matrix(y_train, y_pred)

array([[ 369, 1136],
       [ 203, 7792]])

### 4.2 Acurácia

In [11]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

### 4.3 Calculando acurácia na mão

In [12]:
df_result.loc[:, 'limite_adicional'].value_counts()

limite_adicional
Negar       7995
Conceder    1505
Name: count, dtype: int64

In [13]:
df_result.loc[:, 'limite_adicional'].value_counts(normalize=True)

limite_adicional
Negar       0.841579
Conceder    0.158421
Name: proportion, dtype: float64

In [14]:
df_result['acertos'] = ( df_result.loc[:, ['id_cliente', 'limite_adicional', 'classificacao']]
.apply(lambda x: 1 if x['limite_adicional'] == x['classificacao'] else 0, axis=1)
 )

In [15]:
df_result.loc[:, ['id_cliente', 'idade', 'limite_adicional', 'classificacao', 'acertos']]

Unnamed: 0,id_cliente,idade,limite_adicional,classificacao,acertos
0,1767,21,Negar,Negar,1
1,11920,40,Negar,Negar,1
2,8910,36,Negar,Negar,1
3,4964,58,Negar,Negar,1
4,10100,35,Negar,Negar,1
...,...,...,...,...,...
9495,5155,29,Negar,Negar,1
9496,11977,1237,Negar,Negar,1
9497,9278,47,Negar,Negar,1
9498,2525,42,Negar,Negar,1


In [16]:
df_result['acertos'].sum()

np.int64(8161)

In [17]:
df_result.shape

(9500, 19)

In [18]:
print('Acurácia: {:.2f}%'.format((8161 / 9500) * 100))

Acurácia: 85.91%
