# Ciclo 02 - Exercícios de fim de Ciclo - KNN

## Exercício 01 -  Rafaça o código de treinamento da aula 12: “K-Nearest Neighbors -Prática” no seu computador usando o Jupyter Notebook ou o Google Colabs

### 1.1 - Importando libraries

In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics as mt

### 1.2 - Load Dataset

In [2]:
path = "../dataset/train.csv"

df_root = pd.read_csv(path)

In [3]:
df = df_root.copy()
df.head(100)

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.896360,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.377960,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.282230,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826000,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.853460,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,6389,42,264.484826,2582.60,41914.428500,204.674536,40.053240,5,8,9,57,21,6,26,Não,Não,Negar
96,4784,46,389.229037,707.15,28367.048325,50.346588,40.282555,0,0,2,15,6,0,4989,Não,Não,Conceder
97,9277,30,356.205725,93.73,51526.942250,172.542043,29.139873,100,1,5,12,7,2,5,Sim,Não,Negar
98,10829,34,417.359874,1465.87,39316.599350,101.155542,24.465018,0,6,3,21,9,4,5,Não,Não,Negar


### Funções

In [4]:
# Função para imprimir todas as métricas:
def metrics_print(y_train, y_pred):
    matriz_confusao = mt.confusion_matrix(y_train, y_pred)
    print(f'Matriz de Confusão: {matriz_confusao}')
    
    acuracia = mt.accuracy_score(y_train, y_pred)
    print(f'Acurácia: {mt.accuracy_score(y_train, y_pred)}')
    
    recall = mt.recall_score(y_train, y_pred, pos_label="Conceder")
    print(f'Recall: {recall}')
    
    precisao = mt.precision_score(y_train, y_pred, pos_label="Conceder")
    print(f'Precision: {precisao}')
    
    return acuracia, recall, precisao

### 1.3 - Checando os tipos da coluna "limite_adicional"

A coluna a coluna "limite adicional" será nosso principal label, é nas outras features que vamos utilizar o treinamento KNN para que ela seja a label prevista.

In [5]:
df.loc[:, 'limite_adicional'].unique()

array(['Negar', 'Conceder'], dtype=object)

A porcentagem de Negar e Conceder da nossa medida de interesse "limite_adicional":

In [6]:
df.loc[:, 'limite_adicional'].value_counts(normalize = True)

limite_adicional
Negar       0.841579
Conceder    0.158421
Name: proportion, dtype: float64

### 1.4 - Seleção de Features

Existem features de interesse na nossa base de dados.

In [7]:
df.columns

Index(['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros',
       'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'],
      dtype='object')

In [8]:
label = 'limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

### 1.5 - Treinamento

In [9]:
# Definição de parâmetros
knn_classifier = KNeighborsClassifier( n_neighbors = 7 )

# Treinando o algoritmo com informações já existentes
knn_classifier.fit(x_train, y_train)

Agora, depois do treinamento, vamos fazer uma previsão em cima do aprendizado do KNN:

In [10]:
# Previsão das observações
y_pred = knn_classifier.predict(x_train)

In [11]:
# Comparação de Previsto com o Realizado
df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]
df_result['predicted'] = y_pred

In [12]:
# Obtendo resultados aleatórios com o método do pandas sample()
df_result.sample(10)

Unnamed: 0,id_cliente,idade,limite_adicional,predicted
8750,8498,46,Negar,Negar
7379,4232,46,Negar,Negar
1503,1622,42,Negar,Negar
2772,5152,39,Negar,Negar
4077,5273,39,Negar,Negar
8316,8236,24,Negar,Negar
3487,477,33,Negar,Negar
2920,10010,42,Negar,Conceder
6555,3515,47,Negar,Negar
5337,10306,48,Negar,Negar


Como fizemos no começo, vamos agora normalizar a coluna "y_pred" para termos uma noção de como a nossa previsão se saiu em relação aos números originais:

In [13]:
df_result.loc[:, 'predicted'].value_counts(normalize = True)

predicted
Negar       0.939789
Conceder    0.060211
Name: proportion, dtype: float64

In [14]:
# Aplicando função para criar uma nova coluna com a comparação entre o real e a previsão
df_result['acertos'] = (df_result.loc[:, ['id_cliente', 'limite_adicional', 'predicted']].apply(lambda x : 1 if x['limite_adicional'] == x['predicted'] else 0, axis = 1))

In [15]:
df_result

Unnamed: 0,id_cliente,idade,limite_adicional,predicted,acertos
0,1767,21,Negar,Negar,1
1,11920,40,Negar,Negar,1
2,8910,36,Negar,Negar,1
3,4964,58,Negar,Negar,1
4,10100,35,Negar,Negar,1
...,...,...,...,...,...
9495,5155,29,Negar,Negar,1
9496,11977,1237,Negar,Negar,1
9497,9278,47,Negar,Negar,1
9498,2525,42,Negar,Negar,1


### 1.6 -  Métricas 

Matrix de confusão

In [16]:
mt.confusion_matrix(y_train, y_pred)

array([[ 369, 1136],
       [ 203, 7792]], dtype=int64)

Acurácia

In [17]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

Precisão

In [18]:
mt.precision_score(y_train, y_pred, pos_label="Conceder")

0.6451048951048951

Recall

In [19]:
mt.recall_score(y_train, y_pred, pos_label="Conceder")

0.24518272425249169

## 2.0 - Treinando KNN com diferentes casas de distância

Retreino o algoritmo com os seguintes valores para K: [3, 5, 7, 9, 11, 13,
15, 17, 19 e 21] e anote a acurácia.

### 2.1 - n_neighbors = 3

In [20]:
knn_classifier = KNeighborsClassifier( n_neighbors = 3 )

knn_classifier.fit(x_train, y_train)

y_pred = knn_classifier.predict(x_train)

df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]
df_result['predicted'] = y_pred

Acurácia do KNN com 3 casas:

In [21]:
mt.accuracy_score(y_train, y_pred)

0.8854736842105263

### 2.2 - n_neighbors = 5 

In [22]:
knn_classifier = KNeighborsClassifier( n_neighbors = 5 )

knn_classifier.fit(x_train, y_train)

y_pred = knn_classifier.predict(x_train)

df_result = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]

df_result['predicted'] = y_pred

In [23]:
mt.accuracy_score(y_train, y_pred)

0.8667368421052631

### 2.3 - n_neighbors = 7

In [24]:
knn_classifier = KNeighborsClassifier( n_neighbors= 7)

knn_classifier.fit(x_train, y_train)

y_pred = knn_classifier.predict(x_train)

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']]

df_results['predicted'] = y_pred

In [25]:
mt.accuracy_score(y_train, y_pred)

0.8590526315789474

### 2.4 - n_neigbors = 9

In [26]:
knn_classifier = KNeighborsClassifier( n_neighbors= 9) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [27]:
mt.accuracy_score(y_train, y_pred)

0.8528421052631578

### 2.5 - n_neighrs = 11

In [28]:
knn_classifier = KNeighborsClassifier( n_neighbors= 11) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [29]:
mt.accuracy_score(y_train, y_pred)

0.85

### 2.6 - n_neighrs = 13

In [30]:
knn_classifier = KNeighborsClassifier( n_neighbors= 13) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [31]:
mt.accuracy_score(y_train, y_pred)

0.8492631578947368

### 2.7 - n_neighrs = 15

In [32]:
knn_classifier = KNeighborsClassifier( n_neighbors= 15) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [33]:
mt.accuracy_score(y_train, y_pred)

0.848

### 2.8 -  n_neighrs = 17

In [34]:
knn_classifier = KNeighborsClassifier( n_neighbors= 17) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [35]:
mt.accuracy_score(y_train, y_pred)

0.8478947368421053

### 2.9 - n_neighrs = 19

In [36]:
knn_classifier = KNeighborsClassifier( n_neighbors= 19) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [37]:
mt.accuracy_score(y_train, y_pred)

0.8478947368421053

### 2.10 - n_neighrs = 21

In [38]:
knn_classifier = KNeighborsClassifier( n_neighbors= 19) # Número de casas

knn_classifier.fit(x_train, y_train) # treinando com fit

y_pred = knn_classifier.predict(x_train) # prevendo label

df_results = df.loc[:, ['id_cliente', 'idade', 'limite_adicional']] # setando dataset

df_results['predicted'] = y_pred # criando coluna para a previsão

In [39]:
mt.accuracy_score(y_train, y_pred)

0.8478947368421053

## 3.0 - Qual o problema principal de usar a métrica acurácia?

Alguns problemas de proporção podem acontecer, quando os dados são muito "enviesados". Posso citar um exemplo de games. Digamos que existe um algoritmo que bane automaticamente pessoas que usaram de comportamento tóxico dentro do jogo. E para testar a eficiência desse algoritmo, treinamos ele a partir da nossa base de dados. Apesar de uma acurácia super alta, temos que levar em conta que, dependendo da comunidade do jogo e da base de dados, a toxicidade não se encontra na maioria dos players, então uma acurácia muito alta, como 97%, pode não dizer muita coisa. Como disseram na aula "O valor da acurácia para problemas com classes desbalanceadas é dominado pelo acerto da classe majoritária".

## 4.0 - Explique com um pequeno texto ilustrando a diferença entre a métrica de Precision e Recall e mostrando quando usa deve ser escolhida em relação a outra

Precision: precisão é uma questão de tentativa, acerto ou erro. Digamos que temos um desafio de 10 arremessos no basquete. Se em 5 arremessos, acertamos 5 sextas, nossa precisão será de 5/5 = 100%. Mas pesar de acertamos 100%, por conta do tempo que levamos para acertar, só fizemos 5 arremessos, e não os 10 permitidos.

Recall: o Recall já vem justamente para medir essa quantidade de acertos. Temos 100% de precisão, mas nossa eficiência, nosso recall, foi de apenas 5/10 = 50%. 

Ou seja, quando vamos tentar resolver algum problema de Aprendizado Supervisionado com KNN, devemos olhar bem para o contexto e as características do problema, pois existem cenários em que a Precisão se mostra mais valiosa, assim como em outros contextos o Recall se mostra mais importante.

## 5.0 - Escreva um trecho de código que automatize o treinamento do algoritmo K-NN, a fim de encontrar o melhor valor para K, do exercício 2.


In [40]:
# Vamos fazer uma função para KNN, onde retornamos o melhor valor para K.
def knn (x_train, y_train):
    n_neighbors = [3, 5, 7, 9, 11, 13, 15, 17, 19, 21] # Utilizando o range de vizinhos dado na segunda questão
    
    best_accuracy = 0
    best_k = 0
    for neighbor in n_neighbors:
        
        knn_classifier = KNeighborsClassifier( n_neighbors = neighbor)

        knn_classifier.fit(x_train, y_train)
        
        y_pred = knn_classifier.predict(x_train)
        
        test_accuracy = mt.accuracy_score(y_train, y_pred)
        if test_accuracy > best_accuracy: # Se a atual previsão for melhor que a best_pred, 
            best_accuracy = test_accuracy
            best_k = neighbor

    return best_accuracy, best_k
                   
best_accuracy, best_k = knn(x_train, y_train)

In [41]:
print(f'O melhor K foi o: {best_k}, com acurácia de {best_accuracy*100:5f} %')

O melhor K foi o: 3, com acurácia de 88.547368 %


## 6.0 -  Escreva um pequeno texto, explicando as 6 denominações da matriz de confusão: P, N, TP, FN, FP e TN

A matriz de confusão é uma ferramenta para medir a performance de um algoritmo de Machine Learning ao realizar uma classificação. A ideia geral é contar quantos vezes previsões da classe A 
foram erroneamente classificadas como B, e vice-versa. Na matriz, existem 6 denominações: 

Vamos exemplificar com um modelo KNN aplicado num problema de classificação num banco de dados de fotos de cachorros e gatos:
- P -> É a classe positiva, aqui classificada como cachorros.
- N -> É a classe negativa, aqui classificada como gatos.
- TP -> É o número de classificações corretas da classe positiva (cachorros que foram classificados como cachorros).
- TN -> É o número de classificações corretas da classe negativa (gatos que foram classificados como gatos).
- FP -> É o número de classificações erradas da classe positiva (gatos que foram erroneamente classificados como cachorro).
- FN -> É o número de classificações erradas da classe negativa (cachorros que foram erroneamente classificados como gato).

## 7.0 -  No conjunto de dados usado na aula 12: “K-Nearest Neighbors - Prática”, existe alguma variável que fere as premissas do K-NN? Se sim ou não, explique.

Segundo visto na aula, existem algumas variáveis dos nossos dados que não ajudam a chegar na melhor previsão com o KNN. Por exemplo "id_cliente" é uma feature que não nos interessa, pois ela nada influencia na label "limite_adicional". 

## 8.0 - Faça a seguinte bateria de testes:

### 8.1 Classe balanceada originalmente:
- Faça a matriz de confusão, calcule a acurácia, recall e precision do conjunto de dados original
- Anote os resultados.

In [65]:
# Criando DataFrame para resultados
df_metric_results = pd.DataFrame(columns=['Proporcao', 'Acuracia', 'Recall', 'Precisao'])

In [66]:
# Refazendo o KNN com 3 vizinhos
n_neighbors = 3

knn_classifier = KNeighborsClassifier( n_neighbors = 3 ) # Selecione número de vizinhos

knn_classifier.fit(x_train, y_train) # Treine com os valores já existentes

y_pred = knn_classifier.predict(x_train) # Faça a previsão

In [67]:
# Criando uma lista de métricas e mostrando o resultado
results = list(metrics_print(y_train, y_pred))

# Criando uma Dataframe com essa lista de métricas
results.insert(0, 'original')
df_metric_results.loc[len(df_metric_results)] = results

Matriz de Confusão: [[3533 1217]
 [1239 3511]]
Acurácia: 0.7414736842105263
Recall: 0.7437894736842106
Precision: 0.740360435875943


In [68]:
df_metric_results

Unnamed: 0,Proporcao,Acuracia,Recall,Precisao
0,original,0.741474,0.743789,0.74036


### 8.2 - Mantenha a proporção de 50% das linhas da planilha de dados com exemplos da classe “Conceder” e 50% com a classe “Negar”.

In [69]:
l = len(df.index) // 2 # Usando o tamanho do df, pegando a parte inteira

# Atribuindo a nova coluna os valores proporcionais
df.loc[:l - 1, 'novo_limite_adicional'] = 'Negar'
df.loc[l:, 'novo_limite_adicional'] = 'Conceder' 

df['novo_limite_adicional'].value_counts(normalize = True)

novo_limite_adicional
Negar       0.5
Conceder    0.5
Name: proportion, dtype: float64

In [70]:
# Novas infos de treino
label = 'novo_limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

# Treinando modelo com novas infos
knn_classifier = KNeighborsClassifier(n_neighbors= 3)

knn_classifier.fit(x_train, y_train)

In [71]:
# Prevendo...
y_pred = knn_classifier.predict(x_train)

# Criando uma lista de métricas e mostrando o resultado
results = list(metrics_print(y_train, y_pred))

# Criando uma Dataframe com essa lista de métricas
results.insert(0, '50/50')
df_metric_results.loc[len(df_metric_results)] = results

Matriz de Confusão: [[3533 1217]
 [1239 3511]]
Acurácia: 0.7414736842105263
Recall: 0.7437894736842106
Precision: 0.740360435875943


In [72]:
df_metric_results

Unnamed: 0,Proporcao,Acuracia,Recall,Precisao
0,original,0.741474,0.743789,0.74036
1,50/50,0.741474,0.743789,0.74036


### 8.3 - Mantenha a proporção de 90% das linhas da planilha de dados com exemplos da classe “Conceder” e 10% com a classe “Negar”.

In [73]:
l = len(df.index) * 0.90 # Usando o tamanho do df, pegando a parte inteira

# Atribuindo a nova coluna os valores proporcionais
df.loc[:l - 1, 'novo_limite_adicional'] = 'Negar'
df.loc[l:, 'novo_limite_adicional'] = 'Conceder' 

df['novo_limite_adicional'].value_counts(normalize = True)

novo_limite_adicional
Negar       0.9
Conceder    0.1
Name: proportion, dtype: float64

In [74]:
# Novas infos de treino
label = 'novo_limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

# Treinando modelo com novas infos
knn_classifier = KNeighborsClassifier(n_neighbors= 3)

knn_classifier.fit(x_train, y_train)

In [75]:
# Prevendo...
y_pred = knn_classifier.predict(x_train)

# Criando uma lista de métricas e mostrando o resultado
results = list(metrics_print(y_train, y_pred))

# Criando uma Dataframe com essa lista de métricas
results.insert(0, '90/10')
df_metric_results.loc[len(df_metric_results)] = results

Matriz de Confusão: [[ 176  774]
 [  94 8456]]
Acurácia: 0.9086315789473685
Recall: 0.18526315789473685
Precision: 0.6518518518518519


In [76]:
df_metric_results

Unnamed: 0,Proporcao,Acuracia,Recall,Precisao
0,original,0.741474,0.743789,0.74036
1,50/50,0.741474,0.743789,0.74036
2,90/10,0.908632,0.185263,0.651852


### 8.4 Refaça o exercícios 8.3 com as seguintes variações: 80/20, 70/30 e 60/40


#### 80/20

In [77]:
l = len(df.index) * 0.80 # Usando o tamanho do df, pegando a parte inteira

# Atribuindo a nova coluna os valores proporcionais
df.loc[:l - 1, 'novo_limite_adicional'] = 'Negar'
df.loc[l:, 'novo_limite_adicional'] = 'Conceder' 

df['novo_limite_adicional'].value_counts(normalize = True)

novo_limite_adicional
Negar       0.8
Conceder    0.2
Name: proportion, dtype: float64

In [78]:
# Novas infos de treino
label = 'novo_limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

# Treinando modelo com novas infos
knn_classifier = KNeighborsClassifier(n_neighbors= 3)

knn_classifier.fit(x_train, y_train)

In [79]:
# Prevendo...
y_pred = knn_classifier.predict(x_train)

# Criando uma lista de métricas e mostrando o resultado
results = list(metrics_print(y_train, y_pred))

# Criando uma Dataframe com essa lista de métricas
results.insert(0, '80/20')
df_metric_results.loc[len(df_metric_results)] = results

Matriz de Confusão: [[ 700 1200]
 [ 312 7288]]
Acurácia: 0.840842105263158
Recall: 0.3684210526315789
Precision: 0.691699604743083


#### 70/30

In [80]:
l = len(df.index) * 0.70 # Usando o tamanho do df, pegando a parte inteira

# Atribuindo a nova coluna os valores proporcionais
df.loc[:l - 1, 'novo_limite_adicional'] = 'Negar'
df.loc[l:, 'novo_limite_adicional'] = 'Conceder' 

df['novo_limite_adicional'].value_counts(normalize = True)

novo_limite_adicional
Negar       0.7
Conceder    0.3
Name: proportion, dtype: float64

In [81]:
# Novas infos de treino
label = 'novo_limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

# Treinando modelo com novas infos
knn_classifier = KNeighborsClassifier(n_neighbors= 3)

knn_classifier.fit(x_train, y_train)

In [82]:
# Prevendo...
y_pred = knn_classifier.predict(x_train)

# Criando uma lista de métricas e mostrando o resultado
results = list(metrics_print(y_train, y_pred))

# Criando uma Dataframe com essa lista de métricas
results.insert(0, '70/30')
df_metric_results.loc[len(df_metric_results)] = results

Matriz de Confusão: [[1476 1374]
 [ 637 6013]]
Acurácia: 0.7883157894736842
Recall: 0.5178947368421053
Precision: 0.6985328916232845


#### - 60/40

In [83]:
l = len(df.index) * 0.60 # Usando o tamanho do df, pegando a parte inteira

# Atribuindo a nova coluna os valores proporcionais
df.loc[:l - 1, 'novo_limite_adicional'] = 'Negar'
df.loc[l:, 'novo_limite_adicional'] = 'Conceder' 

df['novo_limite_adicional'].value_counts(normalize = True)

novo_limite_adicional
Negar       0.6
Conceder    0.4
Name: proportion, dtype: float64

In [84]:
# Novas infos de treino
label = 'novo_limite_adicional'
features = ['idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

x_train = df.loc[:, features] # Informações de treino com features
y_train = df.loc[:, label].values.ravel() # Informações do estado original da label

# Treinando modelo com novas infos
knn_classifier = KNeighborsClassifier(n_neighbors= 3)

knn_classifier.fit(x_train, y_train)

In [85]:
# Prevendo...
y_pred = knn_classifier.predict(x_train)

# Criando uma lista de métricas e mostrando o resultado
results = list(metrics_print(y_train, y_pred))

# Criando uma Dataframe com essa lista de métricas
results.insert(0, '60/40')
df_metric_results.loc[len(df_metric_results)] = results

Matriz de Confusão: [[2437 1363]
 [ 937 4763]]
Acurácia: 0.7578947368421053
Recall: 0.6413157894736842
Precision: 0.7222880853586248


### 8.5 - Crie um tabela de comparação entre os resultados das 3 métricas (acurácia, recall e precision ) para cada uma das proporções ( 50/50, 90/10, 80/20, 70/30, 60/40 ) e responda as seguintes perguntas:

In [87]:
df_metric_results

Unnamed: 0,Proporcao,Acuracia,Recall,Precisao
0,original,0.741474,0.743789,0.74036
1,50/50,0.741474,0.743789,0.74036
2,90/10,0.908632,0.185263,0.651852
3,80/20,0.840842,0.368421,0.6917
4,70/30,0.788316,0.517895,0.698533
5,60/40,0.757895,0.641316,0.722288


#### Como a métrica da acurácia se comporta com a variação do desbalanceamento do conjunto de dados?

Com o desbalanceamento dos dados, a acurácia tende a crescer, exatamente como falamos no problema 3.0. Com o aumento de uma classe desbalanceada, a acurácia tende a crescer, pois o acerto da classe majoritária domina a acurácia.

#### O que acontece com a métrica “Precison” e “Recall” a medida que os conjunto de dados tendem ao balanceamento de 50/50?

Ao que me parece tendem a ficar muito parecidas. Ou seja, a proporção do acerto das previsões começa a se aproximar da proporção das previsões com a realidade.

#### Observando as respostas anteriores, quais são as ações que aumentam ou diminuem a métrica de “Precision” ou “Recall” de um problema de negócio?

Ter uma proporção desbalanceada diminui e muito o valor da métrica Recall, pois fica difícil manter a relação entre classificação correta e real. 

Já a Precisão pode dar ser inflada por números desbalanceados, dando uma falsa impressão de acerto.