### Bibliotecas

In [1]:
import pandas as pd
import re
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn import metrics as mt
import seaborn as sns
import matplotlib.pyplot as plt
import os


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd



#### Ler Dataset no formato csv

In [3]:
df_raw = pd.read_csv('..\dataset\database_credit.csv') 
 
df_raw.head()

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar


#### Dimensão dos dados 

In [4]:
print("\nDimensões Credit Dataset:\n{0}\n".format(df_raw.shape))
print("\nCampos de Credit Dataset:\n{0}\n".format(list(df_raw.keys())))
print("\nTipos dos dados:\n{0}\n".format(df_raw.dtypes))


Dimensões Credit Dataset:
(9500, 17)


Campos de Credit Dataset:
['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual', 'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos', 'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc', 'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros', 'investe_exterior', 'pessoa_polit_exp', 'limite_adicional']


Tipos dos dados:
id_cliente                   int64
idade                        int64
saldo_atual                float64
divida_atual               float64
renda_anual                float64
valor_em_investimentos     float64
taxa_utilizacao_credito    float64
num_emprestimos              int64
num_contas_bancarias         int64
num_cartoes_credito          int64
dias_atraso_dt_venc          int64
num_pgtos_atrasados          int64
num_consultas_credito        int64
taxa_juros                   int64
investe_exterior            object
pessoa_polit_exp            object
limite_adicional     

### Valores Ausentes 

In [5]:
# Calcular a porcentagem de  em cada coluna
missing_perc = df_raw.isna().mean() * 100
missing_perc


id_cliente                 0.0
idade                      0.0
saldo_atual                0.0
divida_atual               0.0
renda_anual                0.0
valor_em_investimentos     0.0
taxa_utilizacao_credito    0.0
num_emprestimos            0.0
num_contas_bancarias       0.0
num_cartoes_credito        0.0
dias_atraso_dt_venc        0.0
num_pgtos_atrasados        0.0
num_consultas_credito      0.0
taxa_juros                 0.0
investe_exterior           0.0
pessoa_polit_exp           0.0
limite_adicional           0.0
dtype: float64

####  Seleção de Features/Características

In [6]:
# copy dataset
df = df_raw.copy()

features = ['idade', 'divida_atual', 'renda_anual', 'valor_em_investimentos',
            'taxa_utilizacao_credito', 'num_emprestimos', 'num_contas_bancarias', 'num_cartoes_credito',
            'dias_atraso_dt_venc', 'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

#### Selecionando Variável alvo

In [7]:
# Especificando a variável alvo que o modelo tentará prever. Neste caso, é o "saldo_atual".
label = ['saldo_atual']

##### Dados de Treino e Teste

In [8]:
"""Aqui, estamos dividindo o conjunto de dados em duas partes: x_train,
  que contém as características que serão usadas para treinar o modelo,
  e y_train, que contém os valores da variável alvo correspondentes."""

# Dados de treinamento e teste
x_train = df.loc[:, features]
y_train = df.loc[:, label]

In [9]:
"""
Agora criando o modelo de regressão linear (LinearRegression())
e, em seguida, treinando esse modelo com os dados de treinamento usando o método fit().
O modelo tentará aprender uma relação linear entre as características e a variável alvo.
"""
# Treinamento do algoritmo
lr_model = LinearRegression()
lr_model.fit( x_train, y_train )

In [10]:
"""
Agora que o modelo está treinado, estamos usando-o para fazer previsões sobre a variável alvo -
com base nas características do conjunto de treinamento.
As previsões são armazenadas na variável chamada y_pred.
"""

# Previsão do algoritmo
y_pred = lr_model.predict( x_train )

#### Visualizando os resultados previstos

In [11]:
"""
Aqui, estamos criando um novo DataFrame chamado df1,
que contém as colunas 'id_cliente', 'saldo_atual' (real) e 'predicted' (previsão).
O método head() é utilizado para visualizar as primeiras linhas do DataFrame resultante,
mostrando como as previsões se comparam aos valores reais.
"""


# Resultado final
df1 = df.loc[:, ['id_cliente', 'saldo_atual']]
df1['predicted'] = y_pred

df1.head()

Unnamed: 0,id_cliente,saldo_atual,predicted
0,1767,278.172008,346.669549
1,11920,268.874152,367.840277
2,8910,446.643127,431.468979
3,4964,321.141267,445.506463
4,10100,428.716114,378.271169


#### Função criada para retornar as métricas


In [12]:
def regression_metrics(y_train, y_pred, outlier):
    r2 = mt.r2_score(y_train, y_pred)
    mse = mt.mean_squared_error(y_train, y_pred)
    rmse = np.sqrt(mse)

    metrics = pd.DataFrame({'outliers': [outlier], 'r2': [r2], 'mse': [mse], 'rmse': [rmse]})

    return metrics

In [13]:
regression_metrics(y_train, y_pred, 0)

Unnamed: 0,outliers,r2,mse,rmse
0,0,0.169174,39370.265034,198.419417


### Avaliação dos resultados e métricas retornadas pela função:

#### 1- Outliers:

Valor: 0
Isso indica que o parâmetro outlier foi definido como 0. No contexto do código, é uma indicação de que não há outliers considerados no cálculo das métricas.

#### 2- Coeficiente de Determinação (R²):

Valor: 0.17
O coeficiente de determinação (R²) varia de 0 a 1. Neste caso, o valor de 0.17 mostra que aproximadamente 17% da variabilidade na variável alvo (saldo_atual) é explicada pelas características fornecidas no modelo. Um R² de 0.17 indica que o modelo tem um ajuste relativamente modesto aos dados.

#### 3- Erro Médio Quadrático (MSE):

Valor: 39370.27
O MSE é uma medida da média dos quadrados dos erros entre as previsões e os valores reais. Neste caso, um MSE de 39370.27 indica que, em média, os quadrados dos erros são bastante elevados. Isso significa que o modelo pode estar cometendo grandes erros nas previsões.

#### 4- Raiz Quadrada do Erro Médio Quadrático (RMSE):

Valor: 198.42
O RMSE é a raiz quadrada do MSE e fornece uma métrica na mesma escala que a variável alvo. Neste caso, um RMSE de 198.42 indica que o modelo tem, em média, uma discrepância de cerca de 198.42 unidades (na mesma escala da variável alvo) em suas previsões em relação aos valores reais.


#### <<Interpretação:>>
Os resultados sugerem que o modelo de regressão linear pode não estar fornecendo um ajuste muito preciso aos dados, pois o R² é relativamente baixo, e o MSE e RMSE são altos. Isso pode indicar que o modelo pode precisar ser ajustado ou que outros modelos mais complexos podem ser considerados para melhorar a performance de previsão.

## Para fixar um pouco mais sobre o estudo, aprendi e "sugiro" sempre testar novas possibilidades no mesmo conjunto de dados.  Neste contexto modifiquei 8% das linhas de algumas colunas, adicionei outliers e refiz as métricas de R2, MSE e RMSE.

#### Função criada para gerar outliers

In [14]:
def random_outliers(df, percentual, features, peso, seed):

  """
  features: Colunas na qual os outliers serão adidionados
  percentual: Percentual de linhas do dataframe que serão afetadas pelos outliers
  peso: Fator de multiplicação para os outliers
  seed: Garante que toda vez que a função for executada com os mesmos parametros, gere os mesmos registros.

  """
  np.random.seed(seed)
  random_index = np.random.randint(1,df.shape[0], int(df.shape[0]*percentual))
  df.loc[random_index, features] = df.loc[random_index, features] *peso

  return df

In [15]:
# Criando uma cópia do dataframe de treinamento
X_train2 = x_train.copy()

In [16]:

#Criando os parametros que desejo para aplicar aos Outliers

""" 
percentual: Representa o percentual de linhas que serão modificadas. No caso, 8%.
features: Lista das colunas (características) que serão modificadas.
peso: Um fator multiplicativo que será usado para adicionar outliers. No caso, é 10.
"""

percentual = 0.08
features = ['idade', 'divida_atual', 'renda_anual']
peso = 10
seed = 25

In [17]:
# Aplicando a função
X_train2 = random_outliers(X_train2, percentual, features, peso, seed)

In [18]:
"""
Esta linha de código exibe as estatísticas descritivas das colunas especificadas (features) após a modificação.
As estatísticas descritivas incluem informações como média, desvio padrão, mínimo, máximo, etc.
O método round é utilizado para arredondar os valores e torná-los mais legíveis.
Portanto, após essa modificação, você terá um conjunto de dados (X_train2) com algumas linhas modificadas em relação ao conjunto original (x_train).
Essa abordagem permite avaliar como a introdução de outliers afeta as métricas de desempenho do seu modelo.

"""

np.round(X_train2[features].describe().T)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
idade,9500.0,233.0,2348.0,18.0,29.0,40.0,49.0,85930.0
divida_atual,9500.0,2400.0,4657.0,0.0,625.0,1264.0,2374.0,49970.0
renda_anual,9500.0,325060.0,4425459.0,10474.0,27104.0,50716.0,94732.0,231082383.0


In [19]:
"""
Utilizando o seu modelo de regressão linear (lr_model), estamos agora previsões baseadas no conjunto de dados-
modificado (X_train3). Isso resultará em um novo conjunto de previsões (y_pred2), que agora reflete o impacto dos outliers.
"""

y_pred2 = lr_model.predict(X_train2)

In [20]:
# Avaliação das Métricas de Desempenho:
regression_metrics(y_train,y_pred2, percentual)

Unnamed: 0,outliers,r2,mse,rmse
0,0.08,-0.49599,70890.292347,266.25231


## Bora fazer mais alguns testes!

### Novamente vamos criar novos outliers, mais agora com as seguinte percentual de quantidades: 2%, 5%, 10%, 20% e 30%.

##### Função criada para projetar e avaliar o impacto de diferentes niveis de Outliers

In [21]:
def metricas_outliers(df, percentuais, features, peso, seed):
    """
    A função metricas_outliers vai retornar um DataFrame com as métricas de desempenho do modelo (R², MSE, RMSE) para cada nível de percentual de outliers.
    Isso permite analisar como a inclusão de diferentes proporções de outliers o quanto afeta a precisão e a confiabilidade do modelo.

    """
    result = pd.DataFrame({'outliers': [], 'r2': [], 'mse': [], 'rmse': []})
    for i in percentuais:
        data = df.copy()
        data = random_outliers( data, i, features, peso, seed)
        y_pred = lr_model.predict( data )

        metrics = regression_metrics(y_train, y_pred, i)

        result = pd.concat([result, metrics], axis=0)

    return np.round(result,2)

In [22]:
data = x_train.copy()
percentuais = [0.02, 0.05, 0.1, 0.2, 0.3]
features = ['idade', 'divida_atual', 'renda_anual']
peso = 10
seed = 25

In [23]:
metricas = metricas_outliers( data, percentuais, features, peso, seed)
metricas

Unnamed: 0,outliers,r2,mse,rmse
0,0.02,0.01,46824.2,216.39
0,0.05,-0.21,57383.44,239.55
0,0.1,-0.65,78260.97,279.75
0,0.2,-1.48,117463.42,342.73
0,0.3,-2.25,154104.91,392.56
