# 1.0 IMPORTS

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
import numpy as np
from sklearn import metrics as mt
import statsmodels.formula.api as smf
import statsmodels.api as sm

## 1.1 Load dataset

In [2]:
df = pd.read_csv('../data/train.csv')

# 2.0 PREPARAÇÃO DOS DADOS

In [3]:
features = ['idade', 'divida_atual', 'renda_anual', 'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos', 'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc', 'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']
#            3.96706202e-04, -4.00595601e-02,  2.77622532e-06, -1.04318668e-03,  9.80890872e+00, -1.22353405e-02, -6.33015538e-03, -3.57808095e-03, -2.15858165e+00, 3.77570060e-04,  6.79176336e-03,  3.48471845e-03
#features = ['idade', 'taxa_utilizacao_credito', 'dias_atraso_dt_venc', 'num_pgtos_atrasados', 'num_consultas_credito']
label = ['saldo_atual']

In [4]:
x_train = df.loc[:, features]
y_train = df.loc[:, label]

# 3.0 TREINAMENTO

In [5]:
#model definition
lr_model = LinearRegression()

#model fit (ajuste, treinamento)
lr_model.fit(x_train, y_train)

#previsao
y_pred = lr_model.predict(x_train)

In [6]:
df1 = df.loc[:, ['idade', 'saldo_atual']]
df1['predicted'] = y_pred
df1

Unnamed: 0,idade,saldo_atual,predicted
0,21,278.172008,346.669549
1,40,268.874152,367.840277
2,36,446.643127,431.468979
3,58,321.141267,445.506463
4,35,428.716114,378.271169
...,...,...,...
9495,29,157.500279,449.221632
9496,1237,497.714090,369.259284
9497,47,306.557684,412.251748
9498,42,209.870718,400.685299


## 3.1 Cálculo manual

In [7]:
lr_model.coef_ # coeficiente atribuido a cada variável, quanto maior o valor mais impacto

array([[ 3.96706202e-04, -4.00595601e-02,  2.77622532e-06,
        -1.04318668e-03,  9.80890872e+00, -1.22353405e-02,
        -6.33015538e-03, -3.57808095e-03, -2.15858165e+00,
         3.77570060e-04,  6.79176336e-03,  3.48471845e-03]])

In [8]:
np.sum((x_train.loc[0,].values * lr_model.coef_)) + lr_model.intercept_

array([346.66954862])

## 3.2 Model Training - Statsmodel

In [9]:
df = pd.concat([x_train, y_train], axis=1)

In [10]:
#model definition
lr_model2 = smf.ols(formula='saldo_atual ~ idade + divida_atual + num_emprestimos', data=df)

#model training (ajuste de dados)
lr_model2 = lr_model2.fit()

#
anova_result2 = sm.stats.anova_lm(lr_model2, typ=2)
(anova_result2)

Unnamed: 0,sum_sq,df,F,PR(>F)
idade,1.755753,1.0,4.1e-05,0.9948823
divida_atual,44908620.0,1.0,1052.368542,4.9288670000000004e-219
num_emprestimos,3976.109,1.0,0.093174,0.7601864
Residual,405230900.0,9496.0,,


In [11]:
print(lr_model2.summary())

                            OLS Regression Results                            
Dep. Variable:            saldo_atual   R-squared:                       0.100
Model:                            OLS   Adj. R-squared:                  0.100
Method:                 Least Squares   F-statistic:                     351.1
Date:                Mon, 22 May 2023   Prob (F-statistic):          3.21e-216
Time:                        15:36:50   Log-Likelihood:                -64119.
No. Observations:                9500   AIC:                         1.282e+05
Df Residuals:                    9496   BIC:                         1.283e+05
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept         490.1201      3.419    1

# 4.0 PERFORMANCE

## 4.1 R2

In [12]:
mt.r2_score(y_train, y_pred)

0.16917364489050013

In [13]:
r2_squared = np.round(100*mt.r2_score(y_train, y_pred),2)
print('R2 square: {}%'.format(r2_squared))

R2 square: 16.92%


## 4.2 MSE

In [14]:
mse = np.round( mt.mean_squared_error( y_train, y_pred ) , 2 )
print( 'A cada previsão, o erro médio é de: U${}'.format( mse ) )

A cada previsão, o erro médio é de: U$39370.27


## 4.3 RMSE

In [15]:
rmse = np.sqrt (mse)
print('A cada previsão, o erro médio é de : U${}'.format(rmse))

A cada previsão, o erro médio é de : U$198.41942949217446


In [16]:
df_aux = (r2_squared, mse, rmse)

# 5.0 EXERCICIOS

In [17]:
def criar_outliers(cols, porcentagem):
    df_aux = df.copy()
    for col in cols:
        if df_aux[col].mean() < 100: 
            linhas_selecionadas = np.random.choice( df_aux.index, size=int(len(df) * porcentagem), replace=False)
            df_aux.loc[linhas_selecionadas, col] = df_aux.loc[linhas_selecionadas, col] + np.random.normal(100,30,len(linhas_selecionadas)) 

        elif (df_aux[col].mean() > 100) and (df_aux[col].mean() < 1600):
            linhas_selecionadas = np.random.choice( df_aux.index, size=int(len(df) * porcentagem), replace=False)
            df_aux.loc[linhas_selecionadas, col] = df_aux.loc[linhas_selecionadas, col] + np.random.normal(1000,300,len(linhas_selecionadas)) 

        else:
            linhas_selecionadas = np.random.choice( df_aux.index, size=int(len(df) * porcentagem), replace=False)
            df_aux.loc[linhas_selecionadas, col] = df_aux.loc[linhas_selecionadas, col] + np.random.normal(10000,3000,len(linhas_selecionadas)) 

    return df_aux

In [18]:
def linear_regression(df):
    x_train = df.loc[:, features]
    y_train = df.loc[:, label]
    
    #model definition
    lr_model = LinearRegression()

    #model fit (ajuste, treinamento)
    lr_model.fit(x_train, y_train)

    #previsao
    y_pred = lr_model.predict(x_train)
    
    df1 = df.loc[:, ['idade', 'saldo_atual']]
    df1['predicted'] = y_pred
    
    r2 = np.round(100*mt.r2_score(y_train, y_pred),2)
    mse = np.round( mt.mean_squared_error( y_train, y_pred ) , 2 )
    rmse = np.sqrt (mse)
    
    print('R2 square: {}%'.format(r2))
    print( 'A cada previsão, o erro médio é de: U${}'.format( mse ) )
    print('A cada previsão, o erro médio é de : U${}'.format(rmse))
    
    return r2, mse, rmse
    

## 5.1  Qual o problema principal de usar a métrica MSE? Escreve um exemplo hipotético, no qual o problema acontece.

A métrica MSE é sensível a outliers, esses valores altos ou muito abaixos ficam distantes da maioria acaba distorcendo o valor do MSE.
Como é medido pelo erro médio ao quadrado acaba aumentando/diminuindo muito a média do erro.

Se tivermos um conjunto de dados que os valores estão em torno de 10 e há um único outlier com o valor 100, o erro quadrático será de 90² = 8100, mesmo que a maioria seja pequena.

## 5.2 Explique com um pequeno texto ilustrando o benefício de usar a métrica RMSE

RMSE calcula a raiz quadrada do erro médio quadrático (MSE), fica com a mesma unidade de medida dos valores originais.
Ele também consegue ser mais robusto na presença de outliers

## 5.3 Modifique 5% das linhas de algumas colunas, adicionando outliers e refaça as métricas de R2, MSE e RMSE.

In [19]:
df_aux5 = criar_outliers(['idade','divida_atual', 'renda_anual'], 0.05)
linear_regression(df_aux5)

R2 square: 16.74%
A cada previsão, o erro médio é de: U$39452.17
A cada previsão, o erro médio é de : U$198.6257032712534


(16.74, 39452.17, 198.6257032712534)

## 5.4 Faça a seguinte bateria de testes

### 5.4.1 Refaça o exercícios 4 com as seguintes quantidade de outliers: 2%, 5%, 10%, 20% e 30%.

In [20]:
cols = ['idade', 'saldo_atual', 'divida_atual']

#### 2% outliers

In [21]:
df_aux2 = criar_outliers(cols, 0.02)
df_aux2 = linear_regression(df_aux2)

R2 square: 11.37%
A cada previsão, o erro médio é de: U$61891.14
A cada previsão, o erro médio é de : U$248.77929978195533


#### 5% outliers

In [22]:
df_aux5 = criar_outliers(cols, 0.05)
df_aux5 = linear_regression(df_aux5)

R2 square: 8.35%
A cada previsão, o erro médio é de: U$90716.5
A cada previsão, o erro médio é de : U$301.1917993571538


#### 10% outliers

In [23]:
df_aux10 = criar_outliers(cols, 0.10)
df_aux10 = linear_regression(df_aux10)

R2 square: 5.91%
A cada previsão, o erro médio é de: U$140660.42
A cada previsão, o erro médio é de : U$375.0472236932304


#### 20% outliers

In [24]:
df_aux20 = criar_outliers(cols, 0.20)
df_aux20 = linear_regression(df_aux20)

R2 square: 3.31%
A cada previsão, o erro médio é de: U$219689.51
A cada previsão, o erro médio é de : U$468.7104756670156


#### 30% outliers

In [25]:
df_aux30 = criar_outliers(cols, 0.30)
df_aux30 = linear_regression(df_aux30)

R2 square: 3.02%
A cada previsão, o erro médio é de: U$275828.22
A cada previsão, o erro médio é de : U$525.1935071952051


### 5.4.2 Crie um tabela de comparação entre os resultados das 3 métricas ( r2, MSE e RMSE ) para cada uma das proporções de outliers ( 2%, 5%, 10%, 20% e 30% ) e responda as seguintes perguntas:

In [26]:
from tabulate import tabulate

data = {
    'Métricas': ['R2', 'MSE', 'RMSE'],
    'Original': df_aux,
    '2%': df_aux2,
    '5%': df_aux5,
    '10%': df_aux10,
    '20%': df_aux20,
    '30%': df_aux30,
}

table = tabulate(data, headers='keys', tablefmt='fancy_grid')

print(table)

╒════════════╤════════════╤═══════════╤═══════════╤════════════╤═══════════╤════════════╕
│ Métricas   │   Original │        2% │        5% │        10% │       20% │        30% │
╞════════════╪════════════╪═══════════╪═══════════╪════════════╪═══════════╪════════════╡
│ R2         │     16.92  │    11.37  │     8.35  │      5.91  │      3.31 │      3.02  │
├────────────┼────────────┼───────────┼───────────┼────────────┼───────────┼────────────┤
│ MSE        │  39370.3   │ 61891.1   │ 90716.5   │ 140660     │ 219690    │ 275828     │
├────────────┼────────────┼───────────┼───────────┼────────────┼───────────┼────────────┤
│ RMSE       │    198.419 │   248.779 │   301.192 │    375.047 │    468.71 │    525.194 │
╘════════════╧════════════╧═══════════╧═══════════╧════════════╧═══════════╧════════════╛


#### 5.4.2.1 Como as métricas R2, MSE e RMSE se comportam com a variação outliers no conjunto de dados?

R2 - conforme a porcentagem de outliers aumentar no conjunto de dados o valor tende a ir diminuindo isso acaba afetando negativamente a capacidade do modelo.

MSE - conforme vai aumentando os outliers aumenta o valor do erro também.

RMSE - conforme aumenta os outliers aumenta disperção dos erros em relação aos valores reais

#### 5.4.2.2 Observando as respostas anteriores, quais são as ações que aumentam ou diminuem as métricas de “R2”, “MSE” ou “RMSE” de um problema de negócio?

- tratar os outliers, precisaria analisar e ver se conseguimos colocar talvez a média no lugar desse valores altos
- analisar as features, fazendo derivações ou criandos novas
- seleção de features tirando as que não precisamos usar
- normalização de variáveis
- usar modelos mais modernos de regressão