# Modelo apresentado na aula:

In [75]:
import numpy as np

In [76]:
cil_observado = np.array([1200,2230,1650,1220,2560,900,1480])
consumo_observado = np.array([.06,.1,.11,.05,.1,.07,.11])

In [77]:
regressores = cil_observado.reshape((-1,1))
regressores

array([[1200],
       [2230],
       [1650],
       [1220],
       [2560],
       [ 900],
       [1480]])

In [78]:
features = variaveis_independentes = regressores
alvos = variaveis_dependentes = variaveis_resposta = variaveis_de_desfecho = consumo_observado

In [79]:
from sklearn.linear_model import LinearRegression

In [80]:
modelo = LinearRegression().fit(regressores,consumo_observado)

In [81]:
modelo.coef_

array([2.62359965e-05])

In [82]:
f'{modelo.coef_[0]:.20f}'

'0.00002623599651170591'

In [83]:
modelo.intercept_

0.04358677131548938

In [84]:
consumo_estimado = modelo.predict(regressores)
consumo_estimado

array([0.07506997, 0.10209304, 0.08687617, 0.07559469, 0.11075092,
       0.06719917, 0.08241605])

In [85]:
erros_lineares = consumo_observado - consumo_estimado
erros_lineares

array([-0.01506997, -0.00209304,  0.02312383, -0.02559469, -0.01075092,
        0.00280083,  0.02758395])

In [86]:
erro_quadratico_medio = np.mean(np.square(erros_lineares))
erro_quadratico_medio

0.0003293694237606496

In [87]:
from sklearn.metrics import mean_squared_error
mean_squared_error(consumo_observado,modelo.predict(regressores))

0.0003293694237606496

In [88]:
mean_squared_error(consumo_observado, consumo_estimado)

0.0003293694237606496

In [89]:
cilindradas_das_opcoes_de_compra = np.array([1356,2544])
preditores_de_compra = cilindradas_das_opcoes_de_compra.reshape((-1,1))
preditores_de_compra

array([[1356],
       [2544]])

In [90]:
modelo.predict(preditores_de_compra)

array([0.07916278, 0.11033115])

In [91]:
1/modelo.predict(preditores_de_compra)

array([12.63219871,  9.06362376])

----------------------------------------------------------------------------------------------------------------------------------------------------------------

# Ajustando um modelo regressivo

In [92]:
import polars as pl

# Vou usar um exemplo de dados chamado de Layman Brothers que tem como objetivo entregar um serviço de Machine Learning que informa se um cliente vai entrar em uma situação de atraso de pagamento ou não

In [93]:
df = pl.read_csv("https://raw.githubusercontent.com/fclesio/learning-space/master/Datasets/02%20-%20Classification/default_credit_card.csv")

In [94]:
df.head()

ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,DEFAULT
i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64,i64
1,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913,3102,689,0,0,0,0,689,0,0,0,0,1
2,120000,2,2,2,26,-1,2,0,0,0,2,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,1
3,90000,2,2,2,34,0,0,0,0,0,0,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
4,50000,2,2,1,37,0,0,0,0,0,0,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
5,50000,1,2,1,57,-1,0,-1,0,0,0,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,0


No caso, teremos um modelo para explicar o default ("1" ou "2"; "sim" ou "não". Ou seja, na realidade estamos fazendo uma regressão logística)
Acredito que não seja objetivo desta etapa do curso avaliar pressupostos do modelo, portanto, irei apenas modelar e apresentar os resultados.

In [95]:
variaveis_explicativas = df[:,1:24]

In [96]:
variavel_resposta = df.select(["DEFAULT"])

In [97]:
modelo = LinearRegression().fit(variaveis_explicativas,variavel_resposta)

In [98]:
modelo.coef_

array([[-9.05316482e-08, -1.45313763e-02, -1.51273575e-02,
        -2.38215135e-02,  1.40949931e-03,  9.57054669e-02,
         1.94561569e-02,  1.16741658e-02,  3.36189863e-03,
         5.69939979e-03,  7.92019704e-04, -6.22465927e-07,
         1.58703031e-07,  3.00530072e-08, -6.79349887e-08,
        -2.04872290e-08,  1.15259313e-07, -7.43691308e-07,
        -2.09190755e-07, -2.87353920e-08, -2.52077019e-07,
        -3.40958059e-07, -9.76977762e-08]])

Nesta etapa, conseguimos ver os coeficientes angulares das variáveis explicativas do modelo. O ideal seria fazermos nesta etapa um teste de ausência de regressão, além de testar quais variáveis são significativas. Mas vamos apenas aceitar este modelo por hora.

In [99]:
modelo.intercept_

array([0.3141967])

Aqui, aproveitamos para verificar também o valor do intercepto do modelo.

In [100]:
obs = modelo.predict(variaveis_explicativas)
obs

array([[0.46331258],
       [0.17589259],
       [0.22940405],
       ...,
       [0.72849166],
       [0.29068494],
       [0.28128709]])

Aqui o formato se torna confuso, visto que a variável é dicotômica (1;0). Então, a interpretação a grosso modo é: se <= .5, arredondar para 0. Caso contrário, 1.
Podemos ver a contagem de erros do modelo.



In [101]:
def contagem(array1, array2):
  diferencas = 0
  for a, b in zip(array1, array2):
    if a != b:
      diferencas += 1
  return diferencas

preditas = [0 if i <= 0.5 else 1 for i in obs]
contagem(preditas,variavel_resposta.to_numpy())

6019

O ideal neste tipo de caso é apresentar a matriz de confusão, mas neste caso irei apresentar apenas a proporção de acertos do modelo, ou seja,

In [72]:
1 - 6019/30000

0.7993666666666667

O que parece bastante razoável.

Podemos observar também o erro quadrático médio do modelo (apesar da interpretação deste ser levemente diferente pelo fato de ser uma regressão logística
)

In [74]:
mean_squared_error(variavel_resposta.to_numpy(),obs)

0.15090631827596837