Técnicas de Machine Learning

Regressão Linear: Mínimos Quadrados Ordinários (MQO)

MBA Eng. Software (USP/ESALQ)

Prof. Dr. Wilson Tarantin Junior

Instalação das bibliotecas necessárias

In [None]:
!pip install pandas
!pip install numpy
!pip install statsmodels
!pip install matplotlib
!pip install seaborn
!pip install statstests
!pip install openpyxl

Importação das bibliotecas

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from statstests.process import stepwise

Importando o banco de dados

In [None]:
df=pd.read_excel('tempo_dist.xlsx')
df.info()

Visualização do banco de dados

In [None]:
df.head(10)

Estatísticas descritivas

In [None]:
df[['tempo', 'dist', 'sem']].describe()

In [None]:
df['perfil'].value_counts()

Criação das variáveis binárias (dummies) para a variável categórica

In [None]:
df = pd.get_dummies(data=df,
                    columns=['perfil'],
                    drop_first=False,
                    dtype='float')

df.info()

Regressão Linear Múltipla

In [None]:
reg = sm.OLS.from_formula(formula = 'tempo ~ dist + sem + perfil_moderado + perfil_agressivo',
                          data=df).fit()

print(reg.summary())

Aplicação do procedimento de stepwise

In [None]:
reg_stepwise = stepwise(reg, pvalue_limit=0.05)

Valores preditos pelo modelo para as observações da amostra

In [None]:
df['pred'] = reg_stepwise.fittedvalues

df['resid'] = reg_stepwise.resid

df[['tempo', 'pred', 'resid']]

Analisando o ajuste do modelo

In [None]:
sns.scatterplot(df, x='tempo', y='pred')
plt.title('Analisando as Previsões', fontsize=10)
plt.xlabel('Tempo Observado (Real)', fontsize=10)
plt.ylabel('Tempo Previsto (Modelo)', fontsize=10)
plt.axline((0, 0), (max(df['tempo']), max(df['tempo'])), linewidth=1, color='grey')
plt.show()

Realizando previsões para outras observações com base no modelo

In [None]:
observa = pd.DataFrame({'dist': [20],
                        'sem': [2],
                        'perfil_agressivo': [0]})

print(f'tempo estimado: {round(reg_stepwise.predict(observa)[0],2)}')

Fim!