# Regressão Linear: Múltiplas variáveis explicativas

Após a reunião, a área de RH enviou uma nova base de dados com uma nova variável: __Tempo na Empresa (em anos).__

__Pergunta de Negócio:__
O salário muda de acordo com os anos de educação superior e Tempo de Empresa? Se sim, é possível construir um modelo que estime o salário de acordo com essas duas variáveis?

## Importação das bibliotecas

In [1]:
# Pacotes de manipulação de dados
import numpy as np
import pandas as pd

# Pacotes gráficos
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.animation
%matplotlib widget

# Pacotes de modelagem
import statsmodels.api as sm

## Importação da base de dados

In [2]:
df = pd.read_csv('base_funcionarios_v2.csv',
                 sep=';',
                 index_col='id')
df.shape

(46, 3)

In [3]:
df.head()

Unnamed: 0_level_0,Salario,Anos_Educ_Superior,Tempo_Empresa
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,5517.4,3,3
2,6399.9,4,6
3,6206.7,6,3
4,6060.6,4,5
5,6122.7,2,9


## Análise Exploratória dos Dados

In [4]:
# Gráfico de Dispersão
fig, ((ax1,ax2)) = plt.subplots(1,2,sharey=True,figsize=(12,5))
ax1.scatter(df['Anos_Educ_Superior'],
            df['Salario']);
m, b = np.polyfit(df['Anos_Educ_Superior'],
                  df['Salario'], 1)
ax1.plot(df['Anos_Educ_Superior'],
         m*df['Anos_Educ_Superior'] + b);

ax2.scatter(df['Tempo_Empresa'],
            df['Salario']);
m, b = np.polyfit(df['Tempo_Empresa'],
                  df['Salario'], 1)
ax2.plot(df['Tempo_Empresa'], 
         m*df['Tempo_Empresa'] + b);

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

In [5]:
# Correlação Linear de Pearson
fig = plt.figure(figsize=(8,6))
sns.heatmap(df.corr(), 
            cmap='RdBu_r',
            vmin=-1, vmax=1,
            annot=True);

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

In [6]:
# Gráfico de Dispersão 3D
sns.set(style = "darkgrid")

fig = plt.figure()
ax = fig.add_subplot(111, projection = '3d')

x = df['Anos_Educ_Superior']
y = df['Tempo_Empresa']
z = df['Salario']

ax.set_xlabel("Anos Educação Superior")
ax.set_ylabel("Tempo Empresa")
ax.set_zlabel("Salário")

ax.scatter(x, y, z)

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

## Ajuste do Modelo de Regressão usando a biblioteca Statsmodels

In [7]:
# Variável resposta
y = df['Salario']

# Variáveis explicativas
df['intercepto'] = 1 
x = df[['intercepto',
        'Anos_Educ_Superior',
        'Tempo_Empresa']]

In [8]:
# Ajusta o modelo e retorna os resultados
modelo = sm.OLS(y , x)
resultado = modelo.fit()

In [9]:
print(resultado.summary())

                            OLS Regression Results                            
Dep. Variable:                Salario   R-squared:                       0.740
Model:                            OLS   Adj. R-squared:                  0.728
Method:                 Least Squares   F-statistic:                     61.17
Date:                Thu, 10 Feb 2022   Prob (F-statistic):           2.66e-13
Time:                        09:40:29   Log-Likelihood:                -381.67
No. Observations:                  46   AIC:                             769.3
Df Residuals:                      43   BIC:                             774.8
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                         coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------
intercepto          4056.0591    309

### Interpretação dos Coeficientes

**Intercepto ou $\beta_0$**: Salário médio de um colaborador sem educação superior e recém chegado na empresa é de `R$4.056,06`.<br>
**$\beta_1$** x Anos de Educação Superior: Cada ano adicional de educação superior, mantendo tempo de empresa constante, gera um aumento médio de `R$335,39`.<br>
**$\beta_2$** x Tempo de Empresa: Cada ano adicional de tempo de empresa, mantendo os anos de educação superior constante, gera um aumento médio de `R$117,66`.