<img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/preditiva_assinatura.jpg">

# Regressão Linear Múltipla

## Case 1: Salários de CEOs

Uma consultoria americana foi contratada para estimar o efeito da valor de mercado sobre o salário do CEO de empresas americanas. O cliente sugeriu o seguinte modelo:

 salario = ${\beta}_{0}+{\beta}_{1}*anos empresa + {\beta}_{2}*anos como ceo + {\beta}_{3}*vendas totais + {\beta}_{4}*valuation + {\beta}_{5}*margem  $

em que:

`anos empresa` são os anos totais de trabalho na empresa;<br>
`anos como ceo` são os anos de trabalhando como CEO na empresa;<br>
`vendas totais` são as vendas totais da empresa, em milhões de dólares;<br>
`valuation` é o valor de mercado da empresa, em milhões de dólares; ⁡<br>
`margem` é o lucro como porcentagem das vendas;

Com posse da base fornecida pelo cliente `salario_ceo.csv`, responda:

**É possível estimar o salário de CEOs a partir das variáveis fornecidas?**

### Importação das bibliotecas

In [1]:
# Pacotes de manipulação de dados
import numpy as np
import pandas as pd

# Pacotes gráficos
import matplotlib.pyplot as plt
import seaborn as sns

# Pacotes de data science
import statsmodels.api as sm

### Importação da base de dados

In [3]:
df = pd.read_csv('salario_ceo.csv', sep=';')
df

Unnamed: 0,anos_empresa,anos_como_ceo,salario,vendas_totais,valuation,margem
0,9,2,1161,6200,23200,15.6
1,10,10,600,283,1100,17.0
2,9,3,378,169,1100,23.7
3,22,22,650,1100,999,-4.9
4,8,6,496,350,387,8.0
...,...,...,...,...,...,...
172,42,3,263,334,479,12.9
173,39,1,185,765,560,6.4
174,32,13,387,432,477,6.5
175,18,18,2220,277,539,-28.9


### Análise Exploratória de Dados

In [4]:
df.describe()

Unnamed: 0,anos_empresa,anos_como_ceo,salario,vendas_totais,valuation,margem
count,177.0,177.0,177.0,177.0,177.0,177.0
mean,22.502825,7.954802,865.344633,3528.983051,3599.875706,6.423729
std,12.294735,7.150826,587.637837,6088.636588,6442.307591,17.864245
min,2.0,0.0,99.0,29.0,387.0,-203.1
25%,12.0,3.0,470.0,561.0,644.0,4.2
50%,23.0,6.0,707.0,1399.0,1200.0,6.8
75%,33.0,11.0,1119.0,3500.0,3500.0,10.9
max,58.0,37.0,5299.0,51300.0,45400.0,47.5


In [5]:
df.head(5)

Unnamed: 0,anos_empresa,anos_como_ceo,salario,vendas_totais,valuation,margem
0,9,2,1161,6200,23200,15.6
1,10,10,600,283,1100,17.0
2,9,3,378,169,1100,23.7
3,22,22,650,1100,999,-4.9
4,8,6,496,350,387,8.0


### Comente sobre os sinais esperados dos coeficientes, justificando suas respostas. 

`Dica :` Faça uma análise de dispersão gráfica e usando matriz de correlação.

In [None]:
# Análise de Dispersão Gráfica


In [None]:
# Matriz de Correlação


Comentários sobre os Sinais Esperados do Coeficientes<br>
Analisando os __gráficos de dispersão__ e a __matriz de correlação__, identificamos que:

1. __Anos de Empresa__ : coeficiente positivo mas próximo de zero
2. __Anos como CEO__ : 
3. __Vendas Totais__ :
4. __Valuation__ : 
5. __Margem__ :

### Ajuste um modelo de Regressão Linear Múltipla com as variáveis sugeridas pela consultoria

In [None]:
# Variável resposta

# Variáveis explicativas

# Ajusta o modelo e retorna os resultados


### O sinal dos coeficientes estimados associados às variáveis `anos empresa` e `margem` estão de acordo com o esperado? Justifique.

### Avalie a qualidade do modelo de regressão linear múltipla proposto. Ele é estatísticamente significante?

`Dica :` Verifique o R Quadrado ajustado do modelo e também o p-valor dos coeficientes.

### Realize os ajustes necessários no modelo, removendo variáveis que não sejam estatisticamente significantes até que o modelo resultante esteja adequado.

`Dica :` Quando for excluir variáveis explicativas, remova-as uma de cada vez para garantir que está realizando a análise correta para a remoção.

In [None]:
# Variável resposta

# Variáveis explicativas

# Ajusta o modelo e retorna os resultados


### Interprete os coeficientes do modelo em termos do problema de negócio.

### É possível melhorar a qualidade do ajuste do modelo? Isto é, melhorar o R Quadrado ajustado?

`Dica :` Muitas vezes a variável resposta não é correlacionada linearmente com as variáveis explicativas (features). Isso acontece pois as features podem ter outra relação de linearidade, como por exemplo a log-linear. Desta forma, é útil tentar ajustar um modelo log-linear, da seguinte forma:

log(salario) = ${\beta}_{0}+{\beta}_{1}*log(anos empresa) + {\beta}_{2}*log(anos como ceo) + {\beta}_{3}*log(vendas totais) + {\beta}_{4}*log(valuation) + {\beta}_{5}*log(margem)  $

Nem todas as varíaves ficaram melhores usando log. Portanto, é útil misturar features com e sem transformações de log. Veja exemplo: 

log(salario) = ${\beta}_{0}+{\beta}_{1}*anos empresa + {\beta}_{2}*anos como ceo+ {\beta}_{3}*log(vendas totais) + {\beta}_{4}*log(valuation) + {\beta}_{5}*margem  $

In [None]:
df['ln_salario'] = np.log(df['salario'])
df['ln_anos_empresa'] = np.log(df['anos_empresa']+1)
df['ln_anos_como_ceo'] = np.log(df['anos_como_ceo']+1)
df['ln_vendas_totais'] = np.log(df['vendas_totais']+1)
df['ln_valuation'] = np.log(df['valuation']+1)
df['ln_margem'] = np.log(df['margem']+1)

In [None]:
fig, ((ax1,ax2,ax3,ax4,ax5),
      (ax6,ax7,ax8,ax9,ax10)) = plt.subplots(2,5,sharey=True,figsize=(15,5))

ax1.scatter(df['anos_empresa'],df['salario']);
ax2.scatter(df['anos_como_ceo'],df['salario']);
ax3.scatter(df['vendas_totais'],df['salario']);
ax4.scatter(df['valuation'],df['salario']);
ax5.scatter(df['margem'],df['salario']);

ax6.scatter(df['ln_anos_empresa'],df['salario'])
ax7.scatter(df['ln_anos_como_ceo'],df['salario'])
ax8.scatter(df['ln_vendas_totais'],df['salario'])
ax9.scatter(df['ln_valuation'],df['salario'])
ax10.scatter(df['ln_margem'],df['salario']);

In [None]:
fig, ((ax1,ax2,ax3,ax4,ax5),
      (ax6,ax7,ax8,ax9,ax10)) = plt.subplots(2,5,sharey=True,figsize=(15,5))

ax1.scatter(df['anos_empresa'],df['ln_salario'])
ax2.scatter(df['anos_como_ceo'],df['ln_salario'])
ax3.scatter(df['vendas_totais'],df['ln_salario'])
ax4.scatter(df['valuation'],df['ln_salario'])
ax5.scatter(df['margem'],df['ln_salario'])

ax6.scatter(df['ln_anos_empresa'],df['ln_salario'])
ax7.scatter(df['ln_anos_como_ceo'],df['ln_salario'])
ax8.scatter(df['ln_vendas_totais'],df['ln_salario'])
ax9.scatter(df['ln_valuation'],df['ln_salario'])
ax10.scatter(df['ln_margem'],df['ln_salario']);

In [None]:
fig = plt.figure(figsize=(10,8))
sns.heatmap(df.corr(),cmap='RdBu_r',annot=True);

In [None]:
# Variável resposta

# Variáveis explicativas

# Ajusta o modelo e retorna os resultados


### Interprete os coeficientes do novo modelo utilizando as variáveis transformadas em termos do problema de negócio.

`Dica :` A interpretação de modelos que usam log mudam. Veja o resumo na tabela abaixo para guiar a interpretação dos coeficientes do modelo.

<p align='left'><img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/interpretacao_beta.png"></p>