## Importa√ß√£o das Bibliotecas

In [1]:
# Pacotes de manipula√ß√£o de dados
import numpy as np
import pandas as pd

# Pacotes gr√°ficos
import matplotlib.pyplot as plt
import seaborn as sns
from composicao_estatisticas import grafico_residuos

# Pacotes de modelagem
import statsmodels.api as sm
from scipy.stats import pearsonr

ModuleNotFoundError: No module named 'composicao_estatisticas'

## Importa√ß√£o e tratamento da base de dados

In [None]:
# Carregar os dados do arquivo Excel
df = pd.read_excel('../data/base_salarios.xlsx')

In [None]:
# Exibir o n√∫mero de linhas e colunas
print('N√∫mero de linhas e colunas:')
print(df.shape)

In [None]:
# Exibir as primeiras linhas dos dados
df.head(8)

In [None]:
# Remover as colunas desnecess√°rias
columns_to_drop = ['N√∫m. Funcion√°rio']
columns_to_drop = [col for col in columns_to_drop if col in df.columns]
df.drop(columns=columns_to_drop, inplace=True)


# Renomear as colunas conforme especificado
df.rename(columns={
    'Salario': 'Salario',
    'Anos de Educa√ß√£o Superior': 'Anos_Educ_Superior',
    'Tempo na Empresa': 'Tempo_Empresa',
    'Tempo de Experiencia em outras empresas': 'Tempo_Outras_Empresas',
    'Ingl√™s': 'Ingles'
}, inplace=True)

## Prepara√ß√£o dos Dados

### Criando vari√°veis Dummy

In [None]:
# Amostra de dados da base
df.sample(5, random_state=42)

In [None]:
# Cria√ß√£o da vari√°vel dummy usando o get_dummies()
df2 = pd.get_dummies(df, drop_first=True)

# Converter True/False para 1/0
df2 = df2.astype(int)

df2.sample(5, random_state=42)
# df.head()

## Ajuste do Modelo de Regress√£o 
Usando o Statsmodels (Pacote de Modelos Estat√≠sticos)

In [None]:
# Visualiza√ß√£o das 5 primeiras linhas do df2
df2.head()

In [None]:
# Vari√°vel resposta
y = df2['Salario']

# Vari√°veis explicativas
df2['intercepto'] = 1 

x = df2[['intercepto',
         'Anos_Educ_Superior',
         'Tempo_Empresa',
         'Tempo_Outras_Empresas',
         'Ingles_Sim']]

In [None]:
# Ajusta o modelo e retorna os resultados
modelo = sm.OLS(y , x)
resultado = modelo.fit()
print(resultado.summary())

**O que √© o p-valor?**

O p-valor √© uma medida estat√≠stica usada para ajudar a decidir se os resultados observados (as vari√°veis analisadas) em um experimento s√£o significativos ou n√£o. Para isso, comparamos os dados coletados com uma **hip√≥tese nula**.

**O que √© a hip√≥tese nula?** 

A hip√≥tese nula √© a suposi√ß√£o de que n√£o h√° efeito ou n√£o h√° diferen√ßa entre as vari√°veis analisadas. Exemplo: "O tempo trabalhado em outras empresas n√£o afeta o sal√°rio".

**Como interpretar o p-valor?**
- p < 0.05 (5%): Rejeitamos a hip√≥tese nula. A vari√°vel tem efeito significativo.

- p >= 0.05 (5%): N√£o rejeitamos a hip√≥tese nula. A vari√°vel n√£o tem efeito significativo.

In [None]:
from IPython.display import display, HTML

# Exibir os p-valores com cores e signific√¢ncia
for var, p in resultado.pvalues.items():
    p_percentual = p * 100  # Convertendo para percentual
    if p < 0.05:
        cor = '#1d8a2a'  # Verde para significante
        mensagem = "Passou no teste"
    else:
        cor = '#e76f6f'  # Vermelho para n√£o significante
        mensagem = "N√£o passou no teste"
    
    resultado_texto = f"<b>{var}:</b> p-valor = {p_percentual:.2f}% <span style='color:{cor}; font-style:italic;'>({mensagem})</span>"

    # Exibindo com a cor correspondente
    display(HTML(f'<div style="font-size:14px; color:#333; padding-bottom:5px;">{resultado_texto}</div>'))

Considerando que uma vari√°vel que tem um p-valor superior a 5 n√£o √© estatisticamente significativa, **Tempo_Outras_Empresas** apresentou um p-valor acima desse limite, indicando que n√£o h√° evid√™ncias suficientes para afirmar que ela afeta o sal√°rio de forma consistente. Por isso, foi exclu√≠da do modelo para focarmos nas vari√°veis que realmente influenciam o sal√°rio.

## Novo Ajuste do Modelo de Regress√£o
Sem a vari√°vel Tempo_Outras_Empresas

In [None]:
# Vari√°vel resposta
y = df2['Salario']

# Vari√°veis explicativas
df2['intercepto'] = 1 

x = df2[['intercepto',
         'Anos_Educ_Superior',
         'Tempo_Empresa',
         'Ingles_Sim']]

In [None]:
# Ajusta o modelo e retorna os resultados
modelo = sm.OLS(y , x)
resultado = modelo.fit()
print(resultado.summary())

## Equa√ß√£o do Modelo
Sal√°rio = $\beta_0$ + $\beta_1$ x Anos de Educa√ß√£o Superior + $\beta_2$ x Tempo de Empresa + $\beta_3$ x Sabe Ingl√™s

## Interpreta√ß√£o do Modelo

**Intercepto ou $\beta_0$**: Sal√°rio m√©dio de um colaborador sem educa√ß√£o superior, rec√©m chegado na empresa e sem saber falar ingl√™s √© de `R$4.456,28`.<br>
**$\beta_1$** x Anos de Educa√ß√£o Superior: Cada ano adicional de educa√ß√£o superior, mantendo tempo de empresa e sabendo falar  ingl√™s, gera um aumento m√©dio de `R$253,59`.<br>
**$\beta_2$** x Tempo de Empresa: Cada ano adicional de tempo de empresa, mantendo os anos de educa√ß√£o superior e sabendo falar  ingl√™s, gera um aumento m√©dio de `R$61,02`.<br>
**$\beta_3$** x Sabe Ingl√™s: Saber falar ingl√™s, mantendo os anos de educa√ß√£o superior e tempo de empresa constantes, gera um aumento m√©dio de `R$1.966,49`.

## Diagn√≥stico do Modelo - An√°lise dos Res√≠duos

### Teste de Homocedasticidade dos Res√≠duos

O que √© o Teste de Homocedasticidade?

- Homocedasticidade: significa que os res√≠duos do modelo t√™m uma vari√¢ncia constante. Isso √© bom porque indica que o modelo est√° funcionando bem para todos os n√≠veis de previs√£o
- Heterocedasticidade: significa que a vari√¢ncia dos res√≠duos muda para diferentes n√≠veis de previs√£o. Isso pode ser um problema porque sugere que o modelo pode n√£o estar capturando toda a variabilidade dos dados de forma adequada

### Teste de White

O Teste de White √© um dos testes estat√≠sticos mais usados para verificar heterocedasticidade (ou seja, varia√ß√£o n√£o constante dos res√≠duos). Ele complementa muito bem a an√°lise visual do gr√°fico.

**Interpreta√ß√£o do Teste**
- Hip√≥tese nula (H‚ÇÄ): Os res√≠duos t√™m vari√¢ncia constante (homocedasticidade).
- Hip√≥tese alternativa (H‚ÇÅ): Os res√≠duos t√™m vari√¢ncia vari√°vel (heterocedasticidade).
- Se o p-valor < 0.05, rejeitamos H‚ÇÄ ‚Üí h√° evid√™ncia de heterocedasticidade.

In [None]:
# Homocedasticidade (boa!): os pontos est√£o espalhados aleatoriamente ao redor da linha zero, sem formar padr√µes
# Heterocedasticidade (problema!): os res√≠duos formam um ‚Äúfunil‚Äù (abrindo ou fechando) ou algum padr√£o espec√≠fico

grafico_residuos(resultado)

In [None]:
from statsmodels.stats.diagnostic import het_white
labels = ['LM Statistic', 'LM-Test p-value', 'F-Statistic', 'F-Test p-value']

white_test = het_white(resultado.resid_pearson, resultado.model.exog)
print(dict(zip(labels, white_test)))

In [None]:
from statsmodels.stats.diagnostic import het_white
from IPython.display import display, HTML

# Rodar o teste de White
labels = ['LM Statistic', 'LM-Test p-value', 'F-Statistic', 'F-Test p-value']
white_test = het_white(resultado.resid_pearson, resultado.model.exog)
white_dict = dict(zip(labels, white_test))

# Exibir resultados formatados
html_resultado = "<h4>üìä Teste de White para Homocedasticidade</h4><ul style='font-size:14px;'>"

for key in ['LM-Test p-value', 'F-Test p-value']:
    pval = white_dict[key]
    passou = pval >= 0.05
    cor = 'green' if passou else 'red'
    status = "‚úÖ Homocedasticidade (vari√¢ncia constante)" if passou else "‚ùó Heterocedasticidade detectada"
    html_resultado += f"<li><strong>{key}</strong>: <span style='color:{cor}'>{pval:.4f}</span> ‚Üí {status}</li>"

html_resultado += "</ul><p style='font-size:12px;'>* Considerando n√≠vel de signific√¢ncia de 5%.</p>"

display(HTML(html_resultado))

### Teste de Normalidade dos Res√≠duos

In [None]:
# Constru√ß√£o de histograma para avaliar a distribui√ß√£o dos res√≠duos
sns.histplot(resultado.resid_pearson, kde=True)