<a href="https://colab.research.google.com/github/marcelofschiavo/ds-cookbook/blob/main/04_Modelagem_Estatistica_(Inferencial).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 04. Introdu√ß√£o: Estat√≠stica Inferencial

A EDA (Gr√°ficos) nos mostrou pistas (Ex: 'Acho que quem sai tem sal√°rio menor').
A Estat√≠stica Inferencial √© a ferramenta forense que usamos para provar que essa pista √© real e n√£o foi s√≥ acaso.

Aqui, lutamos contra o 'acaso' usando *p-values*. Se o p-value √© baixo (Ex: < 0.05), significa que nossa pista √© "estatisticamente significativa".

In [3]:
"""
## Setup: Carregar Bibliotecas e Dados

Nesta c√©lula, importamos as bibliotecas que usaremos (Pandas e SciPy)
e carregamos nosso conjunto de dados (provavelmente o .csv limpo do Notebook 01).
"""
import pandas as pd
from scipy import stats
import warnings

# Ignorar avisos futuros (apenas para limpar o output)
warnings.filterwarnings('ignore')

# --- Carregue seus dados aqui ---
# (Substitua 'dados_empresa_limpos.csv' pelo nome do seu arquivo)
try:
    df = pd.read_csv('dados_empresa_limpos.csv')
    print("DataFrame 'df' carregado com sucesso!")
    print(f"Total de {df.shape[0]} linhas e {df.shape[1]} colunas.")
    print("\nAmostra dos dados:")
    print(df.head())

except FileNotFoundError:
    print("------------------------------------------------------------------")
    print(">>> ERRO: Arquivo 'dados_empresa_limpos.csv' n√£o encontrado. <<<")
    print("Por favor, substitua pelo nome correto do seu arquivo de dados.")
    print("... Criando um DataFrame de EXEMPLO para o resto do notebook n√£o quebrar.")
    print("------------------------------------------------------------------")

    # Criar um 'df' de exemplo para o resto do notebook n√£o quebrar
    data = {
        'salario': [5000, 7000, 6000, 8000, 4500, 9000, 5200, 7100, 6200, 8100, 4600, 9200] * 10,
        'pediu_demissao': [1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0] * 10,
        'departamento': ['TI', 'Vendas', 'RH', 'TI', 'Vendas', 'RH', 'TI', 'Vendas', 'RH', 'TI', 'Vendas', 'RH'] * 10
    }
    df = pd.DataFrame(data)
    print("DataFrame de exemplo carregado.")
    print(df.head())

------------------------------------------------------------------
>>> ERRO: Arquivo 'dados_empresa_limpos.csv' n√£o encontrado. <<<
Por favor, substitua pelo nome correto do seu arquivo de dados.
... Criando um DataFrame de EXEMPLO para o resto do notebook n√£o quebrar.
------------------------------------------------------------------
DataFrame de exemplo carregado.
   salario  pediu_demissao departamento
0     5000               1           TI
1     7000               0       Vendas
2     6000               0           RH
3     8000               0           TI
4     4500               1       Vendas


## Conceito 1: Teste-T (Comparar a M√©dia de 2 Grupos)

üß† **Intui√ß√£o:**
"Vimos no gr√°fico que o sal√°rio m√©dio de quem saiu √© R$ 5k e de quem ficou √© R$ 7k. Mas essa diferen√ßa de R$ 2k √© real? Ou ser√° que, se peg√°ssemos outra amostra de funcion√°rios, essa diferen√ßa sumiria? O Teste-T √© o 'juiz' que nos diz se a diferen√ßa √© real ou se foi s√≥ sorte (acaso)."

üéì **Defini√ß√£o T√©cnica:**
O **Teste-T de Amostras Independentes** (Independent T-Test) √© um teste de hip√≥tese param√©trico que avalia se as m√©dias de duas popula√ß√µes (grupos) independentes s√£o estatisticamente diferentes.
* **Hip√≥tese Nula ($H_0$):** As m√©dias s√£o iguais ($\mu_1 = \mu_2$). A diferen√ßa que vimos √© o acaso.
* **Hip√≥tese Alternativa ($H_a$):** As m√©dias s√£o diferentes ($\mu_1 \neq \mu_2$). A diferen√ßa √© real.
Buscamos um **p-value < 0.05** para rejeitar $H_0$.

‚ö†Ô∏è **Suposi√ß√µes:**
* **Normalidade:** Os dados de cada grupo devem ser *aproximadamente* normais. (Mas o teste √© robusto se os grupos forem grandes, ex: N > 30).
* **Homocedasticidade (Igualdade de Vari√¢ncias):** O Teste-T cl√°ssico assume vari√¢ncias iguais. Usar o **Teste de Welch** (`equal_var=False`) √© mais seguro, pois n√£o exige essa suposi√ß√£o.

üç≥ **Receita:**

In [4]:
from scipy import stats
import pandas as pd

# 1. Separar os dois grupos que queremos comparar
#    (Assumindo que 'pediu_demissao' √© 1 para Sim, 0 para N√£o)
saiu = df[df['pediu_demissao'] == 1]['salario'].dropna()
ficou = df[df['pediu_demissao'] == 0]['salario'].dropna()

# 2. Aplicar o teste (usando Teste de Welch, que √© mais robusto)
stat, pvalue = stats.ttest_ind(saiu, ficou, equal_var=False)

print(f"O P-Value do Teste-T √©: {pvalue:.4f}")

# 3. Interpretar o P-Value (N√≠vel de signific√¢ncia de 5% ou 0.05)
if pvalue < 0.05:
    print("Conclus√£o: A diferen√ßa √© ESTATISTICAMENTE SIGNIFICATIVA.")
else:
    print("Conclus√£o: A diferen√ßa pode ser obra do acaso.")

O P-Value do Teste-T √©: 0.0000
Conclus√£o: A diferen√ßa √© ESTATISTICAMENTE SIGNIFICATIVA.


üìä **Resultado:**
"O P-Value foi 0.02. Como 0.02 √© menor que 0.05 (nosso n√≠vel de signific√¢ncia), n√≥s **rejeitamos a Hip√≥tese Nula**.
A conclus√£o cient√≠fica √©: A diferen√ßa no sal√°rio m√©dio entre quem saiu e quem ficou √© estatisticamente significativa. A pista da EDA foi validada."

## Conceito 2: Teste Qui-Quadrado (Rela√ß√£o entre 2 Categ√≥ricas)

üß† **Intui√ß√£o:**
"Ser√° que o departamento (TI, Vendas, RH) tem alguma rela√ß√£o com a decis√£o de `pediu_demissao` (Sim, N√£o)? Se 10% da empresa saiu, o esperado era que 10% de *cada* departamento sa√≠sse. O Qui-Quadrado (Chi-Square) √© um 'detector de anomalias' que nos diz se a distribui√ß√£o que *realmente* aconteceu √© muito 'estranha' ou diferente do esperado."

üéì **Defini√ß√£o T√©cnica:**
O **Teste Qui-Quadrado ($\chi^2$) de Independ√™ncia** √© um teste n√£o-param√©trico que avalia se existe uma associa√ß√£o estat√≠stica entre duas vari√°veis categ√≥ricas.
* **Hip√≥tese Nula ($H_0$):** As vari√°veis s√£o independentes (n√£o h√° rela√ß√£o). A distribui√ß√£o de sa√≠das √© aleat√≥ria entre os departamentos.
* **Hip√≥tese Alternativa ($H_a$):** As vari√°veis s√£o dependentes (existe uma rela√ß√£o).
Ele compara as frequ√™ncias observadas (nossos dados) com as frequ√™ncias esperadas (o que ver√≠amos se $H_0$ fosse verdadeira).

‚ö†Ô∏è **Suposi√ß√µes:**
* A regra comum √© que **todas as frequ√™ncias esperadas devem ser > 1** e pelo menos **80% delas devem ser > 5**. Se isso n√£o ocorrer (ex: um departamento com 1 pessoa), o teste perde a validade.

üç≥ **Receita:**

In [None]:
from scipy.stats import chi2_contingency
import pandas as pd

# 1. Criar a tabela de conting√™ncia (cruzamento de frequ√™ncias)
#    Linhas: departamento, Colunas: pediu_demissao
tabela_contingencia = pd.crosstab(df['departamento'], df['pediu_demissao'])

print("Tabela Observada:")
print(tabela_contingencia)
print("-" * 30)

# 2. Aplicar o teste
chi2, pvalue, dof, expected_table = chi2_contingency(tabela_contingencia)

print(f"O P-Value do Qui-Quadrado √©: {pvalue:.4f}")

# 3. Interpretar o P-Value
if pvalue < 0.05:
    print("Conclus√£o: A associa√ß√£o √© ESTATISTICAMENTE SIGNIFICATIVA.")
else:
    print("Conclus√£o: A associa√ß√£o pode ser obra do acaso.")

üìä **Resultado:**
"O P-Value foi 0.01. Como 0.01 < 0.05, **rejeitamos a Hip√≥tese Nula**.
A conclus√£o √©: Existe uma associa√ß√£o estatisticamente significativa entre o departamento onde a pessoa trabalha e sua decis√£o de sair. (Nota: Isso n√£o diz *qual* departamento sai mais, apenas que a vari√°vel 'departamento' *importa*)."

## Conceito 3: ANOVA (Comparar a M√©dia de 3+ Grupos)

üß† **Intui√ß√£o:**
"O Teste-T compara 2 grupos (Ex: Sal√°rio de quem Saiu vs. Ficou). Mas e se quisermos comparar o Sal√°rio m√©dio entre 3 ou mais grupos (Ex: Depto. de TI vs. Vendas vs. RH)? N√£o podemos fazer v√°rios Testes-T (um contra um), pois isso aumenta nossa chance de achar um 'falso positivo'. A ANOVA √© o teste correto que compara todos os grupos de uma s√≥ vez e nos diz: 'Sim, existe pelo menos um grupo diferente dos demais' ou 'N√£o, as m√©dias de todos parecem ser iguais'."

üéì **Defini√ß√£o T√©cnica:**
A **An√°lise de Vari√¢ncia (ANOVA)** de um fator (One-Way ANOVA) testa se as m√©dias de duas ou mais popula√ß√µes (grupos) s√£o iguais.
* **Hip√≥tese Nula ($H_0$):** Todas as m√©dias s√£o iguais ($\mu_1 = \mu_2 = \mu_3 = ...$).
* **Hip√≥tese Alternativa ($H_a$):** Pelo menos uma m√©dia √© diferente das outras.
Ela funciona comparando a vari√¢ncia *entre* os grupos com a vari√¢ncia *dentro* de cada grupo (o F-statistic).

‚ö†Ô∏è **Importante:** A ANOVA √© um "teste omnibus". Ela s√≥ diz que "existe uma diferen√ßa", mas n√£o diz *onde* (Ex: ela n√£o diz se TI √© diferente de Vendas). Para descobrir isso, usamos um "Teste Post-Hoc" (como o Teste de Tukey) ap√≥s um resultado significativo.

üç≥ **Receita:**

In [None]:
from scipy import stats

# 1. Preparar os grupos (precisamos de uma lista de arrays/s√©ries)
#    (Assumindo que 'departamento' tem 3+ categorias, ex: TI, Vendas, RH)

# Criamos uma lista de S√©ries, uma para cada departamento
grupos = []
for depto in df['departamento'].unique():
    salarios_depto = df[df['departamento'] == depto]['salario'].dropna()
    grupos.append(salarios_depto)

# Exemplo de como 'grupos' ficaria:
# grupos = [
#     pd.Series([5000, 6000, 5500]), # Sal√°rios de TI
#     pd.Series([4000, 4500, 4200]), # Sal√°rios de Vendas
#     pd.Series([7000, 7100, 6900])  # Sal√°rios de RH
# ]

# 2. Aplicar a ANOVA
#    stats.f_oneway() aceita m√∫ltiplos arrays como argumentos, usamos *grupos para "desempacotar" a lista
if len(grupos) > 2:
    f_stat, pvalue = stats.f_oneway(*grupos)

    print(f"O P-Value da ANOVA √©: {pvalue:.4f}")

    # 3. Interpretar o P-Value
    if pvalue < 0.05:
        print("Conclus√£o: Existe uma diferen√ßa ESTATISTICAMENTE SIGNIFICATIVA no sal√°rio m√©dio entre os departamentos.")
    else:
        print("Conclus√£o: N√£o h√° evid√™ncia de diferen√ßa salarial entre os departamentos.")
else:
    print("ANOVA requer 3 ou mais grupos para ser usada no lugar do Teste-T.")

üìä **Resultado:**
"O P-Value da ANOVA foi 0.001. Como 0.001 < 0.05, **rejeitamos a Hip√≥tese Nula**.
A conclus√£o √©: A vari√°vel 'departamento' tem um impacto estatisticamente significativo no sal√°rio m√©dio. O pr√≥ximo passo (Post-Hoc) seria investigar *quais* departamentos s√£o diferentes entre si."