**Atividade Avaliativa: Teste de Hipótese, Regressão Linear e ANOVA**

**Prof. Dr. Jefferson O. Andrade**  
**Pós-graduação em Desenvolvimento de Aplicações Inteligentes**  
**Estatística para Aprendizado de Máquina — Aula 05**  
**Evandro Canal Severgnini**
**20231devai0149**

Neste exercício, você aplicará técnicas abordadas nas aulas anteriores. O objetivo é testar seu entendimento sobre testes de hipótese, regressão linear e ANOVA. O resultado final deste exercício deve ser submetido na forma de um notebook Jupyter.

**Instruções Gerais:**  

- Garanta que você tenha instalado todas as bibliotecas necessárias para realizar este exercício.
- Use comentários sempre que achar necessário para explicar seu código.
- Após concluir, exporte seu notebook como `.ipynb` e submeta no AVA.

**Critérios de Avaliação:**

1. **Corretude do Código**: Seu código deve ser livre de erros e realizar as tarefas conforme solicitado.
2. **Clareza e Organização**: Seu notebook deve ser apresentado de maneira clara, bem estruturada e com comentários relevantes.
3. **Interpretação dos Resultados**: Além de realizar análises, esperamos que você interprete os resultados obtidos, fornecendo insights e conclusões pertinentes.

**Dica**: Lembre-se sempre de consultar a documentação ou os materiais das aulas caso tenha dúvidas. Boa sorte e bom trabalho!

## Parte 1: Teste de Hipótese (7 pontos)

Nesta primeira parte, você trabalhará com o conjunto de dados do seaborn chamado `tips`. Ele contém informações sobre as gorjetas dadas a garçons por diferentes clientes, considerando vários atributos.

**Tarefas**:

1. Importe as bibliotecas necessárias.
2. Carregue o conjunto de dados `tips` do seaborn.
3. Realize um teste de hipótese para verificar se a média da gorjeta dada por fumantes é diferente da média da gorjeta dada por não fumantes.
4. Interprete os resultados do teste.


In [2]:
# Crie as células com a sua solução da parte 1 aqui.
# Importando as bibliotecas necessárias
import pandas as pd
import seaborn as sns
from scipy.stats import ttest_ind

# Carregando o conjunto de dados `tips`
tips = sns.load_dataset('tips')

# Explorando os dados para entender sua estrutura
print(tips.head())


# tamanho total da amostra
print(f"Tamanho total da amostra: {tips.shape[0]}")

# Separando os dados em dois grupos: fumantes e não fumantes
fumantes = tips[tips['smoker'] == 'Yes']['tip']
nao_fumantes = tips[tips['smoker'] == 'No']['tip']

# Realizando o teste de hipótese (teste t para duas amostras independentes)
stat, p_value = ttest_ind(fumantes, nao_fumantes)

# Exibindo os resultados do teste
print(f"Estatística do teste t: {stat:.4f}")
print(f"Valor p: {p_value:.4f}")

# Interpretando os resultados
alpha = 0.05
print(f"alpha: {alpha} - p_value: {p_value:.4f}")


if p_value < alpha:
    print("Rejeitamos a hipótese nula: Existe uma diferença significativa entre a média da gorjeta de fumantes e não fumantes.")
else:
    print("Falhamos em rejeitar a hipótese nula: Não existe evidência suficiente para afirmar que há diferença significativa entre as médias.")


   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
Tamanho total da amostra: 244
Estatística do teste t: 0.0922
Valor p: 0.9266
alpha: 0.05 - p_value: 0.9266
Falhamos em rejeitar a hipótese nula: Não existe evidência suficiente para afirmar que há diferença significativa entre as médias.


---

## Parte 2: Regressão Linear (7 pontos)

Continuaremos usando o conjunto de dados `tips`.

**Tarefas**:

1. Ajuste um modelo de regressão linear simples para prever a `tip` (gorjeta) usando o `total_bill` (valor total da conta) como variável preditora.
2. Avalie e interprete os coeficientes do modelo.
3. Ajuste um modelo de regressão linear múltipla considerando `total_bill` e `size` (tamanho da mesa) como variáveis preditoras.
4. Compare e discuta os resultados dos dois modelos ajustados.


In [4]:
# Importando as bibliotecas necessárias
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error, r2_score

# Separando as variáveis independentes e dependentes
variavel_simples = tips[['total_bill']]  # Variável preditora para o modelo simples
variaveis_multiplas = tips[['total_bill', 'size']]  # Variáveis preditoras para o modelo múltiplo
gorjetas = tips['tip']  # Variável resposta (gorjetas)

# Adicionando uma constante aos modelos (necessário para statsmodels)
variavel_simples_constante = sm.add_constant(variavel_simples)
variaveis_multiplas_constante = sm.add_constant(variaveis_multiplas)

# Ajustando o modelo de regressão linear simples
modelo_simples = sm.OLS(gorjetas, variavel_simples_constante).fit()
print("Modelo de Regressão Linear Simples:\n")
print(modelo_simples.summary())

# Ajustando o modelo de regressão linear múltipla
modelo_multiplo = sm.OLS(gorjetas, variaveis_multiplas_constante).fit()
print("\nModelo de Regressão Linear Múltipla:\n")
print(modelo_multiplo.summary())

# Comparação dos modelos
predicao_simples = modelo_simples.predict(variavel_simples_constante)
predicao_multipla = modelo_multiplo.predict(variaveis_multiplas_constante)

mse_simples = mean_squared_error(gorjetas, predicao_simples)
mse_multiplo = mean_squared_error(gorjetas, predicao_multipla)

r2_simples = r2_score(gorjetas, predicao_simples)
r2_multiplo = r2_score(gorjetas, predicao_multipla)

# Resultados comparativos
print("\nComparação dos Modelos:\n")
print(f"Modelo Simples: R² = {r2_simples:.4f}, MSE = {mse_simples:.4f}")
print(f"Modelo Múltiplo: R² = {r2_multiplo:.4f}, MSE = {mse_multiplo:.4f}")

if r2_multiplo > r2_simples:
    print("O modelo múltiplo apresenta melhor capacidade de explicação (R² maior) em relação ao modelo simples.")
else:
    print("O modelo simples é suficiente para explicar a relação entre 'total_bill' e 'tip'.")

# Explicação final
print("\nExplicação:")
print("""
1. Ajustamos um modelo de regressão linear simples para prever o valor da gorjeta ('tip') com base no valor total da conta ('total_bill').
   - O coeficiente da variável preditora mostra o quanto a gorjeta aumenta, em média, para cada unidade adicional no valor total da conta.

2. Em seguida, ajustamos um modelo de regressão linear múltipla considerando também o tamanho da mesa ('size') como uma segunda variável preditora.
   - Nesse caso, analisamos como tanto o valor total da conta quanto o tamanho da mesa influenciam o valor da gorjeta.

3. Finalmente, comparamos os dois modelos com base no R² (quanto do comportamento da variável resposta é explicado pelo modelo) e no MSE (erro médio quadrático, que mede a precisão das previsões).
   - Um R² maior indica que o modelo explica melhor os dados.
   - Um MSE menor indica que as previsões são mais precisas.
""")



Modelo de Regressão Linear Simples:

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.457
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     203.4
Date:                Fri, 17 Jan 2025   Prob (F-statistic):           6.69e-34
Time:                        18:13:03   Log-Likelihood:                -350.54
No. Observations:                 244   AIC:                             705.1
Df Residuals:                     242   BIC:                             712.1
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          

**O valor da conta é o principal fator que influencia as gorjetas. Quando a conta aumenta, as gorjetas também aumentam.**

**O tamanho da mesa também influencia, mas em menor grau. Mesas maiores tendem a dar gorjetas maiores, o que faz sentido porque mais pessoas na mesa geralmente resultam em contas maiores e gorjetas maiores.**

**O modelo com duas variáveis (conta e tamanho da mesa) é um pouco melhor, porque:
Ele explica mais sobre como as gorjetas funcionam (46,8% contra 45,7%).
Ele também faz previsões mais precisas.**


---

## Parte 3: ANOVA (6 pontos)

Nesta seção, você investigará as diferenças nas médias de gorjetas com base no dia da semana.

**Tarefas**:

1. Importe as ferramentas necessárias para realizar a ANOVA.
2. Verifique se há diferenças significativas na média de gorjetas entre os diferentes dias da semana (`day`).
3. Interprete os resultados, incluindo os valores de SSB, SSW, F-value e p-value.
4. Dê conclusões baseadas nos resultados da ANOVA.


In [7]:
# Importando as bibliotecas necessárias
import pandas as pd
import seaborn as sns
from scipy.stats import f_oneway

# Carregando o conjunto de dados tips
tips = sns.load_dataset('tips')

# Separando os valores de gorjeta por dia da semana
gorjetas_por_dia = [tips[tips['day'] == dia]['tip'] for dia in tips['day'].unique()]

# Realizando a ANOVA
f_stat, p_value = f_oneway(*gorjetas_por_dia)

# Exibindo os resultados da ANOVA
print(f"F-statistic: {f_stat:.4f}")
print(f"P-value: {p_value:.4f}")

# Calculando as médias gerais e por grupo
media_geral = tips['tip'].mean()
medias_por_dia = tips.groupby('day', observed=False)['tip'].mean()

# Calculando o SSB (Soma dos Quadrados entre os Grupos)
ssb = sum(len(tips[tips['day'] == dia]) * (media - media_geral)**2 for dia, media in medias_por_dia.items())

# Calculando o SSW (Soma dos Quadrados dentro dos Grupos)
ssw = sum(((tips[tips['day'] == dia]['tip'] - media)**2).sum() for dia, media in medias_por_dia.items())

# Exibindo os valores de SSB e SSW
print(f"SSB (Soma dos Quadrados entre os Grupos): {ssb:.4f}")
print(f"SSW (Soma dos Quadrados dentro dos Grupos): {ssw:.4f}")

# Interpretando os resultados
alpha = 0.05
if p_value < alpha:
    print("Rejeitamos a hipótese nula: Há diferenças significativas nas médias de gorjetas entre os dias da semana.")
else:
    print("Falhamos em rejeitar a hipótese nula: Não há evidências suficientes para afirmar que as médias de gorjetas são diferentes entre os dias da semana.")


F-statistic: 1.6724
P-value: 0.1736
SSB (Soma dos Quadrados entre os Grupos): 9.5259
SSW (Soma dos Quadrados dentro dos Grupos): 455.6866
Falhamos em rejeitar a hipótese nula: Não há evidências suficientes para afirmar que as médias de gorjetas são diferentes entre os dias da semana.


---

**O que queríamos descobrir?**

Queríamos saber se os clientes deixam gorjetas diferentes dependendo do dia da semana. Para isso, usamos um teste chamado ANOVA (Análise de Variância), que nos ajuda a comparar as médias das gorjetas em diferentes grupos (no caso, os dias da semana).

**Quais eram as hipóteses?**
Hipótese nula (H₀): As médias de gorjetas são iguais para todos os dias da semana.
Hipótese alternativa (H₁): Pelo menos um dos dias tem uma média de gorjetas diferente.

**O que encontramos?**

F-statistic (1.6724):

Esse número nos ajuda a medir quanto as médias dos grupos (dias) são diferentes em comparação à variação entre as pessoas dentro de cada grupo.
Um valor pequeno, como o que encontramos, indica que as diferenças entre os dias não são grandes.

P-value (0.1736):

Este valor nos diz se as diferenças entre os dias da semana são significativas.
Como o valor-p é maior que 0.05, não temos evidências suficientes para dizer que as médias de gorjetas são diferentes entre os dias.

SSB (Soma dos Quadrados entre os Grupos):

Representa a variação entre os dias. Foi de 9.5259, o que é relativamente baixo.
Isso indica que as médias dos dias são bem parecidas.

SSW (Soma dos Quadrados dentro dos Grupos):

Representa a variação dentro de cada dia (diferenças nas gorjetas dadas por pessoas no mesmo dia). Foi de 455.6866, que é muito maior que a variação entre os dias.
Isso mostra que a maior parte da diferença vem das pessoas individualmente, e não do dia da semana.

**Qual é a conclusão?**
Não há diferenças significativas entre as médias de gorjetas nos dias da semana.
O dia da semana não parece influenciar o valor das gorjetas.
Portanto, outros fatores, como o valor da conta (total_bill) ou o tamanho da mesa (size), podem ser mais importantes para entender como as gorjetas variam.