# Resumo Integrado sobre Teste de Hipótese

<br>

## Aula 01: Teste de Hipótese - O Que é?

Lorenzo, prepare-se para dominar o mundo dos Testes de Hipótese! 💪 Nesta aula, vamos desvendar os mistérios por trás dessa ferramenta essencial para Data Science, com exemplos visuais e práticos que te farão um mestre na tomada de decisões estratégicas.

<br>

### Introdução

Em Data Science, tomar decisões baseadas em dados é crucial para o sucesso. É aqui que os Testes de Hipótese entram em cena, fornecendo uma estrutura robusta para avaliar ideias e tomar decisões informadas, evitando achismos e intuições falhas.

<br>

### O Que é um Teste de Hipótese?

Imagine que você é um cientista de dados em uma grande empresa de e-commerce e tem uma ideia brilhante: "Se mudarmos a cor do botão 'Comprar' de vermelho para amarelo, as vendas aumentarão!" 🤯

Como saber se sua ideia é realmente genial ou apenas um delírio? 🤔 A resposta está em realizar um Teste de Hipótese!

Um Teste de Hipótese é um processo formal que utiliza dados amostrais para determinar se há evidências suficientes para **rejeitar ou não** uma hipótese sobre um parâmetro populacional. Em outras palavras, é uma maneira de usar estatística para validar (ou invalidar) suas ideias.

<br>

### Objetivo do Teste de Hipótese

O objetivo principal é decidir se uma hipótese sobre um parâmetro populacional (ex: a média de vendas, a proporção de usuários que clicam em um anúncio) é verdadeira ou não, utilizando os dados amostrais do resultado de um experimento.

<br>

### Exemplos de Aplicações de Testes de Hipótese

* **Marketing:** Testar se um novo design de anúncio leva a uma taxa de cliques maior.
* **Medicina:** Avaliar se um novo medicamento é mais eficaz do que o tratamento padrão.
* **Engenharia:** Verificar se uma nova versão de um software tem menos bugs do que a versão anterior.
* **Finanças:** Determinar se uma nova estratégia de investimento gera retornos significativamente maiores.

<br>

### Elementos-Chave

1. **Hipótese Nula (H0):** Representa o status quo, a crença atual sobre o parâmetro populacional. É a hipótese que você tenta **refutar** no teste.
    * **Exemplos de H0:**
        * "Não há diferença na taxa de cliques entre o design antigo e o novo do anúncio".
        * "O novo medicamento não é mais eficaz que o tratamento padrão".
        * "A nova versão do software não tem menos bugs".
        * "A nova estratégia de investimento não gera retornos maiores".

<br>

2. **Hipótese Alternativa (H1):** Representa a sua ideia, a mudança que você está testando. É a hipótese que você quer **comprovar**.
    * **Exemplos de H1:**
        * "O novo design de anúncio leva a uma taxa de cliques maior".
        * "O novo medicamento é mais eficaz que o tratamento padrão".
        * "A nova versão do software tem menos bugs".
        * "A nova estratégia de investimento gera retornos significativamente maiores".

<br>

### Como Funciona um Teste de Hipótese (Exemplo Prático)

1. **Definir as Hipóteses:** Comece definindo a hipótese nula (H0) que representa a situação atual e a hipótese alternativa (H1), que é a sua ideia a ser testada. No exemplo do botão de compra, a H0 seria: "A cor do botão não impacta as vendas" e a H1: "Mudar a cor para amarelo aumenta as vendas."

<br>

2. **Coletar Dados:** Para testar a hipótese, você precisa coletar dados relevantes. No nosso exemplo, você dividiria os usuários do seu site em dois grupos: um **grupo de controle**, que continua vendo o botão vermelho, e um **grupo variante**, que verá o botão amarelo. Colete dados de vendas de ambos os grupos por um período de tempo.

<br>

3. **Analisar os Dados:** Após coletar os dados, você utiliza testes estatísticos (como o teste t de Student para comparar médias ou o teste qui-quadrado para comparar proporções) para analisar a diferença entre as vendas dos dois grupos. Essa análise te dará um **p-valor**, que representa a probabilidade de observar a diferença encontrada (ou uma diferença ainda maior) entre os grupos, *assumindo que a hipótese nula é verdadeira*.

```python
from scipy.stats import ttest_ind

# Exemplo de análise de dados
vendas_vermelho = [20, 22, 21, 23, 19, 24, 22]
vendas_amarelo = [25, 26, 27, 24, 25, 28, 26]

t_stat, p_value = ttest_ind(vendas_vermelho, vendas_amarelo)
print(f"T-statistic: {t_stat}, P-value: {p_value}")
```

<br>

4. **Tomar a Decisão:** Com o p-valor em mãos, você compara ele com um **nível de significância (α)** pré-definido, geralmente 5%.
    * **Se p-valor < α:** Rejeitamos a hipótese nula! 🥳 A probabilidade de ter observado a diferença por puro acaso é muito baixa, sugerindo que sua ideia (H1) tem fundamento.
    * **Se p-valor ≥ α:** Não rejeitamos a hipótese nula. 😔 Não há evidências suficientes para afirmar que a mudança teve efeito.

<br>

### Visualizando os Resultados

Lorenzo, você prefere exemplos visuais, então imagine um gráfico mostrando as vendas dos dois grupos. Se a diferença for grande e o p-valor baixo, o gráfico mostrará claramente que o grupo com o botão amarelo teve mais vendas. Essa visualização te ajuda a entender o impacto da sua mudança de forma clara e rápida!

<br>

### Erros em Testes de Hipótese

Mesmo com todo esse rigor, ainda existe a chance de cometermos erros:

1. **Erro Tipo I (Falso Positivo):** É como condenar um inocente. Você rejeita a H0, acreditando que sua ideia funcionou, mas na verdade a diferença observada foi por acaso.
    * **Exemplo:** Você conclui que o novo design do anúncio aumenta a taxa de cliques, mas na verdade, a diferença observada foi apenas uma flutuação aleatória nos dados.

<br>

2. **Erro Tipo II (Falso Negativo):** É como deixar um culpado escapar. Você não rejeita a H0, achando que sua ideia não teve efeito, mas na verdade ela teve, só que os dados não foram suficientes para mostrar isso.
    * **Exemplo:** Você conclui que o novo medicamento não é mais eficaz, mas na verdade, ele é sim, só que a amostra de pacientes utilizada no estudo era muito pequena para detectar a diferença real.

<br>

### Exemplo Adicional

Digamos que você trabalha em uma startup de delivery de comida e quer testar se um novo sistema de recomendação de restaurantes aumenta o número de pedidos por usuário.
* **H0:** "O novo sistema não impacta o número de pedidos".
* **H1:** "O novo sistema aumenta o número de pedidos".

Você coleta dados de dois grupos de usuários, um usando o sistema antigo (grupo controle) e outro o novo (grupo variante), e analisa estatisticamente os resultados para tomar a decisão. Se o p-valor for baixo, você poderá ter mais confiança em lançar o novo sistema para todos os usuários. 🚀

```python
import numpy as np
from scipy.stats import ttest_ind

# Simulação de dados de pedidos
pedidos_controle = np.random.normal(10, 2, 100)
pedidos_variante = np.random.normal(12, 2, 100)

t_stat, p_value = ttest_ind(pedidos_controle, pedidos_variante)
print(f"T-statistic: {t_stat}, P-value: {p_value}")
```

<br>

----

## Aula 02: Teste de Hipótese - Teste de Médias

Lorenzo, vamos continuar nossa jornada épica no mundo dos Testes de Hipótese! 🚀 Desta vez, vamos nos aprofundar no Teste de Médias, uma ferramenta poderosa para comparar grupos e descobrir se existem diferenças significativas entre eles. Prepare-se para exemplos práticos e insights que te farão um expert em análise de dados!

<br>

### Introdução

Imagine que você precisa determinar se um novo tratamento médico é realmente eficaz, ou se uma campanha de marketing teve impacto nas vendas. Comparar médias é uma das formas mais comuns de analisar dados e descobrir se as diferenças observadas são fruto do acaso ou se realmente refletem um efeito real. O Teste de Médias te dá a base estatística para tomar essa decisão com confiança!

<br>

### Teorema Central do Limite: A Base do Teste de Médias

Antes de mergulharmos no teste em si, é importante relembrar o **Teorema Central do Limite**. Ele nos diz que, para amostras suficientemente grandes, a distribuição da média amostral se aproxima de uma **distribuição normal**, independentemente da distribuição original dos dados. Essa é a base para o Teste de Médias, pois ele assume que as médias amostrais seguem uma distribuição

 normal.

**Exemplo:** Imagine que você quer estudar a altura dos estudantes de uma universidade. Mesmo que a distribuição da altura de todos os estudantes não seja perfeitamente normal, se você coletar amostras grandes o suficiente e calcular a média de cada amostra, a distribuição dessas médias amostrais será aproximadamente normal.

<br>

### Construindo um Teste de Médias

**Exemplo Prático: Duração de Filmes de Drama vs. Comédia na Netflix**

Vamos imaginar que você trabalha na Netflix e quer investigar se a **duração média** dos filmes de drama é diferente da duração média dos filmes de comédia.

<br>

**1. Definir as Hipóteses:**

* **H0:** "Não há diferença na duração média dos filmes de drama e comédia".
* **H1:** "A duração média dos filmes de drama é diferente da duração média dos filmes de comédia".

<br>

**2. Coletar os Dados:**

Você coleta dados da Netflix sobre a duração de uma amostra grande de filmes de drama e uma amostra grande de filmes de comédia.

<br>

**3. Criar uma Nova Variável:**

Para facilitar a comparação, você cria uma nova variável que representa a **diferença** entre as médias das duas amostras: `diferenca_media = media_drama - media_comedia`.

<br>

**4. Entender a Distribuição da Diferença:**

Se a hipótese nula (H0) for verdadeira, ou seja, se não houver diferença real na duração média dos filmes, a **média da variável "diferenca_media" será igual a zero**.

<br>

**5. Escolher a Distribuição de Teste:**

* **Se a variância da população for conhecida:** Utilizamos a distribuição normal para o teste.
* **Se a variância da população for desconhecida:** Utilizamos a distribuição t de Student para o teste. Como geralmente não conhecemos a variância da população, o teste t é mais utilizado na prática.

<br>

**6. Calcular a Estatística de Teste e o p-valor:**

Utilizando os dados coletados e a distribuição de teste escolhida, você calcula a estatística de teste e o p-valor. O **p-valor** representa a probabilidade de observar uma diferença tão extrema quanto a encontrada (ou mais extrema) entre as médias dos grupos, **assumindo que a hipótese nula é verdadeira.**

```python
import scipy.stats as stats

# Dados de duração de filmes
duracao_drama = [120, 150, 130, 145, 160, 155, 140]
duracao_comedia = [95, 100, 105, 110, 98, 102, 108]

t_stat, p_value = stats.ttest_ind(duracao_drama, duracao_comedia)
print(f"T-statistic: {t_stat}, P-value: {p_value}")
```

<br>

**7. Tomar a Decisão:**

Você define um **nível de significância (α)**, geralmente 5% (0.05).

* **Se p-valor < α:** Rejeitamos a hipótese nula (H0), pois a probabilidade de ter observado a diferença por puro acaso é muito baixa, sugerindo que a duração média dos filmes de drama é realmente diferente da duração média dos filmes de comédia.
* **Se p-valor ≥ α:** Não rejeitamos a hipótese nula (H0), pois não há evidências suficientes para afirmar que existe uma diferença real na duração média dos dois gêneros de filmes.

<br>

### Visualizando os Resultados

Para facilitar a compreensão, você pode visualizar as distribuições das durações dos filmes de drama e comédia em um histograma. Se as médias forem realmente diferentes, os histogramas mostrarão picos em pontos distintos.

<br>

### Observação Importante

É importante lembrar que o teste de médias é mais confiável quando a distribuição dos dados é simétrica. Para dados muito assimétricos, a média pode não ser a melhor medida de tendência central, e outras medidas como a mediana ou a moda podem ser mais informativas.

<br>

----

## Aula 03: Teste de Hipótese - Teste de Proporções

### Introdução

O teste de proporções é uma ferramenta poderosa para testar hipóteses sobre proporções em uma população. É frequentemente utilizado para comparar proporções em diferentes grupos ou para testar se uma proporção amostral difere de uma proporção conhecida.

<br>

### Tipos de Testes

* **Teste de proporções para uma amostra:** Compara a proporção de uma amostra com uma proporção conhecida.
* **Teste de proporções para duas amostras:** Compara as proporções de duas amostras independentes.

<br>

### Exemplo Prático

**Teste de Proporções para Uma Amostra:**

Imagine que você quer testar se a proporção de usuários que clicam em um novo anúncio é diferente de 30%. Você realiza o teste de proporções com os seguintes dados:

```python
from statsmodels.stats.proportion import proportions_ztest

count = 30  # número de sucessos
nobs = 100  # tamanho da amostra
value = 0.3  # proporção esperada

stat, p_value = proportions_ztest(count, nobs, value)
print(f"Z-statistic: {stat}, P-value: {p_value}")
```

<br>

----

## Aula 04: Teste de Hipótese - Experimentação Online

### Introdução

Testes A/B são comumente usados para experimentação online. Comparam duas versões de uma variável para determinar qual desempenho é melhor.

<br>

### Metodologia

1. **Definição de Hipóteses:** H0 e H1.
2. **Divisão de Grupos:** Controle e tratamento.
3. **Coleta de Dados:** Monitoramento das interações.
4. **Análise Estatística:** Teste de hipótese para determinar a eficácia da alteração.

<br>

### Exemplo Prático

**Teste A/B:**

```python
import numpy as np
from scipy.stats import ttest_ind

# Simulação de dados de grupos A e B
grupo_A = np.random.normal(0.5, 0.1, 100)
grupo_B = np.random.normal(0.6, 0.1, 100)

stat, p_value = ttest_ind(grupo_A, grupo_B)
print(f"T-statistic: {stat}, P-value: {p_value}")
```

<br>

---

## Aula 05: Teste de Hipótese - Outros Testes de Hipótese

### Introdução

Além dos testes de médias e proporções, existem outros testes importantes, como o teste qui-quadrado e o teste de correlação.

<br>

### Teste Qui-Quadrado

Utilizado para testar a associação entre variáveis categóricas.

<br>

### Exemplo Prático

**Teste Qui-Quadrado:**

```python
import pandas as pd
from scipy.stats import chi2_contingency

data = {'A': [10, 20, 30], 'B': [20, 30, 40]}
df = pd.DataFrame(data, columns=['A', 'B'])
chi2, p, dof, ex = chi2_contingency(df)
print(f"Chi2: {chi2}, P-value: {p}")
```

<br>

## Aula 06: Teste de Hipótese - Material Adicional

### Materiais Adicionais

* Slides da aula, leituras recomendadas, e links para ferramentas online de teste de hipótese.

<br>

----

### Mapa Mental

**Teste de Hipótese:**

* **Objetivo:** Decidir se uma hipótese sobre um parâmetro populacional é verdadeira ou não, com base em dados amostrais.
    * **Exemplos de Aplicações:**
        * Marketing (Testar eficácia de anúncios)
        * Medicina (Avaliar novos medicamentos)
        * Engenharia (Verificar bugs em software)
        * Finanças (Analisar estratégias de investimento)

<br>

* **Elementos-Chave:**
    * **Hipótese Nula (H0):**  
        * Representa a situação atual (status quo).
        * Objetivo: Refutar a hipótese.
        * **Exemplos:** "Não há diferença...", "O novo tratamento não é mais eficaz..."
    * **Hipótese Alternativa (H1):**
        * Representa a ideia a ser testada.
        * Objetivo: Comprovar a hipótese.
        * **Exemplos:** "O novo design aumenta as vendas", "O medicamento é mais eficaz..."

<br>

* **Etapas do Teste:**
    1. **Definir as Hipóteses:** H0 e H1.
    2. **Coletar Dados:** Grupo Controle e Grupo Variante.
    3. **Analisar os Dados:** Utilizar testes estatísticos (ex: teste t, teste qui-quadrado) e obter o p-valor.
    4. **Tomar a Decisão:**
        * **p-valor < α:** Rejeitar H0 (evidências a favor de H1).
        * **p-valor ≥ α:** Não Rejeitar H0 (evidências insuficientes).

<br>

* **Erros:**
    * **Tipo I (Falso Positivo):** Rejeitar H0 quando ela é verdadeira.
    * **Tipo II (Falso Negativo):** Não rejeitar H0 quando ela é falsa.

<br>

----

### Resumo para Revisão

* **Teste de Hipótese:** Ferramenta estatística para validar ideias.
* **H0:** Situação atual. Objetivo: refutar.
* **H1:** Ideia a ser testada. Objetivo: comprovar.
* **p-valor:** Probabilidade do resultado observado (ou mais extremo), assumindo que H0 é verdadeira.
* **Nível de Significância (α):** Limite para decisão (ex: 5%).
* **Rejeitar H0:** p-valor < α. Evidências a favor de H1.
* **Não Rejeitar H0:** p-valor ≥ α. Evidências insuficientes.
* **Erro Tipo I:** Rejeitar H0 quando ela é verdadeira. (Falso positivo).
* **Erro Tipo II:** Não rejeitar H0 quando ela é falsa. (Falso negativo).

<br>

---

### Material Complementar

**Questões de Múltipla Escolha:**

1. Qual a melhor definição para um Teste de Hipótese?
    a) Um método para descrever a distribuição de uma variável.
    b) Um processo para coletar dados de uma população.
    c) Um procedimento para calcular a média e o desvio padrão de uma amostra.
    d) Uma ferramenta estatística para determinar se há evidências suficientes para rejeitar uma hipótese sobre um parâmetro populacional.

<br>

2. O que é a Hipótese Alternativa (H1)?
    a) A crença atual sobre o parâmetro populacional.
    b) A hipótese que você tenta refutar.
    c) A ideia ou mudança que você está testando.
    d) A probabilidade de observar o resultado obtido.

<br>

3. Qual a interpretação de um p-valor menor que o nível de significância (α)?
    a) Há evidências insuficientes para rejeitar a hipótese nula.
    b) Há evidências suficientes para rejeitar a hipótese nula.
    c) A hipótese nula é verdadeira.
    d) A hipótese alternativa é falsa.

<br>

4. O que caracteriza um Erro Tipo II?
    a) Rejeitar a hipótese nula quando ela é verdadeira.
    b) Não rejeitar a hipótese nula quando ela é falsa.
    c) Escolher um nível de significância muito baixo.
    d) Coletar uma amostra muito grande.

<br>

5. Qual das situações abaixo NÃO é uma aplicação típica de Testes de Hipótese?
    a) Testar se um novo layout de site aumenta o tempo de navegação dos usuários.
    b) Avaliar se a performance de um modelo preditivo é significativamente melhor com um novo algoritmo.
    c) Determinar a média e o desvio padrão da altura de uma população.
    d) Verificar se há uma correlação significativa entre o investimento em marketing e o número de vendas.

<br>

**Exercícios Práticos de Python (Opcional):**

* Simule um experimento A/B em Python, gerando dados para dois grupos com médias ligeiramente diferentes.
* Utilize a biblioteca `statsmodels` para realizar um teste t de Student para comparar as médias dos grupos.
* Varie o tamanho das amostras e observe como isso impacta o p-valor e a sua decisão.
* Calcule o poder estatístico do seu teste, que é a probabilidade de rejeitar corretamente a hipótese nula quando ela é falsa.

````
