# Resumo Integrado sobre Teste de Hip√≥tese

<br>

## Aula 01: Teste de Hip√≥tese - O Que √©?

Lorenzo, prepare-se para dominar o mundo dos Testes de Hip√≥tese! üí™ Nesta aula, vamos desvendar os mist√©rios por tr√°s dessa ferramenta essencial para Data Science, com exemplos visuais e pr√°ticos que te far√£o um mestre na tomada de decis√µes estrat√©gicas.

<br>

### Introdu√ß√£o

Em Data Science, tomar decis√µes baseadas em dados √© crucial para o sucesso. √â aqui que os Testes de Hip√≥tese entram em cena, fornecendo uma estrutura robusta para avaliar ideias e tomar decis√µes informadas, evitando achismos e intui√ß√µes falhas.

<br>

### O Que √© um Teste de Hip√≥tese?

Imagine que voc√™ √© um cientista de dados em uma grande empresa de e-commerce e tem uma ideia brilhante: "Se mudarmos a cor do bot√£o 'Comprar' de vermelho para amarelo, as vendas aumentar√£o!" ü§Ø

Como saber se sua ideia √© realmente genial ou apenas um del√≠rio? ü§î A resposta est√° em realizar um Teste de Hip√≥tese!

Um Teste de Hip√≥tese √© um processo formal que utiliza dados amostrais para determinar se h√° evid√™ncias suficientes para **rejeitar ou n√£o** uma hip√≥tese sobre um par√¢metro populacional. Em outras palavras, √© uma maneira de usar estat√≠stica para validar (ou invalidar) suas ideias.

<br>

### Objetivo do Teste de Hip√≥tese

O objetivo principal √© decidir se uma hip√≥tese sobre um par√¢metro populacional (ex: a m√©dia de vendas, a propor√ß√£o de usu√°rios que clicam em um an√∫ncio) √© verdadeira ou n√£o, utilizando os dados amostrais do resultado de um experimento.

<br>

### Exemplos de Aplica√ß√µes de Testes de Hip√≥tese

* **Marketing:** Testar se um novo design de an√∫ncio leva a uma taxa de cliques maior.
* **Medicina:** Avaliar se um novo medicamento √© mais eficaz do que o tratamento padr√£o.
* **Engenharia:** Verificar se uma nova vers√£o de um software tem menos bugs do que a vers√£o anterior.
* **Finan√ßas:** Determinar se uma nova estrat√©gia de investimento gera retornos significativamente maiores.

<br>

### Elementos-Chave

1. **Hip√≥tese Nula (H0):** Representa o status quo, a cren√ßa atual sobre o par√¢metro populacional. √â a hip√≥tese que voc√™ tenta **refutar** no teste.
    * **Exemplos de H0:**
        * "N√£o h√° diferen√ßa na taxa de cliques entre o design antigo e o novo do an√∫ncio".
        * "O novo medicamento n√£o √© mais eficaz que o tratamento padr√£o".
        * "A nova vers√£o do software n√£o tem menos bugs".
        * "A nova estrat√©gia de investimento n√£o gera retornos maiores".

<br>

2. **Hip√≥tese Alternativa (H1):** Representa a sua ideia, a mudan√ßa que voc√™ est√° testando. √â a hip√≥tese que voc√™ quer **comprovar**.
    * **Exemplos de H1:**
        * "O novo design de an√∫ncio leva a uma taxa de cliques maior".
        * "O novo medicamento √© mais eficaz que o tratamento padr√£o".
        * "A nova vers√£o do software tem menos bugs".
        * "A nova estrat√©gia de investimento gera retornos significativamente maiores".

<br>

### Como Funciona um Teste de Hip√≥tese (Exemplo Pr√°tico)

1. **Definir as Hip√≥teses:** Comece definindo a hip√≥tese nula (H0) que representa a situa√ß√£o atual e a hip√≥tese alternativa (H1), que √© a sua ideia a ser testada. No exemplo do bot√£o de compra, a H0 seria: "A cor do bot√£o n√£o impacta as vendas" e a H1: "Mudar a cor para amarelo aumenta as vendas."

<br>

2. **Coletar Dados:** Para testar a hip√≥tese, voc√™ precisa coletar dados relevantes. No nosso exemplo, voc√™ dividiria os usu√°rios do seu site em dois grupos: um **grupo de controle**, que continua vendo o bot√£o vermelho, e um **grupo variante**, que ver√° o bot√£o amarelo. Colete dados de vendas de ambos os grupos por um per√≠odo de tempo.

<br>

3. **Analisar os Dados:** Ap√≥s coletar os dados, voc√™ utiliza testes estat√≠sticos (como o teste t de Student para comparar m√©dias ou o teste qui-quadrado para comparar propor√ß√µes) para analisar a diferen√ßa entre as vendas dos dois grupos. Essa an√°lise te dar√° um **p-valor**, que representa a probabilidade de observar a diferen√ßa encontrada (ou uma diferen√ßa ainda maior) entre os grupos, *assumindo que a hip√≥tese nula √© verdadeira*.

```python
from scipy.stats import ttest_ind

# Exemplo de an√°lise de dados
vendas_vermelho = [20, 22, 21, 23, 19, 24, 22]
vendas_amarelo = [25, 26, 27, 24, 25, 28, 26]

t_stat, p_value = ttest_ind(vendas_vermelho, vendas_amarelo)
print(f"T-statistic: {t_stat}, P-value: {p_value}")
```

<br>

4. **Tomar a Decis√£o:** Com o p-valor em m√£os, voc√™ compara ele com um **n√≠vel de signific√¢ncia (Œ±)** pr√©-definido, geralmente 5%.
    * **Se p-valor < Œ±:** Rejeitamos a hip√≥tese nula! ü•≥ A probabilidade de ter observado a diferen√ßa por puro acaso √© muito baixa, sugerindo que sua ideia (H1) tem fundamento.
    * **Se p-valor ‚â• Œ±:** N√£o rejeitamos a hip√≥tese nula. üòî N√£o h√° evid√™ncias suficientes para afirmar que a mudan√ßa teve efeito.

<br>

### Visualizando os Resultados

Lorenzo, voc√™ prefere exemplos visuais, ent√£o imagine um gr√°fico mostrando as vendas dos dois grupos. Se a diferen√ßa for grande e o p-valor baixo, o gr√°fico mostrar√° claramente que o grupo com o bot√£o amarelo teve mais vendas. Essa visualiza√ß√£o te ajuda a entender o impacto da sua mudan√ßa de forma clara e r√°pida!

<br>

### Erros em Testes de Hip√≥tese

Mesmo com todo esse rigor, ainda existe a chance de cometermos erros:

1. **Erro Tipo I (Falso Positivo):** √â como condenar um inocente. Voc√™ rejeita a H0, acreditando que sua ideia funcionou, mas na verdade a diferen√ßa observada foi por acaso.
    * **Exemplo:** Voc√™ conclui que o novo design do an√∫ncio aumenta a taxa de cliques, mas na verdade, a diferen√ßa observada foi apenas uma flutua√ß√£o aleat√≥ria nos dados.

<br>

2. **Erro Tipo II (Falso Negativo):** √â como deixar um culpado escapar. Voc√™ n√£o rejeita a H0, achando que sua ideia n√£o teve efeito, mas na verdade ela teve, s√≥ que os dados n√£o foram suficientes para mostrar isso.
    * **Exemplo:** Voc√™ conclui que o novo medicamento n√£o √© mais eficaz, mas na verdade, ele √© sim, s√≥ que a amostra de pacientes utilizada no estudo era muito pequena para detectar a diferen√ßa real.

<br>

### Exemplo Adicional

Digamos que voc√™ trabalha em uma startup de delivery de comida e quer testar se um novo sistema de recomenda√ß√£o de restaurantes aumenta o n√∫mero de pedidos por usu√°rio.
* **H0:** "O novo sistema n√£o impacta o n√∫mero de pedidos".
* **H1:** "O novo sistema aumenta o n√∫mero de pedidos".

Voc√™ coleta dados de dois grupos de usu√°rios, um usando o sistema antigo (grupo controle) e outro o novo (grupo variante), e analisa estatisticamente os resultados para tomar a decis√£o. Se o p-valor for baixo, voc√™ poder√° ter mais confian√ßa em lan√ßar o novo sistema para todos os usu√°rios. üöÄ

```python
import numpy as np
from scipy.stats import ttest_ind

# Simula√ß√£o de dados de pedidos
pedidos_controle = np.random.normal(10, 2, 100)
pedidos_variante = np.random.normal(12, 2, 100)

t_stat, p_value = ttest_ind(pedidos_controle, pedidos_variante)
print(f"T-statistic: {t_stat}, P-value: {p_value}")
```

<br>

----

## Aula 02: Teste de Hip√≥tese - Teste de M√©dias

Lorenzo, vamos continuar nossa jornada √©pica no mundo dos Testes de Hip√≥tese! üöÄ Desta vez, vamos nos aprofundar no Teste de M√©dias, uma ferramenta poderosa para comparar grupos e descobrir se existem diferen√ßas significativas entre eles. Prepare-se para exemplos pr√°ticos e insights que te far√£o um expert em an√°lise de dados!

<br>

### Introdu√ß√£o

Imagine que voc√™ precisa determinar se um novo tratamento m√©dico √© realmente eficaz, ou se uma campanha de marketing teve impacto nas vendas. Comparar m√©dias √© uma das formas mais comuns de analisar dados e descobrir se as diferen√ßas observadas s√£o fruto do acaso ou se realmente refletem um efeito real. O Teste de M√©dias te d√° a base estat√≠stica para tomar essa decis√£o com confian√ßa!

<br>

### Teorema Central do Limite: A Base do Teste de M√©dias

Antes de mergulharmos no teste em si, √© importante relembrar o **Teorema Central do Limite**. Ele nos diz que, para amostras suficientemente grandes, a distribui√ß√£o da m√©dia amostral se aproxima de uma **distribui√ß√£o normal**, independentemente da distribui√ß√£o original dos dados. Essa √© a base para o Teste de M√©dias, pois ele assume que as m√©dias amostrais seguem uma distribui√ß√£o

 normal.

**Exemplo:** Imagine que voc√™ quer estudar a altura dos estudantes de uma universidade. Mesmo que a distribui√ß√£o da altura de todos os estudantes n√£o seja perfeitamente normal, se voc√™ coletar amostras grandes o suficiente e calcular a m√©dia de cada amostra, a distribui√ß√£o dessas m√©dias amostrais ser√° aproximadamente normal.

<br>

### Construindo um Teste de M√©dias

**Exemplo Pr√°tico: Dura√ß√£o de Filmes de Drama vs. Com√©dia na Netflix**

Vamos imaginar que voc√™ trabalha na Netflix e quer investigar se a **dura√ß√£o m√©dia** dos filmes de drama √© diferente da dura√ß√£o m√©dia dos filmes de com√©dia.

<br>

**1. Definir as Hip√≥teses:**

* **H0:** "N√£o h√° diferen√ßa na dura√ß√£o m√©dia dos filmes de drama e com√©dia".
* **H1:** "A dura√ß√£o m√©dia dos filmes de drama √© diferente da dura√ß√£o m√©dia dos filmes de com√©dia".

<br>

**2. Coletar os Dados:**

Voc√™ coleta dados da Netflix sobre a dura√ß√£o de uma amostra grande de filmes de drama e uma amostra grande de filmes de com√©dia.

<br>

**3. Criar uma Nova Vari√°vel:**

Para facilitar a compara√ß√£o, voc√™ cria uma nova vari√°vel que representa a **diferen√ßa** entre as m√©dias das duas amostras: `diferenca_media = media_drama - media_comedia`.

<br>

**4. Entender a Distribui√ß√£o da Diferen√ßa:**

Se a hip√≥tese nula (H0) for verdadeira, ou seja, se n√£o houver diferen√ßa real na dura√ß√£o m√©dia dos filmes, a **m√©dia da vari√°vel "diferenca_media" ser√° igual a zero**.

<br>

**5. Escolher a Distribui√ß√£o de Teste:**

* **Se a vari√¢ncia da popula√ß√£o for conhecida:** Utilizamos a distribui√ß√£o normal para o teste.
* **Se a vari√¢ncia da popula√ß√£o for desconhecida:** Utilizamos a distribui√ß√£o t de Student para o teste. Como geralmente n√£o conhecemos a vari√¢ncia da popula√ß√£o, o teste t √© mais utilizado na pr√°tica.

<br>

**6. Calcular a Estat√≠stica de Teste e o p-valor:**

Utilizando os dados coletados e a distribui√ß√£o de teste escolhida, voc√™ calcula a estat√≠stica de teste e o p-valor. O **p-valor** representa a probabilidade de observar uma diferen√ßa t√£o extrema quanto a encontrada (ou mais extrema) entre as m√©dias dos grupos, **assumindo que a hip√≥tese nula √© verdadeira.**

```python
import scipy.stats as stats

# Dados de dura√ß√£o de filmes
duracao_drama = [120, 150, 130, 145, 160, 155, 140]
duracao_comedia = [95, 100, 105, 110, 98, 102, 108]

t_stat, p_value = stats.ttest_ind(duracao_drama, duracao_comedia)
print(f"T-statistic: {t_stat}, P-value: {p_value}")
```

<br>

**7. Tomar a Decis√£o:**

Voc√™ define um **n√≠vel de signific√¢ncia (Œ±)**, geralmente 5% (0.05).

* **Se p-valor < Œ±:** Rejeitamos a hip√≥tese nula (H0), pois a probabilidade de ter observado a diferen√ßa por puro acaso √© muito baixa, sugerindo que a dura√ß√£o m√©dia dos filmes de drama √© realmente diferente da dura√ß√£o m√©dia dos filmes de com√©dia.
* **Se p-valor ‚â• Œ±:** N√£o rejeitamos a hip√≥tese nula (H0), pois n√£o h√° evid√™ncias suficientes para afirmar que existe uma diferen√ßa real na dura√ß√£o m√©dia dos dois g√™neros de filmes.

<br>

### Visualizando os Resultados

Para facilitar a compreens√£o, voc√™ pode visualizar as distribui√ß√µes das dura√ß√µes dos filmes de drama e com√©dia em um histograma. Se as m√©dias forem realmente diferentes, os histogramas mostrar√£o picos em pontos distintos.

<br>

### Observa√ß√£o Importante

√â importante lembrar que o teste de m√©dias √© mais confi√°vel quando a distribui√ß√£o dos dados √© sim√©trica. Para dados muito assim√©tricos, a m√©dia pode n√£o ser a melhor medida de tend√™ncia central, e outras medidas como a mediana ou a moda podem ser mais informativas.

<br>

----

## Aula 03: Teste de Hip√≥tese - Teste de Propor√ß√µes

### Introdu√ß√£o

O teste de propor√ß√µes √© uma ferramenta poderosa para testar hip√≥teses sobre propor√ß√µes em uma popula√ß√£o. √â frequentemente utilizado para comparar propor√ß√µes em diferentes grupos ou para testar se uma propor√ß√£o amostral difere de uma propor√ß√£o conhecida.

<br>

### Tipos de Testes

* **Teste de propor√ß√µes para uma amostra:** Compara a propor√ß√£o de uma amostra com uma propor√ß√£o conhecida.
* **Teste de propor√ß√µes para duas amostras:** Compara as propor√ß√µes de duas amostras independentes.

<br>

### Exemplo Pr√°tico

**Teste de Propor√ß√µes para Uma Amostra:**

Imagine que voc√™ quer testar se a propor√ß√£o de usu√°rios que clicam em um novo an√∫ncio √© diferente de 30%. Voc√™ realiza o teste de propor√ß√µes com os seguintes dados:

```python
from statsmodels.stats.proportion import proportions_ztest

count = 30  # n√∫mero de sucessos
nobs = 100  # tamanho da amostra
value = 0.3  # propor√ß√£o esperada

stat, p_value = proportions_ztest(count, nobs, value)
print(f"Z-statistic: {stat}, P-value: {p_value}")
```

<br>

----

## Aula 04: Teste de Hip√≥tese - Experimenta√ß√£o Online

### Introdu√ß√£o

Testes A/B s√£o comumente usados para experimenta√ß√£o online. Comparam duas vers√µes de uma vari√°vel para determinar qual desempenho √© melhor.

<br>

### Metodologia

1. **Defini√ß√£o de Hip√≥teses:** H0 e H1.
2. **Divis√£o de Grupos:** Controle e tratamento.
3. **Coleta de Dados:** Monitoramento das intera√ß√µes.
4. **An√°lise Estat√≠stica:** Teste de hip√≥tese para determinar a efic√°cia da altera√ß√£o.

<br>

### Exemplo Pr√°tico

**Teste A/B:**

```python
import numpy as np
from scipy.stats import ttest_ind

# Simula√ß√£o de dados de grupos A e B
grupo_A = np.random.normal(0.5, 0.1, 100)
grupo_B = np.random.normal(0.6, 0.1, 100)

stat, p_value = ttest_ind(grupo_A, grupo_B)
print(f"T-statistic: {stat}, P-value: {p_value}")
```

<br>

---

## Aula 05: Teste de Hip√≥tese - Outros Testes de Hip√≥tese

### Introdu√ß√£o

Al√©m dos testes de m√©dias e propor√ß√µes, existem outros testes importantes, como o teste qui-quadrado e o teste de correla√ß√£o.

<br>

### Teste Qui-Quadrado

Utilizado para testar a associa√ß√£o entre vari√°veis categ√≥ricas.

<br>

### Exemplo Pr√°tico

**Teste Qui-Quadrado:**

```python
import pandas as pd
from scipy.stats import chi2_contingency

data = {'A': [10, 20, 30], 'B': [20, 30, 40]}
df = pd.DataFrame(data, columns=['A', 'B'])
chi2, p, dof, ex = chi2_contingency(df)
print(f"Chi2: {chi2}, P-value: {p}")
```

<br>

## Aula 06: Teste de Hip√≥tese - Material Adicional

### Materiais Adicionais

* Slides da aula, leituras recomendadas, e links para ferramentas online de teste de hip√≥tese.

<br>

----

### Mapa Mental

**Teste de Hip√≥tese:**

* **Objetivo:** Decidir se uma hip√≥tese sobre um par√¢metro populacional √© verdadeira ou n√£o, com base em dados amostrais.
    * **Exemplos de Aplica√ß√µes:**
        * Marketing (Testar efic√°cia de an√∫ncios)
        * Medicina (Avaliar novos medicamentos)
        * Engenharia (Verificar bugs em software)
        * Finan√ßas (Analisar estrat√©gias de investimento)

<br>

* **Elementos-Chave:**
    * **Hip√≥tese Nula (H0):**  
        * Representa a situa√ß√£o atual (status quo).
        * Objetivo: Refutar a hip√≥tese.
        * **Exemplos:** "N√£o h√° diferen√ßa...", "O novo tratamento n√£o √© mais eficaz..."
    * **Hip√≥tese Alternativa (H1):**
        * Representa a ideia a ser testada.
        * Objetivo: Comprovar a hip√≥tese.
        * **Exemplos:** "O novo design aumenta as vendas", "O medicamento √© mais eficaz..."

<br>

* **Etapas do Teste:**
    1. **Definir as Hip√≥teses:** H0 e H1.
    2. **Coletar Dados:** Grupo Controle e Grupo Variante.
    3. **Analisar os Dados:** Utilizar testes estat√≠sticos (ex: teste t, teste qui-quadrado) e obter o p-valor.
    4. **Tomar a Decis√£o:**
        * **p-valor < Œ±:** Rejeitar H0 (evid√™ncias a favor de H1).
        * **p-valor ‚â• Œ±:** N√£o Rejeitar H0 (evid√™ncias insuficientes).

<br>

* **Erros:**
    * **Tipo I (Falso Positivo):** Rejeitar H0 quando ela √© verdadeira.
    * **Tipo II (Falso Negativo):** N√£o rejeitar H0 quando ela √© falsa.

<br>

----

### Resumo para Revis√£o

* **Teste de Hip√≥tese:** Ferramenta estat√≠stica para validar ideias.
* **H0:** Situa√ß√£o atual. Objetivo: refutar.
* **H1:** Ideia a ser testada. Objetivo: comprovar.
* **p-valor:** Probabilidade do resultado observado (ou mais extremo), assumindo que H0 √© verdadeira.
* **N√≠vel de Signific√¢ncia (Œ±):** Limite para decis√£o (ex: 5%).
* **Rejeitar H0:** p-valor < Œ±. Evid√™ncias a favor de H1.
* **N√£o Rejeitar H0:** p-valor ‚â• Œ±. Evid√™ncias insuficientes.
* **Erro Tipo I:** Rejeitar H0 quando ela √© verdadeira. (Falso positivo).
* **Erro Tipo II:** N√£o rejeitar H0 quando ela √© falsa. (Falso negativo).

<br>

---

### Material Complementar

**Quest√µes de M√∫ltipla Escolha:**

1. Qual a melhor defini√ß√£o para um Teste de Hip√≥tese?
    a) Um m√©todo para descrever a distribui√ß√£o de uma vari√°vel.
    b) Um processo para coletar dados de uma popula√ß√£o.
    c) Um procedimento para calcular a m√©dia e o desvio padr√£o de uma amostra.
    d) Uma ferramenta estat√≠stica para determinar se h√° evid√™ncias suficientes para rejeitar uma hip√≥tese sobre um par√¢metro populacional.

<br>

2. O que √© a Hip√≥tese Alternativa (H1)?
    a) A cren√ßa atual sobre o par√¢metro populacional.
    b) A hip√≥tese que voc√™ tenta refutar.
    c) A ideia ou mudan√ßa que voc√™ est√° testando.
    d) A probabilidade de observar o resultado obtido.

<br>

3. Qual a interpreta√ß√£o de um p-valor menor que o n√≠vel de signific√¢ncia (Œ±)?
    a) H√° evid√™ncias insuficientes para rejeitar a hip√≥tese nula.
    b) H√° evid√™ncias suficientes para rejeitar a hip√≥tese nula.
    c) A hip√≥tese nula √© verdadeira.
    d) A hip√≥tese alternativa √© falsa.

<br>

4. O que caracteriza um Erro Tipo II?
    a) Rejeitar a hip√≥tese nula quando ela √© verdadeira.
    b) N√£o rejeitar a hip√≥tese nula quando ela √© falsa.
    c) Escolher um n√≠vel de signific√¢ncia muito baixo.
    d) Coletar uma amostra muito grande.

<br>

5. Qual das situa√ß√µes abaixo N√ÉO √© uma aplica√ß√£o t√≠pica de Testes de Hip√≥tese?
    a) Testar se um novo layout de site aumenta o tempo de navega√ß√£o dos usu√°rios.
    b) Avaliar se a performance de um modelo preditivo √© significativamente melhor com um novo algoritmo.
    c) Determinar a m√©dia e o desvio padr√£o da altura de uma popula√ß√£o.
    d) Verificar se h√° uma correla√ß√£o significativa entre o investimento em marketing e o n√∫mero de vendas.

<br>

**Exerc√≠cios Pr√°ticos de Python (Opcional):**

* Simule um experimento A/B em Python, gerando dados para dois grupos com m√©dias ligeiramente diferentes.
* Utilize a biblioteca `statsmodels` para realizar um teste t de Student para comparar as m√©dias dos grupos.
* Varie o tamanho das amostras e observe como isso impacta o p-valor e a sua decis√£o.
* Calcule o poder estat√≠stico do seu teste, que √© a probabilidade de rejeitar corretamente a hip√≥tese nula quando ela √© falsa.

````
