<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Teste_de_hip%C3%B3tese_e_intervalo_de_confian%C3%A7a_para_m%C3%A9dias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Teste de hipótese e intervalo de confiança para médias e proporções**

Vamos entender alguns tópicos importantes sobre testes de hipóteses e sua aplicação.

## **O que são Testes de Hipóteses e Intervalos de Confiança?**



- Um teste de hipóteses é um procedimento estatístico utilizado para tomar decisões sobre uma afirmação feita a respeito de um parâmetro de interesse em uma população.

- Enquanto isso, um intervalo de confiança é uma faixa de valores que provavelmente contém o verdadeiro valor de um parâmetro desconhecido.

## **Níveis de Significância e Região Crítica**

Ao realizar um teste de hipóteses, estabelecemos um nível de significância ($\alpha$), que representa a probabilidade de cometer um erro do Tipo I, ou seja, rejeitar a hipótese nula quando ela é verdadeira. A região crítica é a área da distribuição amostral na qual rejeitamos a hipótese nula se a estatística de teste cair dentro dela.

## **Testes de Hipóteses e Intervalos de Confiança para Médias**

Os testes de hipóteses e os intervalos de confiança para médias são amplamente utilizados para fazer inferências sobre a média populacional com base em uma amostra.

### Intervalo de confiança para médias quando o **desvio-padrão populacional é conhecido**

No caso em que tivermos uma situação onde o desvio padrão populacional é conhecido, a distribuição é bem próxima a uma normal e os dados foram coletados de forma aleatória, poderemos utilizar a distribuição z para criarmos um intervalo de confiança.

Mas antes precisamos estar com cientes de alguns topicos como por exemplo:

**Erro padrão**: Que nada mais é que a maior distancia entre a estimativa pontual e o valor que esta sendo estimado, para realizar esse calculo seguiremos a seguinte formula:

- $EP = σ / √n$

Onde:

σ é o desvio padrão populacional conhecido

n é o tamanho da amostra

E então podemos para obtermos o **intervalo de confiança**:

- $IC = x̄ ± z * EP$

Onde:

x̄ é a média amostral

z é o valor crítico da distribuição normal padrão para o nível de confiança desejado

EP é o erro padrão


**Exemplo**:

O diretor de admissões de uma faculdade deseja estimar a idade média de todos os estudantes matriculados. Em uma amostra aleatória de 20 estudantes, a média amostral é de 22,9 anos e a distribuição dos dados é normal. De estudos anteriores, o desvio padrão populacional conhecido é de 1,5 ano e a população é normalmente distribuída. Construa um intervalo de confiança de 90% para a idade média da população.

**Resposta**:

Aqui podemos observar que os dados estão normalmente distribuídos e conhecemos a média populacional. Podemos também notar que a amostra é aleatória, logo podemos utilizar o intervalo de confiança z.

Agora vamos calcular o erro padrão.

In [12]:
# Funções matématicas
from math import sqrt

# Calculando o erro padrão
erro_padrao = 1.5 / sqrt(20)

Como sabemos que a nossa distribuição é normal, vamos importar a seguinte biblioteca para nos auxiliar.

In [None]:
# Importando a função norm
from scipy.stats import norm

A função norm é utilizada para calcular o intervalo de confiança para uma distribuição normal. Agora, podemos partir para o cálculo propriamente dito.

In [14]:
# Calculando o intervalo de confiança
intervalo_confianca = norm.interval(confidence=0.95, loc=22.9, scale=erro_padrao)

# Exibindo o intervalo
print(f"Intervalo de confiança: {intervalo_confianca}")

Intervalo de confiança: (22.24260809456756, 23.557391905432436)


Logo, podemos afirmar com 95% de confiança que a média dos estudantes está entre 22,2 e 23,5 anos.



### Intervalo de confiança para médias quando o **desvio-padrão populacional é desconhecido**

Antes de tudo, vamos entender um pouco sobre a distribuição t de Student.

O teste t de Student é usado para testar se a média de uma única amostra difere significativamente da média de uma população ou de um valor de referência conhecido.

**Quando utilizar o Teste T de Student?**

-  Quando você tem duas amostras independentes e deseja determinar se as médias das duas populações das quais as amostras foram retiradas são significativamente diferentes. Por exemplo, você pode usar o teste t de Student para comparar as médias de altura entre homens e mulheres.

-  Quando o tamanho da amostra é pequeno (geralmente menos de 30) e a distribuição das pontuações é aproximadamente normal.

O passo a passo para calcular o intervalo de confiança utilizando a distribuição t é bastante similar ao da distribuição z.

Primeiro, vamos calcular o **erro padrão**:

- $E = t_c * s / √n$

Onde:

E: Erro padrão da média

t_c: Valor crítico da distribuição t de Student com n-1 graus de liberdade e nível de confiança 1-α/2

s: Desvio padrão da amostra

n: Tamanho da amostra

Em seguida, podemos calcular o **intervalo de confiança**:

- $IC = X̄ ± t_c * s / √n$

Onde:

IC: Intervalo de confiança

X̄: Média da amostra

t_c: Valor crítico da distribuição t de Student com n-1 graus de liberdade e nível de confiança 1-α/2

s: Desvio padrão da amostra

n: Tamanho da amostra

Dito isso, vamos a um exemplo:

Você seleciona aleatoriamente 16 cafeterias e mede a temperatura do café vendido em cada uma delas. A temperatura média da amostra é de 162,0°F (Fahrenheit) com desvio padrão de 10,0°F. Construa um intervalo de confiança de 95% para a temperatura média da população de cafés vendidos. Suponha que as temperaturas tenham uma distribuição aproximadamente normal.

**Resposta**:

Temos um desvio padrão populacional desconhecido, uma amostra aleatória e uma distribuição que se aproxima de uma normal. Portanto, podemos utilizar a distribuição t.

Agora, vamos calcular o erro padrão.

In [15]:
# Funções matématicas
from math import sqrt
import scipy.stats as st

# Calculando o erro padrão
erro_padrao = 10 / sqrt(16)

Agora que já temos o erro padrão, vamos seguir para o cálculo dos intervalos de confiança.

In [16]:
# Criando o objeto da distribuição
distribuicao_t = st.t(df=15, loc=162.0, scale=erro_padrao)

# Calculando o intervalo de confiança
intervalo_confianca = distribuicao_t.interval(confidence=0.95)

# Exibindo o resultado
print(f"Intervalo de confiança: {intervalo_confianca}")

Intervalo de confiança: (156.67137613610169, 167.32862386389831)


Dessa forma, podemos afirmar que temos 95% de confiança de que a temperatura média dos cafés vendidos está entre 156,67°F e 167,32°F.