<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Teste_de_Hip%C3%B3tese_e_intervalo_de_confian%C3%A7a_para_vari%C3%A2ncia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Intervalo de confiança para variância e desvio padrão (1 amostra)**

**Breve Resumo:**
Um intervalo de confiança para a variância de uma população com base em uma amostra única de dados nos fornece uma faixa de valores plausíveis para a variância populacional com um certo nível de confiança.

Quando Utilizar:

Quando desejamos fazer inferências sobre a variabilidade de uma população com base em uma amostra.
Quando queremos especificar um nível de confiança para a estimativa da variância populacional.

Fórmula do Intervalo de Confiança: $
\left( \frac{{(n - 1) \cdot s^2}}{{\chi_{\alpha/2}^2}}, \frac{{(n - 1) \cdot s^2}}{{\chi_{1 - \alpha/2}^2}} \right)$

Onde:

- **n** é o tamanho da amostra.

- **s²** é a variância amostral.

- **χ²/₂²** é o quantil da distribuição qui-quadrado com **n-1** graus de liberdade para o nível de significância **α/2**.

- **χ₁₋α/₂²** é o quantil da distribuição qui-quadrado com **n-1** graus de liberdade para o complemento do nível de significância **1-α/2**.


Vamos observar um exemplo para tentarmos entender melhor

**Exemplo:** Encontre os valores críticos χ²R e χ²L para um intervalo de confiança
de 95% quando o tamanho da amostra é 18.

Primeiramente, vamos começar importando algumas bibliotecas necessárias.

In [None]:
# Importando o qui quadrado
from scipy.stats import chi2

Agora podemos partir para a parte do cálculo propriamente dito.

In [None]:
# Dados do problema
n = 18  # Tamanho da amostra

# Graus de liberdade para a distribuição qui-quadrado
df = n - 1

# Nível de confiança
confianca = 0.95

# Intervalo de confiança para a variância
intervalo_variancia = stats.chi2.interval(confianca, df)

# Definindo os valores criticos
crit_superior = intervalo_variancia[1]
crit_inferior = intervalo_variancia[0]

# Exibindo os valores
print(f"χ²R = {crit_superior}, χ²L = {crit_inferior}")

χ²R = 30.19100912163982, χ²L = 7.56418644957757


Dessa forma, conseguimos obter os valores críticos que são bem importantes para definirmos os limites. Vamos observar em outro exemplo.

**Exemplo:** Você seleciona aleatoriamente e pesa as 30 unidades de uma
amostra de um antialérgico. O desvio padrão da amostra é de 1,20 miligramas.
Supondo que os pesos são normalmente distribuídos, construa intervalos de
confiança de 99% para a variância e o desvio padrão da população.

Vamos realizar as importações necessárias.

In [None]:
# Funções matématicas
import numpy as np
import scipy.stats as stats

# Importando o qui quadrado
from scipy.stats import chi2

In [None]:
# Dados do problema
n = 30  # Tamanho da amostra
s = 1.20  # Desvio padrão da amostra
confianca = 0.99  # Nível de confiança

# Graus de liberdade para a distribuição qui-quadrado
df = n - 1

Agora que já temos os dados definidos, vamos abordar o restante dos problemas por etapas:

- Vamos definir os valores críticos.
- Calcular os limites para o intervalo.
- Calcular os limites para o desvio padrão amostral.

**Definindo os valores**

In [None]:
# Intervalo de confiança para a variância
intervalo_variancia = stats.chi2.interval(confianca, df)

# Definindo os valores criticos
crit_superior = intervalo_variancia[1]
crit_inferior = intervalo_variancia[0]

# Exibindo os valores
print(f"χ²R = {crit_superior}, χ²L = {crit_inferior}")

χ²R = 52.335617785933614, χ²L = 13.121148887960413


Para **calcular os limites inferiores e superiores do intervalo de confiança para a variância populacional**, aplicamos a raiz quadrada nos limites inferiores e superiores da variância, pois o desvio padrão é a raiz quadrada da variância. Portanto, as fórmulas são:

$
\text{Limite Inferior} = \frac{(n - 1) \times s^2}{\text{valor crítico superior}}
$

$
\text{Limite Superior} = \frac{(n - 1) \times s^2}{\text{valor crítico inferior}}
$

onde:
- \(n\) é o tamanho da amostra,
- \(s\) é o desvio padrão da amostra, e
- os valores críticos superior e inferior são obtidos a partir da distribuição qui-quadrado com \(n - 1\) graus de liberdade e um determinado nível de confiança.

Para **calcular os limites inferiores e superiores do intervalo de confiança para o desvio padrão populacional**, aplicamos a raiz quadrada nos limites inferiores e superiores da variância, pois o desvio padrão é a raiz quadrada da variância. Portanto, as fórmulas são:

$
\text{Limite Inferior do Desvio Padrão} = \sqrt{\text{Limite Inferior da Variância}}
$

$
\text{Limite Superior do Desvio Padrão} = \sqrt{\text{Limite Superior da Variância}}
$

onde:
- \(n\) é o tamanho da amostra,
- \(s\) é o desvio padrão amostral, e
- os valores críticos superior e inferior são obtidos a partir da distribuição qui-quadrado com \(n - 1\) graus de liberdade e um determinado nível de confiança.


In [None]:
# Lmites para a variância
limite_inferior_variancia = (n - 1) * s**2 / crit_superior
limite_superior_variancia = (n - 1) * s**2 / crit_inferior

# Limites para o desvio padrão
limite_inferior_desvio = np.sqrt(limite_inferior_variancia)
limite_superior_desvio = np.sqrt(limite_superior_variancia)

print("Intervalo de confiança para a variação populacional:", (limite_inferior_variancia, limite_superior_variancia))
print("Intervalo de confiança para o desvio padrão populacional:", (limite_inferior_desvio, limite_superior_desvio))

Intervalo de confiança para a variação populacional: (0.7979269523636721, 3.1826481321553914)
Intervalo de confiança para o desvio padrão populacional: (0.8932675704197887, 1.783997794885238)


Dessa forma, podemos afirmar que com 99% de confiança, podemos dizer que a variância populacional está entre 0,79 e 3,18, e o desvio padrão populacional entre 0,89 e 1,78 miligramas.

#**Teste de hipótese para a variância (1 amostra)**

**Objetivo:** Comparar a variância da amostra com uma variância hipotética.



**Fórmula:**

- $χ² = (n - 1) * s² / σ²$

**onde:**

- χ² é a estatística do teste, que segue uma distribuição qui-quadrado com n - 1 graus de liberdade.
- n é o tamanho da amostra.
- s² é a variância da amostra.
- σ² é a variância hipotética.

Formulação das Hipóteses

- Hipótese nula (H0): A variância da população é igual à variância hipotética (σ²).
- Hipótese alternativa (H1): A variância da população é diferente da variância hipotética (σ²).

Vamos observar um exemplo para entendermos melhor:

Uma empresa de processamento de laticínios afirma que a
variância da quantidade de gordura no leite integral processado por ela é não
mais que 0,25. Você suspeita que essa afirmação esteja errada e descobre que
uma amostra aleatória de 41 recipientes de leite tem um variância de 0,27.
Para um nível de significância a = 0,05, há evidência suficiente para rejeitar a
afirmação da empresa? Suponha que a população é normalmente
distribuída.

Resposta: Vamos começar definindo as hipóteses:

H0: gordura ≤ 0,25

Ha: gordura > 0,25

Estamos diante de um teste unicaudal à direita.

Agora vamos importar as bibliotecas necessárias.

In [None]:
# Funções estatísticas
import scipy.stats as stats

Agora podemos partir para o cálculo propriamente dito.

In [None]:
# Definindo os dados
n = 41 # Tamanho da amostra
s_amostra = 0.27 # Variância amostral
s_hipotetica = 0.25 # Variância afirmada pela empresa
alpha = 0.05 # Nível de significância
df = n - 1 # Graus de liberdade

# Calculando o valor do teste
valor_teste = (n - 1) * s_amostra  / s_hipotetica

# Exibindo o valor
print(valor_teste)

43.2


Agora vamos calcular o p-valor para fazermos as nossas comparações.

In [None]:
# Calculando o p-valor
p_valor = 1 - stats.chi2.cdf(valor_teste, df)

# Exibindo o p-valor
print("P-valor:", p_valor)

# Conclusões
if p_valor < alpha:
    print("Rejeitar H0: Há evidências suficientes para concluir que a gordura no leite é maior que 0.25")
else:
    print("Falha em rejeitar H0: Não existem evidências suficientes para concluir que a gordura no leite é maior que 0.25")

P-valor: 0.33622313346405086
Falha em rejeitar H0: Não existem evidências suficientes para concluir que a gordura no leite é maior que 0.25


De acordo com o nosso teste de hipótese e com um nível de significância de 0.05, falhamos em rejeitar a hipótese nula. Portanto, podemos concluir que não há evidências suficientes para afirmar que a quantidade de gordura no leite é maior que 0,25.

Vamos observar outro exemplo:

Um fabricante de artigos esportivos afirma que a variância da força de uma certa linha de pesca é de 15,9. Uma amostra aleatória de 15 rolos de linha tem uma variância de 21,8. Para um nível de significância de α = 0,05, há evidência suficiente para rejeitar a afirmação do fabricante? Suponha que a população é normalmente distribuída.

Vamos começar definindo as hipóteses:

H0: força da linha = 15,9

Ha: força da linha ≠ 15,9

Estamos diante de um teste bicaudal.

É importante lembrarmos que quando utilizamos o teste qui-quadrado é muito importante que trabalhemos com uma distribuição normal, ou pelo menos 40 elementos na amostra. Nesse caso, o problema já nos informa que temos uma população normalmente distribuída, então podemos seguir adiante.

Importando a biblioteca necessária.

In [None]:
# Funções estatísticas
import scipy.stats as stats

Partindo para os cálculos.

In [None]:
# Definindo os valores
n = 15 # Tamanho da amostra
s_amostra = 21.8 # Variância amostral
s_hipotetica = 15.9 # Variância afirmada
alpha = 0.05 # Nível de significância
df = n - 1 # Graus de liberdade

# Calculando o valor do teste
valor_teste = (n - 1) * s_amostra / s_hipotetica

# Exibindo o valor
print(valor_teste)

19.19496855345912


Agora vamos calcular o p-valor.

In [None]:
# Calculando o p-valor
p_valor = 2 * (1 - stats.chi2.cdf(valor_teste, df))

# Exibindo o p-valor
print("P-valor:", p_valor)

# Conclusões
if p_valor < alpha:
    print("Rejeitar H0: Há evidências suficientes para concluir que a variância da força da linha é diferente de 15,9.")
else:
    print("Falha em rejeitar H0: Não existem evidências suficientes para concluir que a variância da força da linha é diferente de 15,9.")

P-valor: 0.3152647436788134
Falha em rejeitar H0: Não existem evidências suficientes para concluir que a força da linha é diferente de 15,9.


Segundo nosso teste de hipótese com um nível de significância de 0,05, falhamos em rejeitar a hipótese nula. Portanto, não há evidências suficientes para rejeitar a afirmação de que a variância da força da linha de pesca é igual a 15,9.

#**Teste de hipótese para a variância (2 amostras)**

A fórmula do teste F é utilizada principalmente para comparar a variabilidade entre duas amostras. Ela é comumente empregada em testes de hipóteses para verificar se as variâncias de duas populações são estatisticamente iguais ou diferentes.

Dito isso essa é a fórmula do teste F:

- $F = s1^2 / s2^2$

Onde:

- $s1^2$ é a variância da primeira amostra.
- $s2^2$ é a variância da segunda amostra.

Necessariamente s1 é maior que s2 então será dessa forma que iremos identificar qual é a primeira amostra e qual a segunda

Vamos observar um exemplo


Você quer comprar ações em uma empresa e está decidindo entre duas
ações diferentes. Como o risco de uma ação pode estar associado ao desvio
padrão dos preços de fechamento diários, você seleciona aleatoriamente
amostras dos preços de fechamento diários para cada ação e obtém os
resultados mostrados na tabela abaixo. Com a = 0,05, você pode concluir que
uma das duas ações é um investimento mais arriscado? Suponha que os
preços de fechamento das ações são normalmente distribuídos.

A ação A apresenta os seguintes dados
- n2 = 30
- s2 = 3,5

A ação B apresenta os seguintes dados
- n1 = 31
- s1 = 5,7


Resposta: Vamos começar definindo nossas hipoteses

H0: risco ação A = risco ação B

Ha: risco ação A ≠ risco ação B

Estamos diante de um teste bicaudal

Como a ação B apresentou uma variancia maior ela será a nossa primeira amostra e ação A será a nossa segunda

Agora vamos partir para a importação das bibliotecas

In [15]:
# Funções matématicas
import numpy as np

# Teste f
import scipy.stats as stats

Agora vamos para o calculo propriamente dito

In [10]:
# Definindo os valores
# Ação A
n2 = 30 # Tamanho da amostra
s2 = 3.5 ** 2 # Variância
df2 = n2 - 1 # Graus de liberdade

# Ação B
n1 = 31 # Tamanho da amostra
s1 = 5.7 ** 2 # Variância
df1 = n1 - 1 # Graus de liberdade

# Calculando o F
F = s1 / s2

# Exibindo o valor
print(F)

2.652244897959184


Agora vamos calcular o p-valor

In [30]:
# Definindo o alpha
alpha = 0.05 / 2 # Realizando a divisão por se tratar de um teste bicaudal

# Calculando o p-valor
p_valor = 1 - stats.f.cdf(F, df1, df2)

print("O p-valor é:", p_valor)

# Conclusões
if p_valor < alpha:
    print("Rejeitar H0: Há evidências suficientes para concluir que uma ação é mais arriscada que a outra.")
else:
    print("Falha em rejeitar H0: Não existem evidências suficientes para concluir que uma ação é mais arriscada que a outra.")

O p-valor é: 0.005108622913231997
Rejeitar H0: Há evidências suficientes para concluir que uma ação é mais arriscada que a outra.


Apos a execução do nosso teste de hipoteses rejeitamos a hipotese nula, logo podemos concluir que existem evidencias para concluirmos que uma ação é mais arriscada que outra