# **Prova P2 - TTI109 - Estatística (CIC-SIN)**
# **22 de novembro de 2023**

## Instruções:

*   Salve esse *notebook* com o nome "RA.ipynb", em que RA indica seu registro acadêmico (por exemplo, 96.35774-1).
*   Preencha corretamente os campos de identificação (nome completo e RA) e execute a célula de código que contém tais campos.
*   É permitida a consulta ao material da disciplina (OPEN-LMS).
*   É permitida a consulta ao GitHub pessoal.
*   A prova consta de 4 questões, valendo 2,5 pontos cada:
    * Questão 01
    * Questão 02
    * Questão 03
    * Questão 04
*   Em cada questão, há três células de código:
    * na primeira delas, escreva a construção do teste de hipótese.
    * na segunda célula, use a função adequada ao teste proposto.
    * por fim, na terceira célula, escreva sua conclusão quanto ao teste.

## Instruções para uso das funções de teste de hipótese

Nas 4 células ocultas abaixo estão os códigos das funções:

* `TH_media_z`: Função para teste de hipótese da média populacional $\mu$, com nível de significância $\alpha$, supondo desvio padrão populacional $\sigma$ conhecido (uso do valor-p).
    
* `TH_media_z_regiao`: Idem anterior, porém utilizando as regiões de rejeição como critério de decisão.

* `TH_media_t`: Função para teste de hipótese da média populacional $\mu$, com nível de significância $\alpha$, supondo desvio padrão populacional $\sigma$ desconhecido.

* `TH_vardp_chi2`: Função para teste de hipótese da variância $\sigma^2$ ou do desvio padrão $\sigma$ populacionais, com nível de significância $\alpha$.

**IMPORTANTE:** Execute as células ocultas! Não é necessário visualizá-las para que as funções estejam disponíveis para uso. Entretanto, caso deseje verificar os códigos, clique no triângulo preto que antedece o título "Instruções para uso das funções de teste de hipótese".

In [2]:
def TH_media_z(x_barra=None, n_amostras=None, mu=None,
               sigma=None, alpha=0.05, teste='esquerda', conclusao=True):
  '''Função para teste de hipótese da média populacional mu, com nível de
  significância alpha, supondo desvio padrão populacional sigma conhecido.
  ENTRADA:
  - x_barra: média amostral
  - n_amostras: número de amostras coletadas no experimento
  - mu: hipótese nula para a média populacional
  - sigma: desvio padrão populacional
  - alpha: nível de significância adotado no teste (valor default 0.05)
  - teste: string que identifica o tipo de teste a ser realizado: 'esquerda'
  para teste unilateral à esquerda, 'direita', para teste unilateral à direita
  e 'bilateral' para teste bilateral (valor default 'esquerda')
  - conclusao: flag para ativação do relatório de conclusão do teste de hipótese
  (valor default=True)
  SAíDA:
  - relatório de conclusão do teste de hipótese, caso cocnlusao=True
  - p_valor: valor p do teste de hipótese'''

  from scipy import stats as st

  # Criação da distribuição amostral das médias
  dist_amostras = st.norm(loc=mu, scale=sigma/n_amostras**0.5)

  # Cálculo do p-valor, de acordo com o tipo de teste
  if teste == 'esquerda':
    p_valor = dist_amostras.cdf(x_barra)
    tipo = 'unilateral à esquerda'
  elif teste == 'direita':
    p_valor = dist_amostras.sf(x_barra)
    tipo = 'unilateral à direita'
  elif teste == 'bilateral':
    p_valor = 2 * abs(dist_amostras.sf(x_barra))
    tipo = 'bilateral'

  # Relatório de conclusão do teste de hipótese
  if conclusao:
    print('*** Teste de hipótese para a média populacional (desvio padrão conhecido) ***')
    print(f'Teste {tipo} com p-valor = {p_valor:.6f}')
    if p_valor <= alpha:
      print(f'Hipótese nula rejeitada ao nível de significância {alpha*100}%')
    else:
      print(f'Hipótese nula NÃO rejeitada ao nível de significância {alpha*100}%')
  return p_valor

In [3]:
def TH_media_z_regiao(x_barra=None, n_amostras=None, mu=None,
                      sigma=None, alpha=0.05, teste='esquerda', conclusao=True):
  '''Função para teste de hipótese da média populacional mu, com nível de
  significância alpha, supondo desvio padrão populacional sigma conhecido.
  ENTRADA:
  - x_barra: média amostral
  - n_amostras: número de amostras coletadas no experimento
  - mu: hipótese nula para a média populacional
  - sigma: desvio padrão populacional
  - alpha: nível de significância adotado no teste (valor default 0.05)
  - teste: string que identifica o tipo de teste a ser realizado: 'esquerda'
  para teste unilateral à esquerda, 'direita', para teste unilateral à direita
  e 'bilateral' para teste bilateral (valor default 'esquerda')
  - conclusao: flag para ativação do relatório de conclusão do teste de hipótese
  (valor default=True)
  SAíDA:
  - relatório de conclusão do teste de hipótese, caso cocnlusao=True
  - z0: valor z crítico do teste de hipótese (fronteira da região de rejeição)'''

  from scipy import stats as st

  # Criação da distribuição normal padrão
  dist_padrao = st.norm(loc=0, scale=1)

  # Cálculo da estatística de teste padronizada
  z = (x_barra-mu)/(sigma/n_amostras**0.5)

  # Hipótese nula inicialmente validada
  rejeicao = False

  # Cálculo do z crítico, de acordo com o tipo de teste
  if teste == 'esquerda':
    z0 = dist_padrao.ppf(alpha)
    tipo = 'unilateral à esquerda'
    # Decisão sobre pertinência de z à região de rejeição
    if z <= z0:
      rejeicao = True
  elif teste == 'direita':
    z0 = dist_padrao.ppf(1-alpha)
    tipo = 'unilateral à direita'
    # Decisão sobre pertinência de z à região de rejeição
    if z >= z0:
      rejeicao = True
  elif teste == 'bilateral':
    z0 = dist_padrao.ppf(alpha/2)
    tipo = 'bilateral'
    # Decisão sobre pertinência de z à região de rejeição
    if (z <= z0) or (z >= -z0):
      rejeicao = True

  # Relatório de conclusão do teste de hipótese
  if conclusao:
     print('*** Teste de hipótese para a média populacional (desvio padrão conhecido) ***')
     print(f'Teste {tipo} com z0 = {z0:.6f}')
     if rejeicao:
      print(f'Hipótese nula rejeitada ao nível de significância {alpha*100}%')
     else:
      print(f'Hipótese nula NÃO rejeitada ao nível de significância {alpha*100}%')
  return z0

In [4]:
def TH_media_t(x_barra=None, n_amostras=None, mu=None, s=None,
               alpha=0.05, teste='esquerda', conclusao=True):
  '''Função para teste de hipótese da média mu, com nível de significância
     alpha, supondo desvio padrão populacional sigma desconhecido.
     ENTRADA:
     - x_barra: média amostral
     - n_amostras: número de amostras coletadas no experimento
     - mu: hipótese nula para a média populacional
     - s: desvio padrão amostral
     - alpha: nível de significância adotado no teste (valor default 0.05)
     - teste: string que identifica o tipo de teste a ser realizado: 'esquerda'
     para teste unilateral à esquerda, 'direita', para teste unilateral à direita
     e 'bilateral' para teste bilateral (valor default 'esquerda')
     - conclusao: flag para ativação do relatório de conclusão do teste de hipótese
     (valor default=True)
     SAÍDA:
     - relatório de conclusão do teste de hipótese, caso cocnlusao=True
     - t0: valor crítico do teste de hipótese'''

  from scipy import stats as st

  # Criação da distribuição t
  dist_t = st.t(df=n_amostras-1)

  # Cálculo da estatística de teste padronizada
  t = (x_barra-mu)/(s/n_amostras**0.5)

  # Hipótese nula inicialmente validada
  rejeicao = False

  # Cálculo do t crítico (t0), de acordo com o tipo de teste
  if teste == 'esquerda':
    t0 = dist_t.ppf(alpha)
    tipo = 'unilateral à esquerda'
    # Decisão sobre pertinência de t à região de rejeição
    if t <= t0:
      rejeicao = True
  elif teste == 'direita':
    t0 = dist_t.ppf(1-alpha)
    tipo = 'unilateral à direita'
    # Decisão sobre pertinência de t à região de rejeição
    if t >= t0:
      rejeicao = True
  elif teste == 'bilateral':
    t0 = dist_t.ppf(alpha/2)
    tipo = 'bilateral'
    # Decisão sobre pertinência de t à região de rejeição
    if (t <= t0) or (t >= -t0):
      rejeicao = True

  # Relatório de conclusão do teste de hipótese
  if conclusao:
    print('*** Teste de hipótese para a média populacional (desvio padrão desconhecido) ***')
    print(f'Teste {tipo} com t0 = {t0:.5f}')
    if rejeicao:
      print(f'Hipótese nula rejeitada ao nível de significância {alpha*100}%')
    else:
      print(f'Hipótese nula NÃO rejeitada ao nível de significância {alpha*100}%')
  return t0

In [5]:
def TH_vardp_chi2(est_amostral=None, n_amostras=None, val_parametro=None,
                  parametro='sigma', alpha=0.05, teste='esquerda',
                  conclusao=True):
  '''Função para teste de hipótese da variância ou do desvio padrão populacional,
  com nível de significância alpha.
  ENTRADA:
  - est_amostral: variância ou desvio padrão amostral
  - n_amostras: número de amostras coletadas no experimento
  - val_parametro = valor a ser testado, seja variância ou desvio padrão
  - parametro = 'sigma2' para teste de variância e 'sigma' para teste de
  desvio padrão populacional
  - alpha: nível de significância adotado no teste (valor default 0.05)
  - teste: string que identifica o tipo de teste a ser realizado: 'esquerda'
  para teste unilateral à esquerda, 'direita', para teste unilateral à direita
  e 'bilateral' para teste bilateral (valor default 'esquerda')
  - conclusao: flag para ativação do relatório de conclusão do teste de hipótese
  (valor default=True)
  SAÍDA:
  - relatório de conclusão do teste de hipótese, caso cocnlusao=True
  - chi2: valor da estatística padronizada
  - X20: valor(es) crítico(s) do teste'''

  from scipy import stats as st

  # Criação da distribuição chi-quadrado
  dist_chi2 = st.chi2(df=n_amostras-1)

  # Cálculo da estatística de teste padronizada
  if parametro == 'sigma2':
    chi2 = (n_amostras-1)*est_amostral/val_parametro
    param = 'variância'
  elif parametro == 'sigma':
    chi2 = (n_amostras-1)*est_amostral**2/val_parametro**2
    param = 'desvio padrão'

  # Hipótese nula inicialmente validada
  rejeicao = False

  # Cálculo do chi2 crítico, de acordo com o tipo de teste
  if teste == 'esquerda':
    X20 = dist_chi2.ppf(alpha)
    tipo = 'unilateral à esquerda'
    # Decisão sobre pertinência de X20 à região de rejeição
    if chi2 <= X20:
      rejeicao = True
  elif teste == 'direita':
    X20 = dist_chi2.ppf(1-alpha)
    tipo = 'unilateral à direita'
    # Decisão sobre pertinência de X20 à região de rejeição
    if chi2 >= X20:
      rejeicao = True
  elif teste == 'bilateral':
    X2L = dist_chi2.ppf(alpha/2)
    X2R = dist_chi2.ppf(1-alpha/2)
    tipo = 'bilateral'
    X20 = (X2L, X2R)
    # Decisão sobre pertinência de X20 à região de rejeição
    if (chi2 <= X2L) or (chi2 >= X2R):
      rejeicao = True

  # Relatório de conclusão do teste de hipótese
  if conclusao:
    print(f'*** Teste de hipótese para {param} populacional ***')
    print(f'Teste {tipo} com:')
    print(f'Estatística de teste padronizada = {chi2:.4f}')
    if isinstance(X20, tuple):
      print(f'Valores chi-quadrado críticos X2L = {X20[0]:.4f} e X2R = {X20[1]:.4f}')
    else:
      print(f'Valor chi-quadrado crítico = {X20:.4f}')
    if rejeicao:
      print(f'Hipótese nula rejeitada ao nível de significância {alpha*100}%')
    else:
      print(f'Hipótese nula NÃO rejeitada ao nível de significância {alpha*100}%')
  return chi2, X20

## Importações dos módulos básicos

In [6]:
# Importação de módulos
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

##**Questão 01**

Uma máquina automática para encher pacotes de café enche-os segundo uma distribuição normal com média de $\mu=$ 500 g e desvio padrão $\sigma=$ 20 g. Todos os dias são colhidas amostras de 16 pacotes, com o intuito de verificar se a máquina funciona dentro do requisito de projeto. Em determinado dia, a média das amostras foi de 492 g. Ao nível de significância de 5% é possível afirmar que a máquina continua bem calibrada?

In [None]:
'''Construção do teste de hipótese:
H0: mu = 500 g (afirmação)
Ha: mu != 500 g
Tipo de teste: bilateral'''

In [7]:
# Uso da função adequada para o teste
valor_p = TH_media_z(x_barra=492, n_amostras=16, mu=500,
                     sigma=20, alpha=0.05, teste='bilateral', conclusao=True)

*** Teste de hipótese para a média populacional (desvio padrão conhecido) ***
Teste bilateral com p-valor = 1.890401
Hipótese nula NÃO rejeitada ao nível de significância 5.0%


In [8]:
z0 = TH_media_z_regiao(x_barra=492, n_amostras=16, mu=500,
                       sigma=20, alpha=0.05, teste='bilateral', conclusao=True)

*** Teste de hipótese para a média populacional (desvio padrão conhecido) ***
Teste bilateral com z0 = -1.959964
Hipótese nula NÃO rejeitada ao nível de significância 5.0%


In [None]:
'''Conclusão: Há evidências suficientes ao nível de significância de 5% para
afirmar que a máquina continua bem calibrada.'''

##**Questão 02**

O sindicato das indústrias siderúrgicas de um determinado país afirma que o salário médio dos trabalhadores dessa área é superior à 4,5 salários mínimos. Um pesquisador decide investigar essa questão e seleciona aleatoriamente uma amostra de 49 trabalhadores, resultando em um salário médio de 4,2 salários mínimos, com desvio padrão de 0,5 salários mínimos. Ao nível de significância de 5% é possível concordar com o sindicato?

In [None]:
'''Construção do teste de hipótese:
H0: mu <= 4.5
Ha: mu > 4.5 salários mínimos (afirmação)
Tipo de teste: unilateral à direita'''

In [9]:
# Uso da função adequada para o teste
t0 = TH_media_t(x_barra=4.2, n_amostras=49, mu=4.5,
                s=0.5, alpha=0.05, teste='direita', conclusao=True)

*** Teste de hipótese para a média populacional (desvio padrão desconhecido) ***
Teste unilateral à direita com t0 = 1.67722
Hipótese nula NÃO rejeitada ao nível de significância 5.0%


In [None]:
'''Conclusão: Há evidências suficientes ao nível de significância de 5% para
discordar da afirmação do sindicato de que o salário médio dos trabalhadores é
superior à 4,5 salários mínimos.'''

##**Questão 03**

O contra-mestre de turno de uma indústria reporta a seu gestor que a variância da produção mensal é inferior à 300. Desconfiado, o gestor investiga a produção dos últimos 24 meses, descobrindo uma variância de 400. Ao nível de significância de 10%, é possível desmentir o contra-mestre?

In [None]:
'''Construção do teste de hipótese:
H0: sigma^2 >= 300
Ha: sigma^2 < 300 (afirmação)
Tipo de teste: unilateral à esquerda'''

In [10]:
# Uso da função adequada para o teste
X20 = TH_vardp_chi2(est_amostral=400, n_amostras=24, val_parametro=300,
                    parametro='sigma2', alpha=0.1, teste='esquerda',
                    conclusao=True)

*** Teste de hipótese para variância populacional ***
Teste unilateral à esquerda com:
Estatística de teste padronizada = 30.6667
Valor chi-quadrado crítico = 14.8480
Hipótese nula NÃO rejeitada ao nível de significância 10.0%


In [None]:
'''Conclusão: Há evidências suficientes ao nível de significância de 10%
para desmentir o contra-mestre.'''

##**Questão 04**

Histotricamente, a precipitação pluviométrica anual em uma certa região tem desvio padrão $\sigma=$ 3,1. Nos últimos 9 anos, os índices de precipitacão registrados estão presentes na variável `chuva`, definida a seguir.

In [11]:
chuva = pd.Series([30.5, 34.1, 27.9, 35.0, 26.9, 30.2, 28.3, 31.7, 25.8])

Ao nível de significância de 5%, é possível concluir que o desvio padrão das precipitações se alterou?

In [None]:
'''Construção do teste de hipótese:
H0: sigma = 3.1 (afirmação)
Ha: sigma != 3.1
Tipo de teste: bilateral'''

In [13]:
# Uso da função adequada para o teste
X20 = TH_vardp_chi2(est_amostral=chuva.std(ddof=1), n_amostras=len(chuva),
                    val_parametro=3.1, parametro='sigma', alpha=0.05,
                    teste='bilateral', conclusao=True)

*** Teste de hipótese para desvio padrão populacional ***
Teste bilateral com:
Estatística de teste padronizada = 8.2749
Valores chi-quadrado críticos X2L = 2.1797 e X2R = 17.5345
Hipótese nula NÃO rejeitada ao nível de significância 5.0%


In [None]:
'''Conclusão: Há evidências suficientes ao nível de significância de 5% para
cocnluir que o desvio padrão das precipitações se mantem em 3.1'''