<a href="https://colab.research.google.com/github/jessicasilvacodes/estatistica-pucminas/blob/main/amostragem_distribuicao_pucminas_JessicaSilva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### CURSO: CIÊNCIA DE DADOS APLICADA À SAÚDE | PUC MINAS

### DISCIPLINA: TÉCNICAS DE AMOSTRAGEM E MODELOS DE REGRESSÃO

### MÓDULO: FUNDAMENTOS DE AMOSTRAGEM E DISTRIBUIÇÃO

EXERCÍCIOS:

- TAMANHO AMOSTRAL
- INTERVALO DE CONFIANÇA

# TAMANHO AMOSTRAL

### Exercício de tamanho amostral para **média**:

Uma pesquisa é planejada para determinar as despesas médicas anuais das famílias dos empregados de uma empresa. A gerência da empresa deseja ter 95% de confiança de que a média da amostra esteja no máximo a uma distância de 50,00 reais média real das despesas médicas familiares. Um estudo-piloto indica que o desvio padrão pode ser considerado como sendo igual a R\$400,00.

Parâmetro a ser estimado: Média das despesas médicas anuais.

Dados do enunciado:

-   Nível de confiança: 0,95

-   Margem de erro: R\$50,00

-   Desvio padrão populacional estimado: R\$400,00

A ) Qual o tamanho de amostra necessário?

In [1]:
import math
from scipy.stats import norm

In [3]:
nivel_confianca = 0.95
margem_erro = 50
desvio_padrao = 400

In [7]:
# Z-score correspondente ao nível de confiança
z_score = norm.ppf((1 + nivel_confianca) / 2)
z_score

np.float64(1.959963984540054)

In [8]:
# tamanho da amostra
tamanho_amostra = (z_score * (desvio_padrao / margem_erro)) ** 2
tamanho_amostra

np.float64(245.85336452442402)

In [6]:
print(f'O tamanho da amostra necessário é aproximadamente {math.ceil(tamanho_amostra)}.')

O tamanho da amostra necessário é aproximadamente 246.


B) Se a gerência deseja estar certa em uma margem de erro de R$25,00, que tamanho de amostra será necessário?

In [9]:
nivel_confianca = 0.95
margem_erro = 25
desvio_padrao = 400

In [15]:
z_score = norm.ppf((1 + nivel_confianca) / 2)
z_score

np.float64(1.7506860712521692)

In [16]:
tamanho_amostra = (z_score * (desvio_padrao / margem_erro)) ** 2
tamanho_amostra

np.float64(196.15371008488674)

In [13]:
print(f'O tamanho da amostra necessário é aproximadamente {math.ceil(tamanho_amostra)}.')

O tamanho da amostra necessário é aproximadamente 984.



Quando o tamanho da população é conhecido e relativamente grande em comparação com o tamanho da amostra, é apropriado usar a correção para a população finita. Nesse caso, a fórmula para calcular o tamanho da amostra é ajustada para levar em consideração o tamanho da população.

A fórmula ajustada para o tamanho da amostra com correção para população finita é:
$$ n = \frac{{Z^2 \cdot \sigma^2 \cdot N}}{{Z^2 \cdot \sigma^2 + (N - 1) \cdot E^2}}
$$

Onde:

- \( n \) é o tamanho da amostra necessário,
- \( Z \) é o escore z correspondente ao nível de confiança,
- \(σ) é o desvio padrão populacional,
- \( N \) é o tamanho da população, e
- \( E \) é a margem de erro.

In [14]:
nivel_confianca = 0.92
margem_erro = 50
desvio_padrao = 400

In [17]:
# tamanho populacional conhecido
n_empregados = 386

In [18]:
z_score = norm.ppf((1 + nivel_confianca) / 2)
z_score

np.float64(1.7506860712521692)

In [19]:
tamanho_amostra = (z_score**2 * desvio_padrao**2 * n_empregados) / ((z_score**2 * desvio_padrao**2) + ((n_empregados - 1) * margem_erro**2))
tamanho_amostra

np.float64(130.28451987634534)

In [20]:
print(f'C) O tamanho de amostra necessário para 92% de confiança, considerando a população finita, é aproximadamente {math.ceil(tamanho_amostra)}.')

C) O tamanho de amostra necessário para 92% de confiança, considerando a população finita, é aproximadamente 131.


### Exercício de tamanho amostral para **proporção**:

O reitor de uma universidade deseja estimar com uma margem de erro de 5% e um nível de confiança de 99%, a proporção de estudantes matriculados nos programas de MBA que fizeram graduação em Sistemas de Informação. Sabe-se que, atualmente, há 550 alunos fazendo MBA. Qual tamanho mínimo de amostra deve ser coletado?

A ) Estima-se que a proporção populacional seja de 23%.

In [21]:
p_estimado = 0.23
E = 0.05
nivel_confianca = 0.99

In [23]:
# encontrando o valor de Z para o nível de confiança especificado
Z = norm.ppf((1 + nivel_confianca) / 2)
Z

np.float64(2.5758293035489004)

In [24]:
# calculando o tamanho amostral necessário
n_estimado = ((Z**2) * p_estimado * (1 - p_estimado)) / (E**2)
n_estimado

np.float64(470.0160752163427)

B)  Não há base para estimar o valor aproximado da proporção populacional.

In [25]:
p_estimado = 0.5
E = 0.05
nivel_confianca = 0.99

In [27]:
Z = norm.ppf((1 + nivel_confianca) / 2)
Z

np.float64(2.5758293035489004)

In [28]:
n_estimado = ((Z**2) * p_estimado * (1 - p_estimado)) / (E**2)
n_estimado

np.float64(663.4896601021212)

# INTERVALO DE CONFIANÇA

### Intervalo de confiança para média com σ conhecido:

In [35]:
import scipy.stats as st
import numpy as np

**Exercício 1:**

Em uma indústria de cerveja, a quantidade de cerveja inserida em latas tem-se comportado como uma variável aleatória distribuída normalmente com média 350 ml e desvio padrão 3 ml. Após alguns problemas na linha de produção, suspeita-se que houve alteração na média. Uma amostra de 120 latas acusou média 346 ml. Encontre a estimativa pontual e construa um intervalo de confiança para o novo valor da quantidade média de cerveja inserida em latas, com nível de confiança de 95%, supondo que não tenha ocorrido alteração no desvio padrão do processo.

X: Quantidade média de cerveja inserida nas latas (em ml).

Dados disponíveis no enunciado:

-   X \~ N(350,3²)

-   n=120 latas → Tamanho da amostra

-   media=346ml → Quantidade média observada na amostra → Estimativa pontual!

-   σ=3ml → Desvio padrão da população de cervejas produzidas pela empresa.

-   1-α=0,95 → Nível de confiança


In [31]:
media = 346
sigma = 3
alpha = 0.05
n = 120

In [32]:
# valor crítico Z
zc = stats.norm.ppf(1 - alpha/2)
zc

np.float64(1.959963984540054)

In [33]:
# erro amostral
erro = zc * sigma / (n ** 0.5)
erro

np.float64(0.5367582431151471)

A) construa o intervalo para μ com 95% de confiança:

In [34]:
intervalo_confianca = (media - erro, media + erro)
print(intervalo_confianca)

(np.float64(345.4632417568848), np.float64(346.5367582431152))


Resultado = [345.46 ; 346.54]

Podemos afirmar com 95% de confiança que o intervalo 345.46 ml a 346.54 ml contem o verdadeiro valor da quantidade média de cerveja inserida nas latas.

**Exercício 2:**

O diretor do comitê de admissão de uma universidade deseja estimar a média de idade de todos os estudantes aprovados no momento. Sabe-se que, de levantamentos anteriores, o desvio padrão da população é de 1,5 ano. Em uma amostra aleatória de 20 estudantes, a idade média encontrada foi de 22,9 anos.

X: Idade de todos os estudantes aprovados .

Dados disponíveis no enunciado:

- n=20 estudantes → Tamanho da amostra

- media= 22,9 anos→ Quantidade média observada na amostra

- σ= 1,5 ano → Desvio padrão da população.



A)  Com base nessa amostra, qual é a estimativa pontual da idade média dos estudantes aprovados?

In [36]:
n = 20  # tamanho da amostra
media_amostral = 22.9  # média observada
sigma = 1.5  # desvio padrão populacional

In [37]:
estimativa_pontual = media_amostral
print(f"A estimativa pontual da idade média dos estudantes aprovados é {estimativa_pontual} anos.")

A estimativa pontual da idade média dos estudantes aprovados é 22.9 anos.



B)  Construa um intervalo de 90% de confiança para a idade média da população.

In [38]:
alpha = 0.10  # nível de significância (10%)
z_score = st.norm.ppf(1 - alpha/2)  # valor crítico da distribuição normal padrão
z_score

np.float64(1.6448536269514722)

In [40]:
# cálculo do erro padrão
erro_padrao = sigma / np.sqrt(n)
erro_padrao

np.float64(0.33541019662496846)

In [44]:
# cálculo do intervalo de confiança
margem_erro = z_score * erro_padrao
margem_erro

np.float64(0.5517006784350859)

In [45]:
limite_inferior = media_amostral - margem_erro
limite_inferior

np.float64(22.348299321564912)

In [46]:
limite_superior = media_amostral + margem_erro
limite_superior

np.float64(23.451700678435085)

In [47]:
print(f"O intervalo de confiança de 90% para a idade média da população é ({limite_inferior:.2f}, {limite_superior:.2f}) anos.")

O intervalo de confiança de 90% para a idade média da população é (22.35, 23.45) anos.


### Intervalo de confiança para média com σ desconhecido:

**Exercício 1:**

Com um teste destrutivo, as amostras são destruídas no processo de teste. O teste de colisão de carros é um exemplo muito dispendioso de teste destrutivo. Suponha que tenhamos feito teste de colisão em 12 carros esporte sob uma diversidade de condições que simulam colisões típicas. A análise dos 12 carros danificados resulta em custos de conserto com média igual a US\$26.227,00 e um desvio padrão de US\$15.873,00. Sabe-se que os dados têm distribuição aproximadamente normal.

X: Custo de conserto pós colisão .

Dados disponíveis no enunciado:

-   n=12 → Tamanho da amostra

-   media= 26.227,00 → Quantidade média observada na amostra

-   s= 15.873,00 → Desvio padrão AMOSTRAL.

A)  A melhor estimativa pontual de μ, o custo médio de conserto de todos os carros esporte envolvidos em colisões.


    US\$26227,00

B)  A estimativa intervalar de 95% de confiança para μ

In [49]:
media = 26227
s = 15873
n = 12

In [50]:
# valor crítico t
tc = stats.t.ppf(1 - alpha/2, df=n-1)
tc

np.float64(1.7958848187036691)

In [51]:
# erro amostral
erro = tc * s / (n ** 0.5)
erro

np.float64(8228.996402043986)

In [52]:
# intervalo de confiança
intervalo_confianca = (media - erro, media + erro)
print(intervalo_confianca)

(np.float64(17998.003597956013), np.float64(34455.99640204399))


Considerando um nível de 95% de confiança podemos dizer que o intervalo de 17998,00 a 34456,00 contém o verdadeiro valor do custo médio para conserto de veículos submetidos a teste de colisão.

**Exercício 1:**

Em uma pesquisa de orçamento familiar desenvolvida pelo instituto ZX, solicitou-se a uma amostra de 16 domicílios de certa região que anotassem suas despesas com alimentação durante uma semana. O resultado foi uma despesa média de R\$330,00 com um desvio padrão de R\$40,00. Construa e interprete um intervalo de 98% de confiança para a verdadeira despesa média semanal com alimentação por domicílio de toda a região. Suponha que a população tenha uma distribuição aproximadamente normal.

X: Despesa média familiar .

Dados disponíveis no enunciado:

-   n=16 → Tamanho da amostra

-   media= 330,00 → Quantidade média observada na amostra

-   s= 40,00 → Desvio padrão AMOSTRAL.

In [54]:
n = 16
media_amostral = 330.00
s = 40.00

In [56]:
# intervalo de confiança de 98%
alpha = 0.02  # nível de significância 2%

t_score = st.t.ppf(1 - alpha/2, df=n-1)  # valor crítico da distribuição t de Student
t_score

np.float64(2.602480294995493)

In [58]:
# cálculo do erro padrão
erro_padrao = s / np.sqrt(n)
erro_padrao

np.float64(10.0)

In [59]:
# cálculo do intervalo de confiança
margem_erro = t_score * erro_padrao
margem_erro

np.float64(26.02480294995493)

In [60]:
limite_inferior = media_amostral - margem_erro
limite_inferior

np.float64(303.9751970500451)

In [61]:
limite_superior = media_amostral + margem_erro
limite_superior

np.float64(356.0248029499549)

In [63]:
print(f"O intervalo de confiança de 98% para a despesa média semanal com alimentação é ({limite_inferior:.2f}, {limite_superior:.2f}) reais.")

O intervalo de confiança de 98% para a despesa média semanal com alimentação é (303.98, 356.02) reais.


### Intervalo de confiança para **proporção**:

**Exercício 1:**

Em uma linha de produção de certa peça cerâmica, colheu-se uma amostra de 125 itens, constatando-se 7 peças eram defeituosas. Com esses resultados amostrais, determine a estimativa intervalar de 87% de confiança da proporção de peças defeituosas produzidas pela empresa.

Dados disponíveis no enunciado:

-   n=125 itens → Tamanho da amostra

-   x=7→ Número de peças defeituosas observado na amostra

-   1-α=0,87 → Nível de confiança → 13%/2=6,5%=0,065

-   𝑝=x/n=7/125=0,056→ Proporção de peças defeituosas observada na amostra.

Suposições para o uso da distribuição normal:

-   n\. 𝑝\>5 → 125.0,056 =7 \>5 Ok!

-   n.(1- 𝑝) \>5 → 125.(1-0,056)=118 \> 5 Ok!

In [65]:
x = 7
n = 125

In [66]:
# valor crítico Z
zc = stats.norm.ppf(1 - (1 - 0.87)/2)
zc

np.float64(1.514101887619284)

In [67]:
# proporção
p = x / n
p

0.056

In [68]:
# erro amostral
erro = zc * ((p * (1 - p)) / n) ** 0.5
erro

np.float64(0.031137239346781177)

In [69]:
# intervalo de confiança
intervalo_confianca = (p - erro, p + erro)
print(intervalo_confianca)

(np.float64(0.024862760653218824), np.float64(0.08713723934678118))


Considerando um nível de 87% de confiança podemos dizer que a proporção de peças defeituosas produzidas pela empresa pode variar de 2,48% a 8,71% , com uma margem de erro de 3,11%.

**Exercício 2:**

De uma amostra de 230 pessoas selecionadas aleatoriamente participantes de um grande evento, 145 disseram estar satisfeitas com o atendimento recebido. Os organizadores desse evento afirmar que a proporção de pessoas satisfeitas é igual a 70%. Com um nível de 92% de confiança, é possível contestar a afirmação dos organizadores?

Parâmetro: Proporção de pessoas satisfeitas com o atendimento recebido.

Dados disponíveis no enunciado:

-   n=230 pessoas → Tamanho da amostra

-   x=145 → Número de pessoas satisfeitas observado na amostra

-   1-α=0,92 → Nível de confiança

-   𝑝=x/n=145/230=0,06304→ Proporção de pessoas satisfeitas observada na amostra.



In [71]:
n = 230  # tamanho da amostra
x = 145  # número de pessoas satisfeitas
p_amostral = x / n  # proporção amostral
p_hipotetica = 0.70  # proporção populacional afirmada pelos organizadores

In [72]:
# Iintervalo de confiança de 92%
alpha = 0.08  # nível de significância 8%

z_score = st.norm.ppf(1 - alpha/2)  # valor crítico da distribuição normal padrão
z_score

np.float64(1.7506860712521692)

In [74]:
# cálculo do erro padrão
erro_padrao = np.sqrt((p_hipotetica * (1 - p_hipotetica)) / n)
erro_padrao

np.float64(0.030216609311120097)

In [75]:
# cálculo do valor do teste estatístico
z_teste = (p_amostral - p_hipotetica) / erro_padrao
z_teste

np.float64(-2.302217852275814)

In [76]:
# comparação com a região crítica
if abs(z_teste) > z_score:
    print("Com 92% de confiança, podemos contestar a afirmação dos organizadores.")
else:
    print("Com 92% de confiança, não podemos contestar a afirmação dos organizadores.")

Com 92% de confiança, podemos contestar a afirmação dos organizadores.
