# Intervalo de Confiança para <b>Média</b>

## Problema
Seis amostras de água retiradas de um rio revelaram os índices (em ppm) de oxigênio dissolvido:
$$
4{,}9,\;5{,}1,\;4{,}9,\;5{,}0,\;5{,}0,\;4{,}7
$$
Deseja-se construir um **intervalo de confiança de 95%** para a **verdadeira média** de oxigênio dissolvido.

---

## O que é preciso e por que usar $t$
- Tamanho da amostra pequeno: $n=6$.  
- Desvio padrão populacional $\sigma$ **desconhecido**.  
- Pressupomos que a população é aproximadamente normal.  

Nessas condições usa-se a **distribuição $t$ de Student**. O intervalo de confiança (bilateral) é:

$$
\text{IC}_{95\%} = \bar{x} \pm t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}},
\qquad \alpha = 0.05,\;\text{gl}=n-1.
$$

---

## Fórmulas usadas

- Média amostral:
$$
\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
$$

- Desvio padrão amostral:
$$
s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}
$$

- Erro-padrão da média:
$$
\text{SE} = \frac{s}{\sqrt{n}}
$$

- Valor crítico \(t\) para 95% (duas caudas):
$$
t_{0.975,\,n-1}
$$

- Margem de erro:
$$
\text{ME} = t_{0.975,\,n-1}\times \text{SE}
$$

- Intervalo:
$$
\text{IC}_{95\%} = \big(\bar{x} - \text{ME},\; \bar{x} + \text{ME}\big)
$$

---

## Cálculos numéricos (resultados finais)
Os cálculos numéricos dão:

- $n = 6$  
- $\bar{x} = \dfrac{4.9+5.1+4.9+5.0+5.0+4.7}{6} = 4{,}933333\;\text{ppm}$
- $\displaystyle s \approx 0{,}136626\;\text{ppm}$
- $\displaystyle \text{SE} = \frac{s}{\sqrt{n}} \approx 0{,}0557773\;\text{ppm}$
- $t_{0.975,\,5} \approx 2{,}5705818356$
- $\displaystyle \text{ME} \approx 2{,}5705818356\times 0{,}0557773 \approx 0{,}1433802\;\text{ppm}$

Portanto:

$$
\boxed{\text{IC}_{95\%} \approx (4{,}789953,\; 5{,}076714)\ \text{ppm}}
$$

(Arredondando: $(4{,}790,\;5{,}077)\ \text{ppm}$.)

---

## Interpretação
Com 95% de confiança, a **verdadeira média** de oxigênio dissolvido no trecho amostrado do rio está entre **4,790 ppm** e **5,077 ppm**.  
Como valores próximos ou abaixo de $5\ \text{ppm}$ podem representar risco para a vida aquática, esses resultados indicam alerta quanto à qualidade da água.

In [61]:
import numpy as np
from scipy import stats

#dados = np.array([4.9, 5.1, 4.9, 5.0, 5.0, 4.7])
#n = len(dados)
#media = np.mean(dados)
#s = np.std(dados, ddof=1)

n = 29
media = 30
s = 7
conf = 0.95

# Valor crítico t (bilateral, ex: 1 - 0.05 para 95% de confiança)
t_crit = stats.t.ppf(1 - (1 - conf)/2, df=n-1)

# Erro padrão da média
erro = t_crit * (s / np.sqrt(n))

# Intervalo de confiança
ic = (media - erro, media + erro)

print(f"Média: {media:.6f}")
print(f"IC 95%: ({ic[0]:.6f}, {ic[1]:.6f})")

Média: 30.000000
IC 95%: (27.337342, 32.662658)


# Intervalo de Confiança para <b>Proporção</b>

## Problema
O sistema de um hotel acompanha a porcentagem de reservas feitas pela internet. Na semana passada, uma amostra aleatória de $n=25$ reservas mostrou que $x=15$ foram realizadas pela web. Deseja-se um **intervalo de confiança de 85%** para a **verdadeira proporção** $p$ de reservas online.

---

## Por que um IC para proporção?
Os dados são binários (web vs. não-web). Seja $\hat{p} = x/n$ a proporção amostral.

Para amostras moderadas e $\,n\hat{p}$ e $n(1-\hat{p})$ suficientemente grandes, pode-se usar o **IC normal (Wald)**:
$$
\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}},
\quad \text{com } \alpha = 1 - 0{,}85 = 0{,}15.
$$
Aqui, $z_{\alpha/2} = z_{0{,}925}$ (quantil da Normal padrão).

Como alternativa mais estável, pode-se usar o **IC de Wilson** (recomendado em amostras pequenas/moderadas):
$$
\text{IC}_\text{Wilson} = 
\frac{\hat{p} + \dfrac{z^2}{2n}}{1+\dfrac{z^2}{n}}
\;\;\pm\;\;
\frac{z}{1+\dfrac{z^2}{n}}
\sqrt{
\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}
}.
$$

---

## Valores do problema
- $n = 25$, $x = 15$ $\Rightarrow$ $\hat{p} = \dfrac{15}{25} = 0{,}6$.
- Nível de confiança $= 85\%$ $\Rightarrow$ $\alpha = 0{,}15$, $z_{0{,}925} \approx 1{,}439531$.

---

## Resultados (numéricos)
- **IC 85% (Wald/Normal):**
$$
\hat{p} \pm z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
= 0{,}6 \pm 1{,}439531 \sqrt{\frac{0{,}6\cdot 0{,}4}{25}}
\approx 0{,}6 \pm 0{,}1410
\Rightarrow
(0{,}4589,\; 0{,}7410).
$$

- **IC 85% (Wilson):**
$$
\approx (0{,}4566,\; 0{,}7281).
$$

---

## Interpretação
Com **85% de confiança**, a **verdadeira proporção** de reservas feitas pela internet está **entre 46% e 74%** (Wald).  
Usando Wilson (mais conservador), fica **entre 45,7% e 72,8%**.  
Em ambos os casos, a evidência sugere que **cerca de 60%** das reservas vêm da web, o que auxilia no direcionamento de propaganda e capacidade do sistema online.

In [39]:
import math
from scipy.stats import norm

n = 180
x = 18
phat = x / n
conf = 0.95
quantil_z = 1 - (1 - conf)/2
z = norm.ppf(quantil_z)

# --- IC Normal (Wald) ---
se = math.sqrt(phat * (1 - phat) / n)
me_wald = z * se
ic_wald = (phat - me_wald, phat + me_wald)

# --- IC de Wilson ---
den = 1 + (z**2) / n
center = (phat + (z**2) / (2 * n)) / den
half = (z * math.sqrt(phat*(1 - phat)/n + (z**2) / (4 * n**2))) / den
ic_wilson = (center - half, center + half)

print(f"n = {n}, x = {x}, phat(Proporção) = {phat:.2f}")
print(f"z crítico ({quantil_z}) = {z:.10f}")

print(f"\nIC {ic} (Wilson):")
print(f"  IC {ic} (Wilson) = ({ic_wilson[0]:.6f}, {ic_wilson[1]:.6f})")

print(f"\nIC {ic} (Wald/Normal):")
print(f"  SE = {se:.6f}")
print(f"  Margem de erro = {me_wald:.6f}")
print(f"  IC {ic} (Wald) = ({ic_wald[0]:.6f}, {ic_wald[1]:.6f})")

n = 180, x = 18, phat(Proporção) = 0.10
z crítico (0.975) = 1.9599639845

IC 0.85 (Wilson):
  IC 0.85 (Wilson) = (0.064194, 0.152522)

IC 0.85 (Wald/Normal):
  SE = 0.022361
  Margem de erro = 0.043826
  IC 0.85 (Wald) = (0.056174, 0.143826)


# Cálculo do tamanho amostral para estimar **média**

## Objetivo
Determinar o tamanho de amostra $n$ necessário para estimar a **média verdadeira** $\mu$ com:
- **nível de confiança** $1-\alpha$ (ex.: 95%)
- **margem de erro** desejada $E$
- **desvio padrão populacional estimado** $\sigma$ (a partir de um estudo piloto ou estimativa prévia)

---

## Fórmula (população infinita)

O tamanho inicial $n_0$ é dado por:

$$
n_0 = \left(\frac{z_{1-\alpha/2}\,\sigma}{E}\right)^2
$$

onde $z_{1-\alpha/2}$ é o quantil crítico da Normal padrão.

---

## Correção para População Finita (opcional)

Se o tamanho da população $N$ for conhecido e não muito grande, aplica-se:

$$
n = \frac{n_0}{1 + \dfrac{n_0 - 1}{N}}
$$

---

## Exemplo (oxigênio dissolvido no rio)

Suponha que desejamos:
- Nível de confiança $=95\% \;\Rightarrow\; z_{0.975} \approx 1.96$
- Desvio padrão amostral (piloto) $\; s \approx 0.137$
- Margem de erro desejada $E = 0.05$ ppm

Cálculo:

$$
n_0 = \left(\frac{1.96 \cdot 0.137}{0.05}\right)^2
\approx \left(\frac{0.2685}{0.05}\right)^2
= (5.37)^2
\approx 28.8
\;\Rightarrow\; n=29
$$

> **Interpretação:** Para estimar a média de oxigênio dissolvido com confiança de 95% e erro máximo de 0,05 ppm, precisamos de pelo menos **29 amostras**.


In [60]:
import math

def z_from_conf(conf=0.95):
    """
    Retorna o z crítico bicaudal para o nível de confiança 'conf'.
    Usa scipy se disponível; caso contrário, usa aproximações conhecidas.
    """
    alpha = 1 - conf
    try:
        from scipy.stats import norm
        return norm.ppf(1 - alpha/2)
    except Exception:
        # Tabela básica de valores comuns
        table = {0.80: 1.2815515655, 0.85: 1.4395314709,
                 0.90: 1.6448536269, 0.95: 1.9599639845,
                 0.99: 2.5758293035}
        return table.get(conf, 1.96)

def n_mean(conf=0.95, E=0.05, sigma=1.0, N=None):
    """
    Tamanho amostral para estimar a média:
      n0 = (z * sigma / E)^2
    - conf: nível de confiança (ex.: 0.95)
    - E: margem de erro tolerada
    - sigma: desvio padrão (estimado ou piloto)
    - N: população finita (opcional)
    Retorna n inteiro (arredondado para cima).
    """
    z = z_from_conf(conf)
    n0 = (z * sigma / E) ** 2
    if N is not None and N > 0:
        n_adj = n0 / (1 + (n0 - 1) / N)
        return math.ceil(n_adj)
    return math.ceil(n0)

# -----------------------------
# Exemplo com dados do oxigênio dissolvido
# -----------------------------
sigma_piloto = 0.137  # desvio padrão amostral
E_desejado = 0.05
conf = 0.95

n_calc = n_mean(conf=conf, E=E_desejado, sigma=sigma_piloto, N=None)
print(f"Confiança = {conf*100:.0f}% | E = {E_desejado} | sigma ≈ {sigma_piloto}")
print(f"Tamanho amostral necessário: n = {n_calc}")

sigma = 0.01764 ** 0.5
# Uso da função para determinar tamanho de outra amostra
tamanho = n_mean(conf=0.99, E=0.005, sigma=sigma, N=None)
print(f"\nSample size needed: {tamanho}")

Confiança = 95% | E = 0.05 | sigma ≈ 0.137
Tamanho amostral necessário: n = 29

Sample size needed: 4682


# Cálculo do tamanho amostral para estimar **proporção**

## Objetivo
Determinar o tamanho de amostra $n$ necessário para estimar a **proporção verdadeira** $p$ (ex.: reservas pela internet) com:
- **nível de confiança** $1-\alpha$ (ex.: 85%)
- **margem de erro** desejada $E$ (em pontos percentuais, ex.: $E=0{,}08$ para 8 p.p.)

## Estimador e pressupostos
Seja $\hat p$ a proporção amostral (piloto). Para amostras moderadas, usa-se a aproximação Normal:
$$
\hat p \sim \mathcal{N}\!\left(p,\; \frac{p(1-p)}{n}\right)
$$
com quantil crítico $z_{1-\alpha/2}$.

## Fórmulas principais

### 1) Tamanho amostral (aproximação Normal/Wald)
Com proporção esperada $p_0$ (use $\hat p$ de um piloto ou o pior caso $p_0=0{,}5$):
$$
n_0 \;=\; \frac{z_{1-\alpha/2}^{\,2}\; p_0(1-p_0)}{E^2}
$$
Arredonde **para cima** ao final.

> **Observação**: Se você não tem um piloto, use $p_0=0{,}5$, que maximiza $p_0(1-p_0)$ e gera um $n$ **conservador** (maior).

### 2) Correção para População Finita (opcional)
Se a população alvo tem tamanho $N$ conhecido e não é muito grande:
$$
n \;=\; \frac{n_0}{1 + \dfrac{n_0-1}{N}}
$$
Se $N$ é grande/desconhecido, use $n \approx n_0$.

---

## Exemplo (caso do hotel)
- Confiança $=85\%$ $\Rightarrow \alpha=0{,}15$, $z_{1-\alpha/2}=z_{0{,}925}\approx 1{,}439531$.
- Piloto: $\hat p=15/25=0{,}6$.
- Margem de erro desejada: $E=0{,}08$ (8 pontos percentuais).
$$
n_0 \;=\; \frac{1{,}439531^2 \cdot 0{,}6\cdot 0{,}4}{0{,}08^2}
\;\approx\;
\frac{2{,}0723 \cdot 0{,}24}{0{,}0064}
\;\approx\; 77{,}7
\;\Rightarrow\; n=78.
$$

**Conservador $(p_0=0{,}5$)**:
$$
n_0 \approx \frac{1{,}439531^2 \cdot 0{,}25}{0{,}0064}
\approx 81{,}0
\Rightarrow n=81.
$$

> **Interpretação**: Para obter **IC de 85%** com **erro máximo de 8 p.p.** na estimativa da proporção de reservas online, planeje **$n\approx 78$** usando o piloto ($\hat p=0{,}6$) ou **$n\approx 81$** se preferir o cenário conservador.

In [56]:
import math

def z_from_conf(conf=0.85):
    """
    Retorna o z crítico bicaudal para o nível de confiança 'conf'.
    Usa scipy se disponível; caso contrário, usa uma aproximação.
    """
    alpha = 1 - conf
    try:
        from scipy.stats import norm
        return norm.ppf(1 - alpha/2)
    except Exception:
        # Aproximação numérica para alguns níveis comuns
        # 0.80: 1.2816 | 0.85: 1.4395 | 0.90: 1.6449 | 0.95: 1.9600 | 0.99: 2.5758
        table = {0.80: 1.2815515655, 0.85: 1.4395314709, 0.90: 1.6448536269,
                 0.95: 1.9599639845, 0.99: 2.5758293035}
        if conf in table:
            return table[conf]
        # fallback simples (boa o suficiente na prática)
        # aproximação por série de Beasley-Springer/Moro seria melhor, mas mantemos simples
        return 1.4395314709  # valor para 85%

def n_proportion(conf=0.85, E=0.08, p0=0.5, N=None):
    """
    Tamanho amostral para estimar proporção (Wald):
      n0 = z^2 * p0*(1-p0) / E^2
    - conf: nível de confiança (ex.: 0.85)
    - E: margem de erro absoluta (ex.: 0.08 = 8 p.p.)
    - p0: suposição para p (use piloto ou 0.5 conservador)
    - N: população finita (opcional). Se fornecido, aplica CPF.
    Retorna n inteiro (arredondado para cima).
    """
    if not (0 < E < 1):
        raise ValueError("E deve ser a margem de erro em proporção (0 < E < 1), ex.: 0.05 para 5 p.p.")
    if not (0 < p0 < 1):
        raise ValueError("p0 deve estar em (0,1).")
    z = z_from_conf(conf)
    n0 = (z**2) * p0 * (1 - p0) / (E**2)
    if N is not None and N > 0:
        n_adj = n0 / (1 + (n0 - 1) / N)
        return math.ceil(n_adj)
    return math.ceil(n0)

# -----------------------------
# Exemplos de uso
# -----------------------------

# Caso do hotel: confiança 85%, piloto p̂=0.6, E=0.08
n_piloto = n_proportion(conf=0.85, E=0.08, p0=0.6, N=None)

# Conservador: confiança 85%, p0=0.5, E=0.08
n_conserv = n_proportion(conf=0.85, E=0.08, p0=0.5, N=None)

print(f"Exemplo (hotel) - conf=85%, p0=0.60, E=0.08 -> n = {n_piloto}")
print(f"Conservador     - conf=85%, p0=0.50, E=0.08 -> n = {n_conserv}")

# Exemplo com população finita (opcional), digamos N=5_000
n_piloto_finite = n_proportion(conf=0.85, E=0.08, p0=0.6, N=5000)
print(f"Com CPF (N=5000) - conf=85%, p0=0.60, E=0.08 -> n = {n_piloto_finite}")

p0 = 0.5 # Quando não se sabe o valor usa 0.5 que representa o valor máximo possível
# Uso da função para determinar tamanho de outra amostra
tamanho = n_proportion(conf=0.90, E=0.0248, p0=0.5, N=None)
print(f"\nSample size needed: {tamanho}")

Exemplo (hotel) - conf=85%, p0=0.60, E=0.08 -> n = 78
Conservador     - conf=85%, p0=0.50, E=0.08 -> n = 81
Com CPF (N=5000) - conf=85%, p0=0.60, E=0.08 -> n = 77

Sample size needed: 1100
