# <b>Intervalo de Confiança</b>

Lembretes:

Considere $X_i \sim N(\mu, \sigma^2)$ e um $\sigma^2$ conhecido. Assim teremos:

$\overline{X} \sim \left(\mu,\dfrac{\sigma^2}{n}\right)$

$Z = \dfrac{\overline{X}-\mu}{\sigma} = \dfrac{\overline{X}-\mu}{\sqrt{\dfrac{\sigma^2}{n}}}= \dfrac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}} \sim N(0,1)$

#### Distribuição Normal

Uma v.a. tem distribuição normal com parâmetros $\mu$ e $\sigma^2$, ${-\infty}<\mu<{+\infty}$ e $0<\sigma^2<{\infty}$ se sua densidade é dada por:

$$f(X;\mu,\sigma^2) = \dfrac{1}{\sigma\sqrt{2\pi}}e^{-\left(X-\mu\right)^2/2\sigma^2}, {-\infty}<X<{+\infty}$$ 

Uma distribuição $X \sim N\left(\mu, \sigma^2 \right)$ com as seguintes propriedades:

* A função densidade de probabilidade $f_x(x)$ tem ponto máximo em $x=\mu$ e o valor máximo é $\dfrac{1}{\sigma\sqrt{2\pi}}$.
* $\mu+\sigma$ e $\mu -\sigma$ são pontos de inflexão da curva.
* A área total da curva vale 1, ou seja, ${\displaystyle \int_{-\infty}^{+\infty}}f(X;\mu,\sigma^2)dx = 1$.
* A área é simétrica em relação a $X = \mu$, isto é, $f(\mu+X;\mu,\sigma^2) = f(\mu-X;\mu,\sigma^2)$ para todo X real.
* $E(X) = \mu$ e $Var(X) = \sigma^2$

Para $\mu = 0$ e $\sigma^2 = 1$ temos uma distribuição normal padrão $Z \sim N(0,1)$ com função densidade:

$\phi\left(Z\right) = \dfrac{1}{\sqrt{2\pi}}e^{-Z^2/2}, {-\infty}<Z<{+\infty}$

Se $X \sim N(\mu,\sigma^2)$ a v.a. definida por $Z = \dfrac{X-\mu}{\sigma}$ terá média 0 e variância 1.

#### Distribuição Qui-quadrada

Uma distribuição contínua $X$, com valores positivos, terá distribuição qui-quadrado com $v$ graus de liberdade se sua função densidade for:

$f(x,v) = 
\begin{cases}
\dfrac{1}{\Gamma\left(v/2\right)2^{\frac{v}{2}}}x^{(v/2)-1} e^{\left(-\frac{x}{2}\right)},\; x>0, v>0 \\
0, \; x<0 \\
\end{cases}
$

$\mathrm{E(X)}= v$ <br>
$\mathrm{Var(X)} = 2v$

* O quadrado de uma v.a. com distribuição normal padrão é uma v.a. com distribuição $\chi^2(1)$.

* Se $X_1, \dots, X_n$ são variáveis aleatórias independentes, com distribuições normais padronizadas, então, $\sum_{i=1}^{n}X_i^{2}$ possui distribuição Qui-quadrado com n graus de liberdade.

* Distribuição assimétrica.
* Quando aumentamos os graus de liberdade a distribuição se torna menos assimétrica.
* Seus valores podem ser positivos ou zero, mas nunca poderão ser negativos.
* Quando o número de graus de liberdade da distribuiçã Qui-Quadrado aumenta, nos aproximamos para uma distribuição normal.

In [1]:
import numpy as np
import seaborn as sns

In [5]:
n = 10_000
array1 = np.random.chisquare(10, size = n)
array2 = np.random.chisquare(50, size = n)

In [3]:
array3 = np.random.normal(size = n)

In [None]:
sns.displot(array1)
sns.displot(array2)
sns.displot(array3)

#### Distribuição $t$ de Student

Sejam Z e Y variáveis independentes, tal que $X \sim N\left(0,1\right)$ e $Y \sim \chi^2{(v)} $, então a variável aleatória dada pela expressão a seguir tem distribuição $t$ de Student com $k$ graus de liberdade.

$t = \dfrac{X}{\sqrt{\dfrac{Y}{v}}}$

$\mathrm{E(X)} = 0$ <br>
$\mathrm{Var(X)} = \dfrac{v}{\left(v-2\right)}$, $v>2$

<b>Intervalo de confiança para a média com variância conhecida</b>

Vamos fixar uma probabilidade $1-\alpha$ tal que: $P(\overline{x}_{LI}<\mu<\overline{x}_{LS}) = 1-\alpha$,com $ 0<\alpha<1$.

$P(|Z|<z_{\frac{\alpha}{2}}) = P(-z_{\frac{\alpha}{2}}<Z<z_{\frac{\alpha}{2}}) = 1-\alpha$

Lembremos que:

$-z_{\frac{\alpha}{2}}< \dfrac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}} < z_{\frac{\alpha}{2}}$

$-z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}<\overline{X}-\mu<z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}$<br><br>
$-z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}<\overline{X}-\mu<z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}$<br><br>
$\overline{X}-z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}<\mu<\overline{X}+z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}$

$(1-\alpha) = \text{nível de confiança}$

$\text{IC} \left(\mu; 1-\alpha\right)= \left[\overline{X}-z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}};\overline{X}+z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}\right]$

Limites do intervalo de confiança:

* Limite Inferior: $\overline{X}-z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}$
* Limite Superior:$\overline{X}+z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}$

Amplitude do intervalo de confiança:

$A = LS-LI = \left(\overline{X}-z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}\right)-\left(\overline{X}+z_{\frac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}\right) = 2 \left(z_{\frac{\alpha}{2}} \dfrac{\sigma}{\sqrt{n}}\right)$

Intepretação:

* Obtemos várias amostras de mesmo tamanho;
* Para cada uma das amostras calculamos os IC correspondentes $1-\alpha$;
* A proporção de intervalos que deverão conter o valor da média populacional será igual a $1-\alpha$.

Exemplo: Suponha que tenhamos obtido um intervalo de 95% de confiança ($\text{IC}(\mu) = [\overline{X}_{LI},\overline{X}_{LS}]$). A interpretação correta seria: temos 95% de confiança de que o intervalo entre o limite inferior e o limite superior contém a média populacional $\mu$.

Note ainda que se aumentarmos o tamanho da amostra $n$ aumentaremos a precisão do intervalo, com efeito teremos uma redução do erro.

Q6 - 2004

Seja $X$ uma variável aleatória normalmente distribuída com média $\mu$ e variância conhe-
cida $\sigma^2 =1$, da qual se obtém a amostra aleatória $X_1 , X_2 , \dots, X_n$ (com $n$ observações). É
correto afirmar que:

0 - A média amostral é uma variável aleatória normalmente distribuída com média μ e
variância $1/n$.<br>
1 - A probabilidade de o intervalo de confiança $[\overline{X}- 1,96 \sqrt{n} , \overline{X}+ 1,96\sqrt{n} ]$ conter a média da população, $\mu$, é de 95%.<br>
2 - A probabilidade de o intervalo de confiança $[\overline{X}- 1,96 \sqrt{n} , \overline{X}+ 1,96\sqrt{n} ]$ conter a média amostral, $\mu$, é de 95%.<br>
3 - O intervalo de 95% para a média populacional independe do tamanho da amostra.<br>
4- Em um intervalo de confiança de 95% para a média populacional, μ, espera-se que,
extraindo-se todas as amostras de mesmo tamanho dessa população, esse intervalo
conterá μ 95% das vezes.

0 - (V)<br>
Lembre que: $\overline{X} \sim \left(\mu,\dfrac{\sigma^2}{n}\right)$<br><br>
$\mathrm{E}(\overline{X}) = \mathrm{E}\left(\dfrac{\sum_{i=1}^{n}X_i}{n}\right) =  \dfrac{1}{n}\mathrm{E}\left(\sum_{i=1}^{n}X_i\right) = \dfrac{1}{n}\left[\sum_{i=1}^{n}\mathrm{E}(X_i)\right] = \dfrac{1}{n}n\mu = \mu$

$\mathrm{Var}(\overline{X}) = \mathrm{Var}\left(\dfrac{\sum_{i=1}^{n}X_i}{n}\right) = \dfrac{1}{n^2}\mathrm{Var}\left(\sum_{i=1}^{n}X_i\right) = \dfrac{1}{n^2} \sum_{i=1}^{n} \mathrm{Var}(X_i) = \dfrac{1}{n^2}n\sigma^2=\dfrac{\sigma^2}{n}$

Do enunciado temos que $\sigma^2 = 1$, então: $\mathrm{Var}(\overline{X}) = \dfrac{1}{n}$.

1 - (F)<br>
Do que vimos anteriormente:<br><br>
$P(\overline{X}-1,96\dfrac{1}{\sqrt{n}}<\mu<\overline{X}+1,96\dfrac{1}{\sqrt{n}}) = 0.95$

Além do que, a interpretação do item acerca do Intervalo de Confiança é incorreta. Uma interpretação mais adequada seria imaginarmos que, se repetirmos a amostragem de $n$ dessas observações (número infitino), em 95% dessas repetições o intervalo de confiança conteria o valor verdadeiro da média populaiconal.

2 - (F)<br>
Novamente a interpretação é incorreta e o intervalo é construído para a média amostral.

3 - (F)<br>
Note que quanto maior o tamanho da amostra $n$, menor será o intervalo de confiança.

4 - (V)

Fixação

Exemplo extraído do Sartoris (2013, p. 195):

Após entrevistar 49 membros de uma categoria profissional, um pesquisador encontrou um salário médio de  820,00. O desvio padrão dos salários dessa categoria, conhecido, é 140,00. Construa um intervalo de confiança para a média:
a) com 80% de confiança;
b) com 90% de confiança.

<b>Intervalo de confiança para a média com variância desconhecida</b>

Teremos duas possibilidades a depender do tamanho da amostra.

(1) Para $n<30$ teremos:

Vamos considerar uma amostra aleatória tal que $X_1, X_2, \dots , X_n$ obtida de uma população normal com média conhecida, mas variância desconhecida. Então temos que:

$\overline{X}\sim T = \dfrac{\overline{X}-\mu}{\dfrac{S}{\sqrt{n}}} \sim t$ com $n-1$ graus de liberdade.

Então temos que:

$P\left(\overline{X}-t_{\frac{\alpha}{2},n-1}\dfrac{S}{\sqrt{n}}<\mu<\overline{X}+t_{\frac{\alpha}{2},n-1}\dfrac{S}{\sqrt{n}}\right) = 1-\alpha$

$\text{IC}\left(\mu,1-\alpha\right) = \left[\overline{X}-t_{\frac{\alpha}{2}}\dfrac{S}{\sqrt{n}};\overline{X}+t_{\frac{\alpha}{2}}\dfrac{S}{\sqrt{n}}\right]$

(2) Para $n>30$ teremos:

$\overline{X} \sim Z =\dfrac{\overline{X}-\mu}{\sqrt{\dfrac{S^2}{n}}} =\dfrac{\overline{X}-\mu}{\dfrac{S}{\sqrt{n}}} \sim N(0,1)$

$P\left(\overline{X}-Z_{\frac{\alpha}{2}} \dfrac{S}{\sqrt{n}}<\mu<\overline{X}+Z_{\frac{\alpha}{2}}\dfrac{S}{\sqrt{n}}\right) =1-\alpha$

Observações e definições:

* Margem de erro: $e = Z_{\frac{\alpha}{2}} \dfrac{\sigma}{\sqrt{n}}$. Neste caso estamos assumindo que a população seja infinita ou que a amostragem seja feita com reposição (o que significa que nossa população seja grande).
* Se a população for finita e a amostragem feita sem reposição: $e = Z_{\frac{\alpha}{2}} \dfrac{\sigma}{\sqrt{n}}\sqrt{\dfrac{N-n}{n-1}}$. Em que: $N$ é o tamanho da população (finita) e $n$ é o tamanho da amostra. 

<b>Intervalo de confiança para a proporção</b>

Lembre que: $X \sim \text{Bernoulli}(p) \Rightarrow E(X) = p \text{ e } Var(X) = p(1-p)$

$\hat{p} \sim N\left(p, \dfrac{p(1-p)}{n}\right)$

$P\left(\hat{p}-Z_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}\left(1-\hat{p}\right)}{n}}<p<\hat{p}+Z_{\frac{\alpha}{2}}\sqrt{\dfrac{\hat{p}\left(1-\hat{p}\right)}{n}}\right) = 1-\alpha$

Do que vimos antes temos que:

Amostragem com população infinita ou se tivermos uma amostra com reposição:

$\hat{p} \pm Z_{\frac{\alpha}{2}}\sqrt{\dfrac{p(1-p)}{n}}$

Amostragem com população finita ($N$) ou se tivermos uma amostra sem reposição:

$\hat{p} \pm Z_{\frac{\alpha}{2}}\sqrt{\dfrac{p(1-p)}{n}}\sqrt{\dfrac{N-n}{n-1}}$