# 4. Amostragem

Quando se prepara um macarrão, uma unidade desse é retirada para saber se o ponto de cozimento é o desejado. Já para saber se uma sopa está com o sal na medida certa, experimentamos uma única colherada. Quando um médico deseja identificar se um paciente está doente, alguns ml de sangue são retirados para análise. 

Em todos os casos acima, não seria conveniente analisar o todo para chegar a uma conclusão satisfatória. De fato, o que fazemos é **tirar uma parte do todo** para validar alguma suposição.

Este procedimento é chamado de **amostragem**, e tem como objetivo **obter informações, tirar conclusões sobre o todo** com base na **análise de dados coletados de parte do todo (amostra)**.

<center><img src=http://drive.google.com/uc?export=view&id=1h3EUKf74tn3WMFJ17KkqnfrHT6MXmm5j width="600" height="500" /></center>

## 4.1 Definições
**População ou Universo**: é o conjunto de todas as unidades elementares de interesse. A população deve ser definida claramente e em termos da informação que se pretende conhecer.

**Unidade**: trata-se de qualquer elemento da populaçao.

**Amostra**: uma parte ou subconjunto da população

**Censo**:  observação de todos os elementos da população.

**Parâmetro Populacional**: característica observada na população

**Função Paramétrica Populacional**:  é uma expressão numérica que condensa os valores do vetor de parâmetro populacional. Por exemplo, média, total, proporção, dentre outros.

<img src='https://www.inf.ufsc.br/~andre.zibetti/probabilidade/img/estimacao.png' width=500>

**Exemplo 1**: Considere uma população formada por 4 alunos de uma escola. Com as seguintes caracteristicas:

In [1]:
import pandas as pd

populacao = pd.DataFrame(data={'aluno':[1,2,3,4],'nome':['Ana', 'João', 'Lucas', 'Francisco'],
                               'idade':[8,7,8,12],'sexo':['F','M','M','M']})
populacao.head()

Unnamed: 0,aluno,nome,idade,sexo
0,1,Ana,8,F
1,2,João,7,M
2,3,Lucas,8,M
3,4,Francisco,12,M


Neste exemplo, cada aluno é um elemento da população. O que seria uma amostra dessa população?

In [2]:
populacao.sample(n=2)

Unnamed: 0,aluno,nome,idade,sexo
3,4,Francisco,12,M
1,2,João,7,M


Com relação às **funções paramétricas**, poderíamos definir:

- Idade média: fazendo idade = Y:

\\[\mu = \overline{Y} = \frac{\sum_{i=1}^{N}Y_i}{N} \\]

onde $N$ é a quantidade de elementos da população.

In [3]:
populacao['idade'].mean()

8.75

- Idade máxima:
$$\max(Y)$$

In [4]:
populacao['idade'].max()

12

- Proporção de meninas: sexo = Y = (F,M,M,M)

In [6]:
populacao.value_counts(subset='sexo',normalize=True)[1]

0.25

## 4.2 Métodos de Amostragem

- **Amostra probabilística**: todos os elementos da população apresentam probabilidade maior que zero de serem selecionados

- **Amostra não probabilística**: quando não há probabilidade clara/conhecida de seleção dos elementos. Os elementos são escolhidos de forma julgamental.

Neste material abordaremos apenas os métodos relacionados à amostragem probabilística, com o objetivo de obter uma **amostra representativa**. Uma amostra é considerada representativa quando consegue **refletir as caracteristicas da população**.


### 4.2.1 Amostra Aleatória Simples

Este é o método mais simples e mais importante de seleção de uma amostra, pois pode ser usada em combinação com outros métodos. A premissa assumida é que a população é homogênea com relação à característica de interesse.

A amostra aleatória simples pode ser realizada com ou sem reposição. No caso em que há reposição, cada elemento pode ser sorteado mais de uma vez. Para exemplificar, suponha que se queira sortear um número aleatório de uma urna, se for uma AAS com preposição,  este número voltará para urna para participar do próximo sorteio. Se não houver reposição, cada elemento só poderá ser selecionado uma vez para compor a amostra.
 
 
Considere uma população formada por N elementos (conhecido e finito). Este método consiste em selecionar n elementos, sendo que cada elemento tem a mesma probabilidade de ser selecionado.

**Exemplo:**
Considere uma gerência formada por 21 pessoas. Selecione de forma aleatória  (sem reposição) 6 funcionários para fazerem um treinamento.

In [7]:
funcionarios = ['Pedro Henrique','João','Antônio','Carolina','Maria','Henrique','Elisa',
                'Alexandre','Filipe','Gabriela','Renata','Pedro Henrique','Paulo André',
               'Victor Cesar', 'Ana Carolina', 'Priscila', 'Marina', 'Douglas', 'Vanessa',
                'Vivian', 'Leandro']

In [17]:
import random
random.seed(42)
random.sample(funcionarios,6)

['Leandro', 'Carolina', 'Pedro Henrique', 'Filipe', 'Alexandre', 'Marina']

Efeito do random.seed:

In [12]:
random.seed(42)
random.sample(funcionarios,6)

['Leandro', 'Carolina', 'Pedro Henrique', 'Filipe', 'Alexandre', 'Marina']

### 4.2.2 Amostra Sistemática

Usada quando os elementos população estão ordenados (população de lista telefônica, casas em uma rua). 

Considere uma população de tamanho $N$ e que se queira uma amostra de tamanho \\(n\\). O processo de amostragem deste método consiste em:

- Dividir o tamanho populacional em K partes:
\\[ k = \frac{N}{n} \\]

- Definir a posição de início da amostragem (que também será o primeiro elemento da amostra). Para tal fim, é sorteado i com o uso da amostra aleatória simples no intervalo, em que  \\[i \in [1, k]\\]


- A partir do elemento selecionado aleatoriamente, é realizada sucessão aritimética para selecionar os $n-1$ indivíduos restantes
\\[i, i + k, i + 2k, i + 3k, ...., i + (n-1)k\\]

**Exemplo:**
Dado a lista de funcionários ordenada, retire uma amostra sistemática de tamanho 3.

In [18]:
#Ordenar a lista de funcionários
funcionarios_ordenados = sorted(funcionarios)
print(funcionarios_ordenados)

['Alexandre', 'Ana Carolina', 'Antônio', 'Carolina', 'Douglas', 'Elisa', 'Filipe', 'Gabriela', 'Henrique', 'João', 'Leandro', 'Maria', 'Marina', 'Paulo André', 'Pedro Henrique', 'Pedro Henrique', 'Priscila', 'Renata', 'Vanessa', 'Victor Cesar', 'Vivian']


In [27]:
#Definir o valor de K
n = 3
N = len(funcionarios_ordenados)
k = N/n
print(k)

7.0


In [30]:
k = int(k)
list(range(k))

[0, 1, 2, 3, 4, 5, 6]

In [22]:
#Definir a posição de início da amostragem
random.seed(42)
k = int(k)
i = random.sample(list(range(k)),1)[0]
print(i)

5


In [24]:
#Selecionar os n indivíduos

while i < len(funcionarios_ordenados):
    print(funcionarios_ordenados[i])
    i += k

Elisa
Marina
Victor Cesar


### 4.2.3 Amostra Estratificada 

Trata-se do método em que a população é dividida em grupos (estratos) segundo alguma(s) característica(s) conhecida(s) na população sob estudo. São exemplos de estrato o gênero, faixa etária, região geográfica, profiissão. No geral, é usada quando a população é heterogênea sob a ótica das características analisadas. Procedimento de amostragem:

- Dividir as N unidades da população em \\(N_1, N_2, \cdots , N_j\\) estratos distintos e homogêneos


- Selecionar, ao acaso, uma amostra de tamanhos \\(n_1, n_2, \cdots , n_j\\) , de modo que o tamanho da amostra seja \\(n = n_1+n_2+ \cdots +n_j\\). O tamanho amostral pode ser proporcional à representatividade do estrato

<img src="https://faculty.elgin.edu/dkernler/statistics/ch01/images/strata-sample.gif" width=400>

**Exemplo**: Considere a população formada por integrantes de uma escola. Dependendo do objetivo do estudo, esta população poderia ser dividida em alunos, professores, e demais funcionários (grupos homogêneos com relação à função na escola). 

Agora considere que a proporção de cada estrato seja: 50% alunos, 25% professores e 25% servidores. A amostragem poderia ser realizada dentro de cada estrato de forma que o tamanho amostral preserve esta característica. Sendo assim, se amostra total é de tamanho $n$, a composição será $0,5 \times n$ de alunos, $0,25\times n$ de professores e $0,25\times n$ de servidores.

In [25]:
n = 60
prof = 60*0.25
alunos = 60*0.5
servidores = 60*0.25
print('Professores:',prof)
print('alunos:',alunos)
print('servidores:',servidores)

Professores: 15.0
alunos: 30.0
servidores: 15.0


## 4.3 Tamanho Amostral

Ao se realizar uma amostra para inferir uma determinada função paramétrica (média, máximo ou outra função de um parâmetro), há um erro associado ao planejamento amostral.
A medida que o tamanho da amostra aumenta, o erro do estimador diminui. 
Vale ressaltar que uma amostra muito grande pode implicar em custos desnecessários, enquanto que uma amostra pequena pode tornar a pesquisa inconclusiva. Deste modo, o ponto chave de um levantamento amostral é determinar o tamanho da amostra. 

## 4.3.1 Teorema do Limite Central (TLC, ou TCL)

Esse é um dos teoremas mais poderosos e fundamentais da estatística, porque ele é usado **como base para muitos outros resultados**. 

A ideia é que muitos dos resultados de inferência estatística são válidos assumindo como hipótese que os dados sob análise seguem uma distribuição normal. 

No entanto, há muitos casos de interesse em que a **distribuição populacional não é normal** -- e, na verdade, não temos como saber com segurança qual é a distribuição populacional, dado que temos apenas acesso às amostras!

Assim, a priori, muitos dos resultados e métodos da inferência estatística seriam invalidados, dado que não podemos assegurar qual é a distribuição populacional dos dados que estamos analisando.

E é neste contexto que o TLC mostra seu poder e importância, pois ele mostra que **estimadores pontuais de parâmetros populacionais serão normalmente distribuídos, INDEPENDENTE DA DISTRIBUIÇÃO POPULACIONAL!**

Vamos enunciá-lo, e depois veremos alguns exemplos:

> Seja uma **amostra aleatória** ($x_1, x_2, \cdots, x_n$) de uma variável aleatória $X$ com **qualquer distribuição**, média $\mu$ e desvio padrão $\sigma$. Para $n$ suficientemente grande, a **distribuição das médias amostrais**, $\overline{X}$, se **aproxima de uma distribuição normal** com média $\mu_{\overline{x}} = \mu$ e erro padrão $SE_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$. Isto é, $$\overline{X} \sim N \left(\mu, \frac{\sigma}{\sqrt{n}} \right)$$
OBS.: quando estamos falando do **estimador amostral do desvio padrão**, costumamos usar o termo **erro padrão** (standard error), denotado $SE$.

O que o TLC para as médias diz, essencialmente, é:

> A distribuição de **médias das amostras** tiradas de **qualquer distribuição populacional** será **aproximadamente normal**, contanto que fizermos uma quantidade razoável de amostras.

E isso é um resultado fantástico, pois nos permite a construção de uma **distribuição normal**, para a qual vale uma série de resultados e teoremas, a partir de **qualquer distribuição populacional**!

## 4.3.2 Níveis de confiança e significância


###  4.3.2.1 Definições
O **nível de confiança** ($1 - \alpha$) representa a probabilidade de acerto da estimativa. De forma complementar o **nível de significância** ($\alpha$) expressa a probabilidade de erro da estimativa.

O **nível de confiança** representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um **nível de confiança** de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

O **nível de confiança** de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img007.png)

Para um cientista de dados, um intervalo de confiança é uma ferramenta para ter uma
ideia de quão variável o resultado da amostra pode ser. Os cientistas de dados não
utilizariam essa informação para publicar um artigo acadêmico ou submeter um resultado
a uma agência regulatória (como um pesquisador poderia fazer), mas provavelmente para
comunicar o potencial erro em uma estimativa e, talvez, entender se uma amostra maior é
necessária.





### 4.3.2.2  Erro inferencial
***

O **erro inferencial** é definido pelo **desvio padrão das médias amostrais** $\sigma_\bar{x}$ e pelo **nível de confiança** determinado para o processo.

### $$e = z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$$


#### Tamanho da amostra: 
### $$n = \left(z_{\alpha/2} \frac{\sigma}{e}\right)^2$$ 

##  Intervalos de confiança
***

### Intervalo de confiança para a média da população

#### Com desvio padrão populacional conhecido

## $$\mu = \bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$$

#### Com desvio padrão populacional desconhecido

No caso em que o desvio padrão populacional é desconhecida, pode-se realizar uma amostragem aleatória preliminar (ao menos 30 elementos) para estimar o desvio padrão amostral e usa-la na equaçao acima.

## $$\mu = \bar{x} \pm z_{\alpha/2} \frac{s}{\sqrt{n}}$$

### Exemplo

Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de **desvio padrão populacional igual a 150 g**. Selecionada uma **amostra aleatória de 20 sacos** de um lote específico, obteve-se um **peso médio de 5.050 g**. Construa um intervalo de confiança para a **média populacional** assumindo um **nível de significância de 5%**.

In [1]:
#Intervalo de confiança
sigma = 150 #desvio padrao populacional
n = 20 #tamanho da amostra
media_amostral = 5050 #media amostral

significancia = 0.05
confianca = 0.95

z = 1.96

limiar_inferior_intervalo_confianca = media_amostral - z * sigma / n**0.5
limiar_superior_intervalo_confianca = media_amostral + z * sigma / n**0.5

print('limiar_inferior',limiar_inferior_intervalo_confianca)
print('limiar_superior',limiar_superior_intervalo_confianca)

limiar_inferior 4984.2596014615065
limiar_superior 5115.7403985384935


In [2]:
#Erro

erro = z * sigma/n**0.5

print('Erro inferencial: ',erro)

Erro inferencial:  65.74039853849382


![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img008.png)

4984----------5050--------------5115
Probabilidade de 95% de que a média populacional vai ser menor que 5115 e maior que 4984.

In [6]:
a = [1,2,3,4,5]
b = [5,4,3,2]

for i,j in zip(a,b):
    print('i',i)
    print('j', j)

i 1
j 5
i 2
j 4
i 3
j 3
i 4
j 2
