# Estat√≠stica Pr√°tica com Python  

## 1. Introdu√ß√£o √† Amostragem  

### üìå Conceito

Amostragem √© o processo de selecionar uma parte representativa de uma popula√ß√£o para an√°lise estat√≠stica. Em vez de analisar todos os elementos (o que pode ser caro ou invi√°vel), escolhemos uma **amostra** para tirar conclus√µes sobre o todo.

<br>

<img src= "https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png" width=500>

Fonte [Solvis](https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png)

<br>


- **Popula√ß√£o ($N$):** conjunto completo de indiv√≠duos, elementos ou eventos.  
- **Amostra ($n$):** subconjunto extra√≠do da popula√ß√£o.  

Esse processo deve preservar a **representatividade** da popula√ß√£o.

> Exemplo: um banco deseja estimar a m√©dia de saldo dos clientes. Em vez de analisar todos os correntistas (popula√ß√£o), seleciona 1.000 clientes (amostra) de forma aleat√≥ria.

### Importancia da amostragem
<br>

![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQqOdLxM1gMRp_8wTfxYigAIyA0fen1oS8lmA&s)

<br><br>
### Terminologia sobre Amostragem

<br>

Ser√° necess√°rio definir algumas terminologias normalmente utilizadas quando se fala a respeito de amostragem. Este par√¢metros est√£o descritos a seguir:

- **Popula√ß√£o**: ou Universo √© o conjunto de todas as unidades elementares de interesse. A popula√ß√£o deve ser definida claramente e em termos da informa√ß√£o que se pretende conhecer;

<br>

- **Unidade**: trata-se de qualquer elemento da popula√ß√£o;

<br>

- **Amostra**: uma parte ou subconjunto da popula√ß√£o;

<br>

- **Censo**:  observa√ß√£o de todos os elementos da popula√ß√£o;

<br>

- **Par√¢metro Populacional**: √© o vetor correspondente a todos os valores de uma vari√°vel de interesse. Pode ser qualitativa (gosto musical, opni√£o sobre o governo, etc) ou quantitativa (m√©dia, propor√ß√£o, quantidade, etc).

<br>

- **Fun√ß√£o Param√©trica Populacional**:  √© uma caracter√≠stica num√©rica da popula√ß√£o, ou seja, uma express√£o num√©rica que condensa os valores do vetor de par√¢metro populacional. Por exemplo, m√©dia, total, propor√ß√£o, dentre outros.

<br>



### üß™ Lab

#### EXEMPLO 1

In [None]:
from random import sample

alunos = list(range(1, 51))

print(f'Poopula√ß√£o de alunos: {alunos}')

amostra = sample(alunos, k = 10)

print(f'Amostra de alunos: {amostra}')

Poopula√ß√£o de alunos: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50]
Amostra de alunos: [25, 37, 32, 22, 5, 35, 1, 33, 39, 20]


### EXEMPLO 2

In [5]:
import numpy as np

In [6]:
N = 1_000_000
np.random.seed(42) # tamanho da populacao de clientes
populacao = np.random.uniform(0, 100_000, N)
populacao

array([37454.01188474, 95071.43064099, 73199.39418114, ...,
       41807.19820339, 42867.12566859, 92944.85478505], shape=(1000000,))

In [9]:
type(populacao)
print(f'Tamanho da popula√ß√£o: {len(populacao)}')

Tamanho da popula√ß√£o: 1000000


In [10]:
n = 10_000
amostra = np.random.choice(populacao, size = n, replace=False)
print(f'Amostra: {amostra}')

Amostra: [45068.84809321 31623.42168517 61042.5487415  ... 74374.37660359
 73994.98078985 28618.08707979]


In [12]:
print(f'Tamanho da amostra: {len(amostra)}')

Tamanho da amostra: 10000


In [14]:
media_populacional = populacao.mean()
media_amostral = amostra.mean()

print(f'M√©dia populacional: {round(media_populacional, 2)}')
print(f'M√©dia amostral: {round(media_amostral, 2)}')

M√©dia populacional: 50033.45
M√©dia amostral: 50526.12


### Tipos de Amostragem

<br>

Sobre a amostragem, pode-se classic√°-la em dois tipos a respeito sobre as probabilidade destas amostra:

<br>

- **Amostra Probabil√≠stica**: todos os elementos da popula√ß√£o apresentam probabilidade maior que zero de serem selecionados;

<br>

- **Amostra N√£o-Probabil√≠stica**: quando n√£o h√° probabilidade clara/conhecida de sele√ß√£o dos elementos. Os elementos s√£o escolhidos de forma julgamental;

<br><br>


---
## 2. T√©cnicas de Amostragem  

### 2.1 üéØ Amostragem Aleat√≥ria Simples

**Conceito:**  
Cada elemento da popula√ß√£o tem a **mesma chance** de ser escolhido. √â a forma mais b√°sica e intuitiva de amostragem.

> Aplic√°vel quando temos uma lista completa da popula√ß√£o ou podemos sortear de forma justa.

#### üß™ Lab ‚Äì Psicologia (pesquisa de estresse)

In [22]:
import numpy as np

# gera√ß√£o da popula√ß√£o

populacao = np.random.normal(
    loc = 50, # m√©dia
    scale = 15, # desvio padr√£o
    size = 10_000_000
)

amostra1 = np.random.choice(populacao, 10, replace=False) # amostragem aleat√≥ria simples
amostra2 = np.random.choice(populacao, 100, replace=False)
amostra3 = np.random.choice(populacao, 1000, replace=False)
amostra4 = np.random.choice(populacao, 10_000, replace=False)
amostra5 = np.random.choice(populacao, 10_000, replace=False)

In [23]:
print(f'Popula√ß√£o: {populacao.mean()}')
print(f'Amostra 1: {amostra1.mean()}')
print(f'Amostra 2: {amostra2.mean()}')
print(f'Amostra 3: {amostra3.mean()}')
print(f'Amostra 4: {amostra4.mean()}')
print(f'Amostra 5: {amostra5.mean()}')

Popula√ß√£o: 50.00328556276273
Amostra 1: 45.85808927211771
Amostra 2: 50.38790507784866
Amostra 3: 51.21751042765824
Amostra 4: 49.80295006415135
Amostra 5: 50.10066819560793


### 2.2 Amostragem Estratificada  

**Conceito:**  
A popula√ß√£o √© dividida em **estratos homog√™neos** (ex: sexo, idade, faixa de renda), e amostras s√£o selecionadas **proporcionalmente** de cada estrato.

> Garante que todos os grupos relevantes sejam representados.

Procedimento de amostragem:

- Dividir as $N$ unidades da popula√ß√£o em $N_1, N_2, \cdots , N_j$ estratos distintos e homog√™neos;

- Selecionar, ao acaso, uma amostra de tamanhos $n_1, n_2, \cdots , n_j$ , de modo que o tamanho da amostra seja $n = n_1+n_2+ \cdots +n_j$. O tamanho amostral pode ser proporcional √† representatividade do estrato.

<br>

<img src= "https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.png" width = 500>

Fonte: [Via Carreira](https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.pn)

<br>

### üß™ Exemplo pr√°tico ‚Äì Sa√∫de (pacientes por faixa et√°ria)

In [2]:
import numpy as np
import pandas as pd

faixas = ["<30", "30-60", ">60"]
tamanhos = [3000, 5000, 2000]

pressao = [
    np.random.normal(110, 10, tamanhos[0]),
    np.random.normal(110, 12, tamanhos[1]),
    np.random.normal(110, 15, tamanhos[2]),

]

pressao[0].shape, pressao[1].shape, pressao[2].shape

((3000,), (5000,), (2000,))

In [3]:
len(pressao[1])

5000

In [4]:
pressao[1].ndim

1

In [5]:
pressao_total = np.concatenate(pressao)

In [6]:
faixa_etaria = np.concatenate([
    [faixa] * tamanho for faixa, tamanho in zip(faixas, tamanhos)
])

faixa_etaria

array(['<30', '<30', '<30', ..., '>60', '>60', '>60'],
      shape=(10000,), dtype='<U5')

In [7]:
df = pd.DataFrame({
    "faixa et√°ria": faixa_etaria,
    "press√£o": pressao_total
})

df

Unnamed: 0,faixa et√°ria,press√£o
0,<30,124.333875
1,<30,101.394632
2,<30,103.347920
3,<30,114.549708
4,<30,106.454210
...,...,...
9995,>60,111.284679
9996,>60,139.031140
9997,>60,91.560104
9998,>60,100.469549


In [13]:
df["faixa et√°ria"].unique()

array(['<30', '30-60', '>60'], dtype=object)

In [14]:
df["faixa et√°ria"].value_counts()

faixa et√°ria
30-60    5000
<30      3000
>60      2000
Name: count, dtype: int64

In [17]:
amostra_estratificada = df.groupby("faixa et√°ria").sample(frac=0.1)
amostra_estratificada

Unnamed: 0,faixa et√°ria,press√£o
3489,30-60,109.168796
5819,30-60,105.066794
4809,30-60,93.961108
4787,30-60,102.413706
5036,30-60,99.366290
...,...,...
8838,>60,127.822096
8268,>60,81.219102
8199,>60,138.869935
8918,>60,83.661131


In [18]:
amostra_estratificada['faixa et√°ria'].value_counts()

faixa et√°ria
30-60    500
<30      300
>60      200
Name: count, dtype: int64

In [8]:
"Aula " * 5

'Aula Aula Aula Aula Aula '

In [31]:
len(faixa_etaria)

10000

### 2.3 üîÅ Amostragem Sistem√°tica  

**Conceito:**  
Seleciona-se o primeiro elemento aleatoriamente e os pr√≥ximos em intervalos fixos $k$ (ex: a cada 10 elementos).

F√≥rmula do intervalo:

$$
k = \frac{N}{n}
$$

> √ötil para bases ordenadas: registros m√©dicos, contas banc√°rias, etc.


### üß™ Lab

In [21]:
N = 10_000
n = 500
k = N // n

inicio = np.random.randint(0, k)
indices= np.arange(inicio, N, k)
print(f'K = {k}')
print(f'In√≠cio = {inicio}')
print(f'√çndices = {indices[:10]}')

K = 20
In√≠cio = 14
√çndices = [ 14  34  54  74  94 114 134 154 174 194]


### 2.4 üè¢ Amostragem por Conglomerado  

**O que √©?**  
Ao inv√©s de sortear indiv√≠duos, sorteamos **grupos inteiros** chamados de **conglomerados** (ex: ag√™ncias banc√°rias, escolas, bairros, hospitais).

Depois de escolher os conglomerados, **todos os elementos dentro deles s√£o inclu√≠dos na amostra**.

**Quando usar?**  
- Quando √© dif√≠cil acessar a popula√ß√£o individualmente.  
- Quando os dados j√° est√£o agrupados (ex: registros por ag√™ncia).  
- Quando o custo para visitar todos os indiv√≠duos √© alto.

**Vantagens:**  
- Mais pr√°tico e barato.  
- √ötil quando os dados est√£o naturalmente agrupados.

**Desvantagens:**  
- Pode n√£o ser t√£o representativo quanto a amostragem estratificada.  
- Grupos muito homog√™neos podem enviesar os resultados.


#### üß™ Lab ‚Äì Pesquisa em cl√≠nicas m√©dicas

In [27]:
import pandas as pd
import numpy as np

clinicas = []
for i in range(10):
    clinica_id = f"C_{i+1}"
    pressao = np.random.normal(120, 10, 1000)
    clinicas.extend([{"cl√≠nica": clinica_id, "press√£o": p} for p in pressao])
    
clinicas

[{'cl√≠nica': 'C_1', 'press√£o': np.float64(125.31664580651164)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(108.55793336088834)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(110.82050438898187)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(110.88239443071836)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(111.50933279328073)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(124.38896651766795)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(121.86392008523995)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(119.09085321880552)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(113.39027477933068)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(122.27232961982912)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(135.59061312811792)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(100.39908764944627)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(121.49884678670917)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(126.32878279116333)},
 {'cl√≠nica': 'C_1', 'press√£o': np.float64(116.27412510175805)},
 {'cl√≠nic

In [28]:
df = pd.DataFrame(clinicas)
df

Unnamed: 0,cl√≠nica,press√£o
0,C_1,125.316646
1,C_1,108.557933
2,C_1,110.820504
3,C_1,110.882394
4,C_1,111.509333
...,...,...
9995,C_10,103.410587
9996,C_10,114.888074
9997,C_10,131.699145
9998,C_10,138.693857


In [29]:
df['cl√≠nica'].value_counts()

cl√≠nica
C_1     1000
C_2     1000
C_3     1000
C_4     1000
C_5     1000
C_6     1000
C_7     1000
C_8     1000
C_9     1000
C_10    1000
Name: count, dtype: int64

In [30]:
clinicas_selecionadas = np.random.choice(
    df['cl√≠nica'].unique(), 3, replace=False
)
clinicas_selecionadas

array(['C_4', 'C_10', 'C_5'], dtype=object)

In [32]:
amostra = df[df["cl√≠nica"].isin(clinicas_selecionadas)]
amostra

Unnamed: 0,cl√≠nica,press√£o
3000,C_4,132.712447
3001,C_4,119.247537
3002,C_4,111.199690
3003,C_4,118.837705
3004,C_4,137.431183
...,...,...
9995,C_10,103.410587
9996,C_10,114.888074
9997,C_10,131.699145
9998,C_10,138.693857


In [33]:
print(f'Cl√≠nicas sorteadas: {clinicas_selecionadas}')
print(f'Tamanho da Amostra: {len(amostra)}')

Cl√≠nicas sorteadas: ['C_4' 'C_10' 'C_5']
Tamanho da Amostra: 3000


### 3 ‚ö†Ô∏è Vi√©s de Sele√ß√£o  

Vi√©s acontece quando a amostra **n√£o reflete bem a popula√ß√£o**. Pode surgir por:

- Crit√©rio de escolha enviesado  
- Falta de grupos importantes  
- Erros de coleta  

> Exemplo: pesquisar apenas usu√°rios de internet exclui idosos que n√£o usam tecnologia.


#### 3.1 üìê Ferramentas √∫teis para avalia√ß√£o  

- `seaborn.boxplot()` ‚Äì compara distribui√ß√µes  
- `scipy.stats.ttest_ind()` ‚Äì compara m√©dias  
- `scipy.stats.ks_2samp()` ‚Äì compara distribui√ß√µes (teste de Kolmogorov-Smirnov)  