# Estat√≠stica Pr√°tica com Python  

## 1. Introdu√ß√£o √† Amostragem  

### üìå Conceito

Amostragem √© o processo de selecionar uma parte representativa de uma popula√ß√£o para an√°lise estat√≠stica. Em vez de analisar todos os elementos (o que pode ser caro ou invi√°vel), escolhemos uma **amostra** para tirar conclus√µes sobre o todo.

<br>

<img src= "https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png" width=500>

Fonte [Solvis](https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png)

<br>


- **Popula√ß√£o ($N$):** conjunto completo de indiv√≠duos, elementos ou eventos.  
- **Amostra ($n$):** subconjunto extra√≠do da popula√ß√£o.  

Esse processo deve preservar a **representatividade** da popula√ß√£o.

> Exemplo: um banco deseja estimar a m√©dia de saldo dos clientes. Em vez de analisar todos os correntistas (popula√ß√£o), seleciona 1.000 clientes (amostra) de forma aleat√≥ria.

### Importancia da amostragem
<br>

![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQqOdLxM1gMRp_8wTfxYigAIyA0fen1oS8lmA&s)

<br><br>
### Terminologia sobre Amostragem

<br>

Ser√° necess√°rio definir algumas terminologias normalmente utilizadas quando se fala a respeito de amostragem. Este par√¢metros est√£o descritos a seguir:

- **Popula√ß√£o**: ou Universo √© o conjunto de todas as unidades elementares de interesse. A popula√ß√£o deve ser definida claramente e em termos da informa√ß√£o que se pretende conhecer;

<br>

- **Unidade**: trata-se de qualquer elemento da popula√ß√£o;

<br>

- **Amostra**: uma parte ou subconjunto da popula√ß√£o;

<br>

- **Censo**:  observa√ß√£o de todos os elementos da popula√ß√£o;

<br>

- **Par√¢metro Populacional**: √© o vetor correspondente a todos os valores de uma vari√°vel de interesse. Pode ser qualitativa (gosto musical, opni√£o sobre o governo, etc) ou quantitativa (m√©dia, propor√ß√£o, quantidade, etc).

<br>

- **Fun√ß√£o Param√©trica Populacional**:  √© uma caracter√≠stica num√©rica da popula√ß√£o, ou seja, uma express√£o num√©rica que condensa os valores do vetor de par√¢metro populacional. Por exemplo, m√©dia, total, propor√ß√£o, dentre outros.

<br>



### üß™ Lab

#### Exemplo 01

In [88]:
from random import sample

alunos = list(range(1, 51))

print(f'Popula√ß√£o de Alunos: {alunos}')

amostra = sample(alunos, k = 10)

print(f'Amostra da popula√ß√£o de alunos: {amostra}')

Popula√ß√£o de Alunos: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50]
Amostra da popula√ß√£o de alunos: [13, 29, 8, 11, 37, 5, 27, 12, 10, 24]


#### Exemplo 02

Popula√ß√£o de N clientes com saldos entre 0 e 100.000 reais.

##### Gera√ß√£o da popula√ß√£o

In [112]:
import numpy as np
from numpy import random

N = 1_000_000 # tamanho da popula√ß√£o de clientes

np.random.seed(42)
populacao = np.random.uniform(0, 100_000, N)
# 37454.01188474
populacao

array([37454.01188474, 95071.43064099, 73199.39418114, ...,
       41807.19820339, 42867.12566859, 92944.85478505])

In [68]:
print(f'Tamanho da popula√ß√£o: {len(populacao)}')

Tamanho da popula√ß√£o: 1000000


In [78]:
populacao[50:100]

array([96958.46277646, 77513.28233611, 93949.89415642, 89482.73504276,
       59789.99788111, 92187.42350231,  8849.25020519, 19598.28624191,
        4522.72889105, 32533.03307633, 38867.72896895, 27134.90317739,
       82873.75091519, 35675.33266936, 28093.45096874, 54269.60831582,
       14092.42249748, 80219.6980754 ,  7455.06436798, 98688.69366005,
       77224.47692967, 19871.56815342,   552.21171236, 81546.14284548,
       70685.73438476, 72900.7168041 , 77127.03466859,  7404.46517341,
       35846.57285443, 11586.90595251, 86310.34258756, 62329.81268276,
       33089.80248526,  6355.8350286 , 31098.23217157, 32518.33220267,
       72960.61783381, 63755.74713552, 88721.27425763, 47221.49251619,
       11959.42459383, 71324.4787223 , 76078.50486169, 56127.71975695,
       77096.71799546, 49379.55963644, 52273.2829382 , 42754.10183585,
        2541.91267441, 10789.14269933])

##### Amostragem da popula√ß√£o

In [116]:
n = 10_000
amostra = np.random.choice(populacao, size = n, replace=False)
amostra

array([45068.84809321, 31623.42168517, 61042.5487415 , ...,
       74374.37660359, 73994.98078985, 28618.08707979])

In [118]:
print(f'Tamanho da amostra: {len(amostra)}')

Tamanho da amostra: 10000


In [122]:
media_populacional = populacao.mean()
media_amostral = amostra.mean()

print(f'M√©dia populacional: {round(media_populacional, 2)}')
print(f'M√©dia amostral: {round(media_amostral, 2)}')

M√©dia populacional: 50033.45
M√©dia amostral: 50526.12


### Tipos de Amostragem

<br>

Sobre a amostragem, pode-se classic√°-la em dois tipos a respeito sobre as probabilidade destas amostra:

<br>

- **Amostra Probabil√≠stica**: todos os elementos da popula√ß√£o apresentam probabilidade maior que zero de serem selecionados;

<br>

- **Amostra N√£o-Probabil√≠stica**: quando n√£o h√° probabilidade clara/conhecida de sele√ß√£o dos elementos. Os elementos s√£o escolhidos de forma julgamental;

<br><br>


---
## 2. T√©cnicas de Amostragem  

### 2.1 üéØ Amostragem Aleat√≥ria Simples

**Conceito:**  
Cada elemento da popula√ß√£o tem a **mesma chance** de ser escolhido. √â a forma mais b√°sica e intuitiva de amostragem.

> Aplic√°vel quando temos uma lista completa da popula√ß√£o ou podemos sortear de forma justa.

#### üß™ Lab ‚Äì Psicologia (pesquisa de estresse)

In [182]:
import numpy as np

# Gera√ß√£o da popula√ß√£o
populacao = np.random.normal(
    loc = 50,      # m√©dia
    scale = 15,    # desvio padr√£o
    size = 1_000_000  # tamanho da popula√ß√£o
)

populacao

array([47.26903986, 32.62326092, 71.06483956, ..., 50.31439463,
       46.72260087, 55.97005552])

In [184]:
# amostragem aleat√≥ria simples

amostra1 = np.random.choice(populacao, 10, replace=False)
amostra2 = np.random.choice(populacao, 100, replace=False)
amostra3 = np.random.choice(populacao, 1000, replace=False)
amostra4 = np.random.choice(populacao, 10_000, replace=False)
amostra5 = np.random.choice(populacao, 100_000, replace=False)


In [208]:
print(f'Popula√ß√£o:  {round(populacao.mean(), 2)}')
print(f'Amostra 01: {round(amostra1.mean() , 2)}')
print(f'Amostra 02: {round(amostra2.mean() , 2)}')
print(f'Amostra 03: {round(amostra3.mean() , 2)}')
print(f'Amostra 04: {round(amostra4.mean() , 2)}')
print(f'Amostra 05: {round(amostra5.mean() , 2)}')

Popula√ß√£o:  50.0
Amostra 01: 45.32
Amostra 02: 50.52
Amostra 03: 50.09
Amostra 04: 50.1
Amostra 05: 50.02


### 2.2 Amostragem Estratificada  

**Conceito:**  
A popula√ß√£o √© dividida em **estratos homog√™neos** (ex: sexo, idade, faixa de renda), e amostras s√£o selecionadas **proporcionalmente** de cada estrato.

> Garante que todos os grupos relevantes sejam representados.

Procedimento de amostragem:

- Dividir as $N$ unidades da popula√ß√£o em $N_1, N_2, \cdots , N_j$ estratos distintos e homog√™neos;

- Selecionar, ao acaso, uma amostra de tamanhos $n_1, n_2, \cdots , n_j$ , de modo que o tamanho da amostra seja $n = n_1+n_2+ \cdots +n_j$. O tamanho amostral pode ser proporcional √† representatividade do estrato.

<br>

<img src= "https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.png" width = 500>

Fonte: [Via Carreira](https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.pn)

<br>

### üß™ Exemplo pr√°tico ‚Äì Sa√∫de (pacientes por faixa et√°ria)

In [30]:
import numpy as np
import pandas as pd

faixas = ["<30","30-60",">60"]
tamanhos = [3000, 5000, 2000]

pressao = [
    np.random.normal(110, 10, tamanhos[0]), # <30
    np.random.normal(110, 12, tamanhos[1]), # 30-60
    np.random.normal(110, 15, tamanhos[2])  # >60  
]

type(pressao)

list

In [32]:
type(pressao[1])

numpy.ndarray

In [34]:
pressao[1].ndim

1

In [36]:
"aula " * 10

'aula aula aula aula aula aula aula aula aula aula '

In [40]:
faixa_etaria = np.concatenate([
    [faixa] * tamanho for faixa, tamanho in zip(faixas, tamanhos)    
])

faixa_etaria

array(['<30', '<30', '<30', ..., '>60', '>60', '>60'], dtype='<U5')

In [52]:
pressao_total = np.concatenate(pressao)

pressao_total

array([120.7792761 , 102.96852659, 104.97755069, ...,  98.34339675,
        88.77128437, 102.29761583])

In [42]:
len(faixa_etaria)

10000

In [48]:
faixa_etaria
pressao

[array([120.7792761 , 102.96852659, 104.97755069, ..., 113.31474983,
        105.26968532, 116.57232311]),
 array([132.69377862, 106.14885449, 129.44828578, ..., 112.89090583,
        105.48549984, 116.10062124]),
 array([108.78187756, 105.87795186,  95.2327133 , ...,  98.34339675,
         88.77128437, 102.29761583])]

In [54]:
df = pd.DataFrame({
    "faixa_etaria": faixa_etaria,
    "pressao": pressao_total
})

df

Unnamed: 0,faixa_etaria,pressao
0,<30,120.779276
1,<30,102.968527
2,<30,104.977551
3,<30,117.896686
4,<30,116.110784
...,...,...
9995,>60,113.279630
9996,>60,93.509934
9997,>60,98.343397
9998,>60,88.771284


In [60]:
df['faixa_etaria'].unique()

array(['<30', '30-60', '>60'], dtype=object)

In [62]:
df['faixa_etaria'].value_counts()

faixa_etaria
30-60    5000
<30      3000
>60      2000
Name: count, dtype: int64

#### Amostra estratificada

In [68]:
amostra_estratificada = df.groupby('faixa_etaria').sample(frac=0.1)
amostra_estratificada

Unnamed: 0,faixa_etaria,pressao
5276,30-60,113.686450
5096,30-60,100.363108
5066,30-60,119.856578
7141,30-60,122.636963
6066,30-60,119.130430
...,...,...
8100,>60,116.354243
8520,>60,108.610513
9234,>60,86.217639
8957,>60,103.439075


#### Amostra estratificada

In [78]:
amostra_estratificada['faixa_etaria'].value_counts()

faixa_etaria
30-60    500
<30      300
>60      200
Name: count, dtype: int64

#### Amostra simples

In [76]:
amostra_simples = df.sample(frac=0.1)
amostra_simples['faixa_etaria'].value_counts()

faixa_etaria
30-60    508
<30      295
>60      197
Name: count, dtype: int64

### 2.3 üîÅ Amostragem Sistem√°tica  

**Conceito:**  
Seleciona-se o primeiro elemento aleatoriamente e os pr√≥ximos em intervalos fixos $k$ (ex: a cada 10 elementos).

F√≥rmula do intervalo:

$$
k = \frac{N}{n}
$$

> √ötil para bases ordenadas: registros m√©dicos, contas banc√°rias, etc.


### üß™ Lab

In [102]:
N = 10_000
n = 500
k = N // n

inicio = np.random.randint(0, k)
#                   inicio, fim, passo                    
indices = np.arange(inicio, N,   k) # arange = array + range
print(f'K = {k}')
print(f'In√≠cio = {inicio}')
print(f'√çndices = {indices[:10]}')

K = 20
In√≠cio = 2
√çndices = [  2  22  42  62  82 102 122 142 162 182]


### 2.4 üè¢ Amostragem por Conglomerado  

**O que √©?**  
Ao inv√©s de sortear indiv√≠duos, sorteamos **grupos inteiros** chamados de **conglomerados** (ex: ag√™ncias banc√°rias, escolas, bairros, hospitais).

Depois de escolher os conglomerados, **todos os elementos dentro deles s√£o inclu√≠dos na amostra**.

**Quando usar?**  
- Quando √© dif√≠cil acessar a popula√ß√£o individualmente.  
- Quando os dados j√° est√£o agrupados (ex: registros por ag√™ncia).  
- Quando o custo para visitar todos os indiv√≠duos √© alto.

**Vantagens:**  
- Mais pr√°tico e barato.  
- √ötil quando os dados est√£o naturalmente agrupados.

**Desvantagens:**  
- Pode n√£o ser t√£o representativo quanto a amostragem estratificada.  
- Grupos muito homog√™neos podem enviesar os resultados.


#### üß™ Lab ‚Äì Pesquisa em cl√≠nicas m√©dicas

In [104]:
import numpy as np
import pandas as pd

clinicas = []
for i in range(10):
    clinica_id = f"C_{i+1}"
    pressao = np.random.normal(120+i, 10, 1000)
    clinicas.extend([{"clinica":clinica_id, "pressao": p} for p in pressao])

clinicas

[{'clinica': 'C_1', 'pressao': 130.88753163332967},
 {'clinica': 'C_1', 'pressao': 105.90995590141851},
 {'clinica': 'C_1', 'pressao': 130.62936165790893},
 {'clinica': 'C_1', 'pressao': 109.92495377156783},
 {'clinica': 'C_1', 'pressao': 112.07396466772207},
 {'clinica': 'C_1', 'pressao': 125.62442246237937},
 {'clinica': 'C_1', 'pressao': 115.93510031477028},
 {'clinica': 'C_1', 'pressao': 104.69783504227884},
 {'clinica': 'C_1', 'pressao': 115.82164213208331},
 {'clinica': 'C_1', 'pressao': 145.98820227108473},
 {'clinica': 'C_1', 'pressao': 126.6177830598167},
 {'clinica': 'C_1', 'pressao': 116.74443698813795},
 {'clinica': 'C_1', 'pressao': 125.87639661596148},
 {'clinica': 'C_1', 'pressao': 113.08370963396598},
 {'clinica': 'C_1', 'pressao': 111.19249082289402},
 {'clinica': 'C_1', 'pressao': 119.87379439630608},
 {'clinica': 'C_1', 'pressao': 125.44484242786251},
 {'clinica': 'C_1', 'pressao': 109.83832741459908},
 {'clinica': 'C_1', 'pressao': 124.14766673661367},
 {'clinica': 

In [106]:
df = pd.DataFrame(clinicas)
df

Unnamed: 0,clinica,pressao
0,C_1,130.887532
1,C_1,105.909956
2,C_1,130.629362
3,C_1,109.924954
4,C_1,112.073965
...,...,...
9995,C_10,119.956984
9996,C_10,120.426226
9997,C_10,122.587256
9998,C_10,120.551464


In [108]:
df['clinica'].value_counts()

clinica
C_1     1000
C_2     1000
C_3     1000
C_4     1000
C_5     1000
C_6     1000
C_7     1000
C_8     1000
C_9     1000
C_10    1000
Name: count, dtype: int64

In [110]:
clinicas_selecionadas = np.random.choice(
    df['clinica'].unique(), 3, replace=False
)

clinicas_selecionadas

array(['C_10', 'C_4', 'C_7'], dtype=object)

In [120]:
df["clinica"].isin(clinicas_selecionadas)

0       False
1       False
2       False
3       False
4       False
        ...  
9995     True
9996     True
9997     True
9998     True
9999     True
Name: clinica, Length: 10000, dtype: bool

In [118]:
type(df)

pandas.core.frame.DataFrame

In [112]:
# selecione no dataframe as clinicas que "est√£o em (is in) clinicas selecionadas"
amostra = df[df["clinica"].isin(clinicas_selecionadas)]
amostra

Unnamed: 0,clinica,pressao
3000,C_4,136.909749
3001,C_4,116.865231
3002,C_4,115.609476
3003,C_4,112.485530
3004,C_4,121.822402
...,...,...
9995,C_10,119.956984
9996,C_10,120.426226
9997,C_10,122.587256
9998,C_10,120.551464


In [122]:
print(f'Cl√≠nicas sorteadas: {clinicas_selecionadas}')
print(f'Tamanho da amostra: {len(amostra)}')

Cl√≠nicas sorteadas: ['C_10' 'C_4' 'C_7']
Tamanho da amostra: 3000


### 3 ‚ö†Ô∏è Vi√©s de Sele√ß√£o  

Vi√©s acontece quando a amostra **n√£o reflete bem a popula√ß√£o**. Pode surgir por:

- Crit√©rio de escolha enviesado  
- Falta de grupos importantes  
- Erros de coleta  

> Exemplo: pesquisar apenas usu√°rios de internet exclui idosos que n√£o usam tecnologia.


#### 3.1 üìê Ferramentas √∫teis para avalia√ß√£o  

- `seaborn.boxplot()` ‚Äì compara distribui√ß√µes  
- `scipy.stats.ttest_ind()` ‚Äì compara m√©dias  
- `scipy.stats.ks_2samp()` ‚Äì compara distribui√ß√µes (teste de Kolmogorov-Smirnov)  