# Estatística Prática com Python  

## 1. Introdução à Amostragem  

### 📌 Conceito

Amostragem é o processo de selecionar uma parte representativa de uma população para análise estatística. Em vez de analisar todos os elementos (o que pode ser caro ou inviável), escolhemos uma **amostra** para tirar conclusões sobre o todo.

<br>

<img src= "https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png" width=500>

Fonte [Solvis](https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png)

<br>


- **População ($N$):** conjunto completo de indivíduos, elementos ou eventos.  
- **Amostra ($n$):** subconjunto extraído da população.  

Esse processo deve preservar a **representatividade** da população.

> Exemplo: um banco deseja estimar a média de saldo dos clientes. Em vez de analisar todos os correntistas (população), seleciona 1.000 clientes (amostra) de forma aleatória.

### Importancia da amostragem
<br>

![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQqOdLxM1gMRp_8wTfxYigAIyA0fen1oS8lmA&s)

<br><br>
### Terminologia sobre Amostragem

<br>

Será necessário definir algumas terminologias normalmente utilizadas quando se fala a respeito de amostragem. Este parâmetros estão descritos a seguir:

- **População**: ou Universo é o conjunto de todas as unidades elementares de interesse. A população deve ser definida claramente e em termos da informação que se pretende conhecer;

<br>

- **Unidade**: trata-se de qualquer elemento da população;

<br>

- **Amostra**: uma parte ou subconjunto da população;

<br>

- **Censo**:  observação de todos os elementos da população;

<br>

- **Parâmetro Populacional**: é o vetor correspondente a todos os valores de uma variável de interesse. Pode ser qualitativa (gosto musical, opnião sobre o governo, etc) ou quantitativa (média, proporção, quantidade, etc).

<br>

- **Função Paramétrica Populacional**:  é uma característica numérica da população, ou seja, uma expressão numérica que condensa os valores do vetor de parâmetro populacional. Por exemplo, média, total, proporção, dentre outros.

<br>



### 🧪 Lab

In [2]:
from random import sample


alunos = list(range(1,101))
print(alunos)



[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100]


In [3]:
import numpy as np

np.random.seed(42)
populacao = np.random.uniform(0, 100_000,1_000_000)
populacao.shape

(1000000,)

In [4]:
max(populacao), min(populacao)

(np.float64(99999.83148609544), np.float64(0.05188445665327279))

In [6]:
amostra = np.random.choice(populacao, size=100, replace=False)
print(f"Média da população:{populacao.mean():.2f}")
print(f"Média da amostra:{amostra.mean():.2f}")

Média da população:50033.45
Média da amostra:46220.53


### Tipos de Amostragem

<br>

Sobre a amostragem, pode-se classicá-la em dois tipos a respeito sobre as probabilidade destas amostra:

<br>

- **Amostra Probabilística**: todos os elementos da população apresentam probabilidade maior que zero de serem selecionados;

<br>

- **Amostra Não-Probabilística**: quando não há probabilidade clara/conhecida de seleção dos elementos. Os elementos são escolhidos de forma julgamental;

<br><br>


---
## 2. Técnicas de Amostragem  

### 2.1 🎯 Amostragem Aleatória Simples

**Conceito:**  
Cada elemento da população tem a **mesma chance** de ser escolhido. É a forma mais básica e intuitiva de amostragem.

> Aplicável quando temos uma lista completa da população ou podemos sortear de forma justa.

#### 🧪 Lab – Psicologia (pesquisa de estresse)

In [8]:
pop = np.random.normal(loc=50,scale=15, size=1_000_000)


amostra = np.random.choice(pop, size=100, replace=False)



print(amostra)

[64.81249138 24.56893119 12.11588224 65.59240306 39.89973103 67.14388194
 63.89938726 46.08633802 54.64270139 56.56971072 78.39445096 65.09630576
 71.02844965 37.19301382 42.8566851  51.5166252  43.09517432 66.73766571
 37.61456252 49.81060806 80.91480071 44.9243505  72.09349146 63.33732938
 42.70391294 28.1534081  54.48267235 45.20443585 37.15698823 57.48888377
 57.26719635 40.21583308 23.65327062 45.51231361 25.41082501 73.84253594
 42.62736467 56.18356671 11.18245257 37.96992054 82.23640363 47.14322958
 69.37510717 56.88816596 72.10436665 46.88462648 66.63875353 54.89409484
 16.54113763 46.98202098 69.44272765 41.16010206 37.48189049 67.54679446
 29.9778472  53.87519531 45.60149839 19.6703083  35.56496037 37.6489474
 49.57068591 53.21365832 70.61611893 55.19941848 61.34951067 54.38698103
 51.33979729  5.71154804 23.23913439 24.03823277 60.78338687 67.33132918
 56.04926488 37.11834488 45.16439206 96.33898347 36.30714048 52.47694375
 47.54116811 43.95381717 51.65400664 65.26668996 47.

### 2.2 Amostragem Estratificada  

**Conceito:**  
A população é dividida em **estratos homogêneos** (ex: sexo, idade, faixa de renda), e amostras são selecionadas **proporcionalmente** de cada estrato.

> Garante que todos os grupos relevantes sejam representados.

Procedimento de amostragem:

- Dividir as $N$ unidades da população em $N_1, N_2, \cdots , N_j$ estratos distintos e homogêneos;

- Selecionar, ao acaso, uma amostra de tamanhos $n_1, n_2, \cdots , n_j$ , de modo que o tamanho da amostra seja $n = n_1+n_2+ \cdots +n_j$. O tamanho amostral pode ser proporcional à representatividade do estrato.

<br>

<img src= "https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.png" width = 500>

Fonte: [Via Carreira](https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.pn)

<br>

### 🧪 Exemplo prático – Saúde (pacientes por faixa etária)

In [11]:
import numpy as np
import pandas as pd


np.random.seed(10)
faixas = ['<30','30-60','60+']
tamanhos = [3000,5000,2000]


pressao = [
    np.random.normal(loc=110, scale=10, size=tamanhos[0]),
    np.random.normal(loc=125, scale=10, size=tamanhos[1]),
    np.random.normal(loc=140, scale=10, size=tamanhos[2])

]

In [None]:
faixas

In [None]:
pressao[0].shape, pressao[1].shape, pressao[2].shape   

In [12]:
faixa_etaria = np.concatenate([
    [faixa] * tamanho for faixa, tamanho in zip(faixas,tamanhos)

])

faixa_etaria

array(['<30', '<30', '<30', ..., '60+', '60+', '60+'],
      shape=(10000,), dtype='<U5')

In [13]:
pressao_total = np.concatenate(pressao)
pressao_total

array([123.31586504, 117.15278974,  94.54599708, ..., 146.47377813,
       152.50739219, 151.629442  ], shape=(10000,))

In [14]:
df = pd.DataFrame({

    'faixa_etaria': faixa_etaria,
    'pressao_arterial': pressao_total       
})

### 2.3 🔁 Amostragem Sistemática  

**Conceito:**  
Seleciona-se o primeiro elemento aleatoriamente e os próximos em intervalos fixos $k$ (ex: a cada 10 elementos).

Fórmula do intervalo:

$$
k = \frac{N}{n}
$$

> Útil para bases ordenadas: registros médicos, contas bancárias, etc.


### 🧪 Lab

### 2.4 🏢 Amostragem por Conglomerado  

**O que é?**  
Ao invés de sortear indivíduos, sorteamos **grupos inteiros** chamados de **conglomerados** (ex: agências bancárias, escolas, bairros, hospitais).

Depois de escolher os conglomerados, **todos os elementos dentro deles são incluídos na amostra**.

**Quando usar?**  
- Quando é difícil acessar a população individualmente.  
- Quando os dados já estão agrupados (ex: registros por agência).  
- Quando o custo para visitar todos os indivíduos é alto.

**Vantagens:**  
- Mais prático e barato.  
- Útil quando os dados estão naturalmente agrupados.

**Desvantagens:**  
- Pode não ser tão representativo quanto a amostragem estratificada.  
- Grupos muito homogêneos podem enviesar os resultados.


#### 🧪 Lab – Pesquisa em clínicas médicas

### 3 ⚠️ Viés de Seleção  

Viés acontece quando a amostra **não reflete bem a população**. Pode surgir por:

- Critério de escolha enviesado  
- Falta de grupos importantes  
- Erros de coleta  

> Exemplo: pesquisar apenas usuários de internet exclui idosos que não usam tecnologia.


#### 3.1 📐 Ferramentas úteis para avaliação  

- `seaborn.boxplot()` – compara distribuições  
- `scipy.stats.ttest_ind()` – compara médias  
- `scipy.stats.ks_2samp()` – compara distribuições (teste de Kolmogorov-Smirnov)  