# Estatística Prática com Python  

## 1. Introdução à Amostragem  

### 📌 Conceito

Amostragem é o processo de selecionar uma parte representativa de uma população para análise estatística. Em vez de analisar todos os elementos (o que pode ser caro ou inviável), escolhemos uma **amostra** para tirar conclusões sobre o todo.

<br>

<img src= "https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png" width=500>

Fonte [Solvis](https://solvis.com.br/wp-content/uploads/2021/02/imagem-para-blog-calculadora-de-amostragem-quantas-respostas-precisa-ter-na-pesquisa-solvis-e1613076591189.png)

<br>


- **População ($N$):** conjunto completo de indivíduos, elementos ou eventos.  
- **Amostra ($n$):** subconjunto extraído da população.  

Esse processo deve preservar a **representatividade** da população.

> Exemplo: um banco deseja estimar a média de saldo dos clientes. Em vez de analisar todos os correntistas (população), seleciona 1.000 clientes (amostra) de forma aleatória.

### Importancia da amostragem
<br>

![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQqOdLxM1gMRp_8wTfxYigAIyA0fen1oS8lmA&s)

<br><br>
### Terminologia sobre Amostragem

<br>

Será necessário definir algumas terminologias normalmente utilizadas quando se fala a respeito de amostragem. Este parâmetros estão descritos a seguir:

- **População**: ou Universo é o conjunto de todas as unidades elementares de interesse. A população deve ser definida claramente e em termos da informação que se pretende conhecer;

<br>

- **Unidade**: trata-se de qualquer elemento da população;

<br>

- **Amostra**: uma parte ou subconjunto da população;

<br>

- **Censo**:  observação de todos os elementos da população;

<br>

- **Parâmetro Populacional**: é o vetor correspondente a todos os valores de uma variável de interesse. Pode ser qualitativa (gosto musical, opnião sobre o governo, etc) ou quantitativa (média, proporção, quantidade, etc).

<br>

- **Função Paramétrica Populacional**:  é uma característica numérica da população, ou seja, uma expressão numérica que condensa os valores do vetor de parâmetro populacional. Por exemplo, média, total, proporção, dentre outros.

<br>



### 🧪 Lab

### Tipos de Amostragem

<br>

Sobre a amostragem, pode-se classicá-la em dois tipos a respeito sobre as probabilidade destas amostra:

<br>

- **Amostra Probabilística**: todos os elementos da população apresentam probabilidade maior que zero de serem selecionados;

<br>

- **Amostra Não-Probabilística**: quando não há probabilidade clara/conhecida de seleção dos elementos. Os elementos são escolhidos de forma julgamental;

<br><br>


---
## 2. Técnicas de Amostragem  

### 2.1 🎯 Amostragem Aleatória Simples

**Conceito:**  
Cada elemento da população tem a **mesma chance** de ser escolhido. É a forma mais básica e intuitiva de amostragem.

> Aplicável quando temos uma lista completa da população ou podemos sortear de forma justa.

#### 🧪 Lab – Psicologia (pesquisa de estresse)

### 2.2 Amostragem Estratificada  

**Conceito:**  
A população é dividida em **estratos homogêneos** (ex: sexo, idade, faixa de renda), e amostras são selecionadas **proporcionalmente** de cada estrato.

> Garante que todos os grupos relevantes sejam representados.

Procedimento de amostragem:

- Dividir as $N$ unidades da população em $N_1, N_2, \cdots , N_j$ estratos distintos e homogêneos;

- Selecionar, ao acaso, uma amostra de tamanhos $n_1, n_2, \cdots , n_j$ , de modo que o tamanho da amostra seja $n = n_1+n_2+ \cdots +n_j$. O tamanho amostral pode ser proporcional à representatividade do estrato.

<br>

<img src= "https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.png" width = 500>

Fonte: [Via Carreira](https://viacarreira.com/wp-content/uploads/2020/11/amostra-de-pesquisa-2.pn)

<br>

### 🧪 Exemplo prático – Saúde (pacientes por faixa etária)

### 2.3 🔁 Amostragem Sistemática  

**Conceito:**  
Seleciona-se o primeiro elemento aleatoriamente e os próximos em intervalos fixos $k$ (ex: a cada 10 elementos).

Fórmula do intervalo:

$$
k = \frac{N}{n}
$$

> Útil para bases ordenadas: registros médicos, contas bancárias, etc.


### 🧪 Lab

### 2.4 🏢 Amostragem por Conglomerado  

**O que é?**  
Ao invés de sortear indivíduos, sorteamos **grupos inteiros** chamados de **conglomerados** (ex: agências bancárias, escolas, bairros, hospitais).

Depois de escolher os conglomerados, **todos os elementos dentro deles são incluídos na amostra**.

**Quando usar?**  
- Quando é difícil acessar a população individualmente.  
- Quando os dados já estão agrupados (ex: registros por agência).  
- Quando o custo para visitar todos os indivíduos é alto.

**Vantagens:**  
- Mais prático e barato.  
- Útil quando os dados estão naturalmente agrupados.

**Desvantagens:**  
- Pode não ser tão representativo quanto a amostragem estratificada.  
- Grupos muito homogêneos podem enviesar os resultados.


#### 🧪 Lab – Pesquisa em clínicas médicas

### 3 ⚠️ Viés de Seleção  

Viés acontece quando a amostra **não reflete bem a população**. Pode surgir por:

- Critério de escolha enviesado  
- Falta de grupos importantes  
- Erros de coleta  

> Exemplo: pesquisar apenas usuários de internet exclui idosos que não usam tecnologia.


#### 3.1 📐 Ferramentas úteis para avaliação  

- `seaborn.boxplot()` – compara distribuições  
- `scipy.stats.ttest_ind()` – compara médias  
- `scipy.stats.ks_2samp()` – compara distribuições (teste de Kolmogorov-Smirnov)  