# Amostragem Simples:

A amostragem simples envolve escolher aleatoriamente uma quantidade específica de elementos de um conjunto maior (a população) para obter uma amostra representativa, com cada elemento tendo a mesma chance de ser selecionado.

Isso significa que cada unidade tem a mesma chance de ser escolhida para a amostra.

Esta é uma das técnicas mais simples e diretas de amostragem, mas pode ser subótima* se a população tiver uma distribuição desigual de características importantes.

### **Por que usar Amostragem Simples no Python?**

* **Economia de tempo e recursos:** Ao invés de analisar toda a população, você trabalha com um grupo menor.
* **Facilidade de análise:** Conjuntos de dados menores são mais fáceis de manipular e analisar.
* **Generalização:** Se a amostra for bem escolhida, os resultados podem ser generalizados para toda a população.

### **Conceitos importantes:**

* **População:** O conjunto completo de todos os elementos que você quer estudar.
* **Amostra:** Um subconjunto da população selecionado para análise.
* **Aleatoriedade:** Cada elemento da população tem a mesma chance de ser selecionado.
* **Sem reposição:** Um elemento não pode ser selecionado mais de uma vez na mesma amostra.
* **Amostragem estratificada:** Divide a população em grupos e seleciona uma amostra proporcional de cada grupo.
* **Amostragem por conglomerados:** Divide a população em grupos e seleciona aleatoriamente alguns grupos inteiros.

In [40]:
import pandas as pd
import numpy as np

#### ❇️ Exemplo: imagine que são os números de identificação dos alunos

In [41]:
# Criando uma população 
populacao = np.arange(1, 101)  # Uma população de 100 alunos
print(populacao, "\n")

# Tamanho da amostra desejada
tamanho_amostra = 20
print(tamanho_amostra, "\n")

# Gerando índices aleatórios para a amostra
indices_amostra = np.random.choice(populacao.size, tamanho_amostra, replace=False)
print(indices_amostra, "\n")

# Extraindo a amostra da população
amostra = populacao[indices_amostra]
print(amostra)

[  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36
  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54
  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90
  91  92  93  94  95  96  97  98  99 100] 

20 

[12 42 48 55 52 79 49 56 74 77 60 25 19 66  5 62 22 61 27 98] 

[13 43 49 56 53 80 50 57 75 78 61 26 20 67  6 63 23 62 28 99]


#### ❇️ Exemplo: usando a famosa base de dados Iris

In [42]:
base = pd.read_csv('iris.csv')
base #o base.shape aparece embaixo

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [43]:
# Semente aleatória para manter os resultados em várias execuções:
np.random.seed(2345)

# Criar uma lista das amostras aleatórias com 150 com itens de 0 e 1, com reposição de valores e probabilidades equivalentes, 
# para servir como referência para seleção de apenas alguns itens da população a partir do índice:
amostra = np.random.choice(a=[0, 1], size=150, replace=True, p=[0.7, 0.3])  # p = probabilidade

In [44]:
# Verificar o tamanho da amostra:
print("Tamanho da amostra total:", len(amostra))

# Verificar o tamanho da amostra para valores igual a 1
print("\nTamanho da amostra = 1:", len(amostra[amostra == 1]))

# Verificar o tamanho da amostra para valores igual a 0
print("\nTamanho da amostra = 0:", len(amostra[amostra == 0]))

# Verificar a amostra com 150 itens de toda a população:
print("\nPequena amostra com 150 itens de toda a população:\n", (amostra))

Tamanho da amostra total: 150

Tamanho da amostra = 1: 49

Tamanho da amostra = 0: 101

Pequena amostra com 150 itens de toda a população:
 [0 0 0 0 1 0 0 0 1 0 0 1 0 1 0 0 1 0 1 1 1 0 0 1 1 1 0 1 0 0 1 0 0 1 1 0 1
 0 0 0 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0
 0 1 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0
 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 1 0 1 1 1 0 0 0 0 0 0 0 0 1 1 0 0 1 1 0
 0 1]


In [45]:
# Explicação do código: aqui ele está pegando a lista das amostras aleatórias para conextar com a base da população e selecionar os itens dos indíces quando for 0 ou 1:
# Salvar em uma base só amostras iguais a 0
base0 = base.loc[amostra == 0]
print(base0.shape)

# Salvar em uma base só amostras iguais a 1
base1 = base.loc[amostra == 1]
print(base1.shape)

print(base0)
print(base1)

(101, 5)
(49, 5)
     sepal length  sepal width  petal length  petal width           class
0             5.1          3.5           1.4          0.2     Iris-setosa
1             4.9          3.0           1.4          0.2     Iris-setosa
2             4.7          3.2           1.3          0.2     Iris-setosa
3             4.6          3.1           1.5          0.2     Iris-setosa
5             5.4          3.9           1.7          0.4     Iris-setosa
..            ...          ...           ...          ...             ...
140           6.7          3.1           5.6          2.4  Iris-virginica
143           6.8          3.2           5.9          2.3  Iris-virginica
144           6.7          3.3           5.7          2.5  Iris-virginica
147           6.5          3.0           5.2          2.0  Iris-virginica
148           6.2          3.4           5.4          2.3  Iris-virginica

[101 rows x 5 columns]
     sepal length  sepal width  petal length  petal width            cl