# Amostragem Estratificada:

Imagine que você quer saber a opinião de todos os alunos de uma universidade sobre um novo plano de estudos. Em vez de entrevistar todos os alunos, você pode dividir a população (alunos) em grupos (estratos) com características semelhantes, como curso, ano ou idade. Depois, você seleciona aleatoriamente um número proporcional de alunos de cada estrato para entrevistar. Essa é a amostragem estratificada.

Na amostragem estratificada, a população é dividida em subgrupos ou estratos com base em características relevantes, como gênero, idade, localização geográfica, etc. Em seguida, uma amostra é selecionada aleatoriamente dentro de cada estrato. Este método garante que a amostra represente de forma equilibrada as diferentes características da população, o que pode aumentar a precisão dos resultados. No entanto, é mais complexo e requer mais tempo e recursos do que as outras duas técnicas.

### **Por que usar amostragem estratificada?**

* **Representatividade:** Garante que cada grupo importante da população esteja representado na amostra.
* **Precisão:** Reduz a variabilidade da amostra, fornecendo estimativas mais precisas.
* **Eficiência:** Pode reduzir o tamanho da amostra total necessária para obter resultados confiáveis.

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split

#### ❇️ Exemplo

In [8]:
iris = pd.read_csv('iris.csv')
iris

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [9]:
# Exibir a base de dados "iris" contando os valores dacoluna "class":
iris['class'].value_counts()

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

![image.png](attachment:image.png)

Explicando o código:

* `train_test_split`: Função do scikit-learn que divide os dados em conjunto de treinamento e teste.
* `stratify=dados`['estrato']: Garante que a proporção de cada estrato seja mantida tanto no conjunto de treinamento quanto no de teste.
* `test_size=0.2`: Define que 20% dos dados serão usados para teste.

In [None]:
# Fazer uma mostragem estratíficada:
# ⚠ Os dados numéricos de pétalas e sétalas são length = comprimento e width = largura
# ⚠ Os dados textuais referem-se às espécies das plantas, sendo Setosa, Virginica e Versicolor

## Etapa 1: Localizar somente os atributores previsores (número): iris.iloc[ : , 0:4]
## Etapa 2: Localizar somente a classe da espécie da planta (texto): iris.iloc[ :, 4]
## Etapa 3: Definir a representatividade da base que será testada 
#### ↑ aqui, 50% (ou 0.5) dos dados serão copiados para as variáveis X e Y ( e _ para os outros valores):

X, _, y, _ = train_test_split(iris.iloc[ :, 0:4], iris.iloc[ :, 4],
                              test_size=0.5, stratify=iris.iloc[ :, 4])


 

In [19]:
print("Exibir os valores separados para x:\n",X.value_counts())
print("\nExibir os valores separados para y:\n",y.value_counts())

Exibir os valores separados para x:
 sepal length  sepal width  petal length  petal width
4.9           3.1          1.5           0.1            2
4.3           3.0          1.1           0.1            1
6.2           3.4          5.4           2.3            1
6.4           3.2          4.5           1.5            1
              2.8          5.6           2.2            1
                                                       ..
5.5           2.6          4.4           1.2            1
              2.4          3.8           1.1            1
              2.3          4.0           1.3            1
5.4           3.9          1.7           0.4            1
7.7           3.8          6.7           2.2            1
Name: count, Length: 74, dtype: int64

Exibir os valores separados para y:
 class
Iris-virginica     25
Iris-setosa        25
Iris-versicolor    25
Name: count, dtype: int64


#### ❇️ Exemplo

In [32]:
# Testar com dados da base de infertilidade:
infert = pd.read_csv('infert.csv')
print("Tabela com contagem de cada valor categórico da coluna →", infert['education'].value_counts(),"\n")

infert

Tabela com contagem de cada valor categórico da coluna → education
6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: count, dtype: int64 



Unnamed: 0.1,Unnamed: 0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
0,1,0-5yrs,26,6,1,1,2,1,3
1,2,0-5yrs,42,1,1,1,0,2,1
2,3,0-5yrs,39,6,2,1,0,3,4
3,4,0-5yrs,34,4,2,1,0,4,2
4,5,6-11yrs,35,3,1,1,1,5,32
...,...,...,...,...,...,...,...,...,...
243,244,12+ yrs,31,1,0,0,1,79,45
244,245,12+ yrs,34,1,0,0,0,80,47
245,246,12+ yrs,35,2,2,0,0,81,54
246,247,12+ yrs,29,1,0,0,1,82,43


In [33]:
# 1ª etapa| Selecionar os recursos numéricos (features) e o alvo categórico (target):
### infert.iloc[:, 2:9] → Seleciona as colunas 2 a 8 (recursos) do DataFrame
### infert.iloc[:, 1] → Seleciona a segunda coluna (variável de destino) do DataFrame


# 2ª etapa| Divisão: train_test_split divide os dados em quatro partes:
### X1: Recursos de treinamento (features)
###  _: Recursos de teste descartados
### y1: Alvo de treinamento (target)
###  _: Alvo de teste descartado'''

# 3º etapa| Tamanho do teste: test_size=0.6 → especifica que 60% dos dados serão usados ​​para teste e os 40% restantes para treinamento.
# 4ª etapa| Estratificação: stratify=infert.iloc[:, 1] → garante que a distribuição da variável de destino (segunda coluna) seja preservada nos conjuntos de treinamento e teste (importante para manter a representatividade dos dados)

X1, _, y1, _ = train_test_split(infert.iloc[:, 2:9], infert.iloc[:, 1],
                                test_size=0.6, stratify=infert.iloc[:, 1])


In [34]:
print("Exibir os valores separados para x:\n",X1.value_counts())
print("\nExibir os valores separados para y:\n",y1.value_counts())

Exibir os valores separados para x:
 age  parity  induced  case  spontaneous  stratum  pooled.stratum
36   1       0        0     0            37       12                2
42   1       0        0     0            2        1                 2
41   1       0        0     0            43       15                2
31   2       1        0     0            15       21                2
34   1       0        0     0            63       47                2
                                                                   ..
29   1       0        0     1            82       43                1
28   4       1        1     2            29       34                1
     3       1        1     2            68       58                1
     2       2        0     0            57       51                1
42   1       1        1     0            2        1                 1
Name: count, Length: 93, dtype: int64

Exibir os valores separados para y:
 education
6-11yrs    48
12+ yrs    46
0-5yrs      5
