## Prática em Python - Técnicas de Amostragem

### Amostragem aleatória simples

Importar bibliotecas

In [1]:
import pandas as pd
import numpy as np

Carregando base de dados

In [2]:
dados = pd.read_csv('iris.csv')
dados

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Verificando as dimensões da base de dados.

In [3]:
dados.shape

(150, 5)

Utilizando as semestes aleatórias - permir a repetibilidade do experimento

In [4]:
np.random.seed(9999)

150 amostras, de 0 a 1, com reposição, probabilidades equivalentes

In [6]:
amostra = np.random.choice(a = [0, 1], size = 150, replace = True,
                           p = [0.7, 0.3])

Verificar tamanho da amostra

In [7]:
len(amostra)

150

Verificar tamanho da amostra para valores igual a 1 e 0

In [8]:
len(amostra[amostra == 1])

41

In [9]:
len(amostra[amostra == 0])

109

In [10]:
amostra

array([0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0,
       0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1])

In [11]:
amostra_dados_70 = dados.loc[amostra == 0]
amostra_dados_70.shape

(109, 5)

In [12]:
amostra_dados_30 = dados.loc[amostra == 1]
amostra_dados_30.shape

(41, 5)

### Amostragem sistematica

Criando variáveis: população, a amostra e k

In [13]:
populacao = 150
amostra = 15
k = populacao / amostra
print(k)

10.0


Definição do valor randômico para inicializar a amostra, iniciando em 1 até k + 1

In [14]:
r = np.random.randint(low = 1, high = k + 1, size = 1)
print(r)

[5]


Somando os próximos valores, baseado no r.

In [15]:
acumulador = r[0]
sorteados = []
for i in range(amostra):
    #print(acumulador)
    sorteados.append(acumulador)
    acumulador += k
print(sorteados)

[5, 15.0, 25.0, 35.0, 45.0, 55.0, 65.0, 75.0, 85.0, 95.0, 105.0, 115.0, 125.0, 135.0, 145.0]


In [16]:
len(sorteados)

15

Criando a amostra sistematica apenas com os valores sorteados

In [17]:
amostra_sistematica = dados.loc[sorteados]
amostra_sistematica

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
5,5.4,3.9,1.7,0.4,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
25,5.0,3.0,1.6,0.2,Iris-setosa
35,5.0,3.2,1.2,0.2,Iris-setosa
45,4.8,3.0,1.4,0.3,Iris-setosa
55,5.7,2.8,4.5,1.3,Iris-versicolor
65,6.7,3.1,4.4,1.4,Iris-versicolor
75,6.6,3.0,4.4,1.4,Iris-versicolor
85,6.0,3.4,4.5,1.6,Iris-versicolor
95,5.7,3.0,4.2,1.2,Iris-versicolor


### Amostragem estratificada

In [18]:
from sklearn.model_selection import train_test_split

Parametros utilizados:

    - dados.iloc[:, 0:4]: Atributos previsores
    - dados.iloc[:, 4]:  classe ou especie de plantas    
    - test_size: selecionamos 50% da base de dados
    - porém, vamos usar somente os 50% da base de dados e por isso colocamos "_" para os outros valores
    - stratify: para retornar a amostra baseada na classe

In [19]:
X_treino, X_teste, y_treino,y_teste  = train_test_split(dados.iloc[:, 0:4], dados.iloc[:, 4],
                              test_size = 0.7, stratify = dados.iloc[:,4])
y_treino.value_counts()

Iris-setosa        15
Iris-virginica     15
Iris-versicolor    15
Name: class, dtype: int64

#### Exemplo - Infert 

In [20]:
infert = pd.read_csv('infert.csv')
infert

Unnamed: 0.1,Unnamed: 0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
0,1,0-5yrs,26,6,1,1,2,1,3
1,2,0-5yrs,42,1,1,1,0,2,1
2,3,0-5yrs,39,6,2,1,0,3,4
3,4,0-5yrs,34,4,2,1,0,4,2
4,5,6-11yrs,35,3,1,1,1,5,32
...,...,...,...,...,...,...,...,...,...
243,244,12+ yrs,31,1,0,0,1,79,45
244,245,12+ yrs,34,1,0,0,0,80,47
245,246,12+ yrs,35,2,2,0,0,81,54
246,247,12+ yrs,29,1,0,0,1,82,43


#### Frequência pela classe

In [21]:
infert['education'].value_counts()

6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

Criando uma amostra com somente 40% dos registros

In [22]:
X_treino1, X_teste1, y_treino1,y_teste1  = train_test_split(infert.iloc[:, 2:9], infert.iloc[:, 1],
                                test_size = 0.5, stratify = infert.iloc[:, 1])
y_treino1.value_counts()

6-11yrs    60
12+ yrs    58
0-5yrs      6
Name: education, dtype: int64

In [23]:
y_treino1

80     12+ yrs
53     12+ yrs
237    12+ yrs
179    6-11yrs
92     6-11yrs
        ...   
231    12+ yrs
42     6-11yrs
24     6-11yrs
122    6-11yrs
232    12+ yrs
Name: education, Length: 124, dtype: object