
##                            Amostragem Simples

---------------------------------------------------------------------

In [2]:
import pandas as pd 
import numpy as np

from scipy import stats
from math import ceil
from sklearn.model_selection import train_test_split

In [3]:
# Carregando o arquivo
df = pd.read_csv("iris.csv")
# Mostrando o arquivo
df.head(5)

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [4]:
# Estabelecer uma semente aleatória para manutenção do resultado
np.random.seed(2345)

#150 Amostras | 0 a 1 | Reposição | prob. equivalentes
amostra = np.random.choice(a = [0,1], size = 150, replace = True,
                          p = [0.7,0.3])

In [5]:
len(amostra) #tamanho da amostra

150

In [6]:
print (len(amostra==1), len(amostra==0)) #vendo qtos de 1 e qtos de 0

150 150


In [7]:
basefinal1 = df.loc[amostra==0]
basefinal2 = df.loc[amostra==1]

In [8]:
print(basefinal1.shape, " | ", basefinal2.shape)

(101, 5)  |  (49, 5)


---------------------------------------------------------------------

## Amostragem Estratificada

---------------------------------------------------------------------

In [9]:
df['class'].value_counts()

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64

In [10]:
#iris.iloc [:, 0:4] - Atributos previsores (informações da planta - características)
#iris.iloc [:, 4] a classe a ser prevista (setosa, virginica ou versicolor)
# para testar a base selecionamos -> 0.5 (50%), por isso o _ para os outros valores
# retornar a amostra se baseando na classe

X, _, y, _ = train_test_split(df.iloc[:, 0:4], 
                              df.iloc[:, 4],         
                              test_size=0.5, 
                              stratify = df.iloc[:, 4])

y.value_counts()

Iris-setosa        25
Iris-versicolor    25
Iris-virginica     25
Name: class, dtype: int64

 > Outro dataset - Infert

In [11]:
infert = pd.read_csv('infert.csv')

infert.head(5)

Unnamed: 0.1,Unnamed: 0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
0,1,0-5yrs,26,6,1,1,2,1,3
1,2,0-5yrs,42,1,1,1,0,2,1
2,3,0-5yrs,39,6,2,1,0,3,4
3,4,0-5yrs,34,4,2,1,0,4,2
4,5,6-11yrs,35,3,1,1,1,5,32


In [12]:
infert.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Unnamed: 0,248.0,124.5,71.735626,1.0,62.75,124.5,186.25,248.0
age,248.0,31.504032,5.251565,21.0,28.0,31.0,35.25,44.0
parity,248.0,2.092742,1.251504,1.0,1.0,2.0,3.0,6.0
induced,248.0,0.572581,0.738457,0.0,0.0,0.0,1.0,2.0
case,248.0,0.334677,0.472832,0.0,0.0,0.0,1.0,1.0
spontaneous,248.0,0.576613,0.732541,0.0,0.0,0.0,1.0,2.0
stratum,248.0,41.870968,23.968423,1.0,21.0,42.0,62.25,83.0
pooled.stratum,248.0,33.580645,17.2721,1.0,19.0,36.0,48.25,63.0


In [13]:
infert['education'].value_counts()

6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

In [14]:
# amostra com apenas 40% dos registros
# teste com 60%
X1, _, y1, _ = train_test_split(infert.iloc[:, 2:9], infert.iloc[:, 1],
                                test_size=0.6, stratify= infert.iloc[:, 1])
y1.value_counts()

6-11yrs    48
12+ yrs    46
0-5yrs      5
Name: education, dtype: int64

---------------------------------------------------------------------

## Amostragem Sistemática

---------------------------------------------------------------------

In [15]:
pop = 150
amostra = 15

# para obter uma amostra de 15, precisamentos selecionar um a cada 10
k = ceil(pop/amostra)

#resultado = 10
print(k)

10


In [16]:
# definição do valor aleatório p/ inicar a amostrar
# vai de 1 até k +1

r = np.random.randint(low = 1, high = k + 1, size = 1)

print(r)

[1]


In [17]:
# For que somará os próximos valores
# baseado no 1º valor de r definido acima

acumulador = r[0]
sorteados = []

for i in range(amostra):
    sorteados.append(acumulador)
    acumulador += k
    
print(len(sorteados))
print(sorteados)

15
[1, 11, 21, 31, 41, 51, 61, 71, 81, 91, 101, 111, 121, 131, 141]


In [18]:
# carregando a base final para carregar o método 

df.loc[sorteados]

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
1,4.9,3.0,1.4,0.2,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
21,5.1,3.7,1.5,0.4,Iris-setosa
31,5.4,3.4,1.5,0.4,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
51,6.4,3.2,4.5,1.5,Iris-versicolor
61,5.9,3.0,4.2,1.5,Iris-versicolor
71,6.1,2.8,4.0,1.3,Iris-versicolor
81,5.5,2.4,3.7,1.0,Iris-versicolor
91,6.1,3.0,4.6,1.4,Iris-versicolor


---------------------------------------------------------------------

## Centralidade e Variabilidade

---------------------------------------------------------------------

In [37]:
# criando variável com o salário dos funcionários do setor de uma empresa
sal_trab = [7200, 1100, 3400, 11000, 22000, 2700, 3000, 6500, 6200, 8000, 6200, 860, 860, 860, 7200]

print('A média é:' , np.mean(sal_trab))
print('A mediana é:' , np.median(sal_trab))

#Criando e gerando os quartis:
quartis = np.quantile(sal_trab, [0 , 0.25 , 0.50 , 0.75, 1])
print('Os quartis são (0%, 25%, 50%, 75% e 100%)   ->  ', quartis)
print ( 'O desvio padrão do salário dos funcionário é: : ' , np.std(sal_trab, ddof = 1))

A média é: 5805.333333333333
A mediana é: 6200.0
Os quartis são (0%, 25%, 50%, 75% e 100%)   ->   [  860.  1900.  6200.  7200. 22000.]
O desvio padrão do salário dos funcionário é: :  5461.29480548166


In [38]:
# descrição pela função do metodos stats
stats.describe(sal_trab)

DescribeResult(nobs=15, minmax=(860, 22000), mean=5805.333333333333, variance=29825740.95238096, skewness=1.757078170490593, kurtosis=3.195596204867286)