# Alguns conceitos de estatistica, part I

## 1. Amostra

- Um parcela de uma populção escolhida de forma que todos os elementos da população tenha chances iguais de serem selecionados

  ### 1.1 Com reposição
- Após o elemento ser selecionando, ele é colocado de novo na população, tendo as mesmas chances de ser selecionando de novo para a amostra

  ### 1.2 Sem reposição
- o elemento é retirado da população, se for selecionando, não é reposto de novo à população

  ### 1.3 Tipos
  ### 1.3.1 Amostra aleatória simples
    - Um determinado número N é retirado da população de forma aleatoria.

In [1]:
import pandas as pandas
import numpy as numpy
from sklearn.model_selection import train_test_split
from math import ceil #serve para arredondar

In [2]:
base = pandas.read_csv('data/iris.csv')
base.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [3]:
base.shape

(150, 5)

In [4]:
base["class"].value_counts()

Iris-virginica     50
Iris-versicolor    50
Iris-setosa        50
Name: class, dtype: int64

In [5]:
rows = numpy.random.choice(range(150), size=20, replace=False)
rows

array([ 64, 114,  38,  44, 104,  49,  77,  35,   0,  73,  94, 147,  33,
        61,  63, 148,  48, 115, 126,  62])

In [6]:
amostra1 = base.loc[rows]
amostra1

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
64,5.6,2.9,3.6,1.3,Iris-versicolor
114,5.8,2.8,5.1,2.4,Iris-virginica
38,4.4,3.0,1.3,0.2,Iris-setosa
44,5.1,3.8,1.9,0.4,Iris-setosa
104,6.5,3.0,5.8,2.2,Iris-virginica
49,5.0,3.3,1.4,0.2,Iris-setosa
77,6.7,3.0,5.0,1.7,Iris-versicolor
35,5.0,3.2,1.2,0.2,Iris-setosa
0,5.1,3.5,1.4,0.2,Iris-setosa
73,6.1,2.8,4.7,1.2,Iris-versicolor


In [7]:
amostra1.index = range(20)
amostra1

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.6,2.9,3.6,1.3,Iris-versicolor
1,5.8,2.8,5.1,2.4,Iris-virginica
2,4.4,3.0,1.3,0.2,Iris-setosa
3,5.1,3.8,1.9,0.4,Iris-setosa
4,6.5,3.0,5.8,2.2,Iris-virginica
5,5.0,3.3,1.4,0.2,Iris-setosa
6,6.7,3.0,5.0,1.7,Iris-versicolor
7,5.0,3.2,1.2,0.2,Iris-setosa
8,5.1,3.5,1.4,0.2,Iris-setosa
9,6.1,2.8,4.7,1.2,Iris-versicolor


   ### 1.3.2 Amostra estratificada
   -  A população é dividida em estratos(grupos, por exemplo, educação, raça, etcs) das quais é retirado uma quantidade proporcional de elementos de todos os estratos

In [8]:
base["class"].value_counts()

Iris-virginica     50
Iris-versicolor    50
Iris-setosa        50
Name: class, dtype: int64

In [9]:
X, _, Y, _ = train_test_split(base.iloc[:, 0:4], base.iloc[:, 4], 
                              test_size=0.5, stratify=base.iloc[:,4])
Y.value_counts()

Iris-versicolor    25
Iris-virginica     25
Iris-setosa        25
Name: class, dtype: int64

In [10]:
print(Y.shape)
print(X.shape)

(75,)
(75, 4)


In [11]:
infert = pandas.read_csv('data/infert.csv')
infert["education"].value_counts()

6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

In [12]:
x1, _, y1, _ = train_test_split(infert.iloc[:, 2:9], infert.iloc[:, 1],
                                test_size=0.6, stratify=infert.iloc[:,1])

y1.value_counts()

6-11yrs    48
12+ yrs    46
0-5yrs      5
Name: education, dtype: int64

In [13]:
print(y1.shape)
print(x1.shape)

(99,)
(99, 7)


   ### 1.3.3 Amostra sistemática
   - É escolhido um numero N aleatório, então, a cada N elementos da população, um elemento é selecionado.

In [14]:
populacao = 150
amostra_size = 15
N = ceil(populacao / amostra_size)
r = numpy.random.randint(low=1, high=N + 1, size=1)

In [15]:
print(N)
print(r)

10
[9]


In [16]:
sorteados = []
acumulador = r[0]

for i in range(amostra_size):
    sorteados.append(acumulador)
    acumulador += N


In [17]:
amostra2 = base.loc[sorteados]
amostra2.index = range(15)
amostra2

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,4.9,3.1,1.5,0.1,Iris-setosa
1,5.1,3.8,1.5,0.3,Iris-setosa
2,4.7,3.2,1.6,0.2,Iris-setosa
3,5.1,3.4,1.5,0.2,Iris-setosa
4,5.0,3.3,1.4,0.2,Iris-setosa
5,5.2,2.7,3.9,1.4,Iris-versicolor
6,5.6,2.5,3.9,1.1,Iris-versicolor
7,5.7,2.6,3.5,1.0,Iris-versicolor
8,5.5,2.5,4.0,1.3,Iris-versicolor
9,5.7,2.8,4.1,1.3,Iris-versicolor
