# Estatística Básica
Neste notebook vou mostrar conceitos de estatística como por exemplo: técnicas de amostragens, medidas de centralidade e variabilidade, distribuição normal, etc.

#### Amostragem simples
Vamos gerar um conjunto de valores entre 0 e 1 com o mesmo tamanho do conjunto de dados iris com a probabiliadade de 70% pra 30% e reposição.
Depois iremos selecionar os valores da base iris baseado nos índices.

In [1]:
import pandas as pd
import numpy as np

In [5]:
# Carregamento da base de dados (o arquivo .csv precisa estar na mesma pasta do código fonte) e visualização dos dados
base = pd.read_csv('dados/iris.csv')
base.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [6]:
# Verificar quantas linhas e colunas existem na base de dados, 150 linhas e 5 colunas
base.shape

(150, 5)

In [7]:
# 150 amostras, de 0 a 1, com reposição, probabilidades equivalentes
amostra = np.random.choice(a = [0, 1], size = 150, replace = True, p = [0.7, 0.3])
# Verificar tamanho da amostra
#len(amostra)
# Verificar tamanho da amostra para valores igual a 1 e 0
#len(amostra[amostra == 1])
#len(amostra[amostra == 0])
amostra

array([0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0,
       0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0])

In [8]:
base_final = base.loc[amostra == 0]
base_final.shape

(113, 5)

In [9]:
base_final2 = base.loc[amostra == 1]
base_final2.shape

(37, 5)

### Amostragem Estratificada
As vezes a população está dividada em estratos (grupos), então deve-se pegar elementos representantes de cada grupo.

In [10]:
from sklearn.model_selection import train_test_split

In [11]:
# Carregamento da base de dados e contagem de quantos registros existem por classe
iris = pd.read_csv('dados/iris.csv')
iris['class'].value_counts()

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64

In [12]:
# iris.iloc[:, 0:4]: buscamos somente os atributos previsores, ou seja, os dados sobre pétala e sétala da planta
# iris.iloc[:, 4]: buscamos somente a classe, que é a espécie da planta (setosa, virginica ou versicolor)
# test_size: selecionamos 50% da base de dados, que serão copiados para as variáveis X e Y. Essa função retorna 4 valores,
# porém, vamos usar somente os 50% da base de dados e por isso colocamos "_" para os outros valores
# stratify: para retornar a amostra baseada na classe
X, _, y, _ = train_test_split(iris.iloc[:, 0:4], iris.iloc[:, 4], test_size = 0.5, stratify = iris.iloc[:,4])
y.value_counts()

Iris-versicolor    25
Iris-virginica     25
Iris-setosa        25
Name: class, dtype: int64

In [13]:
# Exemplo 2
# Carregamento da base de dados e contagem de quantos registros por classe
infert = pd.read_csv('dados/infert.csv')
infert

Unnamed: 0.1,Unnamed: 0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
0,1,0-5yrs,26,6,1,1,2,1,3
1,2,0-5yrs,42,1,1,1,0,2,1
2,3,0-5yrs,39,6,2,1,0,3,4
3,4,0-5yrs,34,4,2,1,0,4,2
4,5,6-11yrs,35,3,1,1,1,5,32
...,...,...,...,...,...,...,...,...,...
243,244,12+ yrs,31,1,0,0,1,79,45
244,245,12+ yrs,34,1,0,0,0,80,47
245,246,12+ yrs,35,2,2,0,0,81,54
246,247,12+ yrs,29,1,0,0,1,82,43


In [14]:
infert['education'].value_counts()

6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

In [15]:
# Criando uma amostra com somente 40% dos registros (por isso é definido 0.6, pois é gerado o inverso)
X1, _, y1, _ = train_test_split(infert.iloc[:, 2:9], infert.iloc[:, 1], test_size = 0.6, stratify = infert['education'])
y1.value_counts()

6-11yrs    48
12+ yrs    46
0-5yrs      5
Name: education, dtype: int64

### Amostragem Sistemática
Nesse tipo, é escolhido um elemento aleatório e a partir daí, a cada N elementos, um novo é selecionado.

In [16]:
from math import ceil

In [17]:
# Criação das variáveis para representar a população, a amostra e o valor de k
populacao = 150
amostra = 15
k = ceil(populacao / amostra)
print(k)

10


In [18]:
# Definição do valor randômico para inicializar a amostra, iniciando em 1 até k + 1
r = np.random.randint(low = 1, high = k + 1, size = 1)
print(r)

[7]


In [19]:
# Criamos um for para somar os próximos valores, baseado no primeiro valor r que foi definido acima
acumulador = r[0]
sorteados = []
for i in range(amostra):
    #print(acumulador)
    sorteados.append(acumulador)
    acumulador += k
print(sorteados)

[7, 17, 27, 37, 47, 57, 67, 77, 87, 97, 107, 117, 127, 137, 147]


In [20]:
# Carregamos a base de dados e criamos a base_final somente com os valores sorteados
base = pd.read_csv('dados/iris.csv')
base_final = base.loc[sorteados]
base_final

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
7,5.0,3.4,1.5,0.2,Iris-setosa
17,5.1,3.5,1.4,0.3,Iris-setosa
27,5.2,3.5,1.5,0.2,Iris-setosa
37,4.9,3.1,1.5,0.1,Iris-setosa
47,4.6,3.2,1.4,0.2,Iris-setosa
57,4.9,2.4,3.3,1.0,Iris-versicolor
67,5.8,2.7,4.1,1.0,Iris-versicolor
77,6.7,3.0,5.0,1.7,Iris-versicolor
87,6.3,2.3,4.4,1.3,Iris-versicolor
97,6.2,2.9,4.3,1.3,Iris-versicolor


### Medidas de Centralidade

In [21]:
from scipy import stats

In [22]:
# Criação da variável com os dados dos jogadores, visualização da mediana e média
jogadores = [40000, 18000, 12000, 250000, 30000, 140000, 300000, 40000, 800000]
print('A média do conjunto é: {} e a mediana é: {}'.format(np.mean(jogadores), np.median(jogadores)))

A média do conjunto é: 181111.11111111112 e a mediana é: 40000.0


In [23]:
# Criação da variável para geração dos quartis (0%, 25%, 50%, 75% e 100%) 
quartis = np.quantile(jogadores, [0, 0.25, 0.5, 0.75, 1])
quartis

array([ 12000.,  30000.,  40000., 250000., 800000.])

In [25]:
#visualização do desvio padrão
np.std(jogadores, ddof = 1)

255307.87514511007

In [26]:
# Visualização de estatísticas mais detalhadas usando a biblioteca scipy
stats.describe(jogadores)

DescribeResult(nobs=9, minmax=(12000, 800000), mean=181111.11111111112, variance=65182111111.11111, skewness=1.758635899846188, kurtosis=1.9572075427527729)

### Distribuição Normal

In [27]:
# Importação da função norm
from scipy.stats import norm

In [28]:
# Conjunto de objetos em uma cesta, a média é 8 e o desvio padrão é 2
# Qual a probabilidade de tirar um objeto que peso é menor que 6 quilos?
norm.cdf(6, 8, 2)

0.15865525393145707

In [29]:
# Qual a probabilidade de tirar um objeto que o peso á maior que 6 quilos?
#norm.sf(6, 8, 2)
1 - norm.cdf(6, 8, 2)

0.8413447460685429

In [30]:
# Qual a probabilidade de tirar um objeto que o peso é menor que 6 ou maior que 10 quilos?
norm.cdf(6, 8, 2) + norm.sf(10, 8, 2)

0.31731050786291415

In [31]:
# Qual a probabilidade de tirar um objeto que o peso é menor que 10 e maior que 8 quilos?
norm.cdf(10, 8, 2) - norm.cdf(8, 8, 2)

0.3413447460685429