# Estatística

## O que é estatística?

É uma metodologia para coleta, classificação, apresentação, análise e a interpretação de *dados* quantitativos e a utilização destes para tomada de decisões. 

> Termos
* População (ou universo): É o todo coletivo que será estudado.
* Amostra: É uma quantidade de elementos retiradas da população estutada, é um subconjunto dessa população.

Ela é dividida em dois tipos:

### Descritiva

A estatística descritiva ou dedutiva, descreve e analisa determinada população, sem pretender tirar conclusões de caráter mais genérico. É a parte de coleta, tabulação e interpretação dos dados.

### Inferencial

A estatística inferecial ou indutiva, baseia-se nos resultados de uma amostra de uma população _ ou seja, pelo que já foi feito na parte descritiva _ para induzir, estimar ou prever comportamentos da população da qual a amostra foi retirada. É um processo de generalização a partir de resultados particulares, e portanto é a parte da estatística que se preocupa em retira conclusões sobre as fontes de dados.

### Fases do método estatístico

* **Definição do objetivo**: Qual o objeto de estudo e o objetivo que desejamos alcançar;
* **Delimitação do problema**: Quais os limites e condições dessa pesquisa, onde será feita, quais recursos disponíveis, etc;
* **Planejamento**: Como resolver o problema? Quais dados serão necessários? Como obter estes dados?
* **Coleta**: Coletar os dados seja por observação, por questionários, entrevistas ou por meio de alguma ferramenta;
* **Apuração**: Corrigir os dados errados, verificar os ausentes, classificar e tabular;
* **Apresentação**: Apresentação dos dados por meio de tabelas ou gráficos;
* **Análise de dados**: Analisar os dados e chegar a conclusões que auxiliem na resolução do problema;
* **Interpretação**: Ter as análises dos dados e fazer generalizações e previsões.

## Amostra

Parte de uma população, selecionada usando alguma técnica que dê chances iguais a todos os elementos da população de serem selecionados.

A amostra é importante, pois em muitos casos, coletar dados de toda a população pode gastar muito tempo e dinheiro.

Uma amostra feita corretamente deve representar as mesmas características da população de onde foi retirada. E se ela não representa toda a população, dizemos que ela é enviesada.

Como trabalhamos com parte aleatória da população, podemos ter resultados diferentes para amostragens diferentes. Por isso devemos contar com a margem de erro e o nível de confiança, para verificarmos se estas diferenças comprometem ou não o estudo.

Tipo de amostras:
* Aleatória simples
* Estratificada
* Sistemática
* Por unidade monetária

### Aleatória simples

Um determinado número de elementos é retirado da população de forma aleatória;
Todos os elementos da população alvo do processo de amostragem, devem ter as mesmas chances de serem selecionado para fazer parte da amostra.

* Com reposição:
* Sem reposição:

In [42]:
import pandas as pd
import numpy as np

O comando abaixo gera uma amostra de números aleatórios 1 e 0, de tamanho 150. também dizemos qual a chance de cada valor ser gerado em `p=`. A quantidade de valores em `p=` deve ser igual a de `a=`.

Cada vez que o comando é executado, ele gera valores diferentes. Se precisarmos fixar os valores, precisamos da função `np.random.seed()`

In [39]:
#np.random.seed(100)
amostra = np.random.choice(a=[0,1], size=150, replace=True, p=[0.5, 0.5])
#amostra
print('Tamanho da amostra:', len(amostra))
print('Valores 1:',len(amostra[amostra == 1]))
print('Valores 0:', len(amostra[amostra == 0]))

Tamanho da amostra: 150
Valores 1: 71
Valores 0: 79


### Amostra estratificada

In [43]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [61]:
base = pd.read_csv('assets/iris.csv')
base.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [62]:
base.shape

(150, 5)

In [63]:
base['class'].value_counts()

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64

Vamos criar uma amostragem dessa população, mas não vamos pegar de todos os valores simplesmente. Como são 3 tipos de pétalas, vamos pegar uma amostra de 50% de cada tipo _ da coluna `class`. O parâmetro `stratify` é que vai usar as classes.

In [76]:
#cols = np.array(base.iloc[:,4])
#cols
X_train, X_test, y_train, y_test = train_test_split(base.iloc[:,0:4], base.iloc[:,4], test_size=0.5, stratify=base.iloc[:,4])

In [80]:
# vamos usar apenas os valores de treino, pois estamos usando a função apenas para separar os valores que desejamos usar
X_train
#y_train

Unnamed: 0,sepal length,sepal width,petal length,petal width
48,5.3,3.7,1.5,0.2
46,5.1,3.8,1.6,0.2
133,6.3,2.8,5.1,1.5
82,5.8,2.7,3.9,1.2
50,7.0,3.2,4.7,1.4
19,5.1,3.8,1.5,0.3
130,7.4,2.8,6.1,1.9
111,6.4,2.7,5.3,1.9
9,4.9,3.1,1.5,0.1
68,6.2,2.2,4.5,1.5


In [81]:
infert = pd.read_csv('assets/infert.csv')
infert.head()

Unnamed: 0.1,Unnamed: 0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
0,1,0-5yrs,26,6,1,1,2,1,3
1,2,0-5yrs,42,1,1,1,0,2,1
2,3,0-5yrs,39,6,2,1,0,3,4
3,4,0-5yrs,34,4,2,1,0,4,2
4,5,6-11yrs,35,3,1,1,1,5,32


In [82]:
infert['education'].value_counts()

6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

Neste exemplo, temos 3 faixas etárias, e cada uma delas com valores diferentes. Para pegarmos uma amostra que seja representativa, precisamos usar estes valores proporcionalmente. A função `train_test_split()` quando estratificada já faz essa separação proporcional. Só antes vamos fazer manualmente para ver se bate com o esperado.

In [117]:
n_linhas = len(infert) # número de linhas

_faixa1 = np.round((len(infert[infert['education'] == '0-5yrs']) / n_linhas) * 100, decimals=2)
_faixa2 = np.round((len(infert[infert['education'] == '6-11yrs']) / n_linhas) * 100, decimals=2)
_faixa3 = np.round((len(infert[infert['education'] == '12+ yrs']) / n_linhas) * 100, decimals=2)

print('0-5yrs:', _faixa1)
print('6-11yrs:',_faixa2)
print('12+ yrs:',_faixa3)

0-5yrs: 4.84
6-11yrs: 48.39
12+ yrs: 46.77


In [111]:
#infert.iloc[:,1]
X, _, y, _ = train_test_split(infert.iloc[:,2:9], infert.iloc[:,1], test_size=0.6, stratify=infert.iloc[:,1])

In [115]:
y.value_counts()

6-11yrs    48
12+ yrs    46
0-5yrs      5
Name: education, dtype: int64

### Amostragem sistemática

In [119]:
import numpy as np
import pandas as pd
from math import ceil

In [123]:
populacao = 150
amostra = 15
k = ceil(populacao / amostra) # o ceil arredonda para o próximo inteiro caso dê valor fracionado
k

10

In [125]:
r = np.random.randint(low=1, high= k + 1, size=1)
r

array([9])

Primeiro temos o tamanho da população e da amostra. Precisamos lembrar que na amostra sistemática, vamos selecionar um valor a cada N valores. Por exemplo, nesse array `[1,3,5,7,9,11]` podemos selecionar um valor a cada dois valores. Se iniciarmos do 1, teremos `[1,5,9]`.

Portanto, é importante que tanhamos um valor inicial, e fazermos a coleta até o valor máximo da população, e cada valor desse selecionado de forma sistemática, é o que fará parte da amostra.

In [130]:
acumulador = r[0]
sorteados = []
for i in range(amostra): # 15 valores da amostra
    #print(acumulador)
    sorteados.append(acumulador)
    acumulador += k # 9 + 10 ... 19 + 10 + 29 + 10 ...
sorteados

[9, 19, 29, 39, 49, 59, 69, 79, 89, 99, 109, 119, 129, 139, 149]

Os valores dessa lista nos servirão de índices para extraírmos valores de amostra de outro dataset.

In [131]:
base = pd.read_csv('assets/iris.csv')
base_final = base.loc[sorteados]
base_final

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
9,4.9,3.1,1.5,0.1,Iris-setosa
19,5.1,3.8,1.5,0.3,Iris-setosa
29,4.7,3.2,1.6,0.2,Iris-setosa
39,5.1,3.4,1.5,0.2,Iris-setosa
49,5.0,3.3,1.4,0.2,Iris-setosa
59,5.2,2.7,3.9,1.4,Iris-versicolor
69,5.6,2.5,3.9,1.1,Iris-versicolor
79,5.7,2.6,3.5,1.0,Iris-versicolor
89,5.5,2.5,4.0,1.3,Iris-versicolor
99,5.7,2.8,4.1,1.3,Iris-versicolor
