# Estatística Inferencial com Python

## População e amostra

População ->
Conjunto completo do objeto de interesse

Amostra -> 
- É o recorte da população;
- Parcela da população.

Existem diferentes técnicas de seleção de amostra, como:
- Amostragem aleatória simples;
- Amostragem estratificada
- Amostragem sistemática.

In [17]:
!pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.4.1.post1-cp311-cp311-win_amd64.whl.metadata (11 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.3.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=2.0.0 (from scikit-learn)
  Downloading threadpoolctl-3.3.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.4.1.post1-cp311-cp311-win_amd64.whl (10.6 MB)
   ---------------------------------------- 0.0/10.6 MB ? eta -:--:--
   ---------------------------------------- 0.1/10.6 MB 2.6 MB/s eta 0:00:04
   -- ------------------------------------- 0.7/10.6 MB 8.8 MB/s eta 0:00:02
   ------ --------------------------------- 1.8/10.6 MB 14.6 MB/s eta 0:00:01
   -------------- ------------------------- 3.8/10.6 MB 22.0 MB/s eta 0:00:01
   ----------------------- ---------------- 6.2/10.6 MB 28.1 MB/s eta 0:00:01
   ---------------------------------- ----- 9.1/10.6 MB 34.2 MB/s eta 0:00:01
   ---------------------------------------  10.6/10.6 MB 4

In [18]:
import pandas as pd
import seaborn as sns
import numpy as np
from sklearn.model_selection import StratifiedShuffleSplit

In [2]:
# Utilizando os datasets do seaborn
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [10]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### Amostragem aleatória simples

É o método onde cada elemento da população tem a mesma chance de ser selecionado, sorteando aleatoriamente os elementos. Ela pode ser ineficiente se a população for muito grande e a amostra muito pequena.

In [8]:
# Extraindo uma amostra de 100 linhas
amostra = df.sample(100)
amostra

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
129,0,3,male,45.0,0,0,6.9750,S,Third,man,True,,Southampton,no,True
665,0,2,male,32.0,2,0,73.5000,S,Second,man,True,,Southampton,no,False
659,0,1,male,58.0,0,2,113.2750,C,First,man,True,D,Cherbourg,no,False
690,1,1,male,31.0,1,0,57.0000,S,First,man,True,B,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
260,0,3,male,,0,0,7.7500,Q,Third,man,True,,Queenstown,no,True
559,1,3,female,36.0,1,0,17.4000,S,Third,woman,False,,Southampton,yes,False
281,0,3,male,28.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
572,1,1,male,36.0,0,0,26.3875,S,First,man,True,E,Southampton,yes,True


### Amostragem sistemática
É um método de seleção no qual os elementos são escolhidos de forma sistemática, com base em um intervalo fixo. Ele começa selecionando um ponto inicial aleatório na lista e então seleciona os elementos subsequentes de acordo com o intervalo fixo. Embora seja mais fácil de implementar do que a amostragem aleatória simples, pode ser influenciado por padrões na população que ocorrem em intervalos regulares, o que pode resultar em uma representação inadequada de certos subgrupos da população.

In [12]:
# np.arange(start, stop, step)
# inicio, final, passo
indices = np.arange(10, len(df), step=20)
print(indices)

[ 10  30  50  70  90 110 130 150 170 190 210 230 250 270 290 310 330 350
 370 390 410 430 450 470 490 510 530 550 570 590 610 630 650 670 690 710
 730 750 770 790 810 830 850 870 890]


In [13]:
amostra_sistematica = df.iloc[indices]
amostra_sistematica

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
30,0,1,male,40.0,0,0,27.7208,C,First,man,True,,Cherbourg,no,True
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
70,0,2,male,32.0,0,0,10.5,S,Second,man,True,,Southampton,no,True
90,0,3,male,29.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
110,0,1,male,47.0,0,0,52.0,S,First,man,True,C,Southampton,no,True
130,0,3,male,33.0,0,0,7.8958,C,Third,man,True,,Cherbourg,no,True
150,0,2,male,51.0,0,0,12.525,S,Second,man,True,,Southampton,no,True
170,0,1,male,61.0,0,0,33.5,S,First,man,True,B,Southampton,no,True
190,1,2,female,32.0,0,0,13.0,S,Second,woman,False,,Southampton,yes,True
