# Aula 07 - Técnicas de Amostragem de Dados

## Principais Técnicas de Amostragem

- Aleatória Simples
- Aleatória Estratificada
- Aleatória Sistemática

![alt text](https://minerandodados.com.br/wp-content/uploads/2020/05/probability-sampling-1.png)

## Amostragem Aleatória Simples

- Seleciona um número de indivíduos da população de forma aleatória
- Seleção aleatória significa que todos os índividuos contidos na população têm iguais chances de serem selecionados como unidade amostral

In [0]:
import pandas as pd

In [2]:
# Importação do dataset de COVID
path = '/content/drive/My Drive/Colab Notebooks/Data Science do ZERO/7 - Estatística Aplicada e Pré-Processamento dos Dados/Materiais Disponibilizados/covid19.csv'
df = pd.read_csv (path)
df.head()

Unnamed: 0,case_id,provincial_case_id,age,sex,health_region,province,country,date_report,report_week,has_travel_history,locally_acquired,case_source
0,,1,50-59,Male,Toronto,Ontario,Canada,2020-01-25,2020-01-19,t,,(1) https://news.ontario.ca/mohltc/en/2020/01/...
1,,2,50-59,Female,Toronto,Ontario,Canada,2020-01-27,2020-01-26,t,,(1) https://news.ontario.ca/mohltc/en/2020/01/...
2,,1,40-49,Male,Vancouver Coastal,BC,Canada,2020-01-28,2020-01-26,t,,https://news.gov.bc.ca/releases/2020HLTH0015-0...
3,,3,20-29,Female,Middlesex-London,Ontario,Canada,2020-01-31,2020-01-26,t,,(1) https://news.ontario.ca/mohltc/en/2020/01/...
4,,2,50-59,Female,Vancouver Coastal,BC,Canada,2020-02-04,2020-02-02,f,Close Contact,https://news.gov.bc.ca/releases/2020HLTH0023-0...


In [3]:
# Informações sobre o dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50982 entries, 0 to 50981
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   case_id             0 non-null      float64
 1   provincial_case_id  50982 non-null  int64  
 2   age                 50982 non-null  object 
 3   sex                 50982 non-null  object 
 4   health_region       50982 non-null  object 
 5   province            50982 non-null  object 
 6   country             50982 non-null  object 
 7   date_report         50982 non-null  object 
 8   report_week         50982 non-null  object 
 9   has_travel_history  1150 non-null   object 
 10  locally_acquired    574 non-null    object 
 11  case_source         50982 non-null  object 
dtypes: float64(1), int64(1), object(10)
memory usage: 4.7+ MB


### df.sample ( n = m )

- Seleciona de forma aleatória um número "m" de unidades amostrais

In [0]:
# Selecionar uma amostra com 1000 indivíduos
df_sample = df.sample (n = 1000)

In [5]:
df_sample.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 6999 to 36502
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   case_id             0 non-null      float64
 1   provincial_case_id  1000 non-null   int64  
 2   age                 1000 non-null   object 
 3   sex                 1000 non-null   object 
 4   health_region       1000 non-null   object 
 5   province            1000 non-null   object 
 6   country             1000 non-null   object 
 7   date_report         1000 non-null   object 
 8   report_week         1000 non-null   object 
 9   has_travel_history  20 non-null     object 
 10  locally_acquired    14 non-null     object 
 11  case_source         1000 non-null   object 
dtypes: float64(1), int64(1), object(10)
memory usage: 101.6+ KB


### df.sample (frac = float)

- Seleciona de forma aleatória uma amostra que representa um percentual (float) da população

In [0]:
df_sample = df.sample (frac = 0.1)

In [7]:
df_sample.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5098 entries, 7369 to 5627
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   case_id             0 non-null      float64
 1   provincial_case_id  5098 non-null   int64  
 2   age                 5098 non-null   object 
 3   sex                 5098 non-null   object 
 4   health_region       5098 non-null   object 
 5   province            5098 non-null   object 
 6   country             5098 non-null   object 
 7   date_report         5098 non-null   object 
 8   report_week         5098 non-null   object 
 9   has_travel_history  116 non-null    object 
 10  locally_acquired    55 non-null     object 
 11  case_source         5098 non-null   object 
dtypes: float64(1), int64(1), object(10)
memory usage: 517.8+ KB


## Amostragem Aleatória Estratificada

- Especifica-se uma determinada característica da população, de tal sorte que a amostragem é realizada a partir dessa característica, com a formação de estratos
- Especifica-se a proporção de unidades amostrais que devem ser retiradas de cada estrato definido
- O método "train_test_split" da biblioteca Scikit-Learn, além de dividir o dataset em conjuntos de treino e teste, também é usado para gerar uma amostragem estratificada

In [0]:
# Importação do método TrainTestSplit
from sklearn.model_selection import train_test_split

In [9]:
# Contagem dos valores únicos do atributo "Province"
df.province.value_counts()

Quebec           25757
Ontario          16337
Alberta           4850
BC                2053
Nova Scotia        915
Saskatchewan       366
Manitoba           272
NL                 258
New Brunswick      118
PEI                 27
Repatriated         13
Yukon               11
NWT                  5
Name: province, dtype: int64

### x_train, x_test, y_train, y_test = train_test_split(df_train , df_test , stratify = df [ 'col_name' ] , test_size = float )

- O parâmetro "stratify" define qual é o atributo que servirá como característica para definir os estratos
- O parâmetro "test_size" define o tamanho (em %) do conjunto de teste

In [0]:
# Aplicando o método train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop('province',axis=1),
                                                    df['province'],
                                                    stratify=df['province'],
                                                    test_size=0.20)

In [12]:
# Verificando forma do conjunto de teste (10197 linhas e 1 coluna)
# Esse conjunto corresponde a 20% do dataset, no caso
y_test.shape

(10197,)

In [13]:
# Verificação da contagem dos valores únicos do conjunto de teste
# Observe que temos 20% da contagem total para cada valor único. Isso foi
# possível através do parâmetro "stratify"
y_test.value_counts()

Quebec           5152
Ontario          3267
Alberta           970
BC                411
Nova Scotia       183
Saskatchewan       73
Manitoba           54
NL                 52
New Brunswick      24
PEI                 5
Repatriated         3
Yukon               2
NWT                 1
Name: province, dtype: int64

## Amostragem Aleatória Sistemática

- Gera-se um semente aleatória (random seed)
- Ela servirá como um passo para a seleção das amostras seguintes
- Exemplo: se a semente é 20, a seleção de amostras será feita a cada 20 amostras

In [0]:
import numpy as np

### Geração da Semente Aleatória

                                  seed = np.random.choice (n , m)

- Parâmetro "n" --> inteiro que representa o limite final de uma série de números inteiros positivos (e.g. n = 10, a série começa em 0 e termina em 10, com passo 1)
- Parâmetro "m" --> número de amostras que serão selecionadas

In [20]:
semente = np.random.choice(10,1)
semente

array([9])

### Geração dos Índices

                                   indexes = np.arange (n , m , seed)

- Esse método realiza a seleção dos índices que serão utilizados para buscar as amostras no df
- Esses índices corresponderão aos índices das linhas que serão extraídas do df para compor a amostra aleatória sistemática
- Parâmetros:
  - n --> limite inferior de uma sequência de números inteiros positivos
  - m --> limite superior de uma sequência de números inteiros positivos (poderia ser dado por len(df). Nesse caso, percorreria todas as linhas do df)
  - seed --> semente aleatória gerada pelo comando " np.random.choice ( ) "

In [22]:
indices = np.arange(0,100,semente)
indices

array([ 0,  9, 18, 27, 36, 45, 54, 63, 72, 81, 90, 99])

### Geração da Amostra a partir dos Índices

                                           sample = df.loc [ indexes , : ]

- Busca as linhas do df, de acordo com os índices encontrados no passo anterior

In [23]:
amostra = df.loc[indices,:]
amostra

Unnamed: 0,case_id,provincial_case_id,age,sex,health_region,province,country,date_report,report_week,has_travel_history,locally_acquired,case_source
0,,1,50-59,Male,Toronto,Ontario,Canada,2020-01-25,2020-01-19,t,,(1) https://news.ontario.ca/mohltc/en/2020/01/...
9,,4,20-29,Female,Toronto,Ontario,Canada,2020-02-23,2020-02-23,t,,(1) https://news.ontario.ca/mohltc/en/2020/02/...
18,,11,60-69,Male,Durham,Ontario,Canada,2020-02-29,2020-02-23,f,Close Contact,https://news.ontario.ca/mohltc/en/2020/02/onta...
27,,19,70-79,Female,York,Ontario,Canada,2020-03-03,2020-03-01,t,,(1) https://news.ontario.ca/mohltc/en/2020/03/...
36,,22,60-69,Male,Toronto,Ontario,Canada,2020-03-05,2020-03-01,t,,https://news.ontario.ca/mohltc/en/2020/03/onta...
45,,21,50-59,Female,Fraser,BC,Canada,2020-03-05,2020-03-01,f,Community,https://news.gov.bc.ca/releases/2020HLTH0062-0...
54,,22,50-59,Male,Fraser,BC,Canada,2020-03-07,2020-03-01,t,,https://news.gov.bc.ca/releases/2020HLTH0064-0...
63,,4,30-39,Female,Calgary,Alberta,Canada,2020-03-08,2020-03-08,f,Close Contact,https://globalnews.ca/news/6647035/new-presump...
72,,31,50-59,Female,Vancouver Coastal,BC,Canada,2020-03-09,2020-03-08,t,,https://news.gov.bc.ca/releases/2020HLTH0068-0...
81,,9,60-69,Female,Edmonton,Alberta,Canada,2020-03-09,2020-03-08,t,,https://www.alberta.ca/release.cfm?xID=68785BC...


In [24]:
amostra.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12 entries, 0 to 99
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   case_id             0 non-null      float64
 1   provincial_case_id  12 non-null     int64  
 2   age                 12 non-null     object 
 3   sex                 12 non-null     object 
 4   health_region       12 non-null     object 
 5   province            12 non-null     object 
 6   country             12 non-null     object 
 7   date_report         12 non-null     object 
 8   report_week         12 non-null     object 
 9   has_travel_history  12 non-null     object 
 10  locally_acquired    3 non-null      object 
 11  case_source         12 non-null     object 
dtypes: float64(1), int64(1), object(10)
memory usage: 1.2+ KB


### Resumo

São realizadas 3 etapas para a geração de amostras aleatórias sistemáticas:

- 1 ) Geração da semente aleatória:
                             seed = np.random.choice (n , m)
- 2 ) Geração dos índices para a busca:
                             indexes = np.arrange (n , m , seed)
- 3 ) Geração da amostra a partir da busca pelos índices
                             sample = df.loc (indexes, : )