In [1]:
import pandas as pd
import numpy as np

In [2]:
# Criando um dataframe ficticio
np.random.seed(42) # garante a reprodução do experimento
n = 10000 # Quantidade de clientes que queremos gerar dados ficticios

df = pd.DataFrame({
    "ID": range(1, n+1),
    "Idade": np.random.randint(18, 65, n),
    "Renda": np.random.randint(2000, 30000, n),
    "Regiao": np.random.choice(["Norte", "Sul", "Leste", "Oeste"], n)
})

In [4]:
df.sample(5)

Unnamed: 0,ID,Idade,Renda,Regiao
965,966,19,14334,Oeste
6194,6195,40,15224,Leste
3283,3284,50,4456,Norte
9853,9854,21,11967,Oeste
5608,5609,41,5312,Leste


## **Amostragem Aleatória Simples**

In [5]:
amostra_simples = df.sample(n=1000, random_state=42) # Random State tem o mesmo papel do seed.
amostra_simples.head()

Unnamed: 0,ID,Idade,Renda,Regiao
6252,6253,52,24578,Leste
4684,4685,40,26524,Leste
1731,1732,52,8884,Sul
4742,4743,20,27208,Sul
4521,4522,18,16341,Leste


## **Amostragem Aleatória Sistematica**

In [13]:
intervalo = np.random.randint(1, 50) # Gera intervalo com base na quantidade de registros arrendondando para baixo
amostra_sistematica = df.iloc[::intervalo, :]
amostra_sistematica.head()

Unnamed: 0,ID,Idade,Renda,Regiao
0,1,56,26078,Norte
36,37,20,27958,Sul
72,73,53,21230,Sul
108,109,22,9848,Oeste
144,145,59,18331,Sul


## **Amostragem Estratificada**

In [15]:
from sklearn.model_selection import train_test_split

amostra_estratificada, _ = train_test_split(df, test_size=0.5, stratify=df["Regiao"])
amostra_estratificada.head()

Unnamed: 0,ID,Idade,Renda,Regiao
5601,5602,36,8998,Norte
9802,9803,56,3979,Leste
7944,7945,30,6830,Leste
8149,8150,22,6251,Sul
1824,1825,25,23787,Leste


## **Amostragem por Conglomerados**

In [19]:
clusters = df.groupby('Regiao')
amostra_conglomerados = clusters.get_group('Sul')
amostra_conglomerados.head()

Unnamed: 0,ID,Idade,Renda,Regiao
3,4,60,16855,Sul
6,7,56,21569,Sul
10,11,28,27738,Sul
11,12,41,8772,Sul
14,15,41,12131,Sul


## **Amostragem Por Conveniência**

In [20]:
amostra_conveniencia = df.head(1000)
amostra_conveniencia.head()

Unnamed: 0,ID,Idade,Renda,Regiao
0,1,56,26078,Norte
1,2,46,24580,Leste
2,3,32,25467,Norte
3,4,60,16855,Sul
4,5,25,5401,Oeste


## **Amostragem por Julgamento**

In [24]:
amostra_julgamento = df[(df['Idade'] > 30) &
                        (df['Idade'] <=55) &
                        (df['Renda'] > 1500) |
                        (df['Regiao'] != 'Oeste')].sample(n=1000, random_state=42)

amostra_julgamento.head()

Unnamed: 0,ID,Idade,Renda,Regiao
7814,7815,46,14288,Sul
8797,8798,40,7769,Oeste
6298,6299,41,8071,Leste
8910,8911,49,7322,Oeste
7949,7950,41,11304,Norte


## **Amostragem por Cotas**

In [28]:
amostra_cotas = df.groupby('Regiao').apply(lambda x: x.sample(n=25)).reset_index(drop=True)
amostra_cotas.head()

  amostra_cotas = df.groupby('Regiao').apply(lambda x: x.sample(n=25)).reset_index(drop=True)


Unnamed: 0,ID,Idade,Renda,Regiao
0,875,31,6112,Leste
1,1477,48,24722,Leste
2,7641,48,24829,Leste
3,3472,45,26578,Leste
4,2788,19,27568,Leste


## **Exercícios**

Comece executando a criação do conjunto de dados na célula abaixo e depois façam os exercícios abaixo:

1. Realizar uma amostragem aleatória simples com 500 registros.

2. Criar uma amostragem sistemática escolhendo cada 10º registro.

3. Dividir a base em estratos por localização e selecionar amostras proporcionais.

4. Selecionar aleatoriamente transações fraudulentas e comparar com transações não fraudulentas.

5. Criar um subconjunto de dados com base em amostragem por julgamento para transações acima de R$5000.

6. Aplicar amostragem por conglomerados dividindo os dados por tipo de transação e sorteando um grupo.

7. Executar uma amostragem por conveniência pegando os 300 primeiros registros.

8. Criar uma amostragem por cotas considerando o tipo de transação e localização.

9. Comparar os resultados das amostras aleatória e estratificada e explicar as diferenças.


In [31]:
import pandas as pd
import numpy as np

np.random.seed(42)
n = 5000  # Quantidade de registros

df = pd.DataFrame({
    'ID_Transacao': range(1, n+1),
    'Valor': np.random.uniform(10, 10000, n),
    'Tipo_Transacao': np.random.choice(['Compra', 'Transferencia', 'Pagamento'], n),
    'Localizacao': np.random.choice(['SP', 'RJ', 'MG', 'RS', 'BA', 'PR'], n),
    'Horario': np.random.choice(['Manha', 'Tarde', 'Noite', 'Madrugada'], n),
    'Fraude': np.random.choice([0, 1], n, p=[0.7, 0.3])
})
df.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
3,4,5990.598257,Transferencia,MG,Manha,0
4,5,1568.626218,Pagamento,BA,Manha,1
