In [2]:
import pandas as pd
import numpy as np

In [3]:
np.random.seed(42)
n = 5000 #Quantidade de registros

df = pd.DataFrame({
    "ID_Transacao": range(1, n+1),
    "Valor": np.random.uniform(10, 10000, n),
    "Tipo_transacao": np.random.choice(["Compra", "Transferencia", "Pagamento"], n),
    "Localizacao": np.random.choice(["SP", "RJ", "MG", "RS", "BA", "PR"], n),
    "Horario": np.random.choice(["Manha", "Tarde", "Noite", "Madrugada"], n),
    "Fraude": np.random.choice([0, 1], n, p = [0.7, 0.3]) 
})

df.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
3,4,5990.598257,Transferencia,MG,Manha,0
4,5,1568.626218,Pagamento,BA,Manha,1


1. Realizar uma amostragem aleatoria simples com 500 registros

In [4]:
amostraSimples = df.sample(n = 500, random_state=42)
amostraSimples.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
1501,1502,4797.026958,Pagamento,SP,Manha,0
2586,2587,727.040304,Compra,BA,Madrugada,0
2653,2654,533.026652,Transferencia,RJ,Noite,0
1055,1056,3513.611036,Pagamento,SP,Manha,0
705,706,9899.702722,Compra,BA,Madrugada,1


2. Criar uma amostragem sistemática escolhendo cada 10° registro

In [60]:
intervalo = np.random.randint(1, 10)
amostraSistematica = df.iloc[::intervalo+1, :]
amostraSistematica.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
10,11,215.639098,Compra,RJ,Tarde,0
20,21,6122.410418,Pagamento,MG,Manha,0
30,31,6079.37307,Transferencia,RJ,Manha,0
40,41,1229.161966,Pagamento,RS,Madrugada,0


3. Dividir a base em estratos por localização e selecionar amostras proporcionais

In [65]:
from sklearn.model_selection import train_test_split
amostraEstratificada, _ = train_test_split(df, test_size=0.5, stratify=df["Localizacao"])
amostraEstratificada.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
2970,2971,3811.371922,Pagamento,BA,Tarde,1
1599,1600,8942.966838,Pagamento,PR,Madrugada,0
744,745,2329.804825,Compra,RJ,Manha,0
2192,2193,6710.615796,Transferencia,MG,Madrugada,0
3078,3079,1556.73784,Compra,RS,Noite,1


4. Selecionar aleatoriamente transações fraudulentas e comparar com transações não fraudulentas

In [None]:
transacoesFraudulentas = df.groupby("Fraude").get_group(1).sample(5)
transacoesNaoFraudulentas = df.groupby("Fraude").get_group(0).sample(5)

transacoesFraudulentas.head()


Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
3494,3495,6593.863647,Compra,RS,Manha,1
332,333,153.790951,Transferencia,BA,Tarde,1
4488,4489,7804.324359,Pagamento,BA,Madrugada,1
84,85,3116.713394,Compra,RS,Manha,1
1980,1981,1869.153164,Transferencia,MG,Madrugada,1


In [78]:
transacoesNaoFraudulentas.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
3912,3913,73.726644,Compra,RS,Madrugada,0
1680,1681,3467.536268,Pagamento,SP,Noite,0
4320,4321,5810.645807,Compra,SP,Noite,0
47,48,5205.479532,Compra,BA,Madrugada,0
554,555,8767.769491,Pagamento,PR,Madrugada,0


5. Criar um subconjunto de dados com base em amostragem por julgamento para transações acima de R$ 5.000,00 reais

In [85]:
transacoesValor = df[(df["Valor"] > 5000)]
transacoesValor.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
3,4,5990.598257,Transferencia,MG,Manha,0
7,8,8663.099696,Compra,RJ,Manha,0
8,9,6015.138967,Pagamento,SP,Manha,0


6. Aplicar amostragem por conglomerados dividindo os dados por tipo de transação e sortando um grupo

In [None]:
clusters = df.groupby("Tipo_transacao")
clustersPagamento = clusters.get_group("Pagamento").sample(10)
clustersTransferencia = clusters.get_group("Transferencia").sample(10)
clustersCompra = clusters.get_group("Compra").sample(10)

clustersPagamento.head()
clustersTransferencia.head()
clustersCompra.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
1386,1387,7736.996526,Pagamento,RS,Madrugada,1
3487,3488,529.373626,Pagamento,SP,Manha,0
303,304,6377.924716,Pagamento,MG,Madrugada,0
4284,4285,5528.137717,Pagamento,MG,Noite,0
2758,2759,7080.136289,Pagamento,PR,Tarde,0


7. Executar uma amostragem por conveniência pegando os 300 primeiros registros

In [91]:
amostraConveniencia = df.head(300)
amostraConveniencia.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
3,4,5990.598257,Transferencia,MG,Manha,0
4,5,1568.626218,Pagamento,BA,Manha,1


8. Criar uma amostragem por cotas considerando o tipo de transação e localização

In [94]:
amostraCotas = df.groupby("Tipo_transacao").apply(lambda x: x.sample(n = 10)).reset_index(drop=True)
amostraCotas2 = df.groupby("Localizacao").apply(lambda x: x.sample(n = 10)).reset_index(drop=True)
amostraCotas2.head()

  amostraCotas = df.groupby("Tipo_transacao").apply(lambda x: x.sample(n = 10)).reset_index(drop=True)
  amostraCotas2 = df.groupby("Localizacao").apply(lambda x: x.sample(n = 10)).reset_index(drop=True)


Unnamed: 0,ID_Transacao,Valor,Tipo_transacao,Localizacao,Horario,Fraude
0,4652,7177.475256,Compra,BA,Noite,1
1,3671,2382.410782,Compra,BA,Tarde,1
2,3520,2115.823084,Compra,BA,Tarde,1
3,3663,511.927668,Compra,BA,Tarde,0
4,2358,673.774005,Pagamento,BA,Noite,0


9. Comparar os resultados das amostras aleatórias e estratificada e explicar as diferenças

KeyError: 'localizacao'