In [2]:
import pandas as pd
import numpy as np

In [None]:
np.random.seed(42)
n = 5000 #Quantidade de registros

df = pd.DataFrame({
    "ID_Transacao": range(1, n+1),
    "Valor": np.random.uniform(10, 10000, n),
    "Tipo_transacao": np.random.choice(["Compra", "Transferencia", "Pagamento"], n),
    "Localizacao": np.random.choice(["SP", "RJ", "MG", "RS", "BA", "PR"], n),
    "Horario": np.random.choice(["Manha", "Tarde", "Noite", "Madrugada"], n),
    "Fraude": np.random.choice([0, 1], n, p = [0.7, 0.3]) 
})

df.head()

1. Realizar uma amostragem aleatoria simples com 500 registros

In [None]:
amostraSimples = df.sample(n = 500, random_state=42)
amostraSimples.head()

2. Criar uma amostragem sistemática escolhendo cada 10° registro

In [None]:
passo = 10
inicio = np.random.randint(0, passo)
amostraSistematica = df.iloc[inicio::passo, :]
amostraSistematica.head()

3. Dividir a base em estratos por localização e selecionar amostras proporcionais

In [None]:
from sklearn.model_selection import train_test_split
amostraEstratificada, _ = train_test_split(df, test_size=0.5, stratify=df["Localizacao"])
amostraEstratificada.head()

4. Selecionar aleatoriamente transações fraudulentas e comparar com transações não fraudulentas

In [None]:
transacoesFraudulentas = df.groupby("Fraude").get_group(1).sample(5)
transacoesNaoFraudulentas = df.groupby("Fraude").get_group(0).sample(5)

transacoesFraudulentas.head()


In [None]:
transacoesNaoFraudulentas.head()

5. Criar um subconjunto de dados com base em amostragem por julgamento para transações acima de R$ 5.000,00 reais

In [None]:
transacoesValor = df[(df["Valor"] > 5000)]
transacoesValor.head()

6. Aplicar amostragem por conglomerados dividindo os dados por tipo de transação e sortando um grupo

In [None]:
clusters = df.groupby("Tipo_transacao")
clustersPagamento = clusters.get_group("Pagamento")
amostraDePagamentos = clustersPagamento.sample(10)
clustersTransferencia = clusters.get_group("Transferencia")
amostraDeTransferencia = clustersTransferencia.sample(10)
clustersCompra = clusters.get_group("Compra")
amostraDeCompras = clustersCompra.sample(10)

amostraDeCompras.head()
amostraDeTransferencia.head()
amostraDePagamentos.head()

7. Executar uma amostragem por conveniência pegando os 300 primeiros registros

In [None]:
amostraConveniencia = df.head(300)
amostraConveniencia.head()

8. Criar uma amostragem por cotas considerando o tipo de transação e localização

In [None]:
amostraCotas = df.groupby(["Tipo_transacao", "Localizacao"]).apply(lambda x: x.sample(n=min(len(x), 10), random_state=1)).reset_index(drop=True)
amostraCotas.head()

9. Comparar os resultados das amostras aleatórias e estratificada e explicar as diferenças

In [None]:
#Amostragem aleatoria
amostraAleatoria = df.sample(n = 100, random_state=42)
amostraAleatoria.head()

In [None]:
#Amostra estratificada por cotas

amostraEstratificada = df.groupby(["Tipo_transacao", "Localizacao"]).apply(lambda x: x.sample(n=min(len(x), 5), random_state=42)).reset_index(drop=True)
amostraEstratificada.head()

In [None]:
#Distribuição de tipo transação
print("Aleatória:")
print(amostraAleatoria["Tipo_transacao"].value_counts(normalize=True))

print("\nEstratificada:")
print(amostraEstratificada["Tipo_transacao"].value_counts(normalize=True))

In [None]:
#Distribuição de localização

print("Aleatória:")
print(amostraAleatoria["Localizacao"].value_counts(normalize=True))

print("\nEstratificada:")
print(amostraEstratificada["Localizacao"].value_counts(normalize=True))

In [None]:
#Comparar médias de valor e taxa de fraude

print("Média do valor (aleatória):", amostraAleatoria["Valor"].mean())
print("Média do valor (estratificada):", amostraEstratificada["Valor"].mean())

print("Taxa de fraude (aleatória):", amostraAleatoria["Fraude"].mean())
print("Taxa de fraude (estratificada):", amostraEstratificada["Fraude"].mean())