In [1]:
import pandas as pd
import numpy as np

np.random.seed(42)
n = 5000  # Quantidade de registros

df = pd.DataFrame({
    'ID_Transacao': range(1, n+1),
    'Valor': np.random.uniform(10, 10000, n),
    'Tipo_Transacao': np.random.choice(['Compra', 'Transferencia', 'Pagamento'], n),
    'Localizacao': np.random.choice(['SP', 'RJ', 'MG', 'RS', 'BA', 'PR'], n),
    'Horario': np.random.choice(['Manha', 'Tarde', 'Noite', 'Madrugada'], n),
    'Fraude': np.random.choice([0, 1], n, p=[0.7, 0.3])
})
df.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
3,4,5990.598257,Transferencia,MG,Manha,0
4,5,1568.626218,Pagamento,BA,Manha,1


## **1 - Realizar uma amostragem aleatória simples com 500 registros.**

In [2]:
df_aleatorio = df.sample(n=500, random_state=50)

In [3]:
df_aleatorio.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
3431,3432,9906.884779,Transferencia,RJ,Manha,0
2042,2043,5238.675205,Transferencia,BA,Noite,0
79,80,1167.531905,Compra,RJ,Manha,0
4663,4664,8288.802748,Transferencia,RJ,Tarde,0
3640,3641,2389.08507,Transferencia,SP,Noite,0


## **2 - Criar uma amostragem sistemática escolhendo cada 10º registro.**

In [11]:
# iloc filtra o dataframe pela estrutura e não pelos dados. Usamos o primeiro ":" para colunas e o segundo ":" serve para registros
df_sistematica = df.iloc[::10]
df_sistematica.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
10,11,215.639098,Compra,RJ,Tarde,0
20,21,6122.410418,Pagamento,MG,Manha,0
30,31,6079.37307,Transferencia,RJ,Manha,0
40,41,1229.161966,Pagamento,RS,Madrugada,0


## **3 - Amostragem estratificada por localização (proporcional)**

In [24]:
df_estratificado = df.groupby('Localizacao', group_keys=False).apply(lambda x: x.sample(frac=500 / len(df), random_state=50))

  df_estratificado = df.groupby('Localizacao', group_keys=False).apply(lambda x: x.sample(frac=500 / len(df), random_state=50))


In [26]:
df_estratificado.head(5)

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
1723,1724,1019.447652,Compra,BA,Manha,1
4990,4991,9754.349573,Transferencia,BA,Manha,0
1766,1767,7376.197203,Pagamento,BA,Noite,0
1740,1741,8277.103577,Pagamento,BA,Madrugada,0
1616,1617,9941.452219,Pagamento,BA,Noite,0


In [28]:
df_estratificado['Localizacao'].value_counts()

Unnamed: 0_level_0,count
Localizacao,Unnamed: 1_level_1
RS,87
BA,86
PR,85
RJ,84
MG,79
SP,79


In [29]:
df_estratificado['Tipo_Transacao'].value_counts()

Unnamed: 0_level_0,count
Tipo_Transacao,Unnamed: 1_level_1
Transferencia,177
Pagamento,165
Compra,158


In [34]:
df_estratificado['Fraude'].value_counts() / len(df_estratificado) * 100

Unnamed: 0_level_0,count
Fraude,Unnamed: 1_level_1
0,72.0
1,28.0


## **4 - Selecionar aleatoriamente transações fraudulentas e comparar com transações não fraudulentas.**

In [36]:
df_fraude = df[df['Fraude'] == 1].sample(50, random_state=50)
df_fraude.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
4886,4887,3435.867331,Pagamento,MG,Madrugada,1
1872,1873,5063.468403,Pagamento,RJ,Madrugada,1
3138,3139,5219.275751,Pagamento,MG,Tarde,1
2969,2970,4967.624941,Transferencia,RJ,Tarde,1
2799,2800,1909.175421,Pagamento,RS,Madrugada,1


In [37]:
df_fraude['Fraude'].value_counts()

Unnamed: 0_level_0,count
Fraude,Unnamed: 1_level_1
1,50


In [38]:
df_nao_fraude = df[df['Fraude'] == 0].sample(50, random_state=50)
df_nao_fraude.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
2007,2008,7769.338464,Compra,SP,Manha,0
4447,4448,7993.588131,Compra,BA,Manha,0
930,931,1402.16718,Transferencia,SP,Noite,0
3289,3290,2042.692698,Pagamento,BA,Manha,0
343,344,4344.177976,Transferencia,MG,Tarde,0


In [39]:
df_nao_fraude['Fraude'].value_counts()

Unnamed: 0_level_0,count
Fraude,Unnamed: 1_level_1
0,50


In [41]:
comparacao_fraude = pd.concat([df_fraude, df_nao_fraude])
comparacao_fraude.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
4886,4887,3435.867331,Pagamento,MG,Madrugada,1
1872,1873,5063.468403,Pagamento,RJ,Madrugada,1
3138,3139,5219.275751,Pagamento,MG,Tarde,1
2969,2970,4967.624941,Transferencia,RJ,Tarde,1
2799,2800,1909.175421,Pagamento,RS,Madrugada,1


In [42]:
comparacao_fraude['Fraude'].value_counts()

Unnamed: 0_level_0,count
Fraude,Unnamed: 1_level_1
1,50
0,50


## **5 Criar um subconjunto de dados com base em amostragem por julgamento para transações acima de R$5000.**

In [44]:
df_julgamento = df[df['Valor'] >= 5000 ]
df_julgamento.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
3,4,5990.598257,Transferencia,MG,Manha,0
7,8,8663.099696,Compra,RJ,Manha,0
8,9,6015.138967,Pagamento,SP,Manha,0


In [50]:
# & igual a E
# | igual a OU
# Cada filtro deve estar dentro de um parentese
df[(df['Valor'] >= 5000) & (df['Horario'] == 'Tarde') | (df['Tipo_Transacao'] == 'Pagamento')]

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
4,5,1568.626218,Pagamento,BA,Manha,1
6,7,590.255286,Pagamento,RJ,Manha,1
...,...,...,...,...,...,...
4986,4987,7283.883209,Pagamento,MG,Tarde,0
4987,4988,6006.511587,Pagamento,RJ,Noite,0
4989,4990,7699.768762,Compra,PR,Tarde,0
4991,4992,5739.897167,Transferencia,RS,Tarde,0


## **6 - Aplicar amostragem por conglomerados dividindo os dados por tipo de transação e sorteando um grupo.**

In [68]:
grupos = df['Tipo_Transacao'].unique() # Separa os tipos de transações em um objeto chamado grupos
grupo_sorteado = np.random.choice(grupos, 1)[0]
amostra_conglomerado = df[df['Tipo_Transacao'] == grupo_sorteado]
amostra_conglomerado.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
5,6,1568.385258,Compra,PR,Noite,1
7,8,8663.099696,Compra,RJ,Manha,0
10,11,215.639098,Compra,RJ,Tarde,0
15,16,1842.211053,Compra,RS,Noite,0
17,18,5252.316752,Compra,RS,Noite,0


In [74]:
np.random.choice(grupos, 1)[0]

'Compra'

## **7 - Executar uma amostragem por conveniência pegando os 300 primeiros registros.**

In [76]:
df_conveniencia = df.head(300)
df_conveniencia.head()

Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
0,1,3751.655787,Pagamento,RS,Manha,0
1,2,9507.635921,Pagamento,RS,Tarde,1
2,3,7322.619479,Pagamento,RJ,Manha,0
3,4,5990.598257,Transferencia,MG,Manha,0
4,5,1568.626218,Pagamento,BA,Manha,1


In [79]:
df_conveniencia['Fraude'].value_counts() / len(df_conveniencia) * 100

Unnamed: 0_level_0,count
Fraude,Unnamed: 1_level_1
0,65.0
1,35.0


## **8 - Criar uma amostragem por cotas considerando o tipo de transação e localização.**

In [81]:
df_transacao = df.groupby('Tipo_Transacao', group_keys=False).apply(lambda x: x.sample(n=100, random_state=50))
df_localizacao = df.groupby('Localizacao', group_keys=False).apply(lambda x: x.sample(n=100, random_state=50))

amostra_cotas = pd.concat([df_transacao, df_localizacao])
amostra_cotas.head()

  df_transacao = df.groupby('Tipo_Transacao', group_keys=False).apply(lambda x: x.sample(n=100, random_state=50))
  df_localizacao = df.groupby('Localizacao', group_keys=False).apply(lambda x: x.sample(n=100, random_state=50))


Unnamed: 0,ID_Transacao,Valor,Tipo_Transacao,Localizacao,Horario,Fraude
4696,4697,5060.152709,Compra,RS,Noite,0
2671,2672,3957.357767,Compra,SP,Tarde,1
2968,2969,9471.435764,Compra,PR,Noite,0
52,53,9395.594426,Compra,RS,Noite,1
3555,3556,6243.74487,Compra,RS,Tarde,1


In [82]:
amostra_cotas = df.groupby(['Tipo_Transacao', 'Localizacao']).apply(lambda x: x.sample(n=5)).reset_index(drop=True)

  amostra_cotas = df.groupby(['Tipo_Transacao', 'Localizacao']).apply(lambda x: x.sample(n=5)).reset_index(drop=True)


## **9 - Comparar os resultados das amostras aleatória e estratificada e explicar as diferenças.**

In [85]:
print(df_aleatorio['Fraude'].value_counts() / len(df_aleatorio) * 100)
print(df_estratificado['Fraude'].value_counts() / len(df_estratificado) * 100)

Fraude
0    68.2
1    31.8
Name: count, dtype: float64
Fraude
0    72.0
1    28.0
Name: count, dtype: float64


In [87]:
print(df_aleatorio['Fraude'].value_counts() / len(df_aleatorio) * 100)
print(df_julgamento['Fraude'].value_counts() / len(df_julgamento) * 100)

Fraude
0    68.2
1    31.8
Name: count, dtype: float64
Fraude
0    68.972411
1    31.027589
Name: count, dtype: float64
