In [1]:
# ---------------------------------------------------------------------------------------
# Author: Luis Starlino
# DateTime: 19/07/2025 - 07:40 AM
# Description: Pre processing data
# ---------------------------------------------------------------------------------------

In [2]:
# --- Import
import pandas as pd

# ---load dataset
df = pd.read_csv("transacoes_fraude.csv")

# --- first rows
df.head()


Unnamed: 0,Valor da Transação,Data/Hora da Transação,Localização da Transação,Data criação conta recebedor,Classe(transações anteriores),Classe (rótulo),Recorrência de envios do mesmo valor,Idade do titular do cartão,Classe(cartão temporário),Limite de crédito,Classe(nome lista devedores),Número de cartões complementares,Data ativação do cartão,Numero transações para outro pais,Número de transações suspeitas anteriormente,Valor médio das transações do usuário,Classe(histórico pagamento),Classe(emprego fixo),Tempo desde a ultima transação,Dispositivo de acesso novo?
0,140.78,2024-01-19 05:23:06,"25.096824, -170.996128",2020-11-19 05:23:06,0,1,0,35,0,20000,0,4,2021-01-12 05:23:06,0,0,364.77,bom,0,2024-01-07 22:18:56,0
1,50.89,2024-02-03 10:02:05,"11.024111, 77.767061",2016-02-23 10:02:05,1,0,0,75,1,1000,0,5,2016-04-17 10:02:05,5,2,452.3,bom,0,2024-01-18 01:52:26,0
2,17.95,2024-08-11 13:30:53,"-73.305748, -145.182104",2015-01-10 13:30:53,1,0,1,23,1,20000,0,3,2015-01-20 13:30:53,8,2,457.92,inadimplente,1,2024-07-14 12:51:03,0
3,6.24,2023-09-04 07:49:27,"36.822931, -163.503222",2021-01-14 07:49:27,1,1,0,47,0,10000,1,3,2021-04-05 07:49:27,5,1,376.74,atrasado,1,2023-08-25 03:43:51,1
4,535.93,2025-05-30 02:29:43,"36.327656, 66.07716",2024-07-12 02:29:43,0,0,0,38,1,10000,1,5,2024-10-08 02:29:43,8,1,253.66,inadimplente,1,2025-05-27 09:19:23,0


In [3]:
# --- Understanding the data types to categorization
# --- GET A FULL INFORMATION

# General Information
df.info();

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 20 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   Valor da Transação                            5000 non-null   float64
 1   Data/Hora da Transação                        5000 non-null   object 
 2   Localização da Transação                      5000 non-null   object 
 3   Data criação conta recebedor                  5000 non-null   object 
 4   Classe(transações anteriores)                 5000 non-null   int64  
 5   Classe (rótulo)                               5000 non-null   int64  
 6   Recorrência de envios do mesmo valor          5000 non-null   int64  
 7   Idade do titular do cartão                    5000 non-null   int64  
 8   Classe(cartão temporário)                     5000 non-null   int64  
 9   Limite de crédito                             5000 non-null   i

In [4]:
# --- Understanding the data types to categorization
# --- HAS A NULL VALUE?! (Not recommended for ai dataset)

# Check null values
df.isnull().sum()

Valor da Transação                              0
Data/Hora da Transação                          0
Localização da Transação                        0
Data criação conta recebedor                    0
Classe(transações anteriores)                   0
Classe (rótulo)                                 0
Recorrência de envios do mesmo valor            0
Idade do titular do cartão                      0
Classe(cartão temporário)                       0
Limite de crédito                               0
Classe(nome lista devedores)                    0
Número de cartões complementares                0
Data ativação do cartão                         0
Numero transações para outro pais               0
Número de transações suspeitas anteriormente    0
Valor médio das transações do usuário           0
Classe(histórico pagamento)                     0
Classe(emprego fixo)                            0
Tempo desde a ultima transação                  0
Dispositivo de acesso novo?                     0


In [6]:
# --- Understanding the data types to categorization
# --- Data types
# --- GOAL: We need to convert all of this types for int64 (categorizin all columns)

df.dtypes

Valor da Transação                              float64
Data/Hora da Transação                           object
Localização da Transação                         object
Data criação conta recebedor                     object
Classe(transações anteriores)                     int64
Classe (rótulo)                                   int64
Recorrência de envios do mesmo valor              int64
Idade do titular do cartão                        int64
Classe(cartão temporário)                         int64
Limite de crédito                                 int64
Classe(nome lista devedores)                      int64
Número de cartões complementares                  int64
Data ativação do cartão                          object
Numero transações para outro pais                 int64
Número de transações suspeitas anteriormente      int64
Valor médio das transações do usuário           float64
Classe(histórico pagamento)                      object
Classe(emprego fixo)                            

In [7]:
# --- Target variable analytics
# --- IT MUST BE 10% FOR VALUE TRUE | Important for a balanced dataset!
df['Classe (rótulo)'].value_counts(normalize=True) * 100

Classe (rótulo)
0    90.26
1     9.74
Name: proportion, dtype: float64

In [8]:
# --- Convert date/time columns

# --- date convert to get more information!
df['Data/Hora da Transação'] = pd.to_datetime(df['Data/Hora da Transação'])
df['Data criação conta recebedor'] = pd.to_datetime(df['Data criação conta recebedor'])
df['Data ativação do cartão'] = pd.to_datetime(df['Data ativação do cartão'])
df['Tempo desde a ultima transação'] = pd.to_datetime(df['Tempo desde a ultima transação'])

# --- Create derived columns to work better with date types
df['Hora da Transação'] = df['Data/Hora da Transação'].dt.hour
df['Dias desde criação da conta'] = (df['Data/Hora da Transação'] - df['Data criação conta recebedor']).dt.days
df['Dias desde ativação cartão'] = (df['Data/Hora da Transação'] - df['Data ativação do cartão']).dt.days
df['Segundos desde última transação'] = (df['Data/Hora da Transação'] - df['Tempo desde a ultima transação']).dt.total_seconds()

# --- Remove original columns in dataset
df.drop(columns=[
    'Data/Hora da Transação', 'Data criação conta recebedor',
    'Data ativação do cartão', 'Tempo desde a ultima transação'
], inplace=True)

# --- Show changes
df.head()




Unnamed: 0,Valor da Transação,Localização da Transação,Classe(transações anteriores),Classe (rótulo),Recorrência de envios do mesmo valor,Idade do titular do cartão,Classe(cartão temporário),Limite de crédito,Classe(nome lista devedores),Número de cartões complementares,Numero transações para outro pais,Número de transações suspeitas anteriormente,Valor médio das transações do usuário,Classe(histórico pagamento),Classe(emprego fixo),Dispositivo de acesso novo?,Hora da Transação,Dias desde criação da conta,Dias desde ativação cartão,Segundos desde última transação
0,140.78,"25.096824, -170.996128",0,1,0,35,0,20000,0,4,0,0,364.77,bom,0,0,5,1156,1102,975850.0
1,50.89,"11.024111, 77.767061",1,0,0,75,1,1000,0,5,5,2,452.3,bom,0,0,10,2902,2848,1411779.0
2,17.95,"-73.305748, -145.182104",1,0,1,23,1,20000,0,3,8,2,457.92,inadimplente,1,0,13,3501,3491,2421590.0
3,6.24,"36.822931, -163.503222",1,1,0,47,0,10000,1,3,5,1,376.74,atrasado,1,1,7,963,882,878736.0
4,535.93,"36.327656, 66.07716",0,0,0,38,1,10000,1,5,8,1,253.66,inadimplente,1,0,2,322,234,234620.0


In [9]:
# --- Handling with categorical variables

# --- Coordinates
df[['Latitude', 'Longitude']] = df['Localização da Transação'].str.split(",", expand=True).astype(float)

# --- Payment History: One-Hot Encoding 
# --- Convert column with values "bom, option2, option3" into 3 colums with 1 and 0 values using prefix "pagamento"
df = pd.get_dummies(df, columns=['Classe(histórico pagamento)'], prefix='pagamento')

# --- See changes
df.head()


Unnamed: 0,Valor da Transação,Localização da Transação,Classe(transações anteriores),Classe (rótulo),Recorrência de envios do mesmo valor,Idade do titular do cartão,Classe(cartão temporário),Limite de crédito,Classe(nome lista devedores),Número de cartões complementares,...,Dispositivo de acesso novo?,Hora da Transação,Dias desde criação da conta,Dias desde ativação cartão,Segundos desde última transação,Latitude,Longitude,pagamento_atrasado,pagamento_bom,pagamento_inadimplente
0,140.78,"25.096824, -170.996128",0,1,0,35,0,20000,0,4,...,0,5,1156,1102,975850.0,25.096824,-170.996128,False,True,False
1,50.89,"11.024111, 77.767061",1,0,0,75,1,1000,0,5,...,0,10,2902,2848,1411779.0,11.024111,77.767061,False,True,False
2,17.95,"-73.305748, -145.182104",1,0,1,23,1,20000,0,3,...,0,13,3501,3491,2421590.0,-73.305748,-145.182104,False,False,True
3,6.24,"36.822931, -163.503222",1,1,0,47,0,10000,1,3,...,1,7,963,882,878736.0,36.822931,-163.503222,True,False,False
4,535.93,"36.327656, 66.07716",0,0,0,38,1,10000,1,5,...,0,2,322,234,234620.0,36.327656,66.07716,False,False,True


In [10]:
# Save clean dataset preprocessing for training
df.to_csv("transacoes_fraude_preprocessado.csv", index=False)
print("✅ Dataset pré-processado salvo como 'transacoes_fraude_preprocessado.csv'")


✅ Dataset pré-processado salvo como 'transacoes_fraude_preprocessado.csv'
