Hackathon Relâmpago - Caçadores de Fraudes
Autores: Thiago Nogueira de Sousa Martins Almeida / Alexandre Monteiro Rodrigues Coelho
Data: 06/04/2025
Objetivo: Detectar fraudes em lista de compras públicas utilizando Python.

In [None]:
# Extraindo, Transformando e Carregando Dados
import pandas as pd
df_Compras = pd.read_csv('public_servant_purchases_new.csv')
df_Compras.head()


Unnamed: 0,nome_do_funcionario,item_comprado,valor_em_real,data_da_compra
0,Amanda Jones,Copy Paper,227.0,2024-12-01 18:05:04
1,Patrick Kavuma,Counselling Services,88.0,2024-01-18 18:26:17
2,Daljit Singh,Tablet,1299.0,2024-06-12 09:05:57
3,"NARKOTA, ATEE",GASOLINA NATURAL ASASIN 100,17.6,2024-03-07 15:11:16
4,Cheryl Vile,Computer and accessories,2.81,2024-03-20 10:48:04


In [None]:
df_Compras.columns


Index(['nome_do_funcionario', 'item_comprado', 'valor_em_real',
       'data_da_compra'],
      dtype='object')

In [None]:
df_Compras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   nome_do_funcionario  4993 non-null   object 
 1   item_comprado        4993 non-null   object 
 2   valor_em_real        5000 non-null   float64
 3   data_da_compra       5000 non-null   object 
dtypes: float64(1), object(3)
memory usage: 156.4+ KB


In [None]:
df_Compras.describe()

Unnamed: 0,valor_em_real
count,5000.0
mean,63903.43
std,2425916.0
min,-4.9
25%,19.0
50%,117.72
75%,450.55
max,135000000.0


**1. Detectar compras duplicadas**

In [None]:
def Compras_Duplicadas(Compras):
    Compras_duplicadas = int(Compras.duplicated().sum())
    if Compras_duplicadas > 0:
        print(f'A quantidade de compras duplicadas é: {Compras_duplicadas}')
    else:
        print('Não há compras duplicadas')
Compras_Duplicadas(df_Compras)

Não há compras duplicadas


**2. Listar valores acima do limite (R$1000)**

In [None]:
def verificar_valores_suspeitos(compras):
    valores_suspeitos = compras[compras['valor_em_real'] > 1000]
    quantidade_suspeitos = len(valores_suspeitos)
    print(f'Quantidade de compras suspeitas (acima de R$1000): {quantidade_suspeitos}')
    print('\nValores das compras suspeitas:')
    print(valores_suspeitos[['valor_em_real']])
    return valores_suspeitos
verificar_valores_suspeitos(df_Compras)

Quantidade de compras suspeitas (acima de R$1000): 929

Valores das compras suspeitas:
      valor_em_real
2           1299.00
16          3912.77
23          1267.79
33          1413.98
34          3872.00
...             ...
4986       10855.00
4987        2499.00
4992        1191.00
4998       13168.50
4999     2500000.00

[929 rows x 1 columns]


Unnamed: 0,nome_do_funcionario,item_comprado,valor_em_real,data_da_compra
2,Daljit Singh,Tablet,1299.00,2024-06-12 09:05:57
16,MARTIN LOUIS,Aluguel de Imóvel,3912.77,2024-12-18 12:14:32
23,"Jiang, Hui",Plane ticket,1267.79,2024-02-21 12:13:46
33,JAKE KOWALSKY,Dell 13 Touchscreen Latitude E5470,1413.98,2024-03-13 12:29:57
34,MARIA ANTONIETA GONZÁLEZ LUIJO,TV 157 CM LCD 1080p Full HD 40W 2 HDMI 1 VGA,3872.00,2024-01-29 20:01:56
...,...,...,...,...
4986,Ahmed Aljunid,Iphone 12,10855.00,2024-01-07 11:17:10
4987,Mrs. Yang Li,Dell Inspiron 3553-N052BLK (Intel Core i5-5200...,2499.00,2024-10-05 14:34:37
4992,"Hyeon-Soo, Joo",AIR CONDITIONER,1191.00,2024-05-19 17:04:34
4998,LAURA JACKSON,Half Pavement,13168.50,2024-03-04 03:02:39


3. Identificar compras fora do horário comercial (antes de 08:00 ou depois de 18:00)



In [None]:
def compras_fora_de_horario(compras):
  compras['data_da_compra'] = pd.to_datetime(compras['data_da_compra'])
  início_do_expediente = pd.to_datetime('08:00:00').time()
  fim_do_expediente = pd.to_datetime('18:00:00').time()
  # compras['data_da_compra'] = compras['data_da_compra'].dt.time
  compras_fora_horario = compras[(compras['data_da_compra'].dt.time < início_do_expediente) | (compras['data_da_compra'].dt.time > fim_do_expediente)]
  quantidade_fora_horario = len(compras_fora_horario)
  print(f'Quantidade de compras fora do horário comercial: {quantidade_fora_horario}')
  print('\nCompras fora do horário comercial:')
  print(compras_fora_horario[['data_da_compra']])
  return compras_fora_horario
compras_fora_de_horario(df_Compras)

Quantidade de compras fora do horário comercial: 1297

Compras fora do horário comercial:
          data_da_compra
0    2024-12-01 18:05:04
1    2024-01-18 18:26:17
5    2024-03-24 01:10:00
6    2024-06-21 19:17:51
8    2024-09-25 02:27:23
...                  ...
4983 2024-09-16 06:40:03
4991 2024-08-01 07:06:48
4993 2024-05-31 19:50:17
4995 2024-07-02 21:51:20
4998 2024-03-04 03:02:39

[1297 rows x 1 columns]


Unnamed: 0,nome_do_funcionario,item_comprado,valor_em_real,data_da_compra
0,Amanda Jones,Copy Paper,227.00,2024-12-01 18:05:04
1,Patrick Kavuma,Counselling Services,88.00,2024-01-18 18:26:17
5,PRITI SHARMA,Furniture,260.00,2024-03-24 01:10:00
6,Dennis S.,Tapetes,13.00,2024-06-21 19:17:51
8,Davinia A,Congress,196.85,2024-09-25 02:27:23
...,...,...,...,...
4983,Jennifer Hernandez,Food,24.60,2024-09-16 06:40:03
4991,Simon,Carteira 2014/2018,182.00,2024-08-01 07:06:48
4993,Terry O\'Connor,PANCHO\'S MEXICANA,12.99,2024-05-31 19:50:17
4995,Mrs. D Nelson,Purchase Order,20.21,2024-07-02 21:51:20


4. Organizar as compras por servidor usando dicionários

In [None]:
def compras_por_servidor(compras):
    # Garante que a coluna de data esteja no formato datetime
    compras['data_da_compra'] = pd.to_datetime(compras['data_da_compra'])

    # Cria um dicionário vazio para armazenar as compras por servidor
    compras_por_servidor = {}

    # Itera sobre o DataFrame linha por linha
    for _, linha in compras.iterrows():
        servidor = linha['nome_do_funcionario']
        dados_compra = linha.to_dict()  # Transforma a linha em dicionário

        # Adiciona a compra na lista do servidor, criando a chave se necessário
        if servidor not in compras_por_servidor:
            compras_por_servidor[servidor] = []

        compras_por_servidor[servidor].append(dados_compra)

    # Exibe informações resumidas
    print(f'Quantidade de servidores com compras registradas: {len(compras_por_servidor)}\n')
    for servidor, compras_lista in compras_por_servidor.items():
        print(f'{servidor}: {len(compras_lista)} compras')

    return compras_por_servidor
compras_por_servidor(df_Compras)

5. Exibir relatório com severidade da infração

In [None]:
def classificar_infracao(Compras):
    # 1. Converter a coluna 'data_da_compra' para datetime
    Compras['data_da_compra'] = pd.to_datetime(df_Compras['data_da_compra'])

    # 2. Definir horários de expediente
    inicio_expediente = pd.to_datetime('08:00:00').time()
    fim_expediente = pd.to_datetime('18:00:00').time()

    # 3. Criar a coluna 'infracao' e inicializar como 'Sem Infração'
    Compras['infracao'] = 'Em Conformidade'

    # 4. Aplicar as regras de classificação
    # Infração Leve
    Compras.loc[
        (Compras['data_da_compra'].dt.time < inicio_expediente) |
        (Compras['data_da_compra'].dt.time > fim_expediente),
        'infracao'
    ] = 'Leve'

    # Infração Média
    Compras.loc[Compras['valor_em_real'] > 1000, 'infracao'] = 'Média'

    # Infração Grave
    Compras.loc[
        ((Compras['data_da_compra'].dt.time < inicio_expediente) |
         (Compras['data_da_compra'].dt.time > fim_expediente)) &
        (Compras['valor_em_real'] > 1000),
        'infracao'
    ] = 'Grave'

    # Infração Gravíssima
    df_Compras.loc[
        ((Compras['data_da_compra'].dt.time < inicio_expediente) |
         (Compras['data_da_compra'].dt.time > fim_expediente)) &
        (Compras['valor_em_real'] > 10000),
        'infracao'
    ] = 'Gravíssima'
    print(Compras[['data_da_compra', 'valor_em_real', 'infracao']])
classificar_infracao(df_Compras)

          data_da_compra  valor_em_real         infracao
0    2024-12-01 18:05:04         227.00             Leve
1    2024-01-18 18:26:17          88.00             Leve
2    2024-06-12 09:05:57        1299.00            Média
3    2024-03-07 15:11:16          17.60  Em Conformidade
4    2024-03-20 10:48:04           2.81  Em Conformidade
...                  ...            ...              ...
4995 2024-07-02 21:51:20          20.21             Leve
4996 2024-03-07 12:43:20         194.00  Em Conformidade
4997 2024-04-18 12:43:54           0.49  Em Conformidade
4998 2024-03-04 03:02:39       13168.50       Gravíssima
4999 2024-06-07 14:24:24     2500000.00            Média

[5000 rows x 3 columns]
