<a href="https://colab.research.google.com/github/italognog/modulo1-posia-avaliacao-final/blob/main/modulo1_posia_avaliacao_final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


### Hackathon Relâmpago - Caçadores de Fraudes
### Autores: Alvaro Teixeira de Araújo - Ítalo Garcia Araújo Nogueira
### Data: 06/04/2025
### Objetivo: Detectar fraudes em lista de compras públicas utilizando Python.


## 1 - Carregando e explorando os dados

In [82]:
import pandas as pd

In [83]:
df_vendas = pd.read_csv('public_servant_purchases.csv')
df_vendas.head()

Unnamed: 0,nome_do_funcionario,item_comprado,valor_em_real,data_da_compra
0,Amanda Jones,Copy Paper,227.0,2024-12-01 18:05:04
1,Patrick Kavuma,Counselling Services,88.0,2024-01-18 18:26:17
2,Daljit Singh,Tablet,1299.0,2024-06-12 09:05:57
3,"NARKOTA, ATEE",GASOLINA NATURAL ASASIN 100,17.6,2024-03-07 15:11:16
4,Cheryl Vile,Computer and accessories,2.81,2024-03-20 10:48:04


In [84]:
df_vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   nome_do_funcionario  4993 non-null   object 
 1   item_comprado        4993 non-null   object 
 2   valor_em_real        5000 non-null   float64
 3   data_da_compra       5000 non-null   object 
dtypes: float64(1), object(3)
memory usage: 156.4+ KB


In [85]:
df_vendas.describe()

Unnamed: 0,valor_em_real
count,5000.0
mean,63903.43
std,2425916.0
min,-4.9
25%,19.0
50%,117.72
75%,450.55
max,135000000.0


In [86]:
formato_df = df_vendas.shape
print(f'O DataFrame possui {formato_df[0]} linhas e {formato_df[1]} colunas.')

O DataFrame possui 5000 linhas e 4 colunas.


## 2 - Limpeza e tratamento

In [87]:
df_vendas.isnull().sum()

Unnamed: 0,0
nome_do_funcionario,7
item_comprado,7
valor_em_real,0
data_da_compra,0


In [88]:
df_vendas.dropna(inplace=True)
df_vendas.isnull().sum()

Unnamed: 0,0
nome_do_funcionario,0
item_comprado,0
valor_em_real,0
data_da_compra,0


In [89]:
df_vendas.duplicated().sum()

np.int64(0)

## 3 - Respostas de Negócio

### 3.1 - Detectar compras duplicadas

In [90]:
def detectar_compras_duplicadas(compras):
   compras_duplicadas = int(compras.duplicated().sum())
   if compras_duplicadas > 0:
      print(f'Foram encontradas {compras_duplicadas} compras duplicadas.')
   else:
      print('Não foram encontradas compras duplicadas.')

In [91]:
detectar_compras_duplicadas(df_vendas)

Não foram encontradas compras duplicadas.


### 3.2 - Listar valores acima do limite de R$1000

In [92]:
def verificar_valores_acima_1000(compras):
    # 1 Definindo limites
    valores_acima_1000 = compras[compras['valor_em_real'] > 1000]['valor_em_real']
    qtd_valores_acima_1000 = len(set(valores_acima_1000))

    # Testando condições
    if not valores_acima_1000.empty:
        print(f'Foram encontrados {qtd_valores_acima_1000} valores distintos acima de R$1000:')
        print(set(valores_acima_1000))
    else:
        print("Não foram encontrados valores acima de R$1000.")

In [93]:
verificar_valores_acima_1000(df_vendas)

Foram encontrados 837 valores distintos acima de R$1000:
{8960000.0, 6159.98, 2075.0, 2078.42, 14367.0, 2079.0, 32800.0, 10270.16, 2084.6, 8230.0, 4137.0, 2089.0, 4140.0, 10287.0, 2096.12, 2098.0, 2099.0, 4147.0, 2100.0, 10299.99, 25000000.0, 6209.59, 4166.0, 12360.0, 264272.0, 2134.67, 2140.0, 2147.0, 2150.0, 12395.0, 2156.0, 14445.0, 14450.0, 2164.0, 2165.0, 4216.0, 2169.0, 73850.0, 2175.0, 2186.0, 2189.0, 2190.0, 250000.0, 4243.0, 2196.0, 2199.0, 2207.0, 6306.0, 2224.0, 2229.0, 2231.12, 35000.0, 2232.0, 4286.0, 2242.0, 2247.0, 4297.0, 4298.0, 12491.45, 4300.0, 2253.39, 10451.0, 2267.54, 2278.0, 2279.0, 2280.0, 2281.0, 2283.0, 2286.0, 41199.0, 2286.93, 2299.99, 2300.0, 20743.16, 2312.5, 4364.0, 4372.0, 2332.03, 2332.0, 2334.0, 2339.0, 2340.0, 2339.99, 6441.0, 8490.0, 2348.0, 2349.99, 18736.0, 112944.0, 100000052.0, 2357.61, 2363.22, 2364.61, 2364.99, 201020.0, 2367.4, 6459.0, 4417.0, 72000.0, 2375.0, 24910.0, 8529.0, 31059.0, 2389.0, 2395.32, 2395.02, 2398.0, 2399.0, 4450.0, 4452.0, 

### 3.3 - Identificar as compras fora do horário comercial

In [94]:
def compras_fora_de_horario(compras):
    # 1 Definindo limites
    compras['data_da_compra'] = pd.to_datetime(compras['data_da_compra'])
    horario_abertura = pd.to_datetime('08:00:00').time()
    horario_fechamento = pd.to_datetime('18:00:00').time()

    # 2 Testando condições
    compras_fora_de_horario = compras[
        (compras['data_da_compra'].dt.time < horario_abertura) |
        (compras['data_da_compra'].dt.time > horario_fechamento)
    ]
    return compras_fora_de_horario


In [95]:
compras_fora_de_horario(df_vendas)

Unnamed: 0,nome_do_funcionario,item_comprado,valor_em_real,data_da_compra
0,Amanda Jones,Copy Paper,227.00,2024-12-01 18:05:04
1,Patrick Kavuma,Counselling Services,88.00,2024-01-18 18:26:17
5,PRITI SHARMA,Furniture,260.00,2024-03-24 01:10:00
6,Dennis S.,Tapetes,13.00,2024-06-21 19:17:51
8,Davinia A,Congress,196.85,2024-09-25 02:27:23
...,...,...,...,...
4983,Jennifer Hernandez,Food,24.60,2024-09-16 06:40:03
4991,Simon,Carteira 2014/2018,182.00,2024-08-01 07:06:48
4993,Terry O\'Connor,PANCHO\'S MEXICANA,12.99,2024-05-31 19:50:17
4995,Mrs. D Nelson,Purchase Order,20.21,2024-07-02 21:51:20


### 3.4 - Organizar compras por funcionário usando dicionários

In [96]:
def organizar_por_servidor(compras):
    #1 Agrupando por funcionário
    dados_agrupados = compras.groupby('nome_do_funcionario').agg(
        quantidade_de_vendas=('nome_do_funcionario', 'count'),
        soma_das_vendas=('valor_em_real', 'sum'),
        primeira_compra=('data_da_compra', 'min')
    )

    #2 Transformar em dicionário
    lista_de_dicionarios = dados_agrupados.reset_index().to_dict('records')

    return lista_de_dicionarios

In [97]:
organizar_por_servidor(df_vendas.head(15))

[{'nome_do_funcionario': 'A. S. M. Rashed',
  'quantidade_de_vendas': 1,
  'soma_das_vendas': 2.6,
  'primeira_compra': Timestamp('2024-10-12 12:48:51')},
 {'nome_do_funcionario': 'Amanda Jones',
  'quantidade_de_vendas': 1,
  'soma_das_vendas': 227.0,
  'primeira_compra': Timestamp('2024-12-01 18:05:04')},
 {'nome_do_funcionario': 'Bogicic, Marko',
  'quantidade_de_vendas': 1,
  'soma_das_vendas': 309.0,
  'primeira_compra': Timestamp('2024-05-28 13:22:17')},
 {'nome_do_funcionario': 'Cheryl Vile',
  'quantidade_de_vendas': 1,
  'soma_das_vendas': 2.81,
  'primeira_compra': Timestamp('2024-03-20 10:48:04')},
 {'nome_do_funcionario': 'Daljit Singh',
  'quantidade_de_vendas': 1,
  'soma_das_vendas': 1299.0,
  'primeira_compra': Timestamp('2024-06-12 09:05:57')},
 {'nome_do_funcionario': 'Davinia A',
  'quantidade_de_vendas': 1,
  'soma_das_vendas': 196.85,
  'primeira_compra': Timestamp('2024-09-25 02:27:23')},
 {'nome_do_funcionario': 'Dennis S.',
  'quantidade_de_vendas': 1,
  'soma_d

### 3.5 - Exibir relatório com severidade da infração

In [98]:
import pandas as pd

def gerar_relatorio(compras):
    # 1. Converter a coluna 'data_da_compra' para datetime
    compras['data_da_compra'] = pd.to_datetime(compras['data_da_compra'])

    # 2. Definir horários de início e término do horário comercial
    horario_abertura = pd.to_datetime('08:00:00').time()
    horario_fechamento = pd.to_datetime('18:00:00').time()

    # 3. Criar uma nova coluna 'gravidade' com base nas condições
    compras['gravidade'] = 'Gravidade Indefinida'  # Inicializar com 'Gravidade Indefinida'
    compras.loc[
        (compras['data_da_compra'].dt.time >= horario_abertura) &
        (compras['data_da_compra'].dt.time <= horario_fechamento) &
        (compras['valor_em_real'] > 1000),
        'gravidade'
    ] = 'Suspeitas'
    compras.loc[
        ((compras['data_da_compra'].dt.time < horario_abertura) |
         (compras['data_da_compra'].dt.time > horario_fechamento)) &
        (compras['valor_em_real'] <= 1000),
        'gravidade'
    ] = 'Leves'
    compras.loc[
        ((compras['data_da_compra'].dt.time < horario_abertura) |
         (compras['data_da_compra'].dt.time > horario_fechamento)) &
        (compras['valor_em_real'] > 1000),
        'gravidade'
    ] = 'Moderadas'


    # 4. Contar as ocorrências por gravidade
    ocorrencias_por_gravidade = compras['gravidade'].value_counts().to_dict()

    # 5. Exibir o relatório
    print("Relatório de Ocorrências por Gravidade:")
    for gravidade, quantidade in ocorrencias_por_gravidade.items():
        print(f"- {gravidade}: {quantidade}")

In [99]:
gerar_relatorio(df_vendas)

Relatório de Ocorrências por Gravidade:
- Gravidade Indefinida: 3002
- Leves: 1057
- Suspeitas: 691
- Moderadas: 237
