In [1]:
# %pip install -r requirements.txt

### **Bibliotecas:**

In [2]:
# BIBLIOTECAS
import pandas as pd
import numpy as np
import sqlite3
import datetime
from functions.criar_base import criar_base
from faker import Faker


### **``SQL - QUESTÃO 1``**

**Variáveis**

- **Users**
    - user_id

    - name

    - age

    - country

- **Transactions**
    - user_id

    - transaction_id

    - transaction_date

    - transaction_state

    - transaction_amount

#### **Criando e gerando uma base de dados aleatória através da biblioteca faker:**


In [3]:
criar_base()

# as 3 variáveis abaixo são as configurações de local da biblioteca faker
# https://fakerjs.dev/guide/localization.html

faker_us = Faker('en-US')
faker_br = Faker('pt-BR')
faker_fr = Faker('fr-FR')

countries = ['USA', 'Brazil', 'France']                                               # escolhi 3 países apenas para gerar a base de dados
fakers = {'USA': faker_us, 'Brazil': faker_br, 'France': faker_fr}                    # dicionário associando as configs aos países

n_users = 500                                                                         # número de usuários


user_id = np.arange(1, n_users + 1)                                                   # user_id = 1, 2, 3...n_users
countries_choices = np.random.choice(countries, size=n_users)                         # utilizando np.random.choice() para retornar uma lista aleatória de países com 'n_users' linhas
names = [fakers[country].name() for country in countries_choices]                     # for loop para gerar os nomes de acordo com o país
ages = np.random.randint(18, 65, size=n_users)                                        # gera uma lista aleatória de idades entre 18 e 65 anos com 'n_users' linhas

# criando o dataframe de usuários
users_df = pd.DataFrame({
    'user_id': user_id,
    'name': names,
    'age': ages,
    'country': countries_choices
})

n_transactions = n_users * np.random.randint(8000, 10000)                            # determinando um número aleatório de transações, só para variar mesmo

transaction_ids = np.arange(1, n_transactions + 1)                                   # transaction_id = 1, 2, 3...n_transactions
user_id = np.random.randint(1, n_users + 1, size=n_transactions)                     # se utilizar n_users em vez de n_users+1 a função só gerá do 1 ao 499

start_date = datetime.datetime(2019, 1, 1)                                           # menor data possível
end_date = datetime.datetime.today()                                                 # data limite é data do dia atual

date_range = pd.date_range(start=start_date, end=end_date, freq='s')                 # freq = 's' gera datas no formato TIME STAMP
transaction_dates = np.random.choice(date_range, size=n_transactions)                # (https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases)

transaction_states = ['INITIATED', 'SUCCESS', 'FRAUD', 'CANCELLED']                  # todos os possíveis valores para 'transaction_states'
transaction_states_list = np.random.choice(transaction_states, size=n_transactions)  # gera uma lista aleatória com 'n_transactions' itens de possíveis estados
transaction_amounts = np.round(np.random.uniform(500, 5000, size=n_transactions), 2) # gera uma lista aleatória com 'n_transactions' itens de valores aleatórios

# criando o dataframe de transações
transactions_df = pd.DataFrame({
    'transaction_id': transaction_ids,
    'user_id': user_id,
    'transaction_date': transaction_dates,
    'transaction_state': transaction_states_list,
    'transaction_amount': transaction_amounts
})

transactions_df['transaction_date'] = transactions_df['transaction_date'].astype(str)

display(users_df)
display(transactions_df)


Unnamed: 0,user_id,name,age,country
0,1,Kim Woodard,27,USA
1,2,Lorena Rios,52,Brazil
2,3,Charles Mueller,62,USA
3,4,Martin Payet-Roussel,20,France
4,5,Inès Gilles,26,France
...,...,...,...,...
495,496,Tristan Lambert,55,France
496,497,Gilles Barbe-Dupont,22,France
497,498,Melina Monteiro,64,Brazil
498,499,Deborah Frye,43,USA


Unnamed: 0,transaction_id,user_id,transaction_date,transaction_state,transaction_amount
0,1,93,2022-01-22 03:36:12,SUCCESS,800.53
1,2,367,2019-11-08 10:06:29,INITIATED,2685.75
2,3,199,2024-07-20 14:05:53,CANCELLED,2825.58
3,4,450,2020-12-04 18:37:27,SUCCESS,4394.05
4,5,17,2025-03-27 20:25:22,SUCCESS,4904.81
...,...,...,...,...,...
4961995,4961996,381,2019-08-02 18:43:29,CANCELLED,976.42
4961996,4961997,299,2024-01-27 11:08:39,FRAUD,2345.03
4961997,4961998,162,2019-06-02 17:19:50,INITIATED,505.29
4961998,4961999,423,2024-05-30 20:35:26,CANCELLED,3359.40


#### **Criando as tabelas users e transactions**

In [4]:
# conecta ao banco do SQLite
conn = sqlite3.connect('dbCompany')
cursor = conn.cursor()

users_data = list(users_df.itertuples(index=False, name=None))

transactions_data = list(transactions_df.itertuples(index=False, name=None))

# inserindo users_df na tabela 'users'
cursor.executemany('INSERT INTO users (user_id, name, age, country) VALUES (?, ?, ?, ?)', users_data)

# inserindo transactions_df na tabela 'transactions'
cursor.executemany(
                    '''
                    INSERT INTO transactions 
                    (transaction_id, user_id, transaction_date, transaction_state, transaction_amount) 
                    VALUES (?, ?, ?, ?, ?)
                    '''
                    , transactions_data
)

conn.commit()

print(f'Número de usuários inseridos: {len(users_data):,}\nNúmero de transações inseridas: {len(transactions_data):,}')

Número de usuários inseridos: 500
Número de transações inseridas: 4,962,000


#### **``A. Qual é a idade média de usuários do sistema por país``**

In [5]:
## QUERY A
query = '''
        SELECT country AS País, ROUND(AVG(age),2) AS "Média de Idade"
        FROM users
        GROUP BY country
        ORDER BY "Média de Idade" DESC
        '''

df_A = pd.read_sql(query, conn)

#### **``B. Qual é o país com a maior quantidade de dinheiro transacionado (considere só transações finalizadas com sucesso ou SUCCESS)``**

In [6]:
## QUERY B
query = '''
        WITH TotalSuccess AS (
                SELECT user_id, SUM(transaction_amount) AS transacoes
                FROM transactions 
                WHERE transaction_state = 'SUCCESS'
                GROUP BY user_id
                )

        SELECT u.country AS País, 
               SUM(t.transacoes) AS "Soma das Transações (US$)"
        FROM TotalSuccess t
        LEFT JOIN users u
        ON u.user_id = t.user_id
        GROUP BY u.country
        ORDER BY "Soma das Transações (US$)" DESC
        '''

df_B = pd.read_sql(query, conn)

## formatações no dataframe para melhor exibir as respostas no final
df_B['Soma das Transações (US$)'] = df_B['Soma das Transações (US$)'].apply(lambda x: f"{x:,.2f}")

#### **``C. Qual é o país com maior taxa de fraude em porcentagem respeito ao número de transações totais no país``**

In [7]:
## QUERY C
query = '''
        WITH
        Total AS (
            SELECT u.country, COUNT(*) as total_transacoes
            FROM transactions t
            LEFT JOIN users u
            ON t.user_id = u.user_id 
            GROUP BY u.country
        ),
        Fraudes AS (
            SELECT u.country, COUNT(*) as total_fraud
            FROM transactions t
            LEFT JOIN users u
            ON t.user_id = u.user_id
            WHERE t.transaction_state = 'FRAUD'
            GROUP BY u.country
        )
        
        SELECT 
            t.country AS País,
            ROUND(CAST(f.total_fraud AS FLOAT) / t.total_transacoes * 100, 2) as "Taxa de Fraudes (%)"
        FROM Total t
        LEFT JOIN Fraudes f
        ON t.country = f.country
        ORDER BY "Taxa de Fraudes (%)" DESC
        '''


df_C = pd.read_sql(query, conn)

#### **``*D. Na mesma linha da pergunta anterior, responda qual é a faixa de idade de usuários``**
que mais cometem fraude (em percentagem).

Separe as faixas etárias em ``< 18 anos, 18-30 anos, 30 - 45 anos, 45 - 60 anos, 60 > anos``

Considerar o fato que um usuário pode ter executado várias transações, das quais poucas (ou muitas) podem ter sido fraude entre as demais.

In [8]:
## QUERY D
query = '''      
        SELECT 
            CASE 
                WHEN age < 18 THEN '< 18 anos'
                WHEN age BETWEEN 18 AND 30 THEN '18-30 anos'
                WHEN age BETWEEN 30 AND 45 THEN '30 - 45 anos'
                WHEN age BETWEEN 45 AND 60 THEN '45 - 60 anos'
                ELSE '60 > anos'
            END AS "Faixa etária",
            COUNT(*) AS "Qtd. Transações Fraudulentas",
            ROUND(CAST(COUNT(*) AS FLOAT) / (SELECT COUNT(*) FROM transactions WHERE transaction_state = 'FRAUD') * 100, 2) AS "Taxa de Fraudes (%)"
        FROM users u
        JOIN transactions t ON u.user_id = t.user_id
        
        WHERE t.transaction_state = 'FRAUD'
        GROUP BY "Faixa etária"
        ORDER BY "Faixa etária" ASC
        '''

df_D = pd.read_sql(query, conn)

## formatações no dataframe para melhor exibir as respostas no final
df_D["Qtd. Transações Fraudulentas"] = df_D["Qtd. Transações Fraudulentas"].apply(lambda x: f"{x:,.0f}")

#### **``E. Imagine que a camada executiva da empresa dona do sistema, precisa criar um Dashboard para monitorar o estado das transações nos últimos 3 dias.``**

Criar uma query SQL que calcule:

1. Número e dinheiro das transações não finalizadas

2. Número e dinheiro de transações finalizadas com sucesso (SUCCESS)

3. Número e dinheiro de transações canceladas (CANCELLED)

4. Número e dinheiro de fraudes (FRAUD)

Agrupado por país e nos 3 dias anteriores de quando o executivo da empresa consulte seu Dashboard.

In [9]:
## QUERY E:
query = '''      
        WITH TabelaAux AS (
            SELECT 
                u.country,
                t.transaction_state,
                COUNT(*) AS transaction_count,
                SUM(t.transaction_amount) AS transaction_amount
            FROM transactions t
            JOIN users u ON u.user_id = t.user_id

            WHERE t.transaction_date <= DATE('now', '-3 day')
                -- SQLite não possui as funções CURDATE() e INTERVAL
                -- WHERE t.transaction_date <= CURDATE() - INTERVAL 3 DAY)

            GROUP BY u.country, t.transaction_state
        )
        SELECT 
            country as País,
            SUM(CASE WHEN transaction_state = 'INITIATED' THEN transaction_count ELSE 0 END) AS "N. Não Finalizadas",
            SUM(CASE WHEN transaction_state = 'INITIATED' THEN transaction_amount ELSE 0 END) AS "Soma Não Finalizadas",
            
            SUM(CASE WHEN transaction_state = 'SUCCESS' THEN transaction_count ELSE 0 END) AS "N. Finalizadas",
            SUM(CASE WHEN transaction_state = 'SUCCESS' THEN transaction_amount ELSE 0 END) AS "Soma Finalizadas",
            
            SUM(CASE WHEN transaction_state = 'CANCELLED' THEN transaction_count ELSE 0 END) AS "N. Canceladas",
            SUM(CASE WHEN transaction_state = 'CANCELLED' THEN transaction_amount ELSE 0 END) AS "Soma Canceladas",
            
            SUM(CASE WHEN transaction_state = 'FRAUD' THEN transaction_count ELSE 0 END) AS "N. Fraudulentas",
            SUM(CASE WHEN transaction_state = 'FRAUD' THEN transaction_amount ELSE 0 END) AS "Soma Fraudulentas"
        FROM TabelaAux
        GROUP BY country
        '''

df_E = pd.read_sql(query, conn)

## formatações no dataframe para melhor exibir as respostas no final
df_E["N. Não Finalizadas"] = df_E["N. Não Finalizadas"].apply(lambda x: f"{x:,.0f}")
df_E["N. Finalizadas"] = df_E["N. Finalizadas"].apply(lambda x: f"{x:,.0f}")
df_E["N. Canceladas"] = df_E["N. Canceladas"].apply(lambda x: f"{x:,.0f}")
df_E["N. Fraudulentas"] = df_E["N. Fraudulentas"].apply(lambda x: f"{x:,.0f}")

df_E["Soma Não Finalizadas"] = df_E["Soma Não Finalizadas"].apply(lambda x: f"{x:,.2f}")
df_E["Soma Finalizadas"] = df_E["Soma Finalizadas"].apply(lambda x: f"{x:,.2f}")
df_E["Soma Canceladas"] = df_E["Soma Canceladas"].apply(lambda x: f"{x:,.2f}")
df_E["Soma Fraudulentas"] = df_E["Soma Fraudulentas"].apply(lambda x: f"{x:,.2f}")


### **``Respostas``**

In [10]:
# IMPRIMIR OS RESULTADOS
print('Questão A:')
display(df_A)
print('Questão B:')
display(df_B)
print('Questão C:')
display(df_C)
print('Questão D:')
display(df_D)
print('Questão E:')
display(df_E)
# conn.close()

Questão A:


Unnamed: 0,País,Média de Idade
0,France,41.36
1,USA,41.14
2,Brazil,40.12


Questão B:


Unnamed: 0,País,Soma das Transações (US$)
0,France,1184979695.91
1,Brazil,1150483024.97
2,USA,1075396279.78


Questão C:


Unnamed: 0,País,Taxa de Fraudes (%)
0,Brazil,25.01
1,USA,24.97
2,France,24.96


Questão D:


Unnamed: 0,Faixa etária,Qtd. Transações Fraudulentas,Taxa de Fraudes (%)
0,18-30 anos,341605,27.56
1,30 - 45 anos,393994,31.79
2,45 - 60 anos,394549,31.83
3,60 > anos,109349,8.82


Questão E:


Unnamed: 0,País,N. Não Finalizadas,Soma Não Finalizadas,N. Finalizadas,Soma Finalizadas,N. Canceladas,Soma Canceladas,N. Fraudulentas,Soma Fraudulentas
0,Brazil,415832,1144530371.74,417396,1148670889.34,416094,1143796352.28,416613,1145853525.13
1,France,431583,1188219503.26,430475,1183014707.16,431043,1185561078.5,430172,1184291124.6
2,USA,391216,1074420072.66,390823,1073663681.98,392117,1078999327.46,390708,1075373042.9
