# Desafio Proposto

--Dadas as seguintes tabelas:

--Tabela de clientes (TbCliente), composta por: CD_CLIENTE, NM_CLIENTE

| CD_CLIENTE | NM_CLIENTE |
|------------|------------|
| 1          | João       |
| 2          | Maria      |
| 3          | José       |
| 4          | Adilson    |
| 5          | Cleber     |


--Tabela de transações (TbTransacoes), composta por cliente: CD_CLIENTE, DT_TRANSACAO, CD_TRANSACAO (000 - CashBack, 110 - CashIn, 220 - CashOut), VR_TRANSACAO
| CD_CLIENTE | DT_TRANSACAO | CD_TRANSACAO | VR_TRANSACAO |
|------------|--------------|--------------|--------------|
| 1          | 2021-08-28   | 000          | 020.00       |
| 1          | 2021-09-09   | 110          | 078.90       |
| 1          | 2021-09-17   | 220          | 058.00       |
| 1          | 2021-11-15   | 110          | 178.90       |
| 1          | 2021-12-24   | 220          | 110.37       |
| 5          | 2021-10-28   | 110          | 220.00       |
| 5          | 2021-11-07   | 110          | 380.00       |
| 5          | 2021-12-05   | 220          | 398.86       |
| 5          | 2021-12-14   | 220          | 033.90       |
| 5          | 2021-12-21   | 220          | 016.90       |
| 3          | 2021-10-05   | 110          | 720.90       |
| 3          | 2021-11-05   | 110          | 720.90       |
| 3          | 2021-12-05   | 110          | 720.90       |
| 4          | 2021-10-09   | 000          | 050.00       |


--Qual cliente teve o maior saldo médio no mês 11? 

--Qual é o saldo de cada cliente?

--Qual é o saldo médio de clientes que receberam CashBack?

--Qual o ticket médio das quatro últimas movimentações dos usuários?

--Qual é a proporção entre Cash In/Out mensal?

--Qual a última transação de cada tipo para cada usuário?

--Qual a última transação de cada tipo para cada usuário por mês?

--Qual quatidade de usuários que movimentaram a conta?

--Qual o balanço do final de 2021?

--Quantos usuários que receberam CashBack continuaram interagindo com este banco?

--Qual a primeira e a última movimentação dos usuários com saldo maior que R$100?

--Qual o balanço das últimas quatro movimentações de cada usuário?

--Qual o ticket médio das últimas quatro movimentações de cada usuário?

# Solução

## Ambiente de Desenvolvimento

A solução apresentada envolve as seguintes tecnologias:

* VS Code + Python + Jupyter Notebook - Com esse conjunto de tecnologias é possível não apenas lidar com os dados de maneira tabular, mas também fazer e apresentar o desenvolvimento "linha a linha" com personalização da apresentação por *Markdown*. 

* Pandas, Numpy - Devido a natureza tabular dos dados, e por não serem tabelas extensas, foi optado por utilizar pandas para criação de tabelas para manipulação dos dados e numpy para suporte em funções específicas.

* Pyenv, Venv, Poetry, ipykernel - Conjunto de tecnlogias auxiliares para versão da linguagem python (3.13.1), criação de ambiente virtual isolado, gerenciamento de pacotes e conjuntos de pacotes auxiliares ao Jupyter Notebook.

* sqlite3, ipython-sql - Também serão realizados os códigos em SQL para visualização da diferença de chamada. As tabelas em *SQL* terão os mesmos nomes dos *Dataframes*

O projeto pode ser visualizado no meu [GitHub](https://github.com/NicolasSP90/MATH_GROUP_TRAINEE_2025)

## Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import datetime
import sqlite3

## Conexão com banco

In [2]:
conexao = sqlite3.connect("banco_desafio.db")

## Criação de Tabelas

In [3]:
# Tabela de Clientes

tb_clientes = pd.DataFrame(
    data=[
        [1, 'João'],
        [2, 'Maria'],
        [3, 'José'],
        [4, 'Adilson'],
        [5, 'Cleber']], 
    
    columns=['CD_CLIENTE', 'NM_CLIENTE'] )

display(tb_clientes)

Unnamed: 0,CD_CLIENTE,NM_CLIENTE
0,1,João
1,2,Maria
2,3,José
3,4,Adilson
4,5,Cleber


In [4]:
# Tabela de Código de Transações

cd_transacoes = pd.DataFrame(
    data = [
        ['000', 'CashBack'],
        ['110', 'CashIn'],
        ['220', 'CashOut']],
    
    columns=['CD_TRANCACAO', 'DESC_TRANSACAO'])

display(cd_transacoes)

Unnamed: 0,CD_TRANCACAO,DESC_TRANSACAO
0,0,CashBack
1,110,CashIn
2,220,CashOut


In [5]:
# Tabela de Transações

tb_transacoes = pd.DataFrame(
    data = [
        [1, datetime.date(2021, 8, 28), '000' , 20.00],
        [1, datetime.date(2021, 9, 28), '110' , 78.90],
        [1, datetime.date(2021, 9, 9), '220' , 58.00],
        [1, datetime.date(2021, 11, 15), '110' , 178.9],
        [1, datetime.date(2021, 12, 24), '220' , 110.37],
        [5, datetime.date(2021, 10, 28), '110' , 220.00],
        [5, datetime.date(2021, 11, 7), '110' , 380.00],
        [5, datetime.date(2021, 12, 5), '220' , 398.86],
        [5, datetime.date(2021, 12, 14), '220' , 33.90],
        [5, datetime.date(2021, 12, 21), '220' , 16.90],
        [3, datetime.date(2021, 10, 5), '110' , 720.90],
        [3, datetime.date(2021, 11, 5), '110' , 720.90],
        [3, datetime.date(2021, 12, 5), '110' , 720.90],
        [4, datetime.date(2021, 10, 9), '000' , 50.00]],
    
    columns=['CD_CLIENTE', 'DT_TRANSACAO', 'CD_TRANSACAO', 'VR_TRANSACAO'],

    )

tb_transacoes['DT_TRANSACAO'] = pd.to_datetime(tb_transacoes['DT_TRANSACAO'])

display(tb_transacoes)

Unnamed: 0,CD_CLIENTE,DT_TRANSACAO,CD_TRANSACAO,VR_TRANSACAO
0,1,2021-08-28,0,20.0
1,1,2021-09-28,110,78.9
2,1,2021-09-09,220,58.0
3,1,2021-11-15,110,178.9
4,1,2021-12-24,220,110.37
5,5,2021-10-28,110,220.0
6,5,2021-11-07,110,380.0
7,5,2021-12-05,220,398.86
8,5,2021-12-14,220,33.9
9,5,2021-12-21,220,16.9


In [6]:
# Tabelas para banco SQLite

tb_clientes.to_sql('tb_clientes', conexao, if_exists="replace", index=False)

cd_transacoes.to_sql('cd_transacoes', conexao, if_exists="replace", index=False)

tb_transacoes.to_sql('tb_transacoes', conexao, if_exists="replace", index=False)

14

## Considerações Iniciais

### Solução

O ambiente de desenvolvimento tem como objetivo resolver as perguntas de negócio de modo que não se limite aos dados informados. Sendo assim as soluções tem como objetivos serem genéricas para serem replicadas em datasets maiores.

### Nomenclaturas

* CashBack - Entrada de valores a partir de compras passadas
* CashIn - Entrada de valores (depósitos, transferências recebidas, pagamentos recebidos, etc...)
* CashOut - Saída de valores (transferências enviadas, pagamentos enviados, etc...)


### CashBack

O CashBack pode ser abordado de diversas formas, sendo algumas delas:

* Se o valor for efetivamente creditado e puder ser sacado, deve ser encarado como entrada de saldo na carteira de cada cliente.

* Se o valor for um *CRÉDITO PARA FUTURAS COMPRAS*, não existe mudança real no saldo dos clientes, sendo assim não deve ser considerado saldo da carteira.

Para fins de cálculos, será considerado que os clientes *podem* realizar o saque do CashBack.


### Movimentação Financeira

* Movimentações financeiras são, em teoria contábil, qualquer atividade que altere o fluxo de caixa de uma conta ([fonte](https://www.novucard.com.br/glossario/movimentacao-financeira/)). Dessa forma, as perguntas sobre as movimentações financeiras dos usuários serão desenvolvidas de acordo com todas as movimentações financeiras da conta de cada usuário.

## Pergunta 1

Qual cliente teve o maior saldo médio no mês 11?

- Nesse caso serão consideradas apenas as entradas e saídas de do mês em questão, sem saldo acumulado dos meses anteriores.

Lógica utilizada: 
* Para cada cliente, verificar os valores de entrada e saída no mês 11
* Valores de código 000 e 110 são positivos
* Valores de código 220 são negativos
* Somar os valores por cliente
* Verificar cliente com maior valor

In [7]:
# Merge dos Dataframes para identificação do usuário
p1_df = pd.merge(
    left = tb_transacoes,
    right = tb_clientes,
    on = 'CD_CLIENTE'
)

# Seleção por mês 11
p1_df = p1_df[(p1_df['DT_TRANSACAO'].dt.month == 11)]

# Adicionando saldo positivo para CashBack e CashIn e negativo para CashOut
p1_df['SALDO'] = p1_df.apply(lambda valor: -valor['VR_TRANSACAO'] if valor['CD_TRANSACAO'] == '220' else valor['VR_TRANSACAO'], axis=1)

# Reorganizando Dataframe
p1_df = p1_df[['CD_CLIENTE', 'NM_CLIENTE', 'DT_TRANSACAO', 'SALDO']]

# Agrupando por Nome/Código de usuário e somando todas os saldos
p1_df = p1_df.groupby(['CD_CLIENTE', 'NM_CLIENTE']).agg('sum', 'SALDO').sort_values('SALDO', ascending=False).reset_index()

display(p1_df)


Unnamed: 0,CD_CLIENTE,NM_CLIENTE,SALDO
0,3,José,720.9
1,5,Cleber,380.0
2,1,João,178.9


In [8]:
print(f'\nO cliente com maior saldo é {p1_df.loc[0, 'NM_CLIENTE']} com R$ {p1_df.loc[0, 'SALDO']:.2f}')


O cliente com maior saldo é José com R$ 720.90


In [9]:
query_1 = """
SELECT 
    c.NM_CLIENTE, 
    SUM(CASE 
        WHEN t.CD_TRANSACAO = '220' THEN -t.VR_TRANSACAO 
        ELSE t.VR_TRANSACAO 
        END) AS TOTAL_SALDO

FROM tb_transacoes t JOIN tb_clientes c 
    ON t.CD_CLIENTE = c.CD_CLIENTE

WHERE strftime('%m', t.DT_TRANSACAO) = '11'

GROUP BY c.NM_CLIENTE

ORDER BY TOTAL_SALDO DESC

LIMIT 1;
"""

resultado_1 = pd.read_sql_query(query_1, conexao)
resultado_1

Unnamed: 0,NM_CLIENTE,TOTAL_SALDO
0,José,720.9


## Pergunta 2

Qual é o saldo de cada cliente?

- Semelhante ao anterior, mas sem restrição por mês

Lógica utilizada: 
* Para cada cliente, verificar os valores de entrada
* Valores de código 000 e 110 são positivos
* Valores de código 220 são negativos
* Somar os valores por cliente

In [10]:
# Merge dos Dataframes para identificação do usuário
p2_df = pd.merge(
    left = tb_transacoes,
    right = tb_clientes,
    on = 'CD_CLIENTE'
)

# Adicionando saldo positivo para CashBack e CashIn e negativo para CashOut
p2_df['SALDO'] = p2_df.apply(lambda valor: -valor['VR_TRANSACAO'] if valor['CD_TRANSACAO'] == '220' else valor['VR_TRANSACAO'], axis=1)

# Reorganizando Dataframe
p2_df = p2_df[['CD_CLIENTE', 'NM_CLIENTE', 'DT_TRANSACAO', 'SALDO']]

# Agrupando por Nome/Código de usuário e somando todas os saldos
p2_df = p2_df.groupby(['CD_CLIENTE', 'NM_CLIENTE']).agg('sum', 'SALDO').sort_values('SALDO', ascending=False).reset_index()

display(p2_df)

Unnamed: 0,CD_CLIENTE,NM_CLIENTE,SALDO
0,3,José,2162.7
1,5,Cleber,150.34
2,1,João,109.43
3,4,Adilson,50.0


In [11]:
query_2 = """
SELECT 
    c.NM_CLIENTE, 
    SUM(CASE 
        WHEN t.CD_TRANSACAO = '220' THEN -t.VR_TRANSACAO 
        ELSE t.VR_TRANSACAO 
        END) AS TOTAL_SALDO

FROM tb_transacoes t JOIN tb_clientes c 
    ON t.CD_CLIENTE = c.CD_CLIENTE

GROUP BY c.NM_CLIENTE

ORDER BY TOTAL_SALDO DESC;
"""

resultado_2 = pd.read_sql_query(query_2, conexao)
resultado_2

Unnamed: 0,NM_CLIENTE,TOTAL_SALDO
0,José,2162.7
1,Cleber,150.34
2,João,109.43
3,Adilson,50.0


## Pergunta 3

- Qual é o saldo médio de clientes que receberam CashBack?

Lógica utilizada: 
* Para cada cliente, selecionar apenas os que possuem código '000' em CD_TRANSACAO
* Valores de código 000 e 110 são positivos
* Valores de código 220 são negativos
* Somar os valores por cliente
* Realizar a média do saldo final de cada cliente

In [12]:
# Merge de Dataframes com filtro com dataframe com o dataframe completo
p3_df = pd.merge(
    left = tb_transacoes[tb_transacoes['CD_TRANSACAO'] == '000']['CD_CLIENTE'],
    right = tb_transacoes,
    on = ['CD_CLIENTE'],
)

# Merge dos Dataframes para identificação do usuário
p3_df = pd.merge(
    left = p3_df,
    right = tb_clientes,
    on = ['CD_CLIENTE'],
)

# Adicionando saldo positivo para CashBack e CashIn e negativo para CashOut
p3_df['SALDO'] = p3_df.apply(lambda valor: -valor['VR_TRANSACAO'] if valor['CD_TRANSACAO'] == '220' else valor['VR_TRANSACAO'], axis=1)

# Reorganizando Dataframe
p3_df = p3_df[['CD_CLIENTE', 'NM_CLIENTE', 'SALDO']]

# Agrupando saldo de cada cliente que recebeu cashback
p3_df = p3_df.groupby(['CD_CLIENTE', 'NM_CLIENTE']).agg('sum', 'SALDO').sort_values('SALDO', ascending=False).reset_index()

# Média dos valores
p3_df['SALDO'].mean()

np.float64(79.715)

In [13]:
query_3 = """
SELECT 
    AVG(TOTAL_SALDO) AS MEDIA_SALDO

FROM (
    SELECT 
        t.CD_CLIENTE, 
        SUM(CASE 
            WHEN t.CD_TRANSACAO = '220' THEN -t.VR_TRANSACAO 
            ELSE t.VR_TRANSACAO 
            END) AS TOTAL_SALDO
    
    FROM 
        tb_transacoes t JOIN tb_clientes c 
            ON t.CD_CLIENTE = c.CD_CLIENTE
    
    WHERE 
        t.CD_CLIENTE IN (
            SELECT CD_CLIENTE
            FROM tb_transacoes
            WHERE CD_TRANSACAO = '000')
    
    GROUP BY 
        t.CD_CLIENTE );
"""
resultado_3 = pd.read_sql_query(query_3, conexao)
resultado_3

Unnamed: 0,MEDIA_SALDO
0,79.715


## Pergunta 4

Qual o ticket médio das quatro últimas movimentações dos usuários?

Lógica utilizada: 
* Nesse caso, movimentação do usuário irei considerar explicitamente movimentos financeiros que o usuário faz, ou seja CashOut (220). 
    * OBS: Se fosse considerar CashIn + CashOut (110 e 220), seria necessário alguma outra informação já que duas informações aparecem no mesmo dia (2021-12-05)
* Organizar dados por DT_TRANSACAO
* Filtrar os 4 valores mais recentes
* Realizar a média dos 4 valores mais recentes

In [14]:
# Filtro para transações de código 220
p4_filtro = tb_transacoes['CD_TRANSACAO'] == '220'

p4_valor = (tb_transacoes[p4_filtro].sort_values('DT_TRANSACAO') # Utilizar o filtro e organizar pela coluna DT_TRANSACAO
            .reset_index() # Resetar o indice
            .tail(4)['VR_TRANSACAO'] # Pegar os últimos valores e Filtrar pela coluna VR_TRANSACAO
            .mean()) # Calcular a média

print(f'Valor médio das 4 últimas movimentações realizadas pelo usuário (CashOut) é de R$ {p4_valor:.2f}')

Valor médio das 4 últimas movimentações realizadas pelo usuário (CashOut) é de R$ 140.01


In [15]:
# MOSTRANDO QUE SE CONSIDERAR OS CODIGOS 110 E 220, DUAS TRANSACOES ESTAO NO MESMO DIA

query_4_OBS = """
SELECT *

FROM ( 
    
    SELECT *

    FROM tb_transacoes

    WHERE CD_TRANSACAO IN (220, 110)

    ORDER BY DT_TRANSACAO DESC

    LIMIT 5
);
"""
resultado_4_OBS = pd.read_sql_query(query_4_OBS, conexao)
resultado_4_OBS

Unnamed: 0,CD_CLIENTE,DT_TRANSACAO,CD_TRANSACAO,VR_TRANSACAO
0,1,2021-12-24 00:00:00,220,110.37
1,5,2021-12-21 00:00:00,220,16.9
2,5,2021-12-14 00:00:00,220,33.9
3,5,2021-12-05 00:00:00,220,398.86
4,3,2021-12-05 00:00:00,110,720.9


In [16]:
query_4 = """
SELECT AVG(VR_TRANSACAO) AS MEDIA_VALORES

FROM ( 
    SELECT *

    FROM tb_transacoes

    WHERE CD_TRANSACAO = 220

    ORDER BY DT_TRANSACAO DESC

    LIMIT 4);
"""
resultado_4 = pd.read_sql_query(query_4, conexao)
resultado_4

Unnamed: 0,MEDIA_VALORES
0,140.0075


## Pergunta 5

Qual é a proporção entre Cash In/Out mensal?

Lógica utilizada: 
Alguns meses não possuem CashOut informado. Nesses casos pode-se:
* Não realizar a operação, o que ocasionaria em não retornar um valor para o mês;
* Considerar o valor 0, o que ocasionaria em um retorno infinito ou zerado, dependendo do CashIn ou CashOut ser o valor 0;
* Considerar o valor 1, de modo que um valor numérico sempre será retornado

Neste caso foi decidido considerar o valor 1, para as entradas faltantes, mas esse tipo de visualização deve sempre vir acompanhada dos valores de CashIn ou CashOut para evitar viéses.

* Não será considerado CashBack
* Filtrar duas tabelas (subquerys) por código e mês, somando os valores daquele código
* Criar coluna para visualização dos meses (DT_TRANSACAO_MES)
* Agrupar por DT_TRANSACAO_MES e CD_TRANSACAO


In [17]:
# Para CashIn
# Filtrar por CD_TRANSACAO = 110 (e colunas específicas)
p5_df1 = tb_transacoes[tb_transacoes['CD_TRANSACAO'] == '110'][['DT_TRANSACAO', 'CD_TRANSACAO','VR_TRANSACAO']]

# Adicionar coluna referente apenas ao mes e ano
p5_df1['DT_TRANSACAO_MES'] = p5_df1['DT_TRANSACAO'].dt.strftime('%m-%Y')

# Agrupar ordenar e agrupar por mes
p5_df1 = p5_df1[['VR_TRANSACAO', 'DT_TRANSACAO_MES']].sort_values('DT_TRANSACAO_MES').groupby('DT_TRANSACAO_MES').sum()


# Para CashOut
# Filtrar por CD_TRANSACAO = 110 (e colunas específicas)
p5_df2 = tb_transacoes[tb_transacoes['CD_TRANSACAO'] == '220'][['DT_TRANSACAO', 'CD_TRANSACAO','VR_TRANSACAO']]

# Adicionar coluna referente apenas ao mes e ano
p5_df2['DT_TRANSACAO_MES'] = p5_df2['DT_TRANSACAO'].dt.strftime('%m-%Y')

# Agrupar ordenar e agrupar por mes
p5_df2 = p5_df2[['VR_TRANSACAO', 'DT_TRANSACAO_MES']].sort_values('DT_TRANSACAO_MES').groupby('DT_TRANSACAO_MES').sum()

# Merge dos dataframes
p5_df = pd.merge(
    left = p5_df1, 
    right = p5_df2,
    on='DT_TRANSACAO_MES', 
    how='left',
    suffixes=('_110', '_220')).reset_index()

# Coluna com cálculo da proporção
p5_df['PROP_IN_OUT'] = (
    np.where(
        pd.notna(p5_df['VR_TRANSACAO_110']), p5_df['VR_TRANSACAO_110'], 1) 
    / 
    np.where(
        pd.notna(p5_df['VR_TRANSACAO_220']), p5_df['VR_TRANSACAO_220'], 1))

p5_df

Unnamed: 0,DT_TRANSACAO_MES,VR_TRANSACAO_110,VR_TRANSACAO_220,PROP_IN_OUT
0,09-2021,78.9,58.0,1.360345
1,10-2021,940.9,,940.9
2,11-2021,1279.8,,1279.8
3,12-2021,720.9,560.03,1.287252


In [18]:
query_5 = """
SELECT 
    tIN.DT_MES,
    CASE 
        WHEN SOMA_110 IS NULL THEN 1 / SOMA_220
        WHEN SOMA_220 IS NULL THEN SOMA_110
        ELSE SOMA_110 / SOMA_220
        END AS VR_TRANSACAO_PROP


FROM
    (SELECT 
        strftime('%m-%Y', DT_TRANSACAO) AS DT_MES, 
        SUM(VR_TRANSACAO) AS SOMA_110,
        CD_TRANSACAO

    FROM tb_transacoes

    WHERE CD_TRANSACAO = '110'

    GROUP BY DT_MES, CD_TRANSACAO

    ORDER BY DT_MES) as tIN

    LEFT JOIN

    (SELECT 
        strftime('%m-%Y', DT_TRANSACAO) AS DT_MES, 
        SUM(VR_TRANSACAO) AS SOMA_220,
        CD_TRANSACAO

    FROM tb_transacoes

    WHERE CD_TRANSACAO = '220'

    GROUP BY DT_MES, CD_TRANSACAO

    ORDER BY DT_MES) as tOUT

    ON tIN.DT_MES = tOUT.DT_MES
"""

resultado_5 = pd.read_sql_query(query_5, conexao)
resultado_5

Unnamed: 0,DT_MES,VR_TRANSACAO_PROP
0,09-2021,1.360345
1,10-2021,940.9
2,11-2021,1279.8
3,12-2021,1.287252


## Pergunta 6

Qual a última transação de cada tipo para cada usuário?

Lógica utilizada: 
* Ordenar por NM_CLIENTE, CD_TRANSACAO e DT_TRANSACAO
* Manter apenas o maior valor de DT_TRANSACAO de cada código

In [19]:
# Merge dos Dataframes para identificação do usuário
p6_df = pd.merge(
    left=tb_transacoes,
    right = tb_clientes,
    on='CD_CLIENTE',
    how='left')

# Filtro das colunas necessárias
p6_df = p6_df[['NM_CLIENTE', 'CD_TRANSACAO', 'VR_TRANSACAO', 'DT_TRANSACAO']]

# Ordenação dos valores
p6_df = p6_df.sort_values(['NM_CLIENTE', 'CD_TRANSACAO', 'DT_TRANSACAO'])

# Agrupar por usuário e transação e mostrar as últimas transações baseado no par
p6_df.groupby(['NM_CLIENTE', 'CD_TRANSACAO']).tail(1)


Unnamed: 0,NM_CLIENTE,CD_TRANSACAO,VR_TRANSACAO,DT_TRANSACAO
13,Adilson,0,50.0,2021-10-09
6,Cleber,110,380.0,2021-11-07
9,Cleber,220,16.9,2021-12-21
12,José,110,720.9,2021-12-05
0,João,0,20.0,2021-08-28
3,João,110,178.9,2021-11-15
4,João,220,110.37,2021-12-24


In [20]:
query_6 = """
SELECT 
    c.NM_CLIENTE,
    t.CD_TRANSACAO, 
    MAX(t.DT_TRANSACAO) AS ULTIMA_TRANSACAO,
    t.VR_TRANSACAO

FROM tb_transacoes t JOIN tb_clientes c
    ON t.CD_CLIENTE = c.CD_CLIENTE

GROUP BY 
    c.NM_CLIENTE, t.CD_TRANSACAO

ORDER BY 
    c.NM_CLIENTE, t.CD_TRANSACAO;
"""

resultado_6 = pd.read_sql_query(query_6, conexao)
resultado_6

Unnamed: 0,NM_CLIENTE,CD_TRANSACAO,ULTIMA_TRANSACAO,VR_TRANSACAO
0,Adilson,0,2021-10-09 00:00:00,50.0
1,Cleber,110,2021-11-07 00:00:00,380.0
2,Cleber,220,2021-12-21 00:00:00,16.9
3,José,110,2021-12-05 00:00:00,720.9
4,João,0,2021-08-28 00:00:00,20.0
5,João,110,2021-11-15 00:00:00,178.9
6,João,220,2021-12-24 00:00:00,110.37


## Pergunta 7

Qual a última transação de cada tipo para cada usuário por mês?

Lógica utilizada: 
* Semelhante ao anterior, mas adicionando o mês como parâmetro para que, a cada mês, se verifique a última transação daquele cliente.
* Foco na apresentação com agrupamento por: Usuário - Data - Código

In [21]:
# Merge dos Dataframes para identificação do usuário
p7_df = pd.merge(
    left=tb_transacoes,
    right = tb_clientes,
    on='CD_CLIENTE')

# Criada coluna para mês e ano
p7_df['DT_MES'] = p7_df['DT_TRANSACAO'].dt.strftime('%m-%Y')

# Filtro das colunas necessárias
p7_df = p7_df[['NM_CLIENTE', 'CD_TRANSACAO', 'DT_MES','DT_TRANSACAO', 'VR_TRANSACAO']]

# Ordenação dos valores
p7_df = p7_df.sort_values(['NM_CLIENTE', 'DT_MES', 'CD_TRANSACAO'])

# Agrupar por usuário e transação e mostrar as últimas transações baseado no trio
p7_df.groupby(['NM_CLIENTE', 'DT_MES', 'CD_TRANSACAO']).tail(1)

Unnamed: 0,NM_CLIENTE,CD_TRANSACAO,DT_MES,DT_TRANSACAO,VR_TRANSACAO
13,Adilson,0,10-2021,2021-10-09,50.0
5,Cleber,110,10-2021,2021-10-28,220.0
6,Cleber,110,11-2021,2021-11-07,380.0
9,Cleber,220,12-2021,2021-12-21,16.9
10,José,110,10-2021,2021-10-05,720.9
11,José,110,11-2021,2021-11-05,720.9
12,José,110,12-2021,2021-12-05,720.9
0,João,0,08-2021,2021-08-28,20.0
1,João,110,09-2021,2021-09-28,78.9
2,João,220,09-2021,2021-09-09,58.0


In [22]:
query_7 = """
SELECT
    c.NM_CLIENTE,
    t.CD_TRANSACAO,
    strftime('%m-%Y', DT_TRANSACAO) AS DT_MES,
    MAX(t.DT_TRANSACAO) AS ULTIMA_TRANSACAO,
    t.VR_TRANSACAO

FROM tb_transacoes t JOIN tb_clientes c
    ON t.CD_CLIENTE = c.CD_CLIENTE

GROUP BY
    c.NM_CLIENTE, DT_MES, t.CD_TRANSACAO

ORDER BY
    c.NM_CLIENTE, DT_MES, T.CD_TRANSACAO
"""

resultado_7 = pd.read_sql_query(query_7, conexao)
resultado_7

Unnamed: 0,NM_CLIENTE,CD_TRANSACAO,DT_MES,ULTIMA_TRANSACAO,VR_TRANSACAO
0,Adilson,0,10-2021,2021-10-09 00:00:00,50.0
1,Cleber,110,10-2021,2021-10-28 00:00:00,220.0
2,Cleber,110,11-2021,2021-11-07 00:00:00,380.0
3,Cleber,220,12-2021,2021-12-21 00:00:00,16.9
4,José,110,10-2021,2021-10-05 00:00:00,720.9
5,José,110,11-2021,2021-11-05 00:00:00,720.9
6,José,110,12-2021,2021-12-05 00:00:00,720.9
7,João,0,08-2021,2021-08-28 00:00:00,20.0
8,João,110,09-2021,2021-09-28 00:00:00,78.9
9,João,220,09-2021,2021-09-09 00:00:00,58.0


## Pergunta 8

Qual quatidade de usuários que movimentaram a conta?

Lógica utilizada: 
* Movimentação financeira, no contexto bancário, é qualquer movimentação de valores na conta, seja entrada ou saída ([fonte](https://www.novucard.com.br/glossario/movimentacao-financeira/)). 
* Nessa caso o solicitado não é qualquer movimentação financeira, mas sim a quantidade de USUÁRIOS que movimentaram a conta, ou seja, que explicitamente realizaram ações na conta: cóigos 110 e 220.
* Filtrar pelos códigos 110 e 220
* Contar os valores únicos de usuário

In [23]:
# Merge dos Dataframes para identificação do usuário
p8_df = pd.merge(
    left=tb_transacoes,
    right = tb_clientes,
    on='CD_CLIENTE',
    how='left')

# Filtrar para valores diferentes de 000 (CashBack) e verificando valores únicos dos nomes dos clientes
p8_usuarios = p8_df[p8_df['CD_TRANSACAO'] != '000']['NM_CLIENTE'].unique()

# Tamanho do array de nomes dos clientes
p8_numero = len(p8_usuarios)

print(f'{p8_numero} usuários movimentaram a conta no período: {p8_usuarios}.')

3 usuários movimentaram a conta no período: ['João' 'Cleber' 'José'].


In [24]:
# Se pesquisar por nomes, usar:
    # DISTINCT(NM_CLIENTE)
    # -- COUNT(DISTINCT(NM_CLIENTE)) AS CONTAGEM

# Se pesquisar pela contagem, usar:
    # -- DISTINCT(NM_CLIENTE)
    # COUNT(DISTINCT(NM_CLIENTE)) AS CONTAGEM

query_8 = """

SELECT 
    -- DISTINCT(NM_CLIENTE)
    COUNT(DISTINCT(NM_CLIENTE)) AS CONTAGEM

FROM tb_transacoes t JOIN tb_clientes c
    on t.CD_CLIENTE = c.CD_CLIENTE

WHERE CD_TRANSACAO != '000'
"""

resultado_8 = pd.read_sql_query(query_8, conexao)
resultado_8

Unnamed: 0,CONTAGEM
0,3


## Pergunta 9

Qual o balanço do final de 2021?

Lógica utilizada: 
* Apesar de ter apenas dados de 2021, o ano vai ser informado explicitamente
* Considerado que a carteira total de clientes é um único cliente, e assim verificar a diferença entre os valores recebidos (CashIn + CashBack) e os valores pagos (CashOut).

In [25]:
p9_ano = 2021

# Copiando a tabela com os valores de ano = 2021
p9_df = tb_transacoes[tb_transacoes['DT_TRANSACAO'].dt.year == p9_ano]

# Criando coluna dos valores para soma
p9_df['VALORES'] = p9_df.apply(lambda valor: -valor['VR_TRANSACAO'] if valor['CD_TRANSACAO'] == '220' else valor['VR_TRANSACAO'], axis=1)

# Soma do balanço total
p9_balanco = p9_df['VALORES'].sum()

print(f'O balanço das carteiras de clientes em {p9_ano} é de R$ {p9_balanco:.2f}')

O balanço das carteiras de clientes em 2021 é de R$ 2472.47


In [26]:
query_9 = """
SELECT 
    SUM(CASE
        WHEN CD_TRANSACAO = '220' THEN -VR_TRANSACAO 
        ELSE VR_TRANSACAO 
        END) AS VALOR_REAL

FROM 
    tb_transacoes

"""

resultado_9 = pd.read_sql_query(query_9, conexao)
resultado_9

Unnamed: 0,VALOR_REAL
0,2472.47


## Pergunta 10

Quantos usuários que receberam CashBack continuaram interagindo com este banco?

Lógica utilizada: 
* Considerar apenas os usuários que receberam CashBack (CD_TRANSACAO = 000)
* Desses usuários, mais possuem mais de um tipo de transação (CD_TRANSACAO = 110 ou 220)

In [27]:
# Filtro de Transação
p10_filtro_1 = tb_transacoes['CD_TRANSACAO'] == '000'

# Filtro da quantidade de transações
p10_filtro_2 = tb_transacoes.groupby('CD_CLIENTE')['CD_TRANSACAO'].transform('nunique') > 1

# Merge dos Dataframes para identificação do usuário
p10_df = pd.merge(
    left=tb_transacoes,
    right=tb_clientes,
    on='CD_CLIENTE'
)

# Filtrando dataframe
p10_df = p10_df[p10_filtro_1 & p10_filtro_2]

print(f'{p10_df.shape[0]} usuário(s): {p10_df['NM_CLIENTE'].tolist()}')

1 usuário(s): ['João']


In [28]:
# Para o nome dos clientes:
    # c.NM_CLIENTE
    # -- COUNT(DISTINCT(c.NM_CLIENTE)) AS CONTAGEM

# Para a contagem dos clientes:
    # -- c.NM_CLIENTE
    # COUNT(DISTINCT(c.NM_CLIENTE)) AS CONTAGEM

query_10 = """

SELECT 
    -- c.NM_CLIENTE
    COUNT(DISTINCT(c.NM_CLIENTE)) AS CONTAGEM

FROM tb_transacoes t JOIN tb_clientes c
    ON t.CD_CLIENTE = c.CD_CLIENTE

WHERE t.CD_CLIENTE IN (
    
    SELECT CD_CLIENTE

    FROM tb_transacoes

    WHERE CD_TRANSACAO = '000')

GROUP BY t.CD_CLIENTE

HAVING COUNT(DISTINCT t.CD_TRANSACAO) > 1
"""

resultado_10 = pd.read_sql_query(query_10, conexao)
resultado_10

Unnamed: 0,CONTAGEM
0,1


## Pergunta 11

Qual a primeira e a última movimentação dos usuários com saldo maior que R$100?

Lógica utilizada:
* Valores de código 000 e 110 são positivos
* Valores de código 220 são negativos
* Agrupar usuários e somar o saldo
* Para cada usuário com saldo > 100 verificar MIN e MAX da coluna DT_TRANSACAO

In [29]:
# Merge dos Dataframes para identificação do usuário

p11_df_inicial = pd.merge(
    left=tb_transacoes,
    right=tb_clientes,
    on='CD_CLIENTE')

# Criando coluna dos valores para soma
p11_df_inicial['VALORES'] = p11_df_inicial.apply(lambda valor: -valor['VR_TRANSACAO'] if valor['CD_TRANSACAO'] == '220' else valor['VR_TRANSACAO'], axis=1)

# Agrupando por cliente e somando valores
p11_df = p11_df_inicial.groupby(['NM_CLIENTE', 'CD_CLIENTE']).agg({'VALORES': 'sum'}).reset_index()

# Filtrando clientes com saldo maior que 100
p11_df = p11_df[p11_df['VALORES'] > 100]

# Dataframe das primeiras e últimas movimentações
primeira_ultima_df = p11_df_inicial.groupby(['NM_CLIENTE', 'CD_CLIENTE']).agg(
    PRIMEIRA_MOVIMENTACAO=('DT_TRANSACAO', 'min'),
    ULTIMA_MOVIMENTACAO=('DT_TRANSACAO', 'max')
).reset_index()

# merge dos dataframes de saldo e de transações
p11_df_resposta = pd.merge(
    left=p11_df,
    right=primeira_ultima_df,
    on=['NM_CLIENTE', 'CD_CLIENTE'])

p11_df_resposta

Unnamed: 0,NM_CLIENTE,CD_CLIENTE,VALORES,PRIMEIRA_MOVIMENTACAO,ULTIMA_MOVIMENTACAO
0,Cleber,5,150.34,2021-10-28,2021-12-21
1,José,3,2162.7,2021-10-05,2021-12-05
2,João,1,109.43,2021-08-28,2021-12-24


In [30]:
query_11 = """
SELECT 
    c.NM_CLIENTE,
    t.CD_CLIENTE,
    MIN(t.DT_TRANSACAO) AS PRIMEIRA_MOVIMENTACAO,
    MAX(t.DT_TRANSACAO) AS ULTIMA_MOVIMENTACAO

FROM tb_transacoes t JOIN tb_clientes c
    ON t.CD_CLIENTE = c.CD_CLIENTE

WhERE t.CD_CLIENTE IN (
    SELECT CD_CLIENTE

    FROM tb_transacoes

    GROUP BY CD_CLIENTE

    HAVING SUM(CASE 
                WHEN CD_TRANSACAO = '220' THEN -VR_TRANSACAO 
                ELSE VR_TRANSACAO 
                END) > 100)

GROUP BY 
    t.CD_CLIENTE;
"""

resultado_11 = pd.read_sql_query(query_11, conexao)
resultado_11

Unnamed: 0,NM_CLIENTE,CD_CLIENTE,PRIMEIRA_MOVIMENTACAO,ULTIMA_MOVIMENTACAO
0,João,1,2021-08-28 00:00:00,2021-12-24 00:00:00
1,José,3,2021-10-05 00:00:00,2021-12-05 00:00:00
2,Cleber,5,2021-10-28 00:00:00,2021-12-21 00:00:00


## Pergunta 12

Qual o balanço das últimas quatro movimentações de cada usuário?

Lógica utilizada: 
* Utilizadas as informações de movimentação da conta de cada usuário, dado que não foi explícito que foram movimentações realizadas pelo usuário (110 ou 220), mas movimentações da conta (000, 110 e 220)
* Valores de código 000 e 110 são positivos
* Valores de código 220 são negativos
* Considerar as últimas 4 transacões de cada usuário
* Somar o saldo de cada usuário
* Se um usuário tiver MENOS que 4 transações, vai retornar a somatória das disponíveis

In [31]:
# Merge dos Dataframes para identificação do usuário
p12_df = pd.merge(
    left=tb_transacoes,
    right=tb_clientes,
    on= 'CD_CLIENTE').sort_values(['CD_CLIENTE', 'DT_TRANSACAO'], ascending=False).reset_index(drop=True)

# Criando coluna dos valores para soma
p12_df['SALDO'] = p12_df.apply(lambda valor: -valor['VR_TRANSACAO'] if valor['CD_TRANSACAO'] == '220' else valor['VR_TRANSACAO'], axis=1)

# Acumulado de contagem de clientes
p12_df['ACUM'] = p12_df.groupby('NM_CLIENTE').cumcount() + 1

# Filtro das 4 últimas transações
p12_df = p12_df[p12_df['ACUM'] <= 4]

# Agrupar por Cliente e soma dos saldos
p12_df.groupby(['NM_CLIENTE', 'CD_CLIENTE']).sum('SALDO').reset_index()[['NM_CLIENTE', 'CD_CLIENTE', 'SALDO']]

Unnamed: 0,NM_CLIENTE,CD_CLIENTE,SALDO
0,Adilson,4,50.0
1,Cleber,5,-69.66
2,José,3,2162.7
3,João,1,89.43


In [32]:
query_12 = """

SELECT
    c.NM_CLIENTE,
    t.CD_CLIENTE,
    SUM(CASE 
            WHEN t.CD_TRANSACAO = '220' THEN -t.VR_TRANSACAO 
            ELSE t.VR_TRANSACAO 
        END) AS TOTAL_SALDO
FROM (
    
    SELECT 
        *, 
        ROW_NUMBER() OVER (
            PARTITION BY CD_CLIENTE 
            ORDER BY DT_TRANSACAO DESC) AS rn
    
    FROM tb_transacoes) t JOIN tb_clientes c
        ON t.CD_CLIENTE = c.CD_CLIENTE

WHERE rn <= 4
GROUP BY c.NM_CLIENTE;

"""

resultado_12 = pd.read_sql_query(query_12, conexao)
resultado_12

Unnamed: 0,NM_CLIENTE,CD_CLIENTE,TOTAL_SALDO
0,Adilson,4,50.0
1,Cleber,5,-69.66
2,José,3,2162.7
3,João,1,89.43


## Pergunta 13

Qual o ticket médio das últimas quatro movimentações de cada usuário?

Lógica utilizada: 
* Semelhante a anterior, mas com o detalhe de que nem todos os usuários possuem 4 movimentações.
* Foi atribuido um contador de movimentações para cada usuário
* A Somatória é dividida pela somatória de movimentações de cada usuário, sendo assim o ticket médio é relativo a quantidade de movimentações financeiras para os usuários com até 4 movimentações E considerando a quantidade real de movimentações.

In [33]:
# Merge dos Dataframes para identificação do usuário
p13_inicial = pd.merge(
    left=tb_transacoes,
    right=tb_clientes,
    on= 'CD_CLIENTE').sort_values(['CD_CLIENTE', 'DT_TRANSACAO'], ascending=False).reset_index(drop=True)

# Criando coluna dos valores para soma
p13_inicial['SALDO'] = p13_inicial.apply(lambda valor: -valor['VR_TRANSACAO'] if valor['CD_TRANSACAO'] == '220' else valor['VR_TRANSACAO'], axis=1)

# Acumulado de contagem de clientes
p13_inicial['ACUM'] = p13_inicial.groupby('NM_CLIENTE').cumcount() + 1

# Filtro das 4 últimas transações
p13_inicial = p13_inicial[p13_inicial['ACUM'] <= 4]

# Calculo do número total de transaç~es
transacoes = p13_inicial.groupby('NM_CLIENTE').agg('max', 'ACUM')['ACUM'].sum()

# Soma do saldo dividido pelo número de transacoes
ticket = p13_inicial['SALDO'].sum() / transacoes

print(f'O ticket médio das últimas 4 movimentações das contas dos usuários é de R$ {ticket:.2f}')


O ticket médio das últimas 4 movimentações das contas dos usuários é de R$ 186.04


In [34]:
query_13 = """

SELECT
    SUM(TOTAL_SALDO) / SUM(COUNT_TRANSACOES) AS TICKET

FROM    
    (SELECT
        c.NM_CLIENTE,
        t.CD_CLIENTE,
        COUNT (t.CD_CLIENTE) AS COUNT_TRANSACOES,
        SUM(CASE 
                WHEN t.CD_TRANSACAO = '220' THEN -t.VR_TRANSACAO 
                ELSE t.VR_TRANSACAO 
            END) AS TOTAL_SALDO
        
    FROM (
        SELECT 
            *, 
            ROW_NUMBER() OVER (
                PARTITION BY CD_CLIENTE 
                ORDER BY DT_TRANSACAO DESC) AS rn
        
        FROM tb_transacoes) t JOIN tb_clientes c
            ON t.CD_CLIENTE = c.CD_CLIENTE

    WHERE rn <= 4
    GROUP BY c.NM_CLIENTE)
"""

resultado_13 = pd.read_sql_query(query_13, conexao)
resultado_13

Unnamed: 0,TICKET
0,186.039167
