In [1]:
import pandas as pd

# Bases de Dados

Nesta etapa vamos carregas as bases disponíveis para trabalharmos.

In [2]:
df_transacoes = pd.read_json('data/transactions.json')
df_users = pd.read_json('data/users.json')
df_customers = pd.read_json('data/customers.json')

In [3]:
df_transacoes.head()

Unnamed: 0,_id,tenantId,userId,createdAt,updatedAt,favoriteFruit,isFraud,document
0,641336efc5c272ff5d82eb76,64132ef6526eeb8b998e2d3c,64132e0f48ad8ae93e504d33,2021-01-08T02:24:02 +03:00,2023-02-08T01:52:32 +03:00,strawberry,True,"{'documentType': 'CNH', 'documentUF': 'PA'}"
1,641336efa086e60c7a834713,64132ef6526eeb8b998e2d3c,64132e0f1d87f017f64a3c20,2022-02-03T11:17:50 +03:00,2023-01-22T04:27:37 +03:00,apple,False,"{'documentType': 'CTPS', 'documentUF': 'PA'}"
2,641336ef5291e28207a6db05,64132ef6f991a3a1884f2cd0,64132e0fb4fade825fdbeed4,2021-09-03T01:40:07 +03:00,2023-02-10T06:17:25 +03:00,strawberry,False,"{'documentType': 'RG', 'documentUF': 'PA'}"
3,641336efbaf638cc19f96b71,64132ef6c9c22c95893e388b,64132e0fac889c7cbd7ebda3,2021-07-25T10:02:11 +03:00,2023-03-11T02:34:20 +03:00,strawberry,True,"{'documentType': 'CTPS', 'documentUF': 'BA'}"
4,641336ef24f561f394623973,64132ef68637da8c371cdc09,64132e0f16e8266d4823236c,2022-01-26T11:01:27 +03:00,2023-01-14T06:52:42 +03:00,strawberry,True,"{'documentType': 'CNH', 'documentUF': 'RJ'}"


In [4]:
df_users.head()

Unnamed: 0,_id,name,email,createdAt,birthdate
0,64132e0fa1b98612a1366a0a,Lucy Small,gallagherfowler@slax.com,2020-10-15T08:50:36 +03:00,1990-11-09T04:23:11 +02:00
1,64132e0f90329937be6d5b65,Alvarado Tanner,kathiekirk@ecratic.com,2021-03-31T04:35:35 +03:00,1989-07-29T03:39:13 +03:00
2,64132e0f429adbbe0334ad00,Tucker Wright,mckeebooth@deminimum.com,2021-01-12T06:28:25 +03:00,1992-10-11T06:36:20 +03:00
3,64132e0f05e9b1d120893ffe,Oneill Molina,banksgoodwin@fleetmix.com,2021-03-21T10:40:58 +03:00,1981-01-27T07:38:46 +03:00
4,64132e0f483bdb42b75e860c,Roberson Miller,ricewebb@biohab.com,2021-12-31T08:11:40 +03:00,1981-05-16T08:02:29 +03:00


In [5]:
df_customers.head()

Unnamed: 0,_id,fantasyName,cnpj,status,segment
0,64132ef6526eeb8b998e2d3c,Ecratic,38792916000102,Ativo,Banco
1,64132ef6f991a3a1884f2cd0,Stockpost,87715692000132,Inativo,Banco
2,64132ef6dca9067d51ca1b30,Eschoir,71365876000180,Inativo,Ecommerce
3,64132ef6eea665cc154f614a,Verton,62782441000140,Ativo,Banco
4,64132ef662f97d5858f87aba,Earthmark,46522418000160,Ativo,Ecommerce


## Qualidade dos Dados

Faça uma análise (simples) de qualidade da informação que você recebeu. Não assuma nada nos datasets!

## Valores Nulos

In [6]:
df_customers.isnull().sum()

_id            0
fantasyName    0
cnpj           0
status         0
segment        0
dtype: int64

In [7]:
df_users.isnull().sum()

_id          0
name         0
email        0
createdAt    0
birthdate    0
dtype: int64

In [8]:
df_transacoes.isnull().sum()

_id              0
tenantId         0
userId           0
createdAt        0
updatedAt        0
favoriteFruit    0
isFraud          0
document         0
dtype: int64

## Dados Duplicados

In [9]:
df_customers.duplicated().sum()

np.int64(0)

In [10]:
df_users.duplicated().sum()

np.int64(0)

## Tipos de dados

In [23]:
for col in df_transacoes.columns:
    print(col, type(df_transacoes[col].iloc[0]))

_id <class 'str'>
tenantId <class 'str'>
userId <class 'str'>
createdAt <class 'str'>
updatedAt <class 'str'>
favoriteFruit <class 'str'>
isFraud <class 'numpy.bool'>
document <class 'dict'>


# Modelagem
Implemente os cruzamentos e modelagem correta nas bases, de acordo com o `README.md` disponível.

Aqui, será verificada sua capacidade de entender, modelar e disponibilizar dados de modo que seja simples, limpo e eficiente. Você pode escolher qualquer estratégia que desejar (normalização, dimensionamento, fato, etc).

In [7]:
# Implementação

# Disponibilização e Processamento

Agora que você já modelou as bases, discuta sobre as estratégias de armazenamento.

1. Como você disponibilizaria estas bases no data lake (em S3)? Não precisa enviar o arquivo, apenas discuta.
2. Qual formato de arquivo você escolheria para persistir estas bases? Por que?
3. Você prefere bases normalizadas ou desnormalizadas? Discuta os pontos positivos e negativos de cada um.

Persista sua modelagem final conforme suas opções e responda as próximas perguntas a partir dela. Não esqueça de desalocar os dataframes antigos!

In [8]:
# Implementação

# Perguntas

Agora com a sua modelagem pronta, responda as seguintes perguntas utilizando SQL:

### Obrigatórias
1. Qual a média de tentativas de fraudes por mês (quantidade)?
2. Quais são as UFs com o maior percentual de tentativa de fraude?
3. Em quais meses do ano o percentual de tentativa de fraude foi maior e em quais foram menores?
4. Quais são os 10 clientes com maior quantidade de transações?
5. Qual a idade média dos usuários? 
6. Qual documento é mais utilizado pelos usuários?

### Desafio Extra
1. Há na base transações iguais mas com data de atualização diferente (houve modificação na transação e por isso ela ganhou um novo registro). Faça um select que retorne sempre a versão mais recente das transações, permitindo assim a visualização das informações mais recentes.