# Case - Machine Learning Engineering


**O Problema**

O **Minhas Finanças** é um produto no PicPay para organizar e comparar os gastos financeiros dos nossos usuários. Desta forma, o time de MLOPS do PicPay tem o objetivo de disponibilizar uma base de dados tratada para ser analisada pelos Cientistas de dados.

O **objetivo** desse exercício é realizar o tratamento de dados para analise das das transações que foram categorizadas.

De forma objetiva, o seu output final deve ser uma tabela conforme a imagem abaixo.


![DataFrame Esperado](resultado_esperado.png)


**Importante!**
  - Você deverá disponibilizar o código em um repositório no GitHub.
  - Recomendamos o uso de Pandas ou PySpark para tratamento dos dados.

**Ambiente de desenvolvimento**
  - Recomendamos o uso do Google Colab ou do Jupyter Notebook Localmente.

**Onde estão os dados?**
 - Dentro da pasta dataset existem dois arquivos `.csv` com os seguintes nomes: `bank_dim` e `transations`.
  

**Schema dos dados de entrada**

- **`transactions`:**
  - **transaction_id**: Chave de identificação da transação
  - **user_id**: Chave de identificação do usuário no sistema.
  - **transaction_name_raw**: Nome da transação em seu formato original
  - **transaction_name_treated**: Nome da transação com tratamento aplicado
  - **transaction_amount**: Valor da transação
  - **bank_id**: Chave de Identificação do banco de origem.
  - **year**: Ano da transação
  - **month**: Mês da transação
  - **day**: Dia da transação

- **`bank_dim`**
  - **bank_name**: Nome do banco.
  - **bank_id**: Identificador do banco.


# 1.0. Imports

In [1]:
import pandas as pd
import numpy as np

# 2.0. Read Data

In [2]:
transactions = pd.read_csv("src/dataset/transactions.csv")
bank_dim = pd.read_csv("src/dataset/bank_dim.csv")

Validando se existia algum valor nulo em cada tabela individualmente.

In [3]:
transactions.isnull().any().any()

False

In [4]:
bank_dim.isnull().any().any()

False

In [5]:
transactions_bank = transactions.merge(bank_dim, on="bank_id", how="left")

In [6]:
transactions_bank.isnull().any().any()

False

# 3.0. Tratamento/Transformações dos dados
TRATAR COLUNAS

- transaction_name_treated:
    - Transformei tudo para maiúscula pois existia nomes como "iFOoD" e "ifood"
- transaction_amount:
    - Transformando para float
    
e as demais colunas como descrito no dicionário **"types"**

In [7]:
transactions_bank['transaction_name_treated'] = transactions_bank['transaction_name_treated'].apply(lambda x: x.upper())
transactions_bank['transaction_amount'] = transactions_bank['transaction_amount'].apply(lambda x: x.replace(",", ".")).astype("float64")

types = {
    "transaction_id": str,
    "user_id": str,
    "year": str,
    "month": str,
    "day": str,
    "bank_id": str,
}
transactions_bank = transactions_bank.astype(types)

CRIAR COLUNA YEAR-MONTH

In [8]:
transactions_bank['year_month'] = transactions_bank["year"].astype("str") + "-" + transactions_bank["month"].astype("str")


# VALIDAR O QUE EU QUERIA

Nesse tópico tentei validar da forma mais crua e manual possível o que eu queria de resultado após as transformações dos dados.

In [9]:
# colum para analisar
column = "AUTO POSTO"

In [10]:
filtro1 = transactions_bank['user_id'] == "1005"
filtro2 = transactions_bank['year'] == "2022"
filtro3 = transactions_bank['month'] == "10"
filtro4 = transactions_bank['transaction_name_treated'] == column


transactions_bank[filtro1 & filtro2 & filtro3 & filtro4]

Unnamed: 0,transaction_id,user_id,transaction_name_raw,transaction_name_treated,transaction_amount,year,month,day,bank_id,bank_name,year_month
109,995925136,1005,RSCSS-AUTO POSTO -07/10,AUTO POSTO,-100.0,2022,10,24,6001,Nubank,2022-10


In [11]:
transactions_bank[filtro1 & filtro2 & filtro3 & filtro4]['transaction_amount'].sum()

-100.0

# criando a tabela desejada

In [12]:
columns_no_need = ["transaction_id", "transaction_name_raw", "year", "month", "day", "bank_id"]
transactions_bank = transactions_bank.drop(columns_no_need, axis=1)

In [13]:
df = transactions_bank.pivot_table(
    index=["user_id", 'year_month', 'bank_name'],
    columns="transaction_name_treated",
    values="transaction_amount",
    aggfunc="sum",
).reset_index()

In [14]:
df.sort_values(["user_id", "year_month"], ascending=[False, True])

transaction_name_treated,user_id,year_month,bank_name,AUTO POSTO,DROGARIA,FARMACIA,IFOOD,LUIZA,MERCADO,NETFLIX,POSTO,SPOTIFY,SUBWAY,UBER
7,1006,2022-10,Bradesco,,,,-73.0,,-1165.89,,,,,
8,1006,2022-11,Bradesco,-631.02,,,-332.92,,,,-406.34,,,-63.55
9,1006,2022-12,Bradesco,,,,,,-480.02,,,,,-188.56
10,1006,2022-6,Bradesco,-30.0,,,,,-102.82,,-23.0,,,-19.03
11,1006,2022-7,Bradesco,,,,-6.05,,-311.81,,,,,-59.55
12,1006,2022-8,Bradesco,,-23.49,-27.85,,-18.0,-12.0,,,-34.9,,-13.99
13,1006,2022-9,Bradesco,,,,,,-856.21,-55.9,,-9.9,,-19.93
0,1005,2022-10,Nubank,-100.0,,,-113.16,,-923.02,,,,-113.5,
1,1005,2022-11,Nubank,-356.6,,,-97.17,,-33.0,,-65.0,,,-23.33
2,1005,2022-12,Nubank,,-29.99,,,,-52.0,,,,,-210.0


<h1 style="color: #008080;"><strong>USANDO O PIPELINE</strong></h1>

Decidi por implementar uma classe que lida com todo o pipeline para tentar simular de forma simples o que seria mais adequado de se fazer.

## **Por que fazer isso?**

- Padronizar o fluxo de transformação dos dados
- Fácil de dar manutenção caso exista algum problema

<h2 style="color: #a1171f;"><strong>O que não tem</strong></h2>


- É uma classe mais genérica. Ou seja, foi feita para lidar somente com esse problema específico.
    Ex:
        - Não passo muitos parâmetros para dizer para a classe ou para função exetamente o que ele vai fazer. Defino isso de forma manual dentro da classe.


## O que pensei foi

**O que posso fazer para simular o que seria um processo real(Produção)?**

1. Criar um pipeline
    - Classe e funções
    - Implementar os conceitos de orientação à objetos
2. Validações de entrada de dados e tratamento de erros.
3. Colocar logs

<h2 style="color: #a1171f;"><strong>O que precisei pesquisar e onde procurei sobre</strong></h2>

- **pivot_table**
    - Documentação do pandas
    - ChatGPT
- **Logs**
    - Minhas próprias anotações sobre o assunto (Como configurar etc)

In [15]:
from src.utils import Pipeline

In [16]:
bank_dim_path = "./src/dataset/bank_dim.csv"
transactions_path = "./src/dataset/transactions.csv"

pipe = Pipeline()
df = pipe.run_pipeline(bank_dim_path, transactions_path, path="./")
df

INFO:2023-07-28 18:05:31,259:Starting reading...
INFO:2023-07-28 18:05:31,285:Starting transformation...
INFO:2023-07-28 18:05:31,309:Starting loading...
INFO:2023-07-28 18:05:31,313:Pipeline fineshed.


transaction_name_treated,user_id,year_month,bank_name,AUTO POSTO,DROGARIA,FARMACIA,IFOOD,LUIZA,MERCADO,NETFLIX,POSTO,SPOTIFY,SUBWAY,UBER
0,1005,2022-10,Nubank,-100.0,,,-113.16,,-923.02,,,,-113.5,
1,1005,2022-11,Nubank,-356.6,,,-97.17,,-33.0,,-65.0,,,-23.33
2,1005,2022-12,Nubank,,-29.99,,,,-52.0,,,,,-210.0
3,1005,2022-6,Nubank,-13.99,-4.49,,-56.0,-290.92,-276.94,,-40.0,-9.9,,-12.59
4,1005,2022-7,Nubank,,,,,,-94.43,,-90.0,,,-78.49
5,1005,2022-8,Nubank,,-253.63,-309.8,,,,,-20.55,-24.9,,
6,1005,2022-9,Nubank,,,,,,-778.32,-105.7,,-19.9,,
7,1006,2022-10,Bradesco,,,,-73.0,,-1165.89,,,,,
8,1006,2022-11,Bradesco,-631.02,,,-332.92,,,,-406.34,,,-63.55
9,1006,2022-12,Bradesco,,,,,,-480.02,,,,,-188.56
