# Projeto 06- Bigdata - Pandas

## Contextualização

A PyCoders Ltda., cada vez mais especializada no mundo da Engenharia de Dados, foi procurada por uma fintech para desenvolver um projeto de análise de dados.

A fintech percebeu que muito dos seus processos estão se tornando lentos pelo uso incorreto de ferramentas! Desde que está se trabalhando com Big Data, uso de bibliotecas como pandas e sklearn tornam a Extracção, Tratamento e Carregamento dos dados (ETL) processos muito lentos, inclusive o treinamento de modelos de machine learning (ML) tem se tornado um processo muito demorado.

Para lidar com esse problema, foi sugerido fazer uso da biblioteca pyspark, para implementar todo o fluxo de ETL.


## Objetivo de projeto

Como queremos demostrar que de fato a solução proposta traz uma melhora, foi solicitado implementar uma análise comparativa de resultados usando a antiga abordagem (usando pandas e sklearn) e usando a nova proposta de solução (pyspark). Para isso, tome em consideração o seguinte:

1. Escolha dois conjuntos de dados interessantes, sendo que um deles é pequeno (menos de 10.000 linhas) e o outro bem maior (acima de 1.000.000 linhas). Uma possivel sugestão seria usar um unico dataset (com muitos dados), e extrair uma pequena proporção dos dados desde dataset e considerar essa parte como o dataset menor.

   - **Sugestão:** <a href="https://www.kaggle.com/datasets/computingvictor/transactions-fraud-datasets" target="_blank">Transactions Fraud Dataset</a>.

2. Aplique todas as etapas de ETL nos dois conjuntos de dados usando pandas y pyspark. As etapas incluem: (1) Extração dos dados, por exemplo de um csv, (2) Tratamento dos dados (limpeza, alteração de nomes de colunas, criação de mais tabelas, transformação nas colunas, etc.), e, (3) Carregamento dos dados (salvar a transformação feita sobre os dados). 

3. Lembre que cada etapa tem que ser feita usando unicamente pandas/sklearn ou pyspark.

4. Como o objetivo é fazer uma análise comparativa, tome em consideração o tempo que demora cada etapa, para depois facilitar as comparações. 

Boa sorte e divirta-se!!

## Datasets


Você pode procurar conjuntos de dados aqui:

1. No repositório da <a href="https://archive.ics.uci.edu/ml/datasets.php" target="_blank">UCI</a>.
1. No <a href="https://www.kaggle.com/datasets" target="_blank">Kaggle</a>.


## Organização e entregáveis

1. O projeto pode ser feito em grupo de até 05 participantes.
2. O projeto completo (Notebook, código-fonte, link para fontes, bases e demais artefatos) deve ser enviado por e-mail ``jchambyd@gmail.com`` com nome dos participantes. Colocar no assunto do e-mail: ``Projeto Santander Coders 2024 - Data - Turma 1180``

## Deadline
**Apresentação**: 10/12/2024 <br>


## Exemplo:

[ETL simples usando pandas][1]

[ETL simples usando pyspark][2]

[1]: https://blog.devgenius.io/basic-etl-using-pandas-23729ae4e05e

[2]: https://blog.devgenius.io/basic-etl-using-pyspark-ed08b7e53cf4

### ETL pandas

#### 1.0 Extração e exploração de dados

In [23]:
import pandas as pd

In [None]:
data_raw=pd.read_csv('Dataset/transactions_data.csv')
data_raw.head()

In [None]:
data_raw_card=pd.read_csv('Dataset/cards_data.csv')
data_raw_card.head()


In [None]:
data_raw_users=pd.read_csv('Dataset/users_data.csv')
data_raw_users.head()

In [27]:
data_bronze_trans = data_raw.copy()
data_bronze_users = data_raw_users.copy()
data_bronze_card = data_raw_card.copy()

In [None]:
print(f' Quantidade de registro de dados transacionais: {data_bronze_trans.shape[0]}')
print(f' Quantidade de registro de cartao de credito: {data_bronze_card.shape[0]}')
print(f' Quantidade de registro de usuarios: {data_bronze_users.shape[0]}')

In [None]:
print(data_bronze_trans.dtypes)
print(data_bronze_card.dtypes)
print(data_bronze_users.dtypes)

#### 2.0 Trasformação e limpeza de dados

##### 2.1 Ajuste de tipo de dados
- Ajsutar coluna de dados para o tipo de dado adequado para futura analises

In [None]:
#Ajuste dataset dados transacionais
data_bronze_trans['date'] = pd.to_datetime(data_bronze_trans['date'])
data_bronze_trans['amount']=data_bronze_trans['amount'].str.replace('$','')
data_bronze_trans['amount']=data_bronze_trans['amount'].astype(float)
data_bronze_trans['merchant_city']=data_bronze_trans['merchant_city'].astype(str)
data_bronze_trans['merchant_state']=data_bronze_trans['merchant_state'].astype(str)
data_bronze_trans['zip']=data_bronze_trans['zip'].astype(str)
data_bronze_trans['zip']=data_bronze_trans['zip'].str.replace('.0','')
print(data_bronze_trans.dtypes)

##### 2.2 Limpeza de Nulos
- verificação de porcentagem de nulos por coluna para avaliação e tratamento.

In [None]:
data_missing = data_bronze_trans.isna().sum()
data_missing = (data_missing/len(data_bronze_trans))*100
data_missing.sort_values(ascending=False)

In [None]:
data_bronze_trans.drop(columns=['errors'])
data_bronze_trans.head()

##### 2.3 Enriquecimento de tabela

#### 3.0 Carregamento banco de dados

In [34]:
df_trans_silver = data_bronze_trans.copy()
df_trans_silver.to_parquet('Dataset/Tabela_Transacoes_Silver')