# Projeto 06- Bigdata - Pandas

## Contextualização

A PyCoders Ltda., cada vez mais especializada no mundo da Engenharia de Dados, foi procurada por uma fintech para desenvolver um projeto de análise de dados.

A fintech percebeu que muito dos seus processos estão se tornando lentos pelo uso incorreto de ferramentas! Desde que está se trabalhando com Big Data, uso de bibliotecas como pandas e sklearn tornam a Extracção, Tratamento e Carregamento dos dados (ETL) processos muito lentos, inclusive o treinamento de modelos de machine learning (ML) tem se tornado um processo muito demorado.

Para lidar com esse problema, foi sugerido fazer uso da biblioteca pyspark, para implementar todo o fluxo de ETL.


## Objetivo de projeto

Como queremos demostrar que de fato a solução proposta traz uma melhora, foi solicitado implementar uma análise comparativa de resultados usando a antiga abordagem (usando pandas e sklearn) e usando a nova proposta de solução (pyspark). Para isso, tome em consideração o seguinte:

1. Escolha dois conjuntos de dados interessantes, sendo que um deles é pequeno (menos de 10.000 linhas) e o outro bem maior (acima de 1.000.000 linhas). Uma possivel sugestão seria usar um unico dataset (com muitos dados), e extrair uma pequena proporção dos dados desde dataset e considerar essa parte como o dataset menor.

   - **Sugestão:** <a href="https://www.kaggle.com/datasets/computingvictor/transactions-fraud-datasets" target="_blank">Transactions Fraud Dataset</a>.

2. Aplique todas as etapas de ETL nos dois conjuntos de dados usando pandas y pyspark. As etapas incluem: (1) Extração dos dados, por exemplo de um csv, (2) Tratamento dos dados (limpeza, alteração de nomes de colunas, criação de mais tabelas, transformação nas colunas, etc.), e, (3) Carregamento dos dados (salvar a transformação feita sobre os dados). 

3. Lembre que cada etapa tem que ser feita usando unicamente pandas/sklearn ou pyspark.

4. Como o objetivo é fazer uma análise comparativa, tome em consideração o tempo que demora cada etapa, para depois facilitar as comparações. 

Boa sorte e divirta-se!!

## Datasets


Você pode procurar conjuntos de dados aqui:

1. No repositório da <a href="https://archive.ics.uci.edu/ml/datasets.php" target="_blank">UCI</a>.
1. No <a href="https://www.kaggle.com/datasets" target="_blank">Kaggle</a>.


## Organização e entregáveis

1. O projeto pode ser feito em grupo de até 05 participantes.
2. O projeto completo (Notebook, código-fonte, link para fontes, bases e demais artefatos) deve ser enviado por e-mail ``jchambyd@gmail.com`` com nome dos participantes. Colocar no assunto do e-mail: ``Projeto Santander Coders 2024 - Data - Turma 1180``

## Deadline
**Apresentação**: 10/12/2024 <br>


## Exemplo:

[ETL simples usando pandas][1]

[ETL simples usando pyspark][2]

[1]: https://blog.devgenius.io/basic-etl-using-pandas-23729ae4e05e

[2]: https://blog.devgenius.io/basic-etl-using-pyspark-ed08b7e53cf4

### ETL pandas

#### 1.0 Extração e exploração de dados

In [1]:
import pandas as pd

In [2]:
data_raw=pd.read_csv('../Dataset/transactions_data.csv')
data_raw.head()

Unnamed: 0,id,date,client_id,card_id,amount,use_chip,merchant_id,merchant_city,merchant_state,zip,mcc,errors
0,7475327,2010-01-01 00:01:00,1556,2972,$-77.00,Swipe Transaction,59935,Beulah,ND,58523.0,5499,
1,7475328,2010-01-01 00:02:00,561,4575,$14.57,Swipe Transaction,67570,Bettendorf,IA,52722.0,5311,
2,7475329,2010-01-01 00:02:00,1129,102,$80.00,Swipe Transaction,27092,Vista,CA,92084.0,4829,
3,7475331,2010-01-01 00:05:00,430,2860,$200.00,Swipe Transaction,27092,Crown Point,IN,46307.0,4829,
4,7475332,2010-01-01 00:06:00,848,3915,$46.41,Swipe Transaction,13051,Harwood,MD,20776.0,5813,


In [3]:
data_raw_card=pd.read_csv('../Dataset/cards_data.csv')
data_raw_card.head()


Unnamed: 0,id,client_id,card_brand,card_type,card_number,expires,cvv,has_chip,num_cards_issued,credit_limit,acct_open_date,year_pin_last_changed,card_on_dark_web
0,4524,825,Visa,Debit,4344676511950444,12/2022,623,YES,2,$24295,09/2002,2008,No
1,2731,825,Visa,Debit,4956965974959986,12/2020,393,YES,2,$21968,04/2014,2014,No
2,3701,825,Visa,Debit,4582313478255491,02/2024,719,YES,2,$46414,07/2003,2004,No
3,42,825,Visa,Credit,4879494103069057,08/2024,693,NO,1,$12400,01/2003,2012,No
4,4659,825,Mastercard,Debit (Prepaid),5722874738736011,03/2009,75,YES,1,$28,09/2008,2009,No


In [4]:
data_raw_users=pd.read_csv('../Dataset/users_data.csv')
data_raw_users.head()

Unnamed: 0,id,current_age,retirement_age,birth_year,birth_month,gender,address,latitude,longitude,per_capita_income,yearly_income,total_debt,credit_score,num_credit_cards
0,825,53,66,1966,11,Female,462 Rose Lane,34.15,-117.76,$29278,$59696,$127613,787,5
1,1746,53,68,1966,12,Female,3606 Federal Boulevard,40.76,-73.74,$37891,$77254,$191349,701,5
2,1718,81,67,1938,11,Female,766 Third Drive,34.02,-117.89,$22681,$33483,$196,698,5
3,708,63,63,1957,1,Female,3 Madison Street,40.71,-73.99,$163145,$249925,$202328,722,4
4,1164,43,70,1976,9,Male,9620 Valley Stream Drive,37.76,-122.44,$53797,$109687,$183855,675,1


In [5]:
data_bronze_trans = data_raw.copy()
data_bronze_users = data_raw_users.copy()
data_bronze_card = data_raw_card.copy()

In [6]:
print(f'Quantidade de registro de dados transacionais: {data_bronze_trans.shape[0]}')
print(f'Quantidade de registro de cartão de crédito: {data_bronze_card.shape[0]}')
print(f'Quantidade de registro de usuários: {data_bronze_users.shape[0]}')

Quantidade de registro de dados transacionais: 13305915
Quantidade de registro de cartão de crédito: 6146
Quantidade de registro de usuários: 2000


`Tipos de dados das colunas da tabela 'transactions_data': `

In [7]:
print(data_bronze_trans.dtypes)

id                  int64
date               object
client_id           int64
card_id             int64
amount             object
use_chip           object
merchant_id         int64
merchant_city      object
merchant_state     object
zip               float64
mcc                 int64
errors             object
dtype: object


`Tipos de dados das colunas da tabela 'cards_data': `

In [8]:
print(data_bronze_card.dtypes)

id                        int64
client_id                 int64
card_brand               object
card_type                object
card_number               int64
expires                  object
cvv                       int64
has_chip                 object
num_cards_issued          int64
credit_limit             object
acct_open_date           object
year_pin_last_changed     int64
card_on_dark_web         object
dtype: object


`Tipos de dados das colunas da tabela 'users_data': `

In [9]:
print(data_bronze_users.dtypes)

id                     int64
current_age            int64
retirement_age         int64
birth_year             int64
birth_month            int64
gender                object
address               object
latitude             float64
longitude            float64
per_capita_income     object
yearly_income         object
total_debt            object
credit_score           int64
num_credit_cards       int64
dtype: object


#### 2.0 Trasformação e limpeza de dados

##### 2.1 Ajuste de tipo de dados
- Ajsutar coluna de dados para o tipo de dado adequado para futura analises

In [10]:
#Ajuste dataset dados transacionais
data_bronze_trans['date'] = pd.to_datetime(data_bronze_trans['date'])
data_bronze_trans['amount']=data_bronze_trans['amount'].str.replace('$','')
data_bronze_trans['amount']=data_bronze_trans['amount'].astype(float)
data_bronze_trans['merchant_city']=data_bronze_trans['merchant_city'].astype(str)
data_bronze_trans['merchant_state']=data_bronze_trans['merchant_state'].astype(str)
data_bronze_trans['zip']=data_bronze_trans['zip'].astype(str)
data_bronze_trans['zip']=data_bronze_trans['zip'].str.replace('.0','')
print(data_bronze_trans.dtypes)

id                         int64
date              datetime64[ns]
client_id                  int64
card_id                    int64
amount                   float64
use_chip                  object
merchant_id                int64
merchant_city             object
merchant_state            object
zip                       object
mcc                        int64
errors                    object
dtype: object


In [11]:
#Ajuste dataset cartões de crédito
data_bronze_card['expires'] =  pd.to_datetime(data_bronze_card['expires'], format='%m/%Y').dt.to_period('M')
data_bronze_card['acct_open_date'] =  pd.to_datetime(data_bronze_card['acct_open_date'], format='%m/%Y').dt.to_period('M')
data_bronze_card['has_chip'] = data_bronze_card['has_chip'].map({'YES': True, 'NO': False})
data_bronze_card['card_on_dark_web'] = data_bronze_card['card_on_dark_web'].map({'Yes': True, 'No': False})
data_bronze_card['credit_limit'] = data_bronze_card['credit_limit'].str.replace('$','')
data_bronze_card['credit_limit'] = data_bronze_card['credit_limit'].str.replace('$','').astype(float)
print(data_bronze_card.dtypes)

id                           int64
client_id                    int64
card_brand                  object
card_type                   object
card_number                  int64
expires                  period[M]
cvv                          int64
has_chip                      bool
num_cards_issued             int64
credit_limit               float64
acct_open_date           period[M]
year_pin_last_changed        int64
card_on_dark_web              bool
dtype: object


In [12]:
#Ajuste dataset usuários
data_bronze_users['per_capita_income'] = data_bronze_users['per_capita_income'].str.replace('$','')
data_bronze_users['per_capita_income'] = data_bronze_users['per_capita_income'].str.replace('$','').astype(float)
data_bronze_users['yearly_income'] = data_bronze_users['yearly_income'].str.replace('$','')
data_bronze_users['yearly_income'] = data_bronze_users['yearly_income'].str.replace('$','').astype(float)
data_bronze_users['total_debt'] = data_bronze_users['total_debt'].str.replace('$','')
data_bronze_users['total_debt'] = data_bronze_users['total_debt'].str.replace('$','').astype(float)
print(data_bronze_users.dtypes)

id                     int64
current_age            int64
retirement_age         int64
birth_year             int64
birth_month            int64
gender                object
address               object
latitude             float64
longitude            float64
per_capita_income    float64
yearly_income        float64
total_debt           float64
credit_score           int64
num_credit_cards       int64
dtype: object


##### 2.2 Limpeza de Nulos
- verificação de porcentagem de nulos por coluna para avaliação e tratamento.

In [13]:
#Dataset dados transacionais:
data_missing = data_bronze_trans.isna().sum()
data_missing = (data_missing/len(data_bronze_trans))*100
data_missing.sort_values(ascending=False)

errors            98.411286
id                 0.000000
date               0.000000
client_id          0.000000
card_id            0.000000
amount             0.000000
use_chip           0.000000
merchant_id        0.000000
merchant_city      0.000000
merchant_state     0.000000
zip                0.000000
mcc                0.000000
dtype: float64

In [14]:
data_bronze_trans.drop(columns=['errors'], inplace=True)  #Coluna quase toda nula
data_bronze_trans.head()

Unnamed: 0,id,date,client_id,card_id,amount,use_chip,merchant_id,merchant_city,merchant_state,zip,mcc
0,7475327,2010-01-01 00:01:00,1556,2972,-77.0,Swipe Transaction,59935,Beulah,ND,58523,5499
1,7475328,2010-01-01 00:02:00,561,4575,14.57,Swipe Transaction,67570,Bettendorf,IA,52722,5311
2,7475329,2010-01-01 00:02:00,1129,102,80.0,Swipe Transaction,27092,Vista,CA,92084,4829
3,7475331,2010-01-01 00:05:00,430,2860,200.0,Swipe Transaction,27092,Crown Point,IN,46307,4829
4,7475332,2010-01-01 00:06:00,848,3915,46.41,Swipe Transaction,13051,Harwood,MD,20776,5813


In [20]:
#Dataset cartões de crédito:
data_missing_card = data_bronze_card.isna().sum()
data_missing_card = (data_missing_card/len(data_bronze_card))*100
data_missing_card.sort_values(ascending=False)

id                       0.0
client_id                0.0
card_brand               0.0
card_type                0.0
card_number              0.0
expires                  0.0
cvv                      0.0
has_chip                 0.0
num_cards_issued         0.0
credit_limit             0.0
acct_open_date           0.0
year_pin_last_changed    0.0
card_on_dark_web         0.0
dtype: float64

In [None]:
# Todas as colunas estão com os dados completos

In [21]:
#Dataset cartões de usuários:
data_missing_users = data_bronze_users.isna().sum()
data_missing_users = (data_missing_users/len(data_bronze_users))*100
data_missing_users.sort_values(ascending=False)

id                   0.0
current_age          0.0
retirement_age       0.0
birth_year           0.0
birth_month          0.0
gender               0.0
address              0.0
latitude             0.0
longitude            0.0
per_capita_income    0.0
yearly_income        0.0
total_debt           0.0
credit_score         0.0
num_credit_cards     0.0
dtype: float64

In [None]:
# Todas as colunas estão com os dados completos

##### 2.3 Enriquecimento de tabela

#### 3.0 Carregamento banco de dados

In [23]:
df_trans_silver = data_bronze_trans.copy()
df_trans_silver.to_parquet('../Dataset/Pandas/Tabela_Transacoes_Silver')
df_card_silver = data_bronze_card.copy()
df_card_silver.to_parquet('../Dataset/Pandas/Tabela_Cartoes_Credito_Silver')
df_users_silver = data_bronze_users.copy()
df_users_silver.to_parquet('../Dataset/Pandas/Tabela_Usuarios_Silver')