# Projeto de Criação de um Pipeline de ETL

Um Pipeline de ETL é formado pelas seguintes fases:
- Extract - nessa fase os dados são coletados de diferentes fontes.
- Transform - aqui são transformados para atender as necessidades da análise ou armazenamento.
- Load - inserir os dados transformados para um destino final.

## Introdução ao Projeto

- O projeto consiste em pegar duas bases de dados, uma relacionada ao cadastro de clientes e outra do cadastro de transações bancárias.
- Fazer as transformações necessárias como limpeza dos dados e agrupamento.
- Depois disso será criado mais duas base de dados, uma contendo os clientes que não terão cobranças na conta no próximo ano e também ofertas especiais de investimento e uma outra base com clientes que não vão ter benefícios.

### Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime 

### Importando as base de dados

In [2]:
clientes = pd.read_excel('CasdastroCliente.xlsx')
transacao = pd.read_excel('CadastroTransacoes.xlsx')

display(clientes)
display(transacao)

Unnamed: 0,ID Cliente,Primeiro Nome,Sobrenome,Data Nascimento,Idade,Gênero,Endereço,Telefone,Número da Conta
0,H001,Sthefeson,Bernhardt,1966-04-08,57.0,M,"Rua Winthrop Hedau, 2769 centro",(71) 921679744,3499072
1,H002,Antonio,Vannier,1985-05-14,38.0,M,"Rua Mead Spargo, 4055 centro",(62) 954043135,8048679
2,H003,Bianca,Kranz,1965-08-12,58.0,F,"Rua Gabbie Pottie, 2289 centro",(27) 909825530,3573422
3,H004,Silvio,Almeida,1998-02-15,25.0,M,"Rua Tasia Croot, 9875 centro",(96) 946617185,5763071
4,H005,Luiza,Moraes,1968-08-08,55.0,F,"Rua Seth Brailsford, 8134 centro",(86) 929775335,5954411
5,H006,Ana,Villanova,1965-08-05,58.0,F,"Rua Peggy Parmer, 8302 centro",(82) 992446706,1699507
6,H007,Natalia,Amaral,1964-05-09,59.0,F,"Rua Mildrid Drane, 2032 centro",(68) 948576145,2507159
7,H008,Leonardo,Lima,1984-07-07,39.0,M,"Rua Muriel Beste, 2636 centro",(63) 933027844,2745571
8,H009,Chan,Marchesi,1964-04-01,59.0,F,"Rua Kiele Deme, 7271 centro",(98) 942216405,6600189
9,H010,Fernanda,Freire,1964-01-06,59.0,F,"Rua Uriah Firmin, 8677 centro",(98) 939451468,1411453


Unnamed: 0,ID Transacao,Data,Tipo de Transacao,Valor,Conta Origem Transacao
0,1,2023-02-21,Transferência,300,6547371
1,2,2023-05-22,Transferência,1200,7181109
2,3,2023-02-27,Depósito,600,9996164
3,4,2023-02-20,Saque,200,5812144
4,5,2023-10-25,Transferência,1700,7439183
...,...,...,...,...,...
347,348,2023-04-03,Transferência,400,6704562
348,349,2023-04-25,Depósito,500,2265968
349,350,2023-03-20,Saque,1800,4681642
350,341,2023-02-13,Transferência,800,1459889


### Entendo os dados e os transformando

- Tabela clientes

In [3]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ID Cliente       50 non-null     object        
 1   Primeiro Nome    50 non-null     object        
 2   Sobrenome        50 non-null     object        
 3   Data Nascimento  50 non-null     datetime64[ns]
 4   Idade            47 non-null     float64       
 5   Gênero           50 non-null     object        
 6   Endereço         50 non-null     object        
 7   Telefone         50 non-null     object        
 8   Número da Conta  50 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(6)
memory usage: 3.6+ KB


In [4]:
clientes[clientes['Idade'].isnull()]

Unnamed: 0,ID Cliente,Primeiro Nome,Sobrenome,Data Nascimento,Idade,Gênero,Endereço,Telefone,Número da Conta
11,H012,Arthur,Assis,1998-01-18,,M,"Rua Renard Gravenell, 8517 centro",(88) 901527421,5193866
29,H030,Pedro,Magalhães,2003-08-06,,M,"Rua Annis Merida, 9800 centro",(91) 944184729,5812144
44,H045,Jéssica,Barros,1978-05-09,,F,"Rua Weber Vigors, 8024 centro",(92) 930205453,6256174


Como possui somente três valores ausentes na coluna 'Idade' e dar para preecher porque possui a coluna de 'Data Nascimento'. Vou preencher cada um manualmente.

In [5]:
# Preenchendo a idade dos clientes com valores ausentes
clientes.loc[clientes['ID Cliente']=='H012', 'Idade'] = 25
clientes.loc[clientes['ID Cliente']=='H030', 'Idade'] = 20
clientes.loc[clientes['ID Cliente']=='H045', 'Idade'] = 45

In [6]:
# Olhando se a tabela clientes ainda possui valores ausentes
clientes.isnull().sum()

ID Cliente         0
Primeiro Nome      0
Sobrenome          0
Data Nascimento    0
Idade              0
Gênero             0
Endereço           0
Telefone           0
Número da Conta    0
dtype: int64

In [7]:
# Olhando se possui valores duplicados
clientes.duplicated().sum()

0

Vou juntar o primeiro nome com o sobrenome e depois apagar as colunas 'Primeiro Nome' e 'Sobrenome'.

In [8]:
# Criando a coluna Nome Completo
clientes['Nome Completo'] = clientes['Primeiro Nome'].str.cat(clientes['Sobrenome'], sep=' ')

In [9]:
# Apagando as colunas 
clientes = clientes.drop(['Primeiro Nome', 'Sobrenome'], axis=1)

In [10]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ID Cliente       50 non-null     object        
 1   Data Nascimento  50 non-null     datetime64[ns]
 2   Idade            50 non-null     float64       
 3   Gênero           50 non-null     object        
 4   Endereço         50 non-null     object        
 5   Telefone         50 non-null     object        
 6   Número da Conta  50 non-null     int64         
 7   Nome Completo    50 non-null     object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 3.2+ KB


- Tabela transacao

In [11]:
transacao.head()

Unnamed: 0,ID Transacao,Data,Tipo de Transacao,Valor,Conta Origem Transacao
0,1,2023-02-21,Transferência,300,6547371
1,2,2023-05-22,Transferência,1200,7181109
2,3,2023-02-27,Depósito,600,9996164
3,4,2023-02-20,Saque,200,5812144
4,5,2023-10-25,Transferência,1700,7439183


In [12]:
transacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 352 entries, 0 to 351
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   ID Transacao            352 non-null    int64         
 1   Data                    352 non-null    datetime64[ns]
 2   Tipo de Transacao       352 non-null    object        
 3   Valor                   352 non-null    int64         
 4   Conta Origem Transacao  352 non-null    int64         
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 13.9+ KB


In [13]:
# Verificando valores nulos
transacao.isnull().sum()

ID Transacao              0
Data                      0
Tipo de Transacao         0
Valor                     0
Conta Origem Transacao    0
dtype: int64

In [14]:
# Verificando valores duplicados
transacao.duplicated().sum()

2

In [15]:
# Removendo os valores duplicados
transacao = transacao.drop_duplicates()

Vou agrupar os dados pelo número da conta e ver quantas transações cada cliente fez ao longo do ano

In [16]:
transacao.groupby('Conta Origem Transacao').count()

Unnamed: 0_level_0,ID Transacao,Data,Tipo de Transacao,Valor
Conta Origem Transacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1411453,11,11,11,11
1426538,7,7,7,7
1459889,9,9,9,9
1524997,7,7,7,7
1699507,3,3,3,3
1716868,4,4,4,4
1979681,4,4,4,4
2036165,5,5,5,5
2236263,12,12,12,12
2265968,12,12,12,12


Clientes que tiveram 10 ou mais transações ao longo do ano vão receber o benefício de não terem gastos com sua conta no próximo ano e também terão ofertas especiais de investimento, enquanto os outros não terão nenhum benefício.

In [17]:
# Criando uma tabela de transacao agrupada
transacao_agrupada = transacao.groupby('Conta Origem Transacao').count()

In [18]:
# Criando uma tabela com as contas que tiveram mais de nove transações no ano
tabela_mais_9_transacao = transacao_agrupada.loc[transacao_agrupada['ID Transacao']>=10, :].reset_index() 

In [19]:
# Foi criado uma lista para pegar as contas com maiores transações
lista_conta_mais_9_transacao = []

for linha in tabela_mais_9_transacao['Conta Origem Transacao']:
    lista_conta_mais_9_transacao.append(linha)

print(lista_conta_mais_9_transacao)

[1411453, 2236263, 2265968, 6520787, 6600189, 6725534, 7972394]


In [20]:
# Criando uma tabela com contas com menos de 10 transações
tabela_menos_10_transacao = transacao_agrupada.loc[transacao_agrupada['ID Transacao']<10, :].reset_index()
tabela_menos_10_transacao

Unnamed: 0,Conta Origem Transacao,ID Transacao,Data,Tipo de Transacao,Valor
0,1426538,7,7,7,7
1,1459889,9,9,9,9
2,1524997,7,7,7,7
3,1699507,3,3,3,3
4,1716868,4,4,4,4
5,1979681,4,4,4,4
6,2036165,5,5,5,5
7,2507159,9,9,9,9
8,2745571,8,8,8,8
9,2816647,7,7,7,7


In [21]:
# Foi criado uma lista para pegar as contas com menores transações
lista_conta_menos_10_transacao = []

for linha in tabela_menos_10_transacao['Conta Origem Transacao']:
    lista_conta_menos_10_transacao.append(linha)

print(lista_conta_menos_10_transacao)

[1426538, 1459889, 1524997, 1699507, 1716868, 1979681, 2036165, 2507159, 2745571, 2816647, 2987430, 3394696, 3489011, 3499072, 3573422, 3770984, 3847727, 4681642, 4779074, 4911058, 5186737, 5193866, 5365171, 5487087, 5664914, 5763071, 5812144, 5954411, 6256174, 6431645, 6547371, 6704562, 7004593, 7181109, 7439183, 7607098, 8048679, 8720104, 8868672, 8877004, 9211792, 9539657, 9996164]


Agora vou criar as duas tabelas, uma contendo só os clientes que vão receber o benefício e a outra com clientes sem benefício.

In [22]:
# Clientes com o benefício
clientes_com_beneficio = clientes[clientes['Número da Conta'].isin(lista_conta_mais_9_transacao)]
clientes_com_beneficio

Unnamed: 0,ID Cliente,Data Nascimento,Idade,Gênero,Endereço,Telefone,Número da Conta,Nome Completo
8,H009,1964-04-01,59.0,F,"Rua Kiele Deme, 7271 centro",(98) 942216405,6600189,Chan Marchesi
9,H010,1964-01-06,59.0,F,"Rua Uriah Firmin, 8677 centro",(98) 939451468,1411453,Fernanda Freire
36,H037,1965-08-05,58.0,F,"Rua Mike Drury, 8013 centro",(61) 981720007,2265968,Fernanda Taylor
39,H040,1964-04-01,59.0,M,"Rua Dante Cotilard, 8016 centro",(81) 993765169,6520787,Cícero Bernhardt
40,H041,1973-01-06,50.0,M,"Rua Anselm Caulcutt, 4802 centro",(83) 989882612,7972394,Raphael Freitas
45,H046,1997-02-27,26.0,F,"Rua Cathleen Wilbore, 4489 centro",(83) 901139740,6725534,Adrielle Assunção
48,H049,1966-04-08,57.0,F,"Rua Shandie Kemp, 2479 centro",(51) 932154836,2236263,Juliana Tostes


In [23]:
# Clientes sem o benefício
clientes_sem_beneficio = clientes[clientes['Número da Conta'].isin(lista_conta_menos_10_transacao)]
clientes_sem_beneficio

Unnamed: 0,ID Cliente,Data Nascimento,Idade,Gênero,Endereço,Telefone,Número da Conta,Nome Completo
0,H001,1966-04-08,57.0,M,"Rua Winthrop Hedau, 2769 centro",(71) 921679744,3499072,Sthefeson Bernhardt
1,H002,1985-05-14,38.0,M,"Rua Mead Spargo, 4055 centro",(62) 954043135,8048679,Antonio Vannier
2,H003,1965-08-12,58.0,F,"Rua Gabbie Pottie, 2289 centro",(27) 909825530,3573422,Bianca Kranz
3,H004,1998-02-15,25.0,M,"Rua Tasia Croot, 9875 centro",(96) 946617185,5763071,Silvio Almeida
4,H005,1968-08-08,55.0,F,"Rua Seth Brailsford, 8134 centro",(86) 929775335,5954411,Luiza Moraes
5,H006,1965-08-05,58.0,F,"Rua Peggy Parmer, 8302 centro",(82) 992446706,1699507,Ana Villanova
6,H007,1964-05-09,59.0,F,"Rua Mildrid Drane, 2032 centro",(68) 948576145,2507159,Natalia Amaral
7,H008,1984-07-07,39.0,M,"Rua Muriel Beste, 2636 centro",(63) 933027844,2745571,Leonardo Lima
10,H011,1999-11-04,24.0,F,"Rua Mozes Wickliffe, 5015 centro",(83) 940192383,8720104,Raissa Souza
11,H012,1998-01-18,25.0,M,"Rua Renard Gravenell, 8517 centro",(88) 901527421,5193866,Arthur Assis


### Criando os dois arquivos

- Será criado um arquivo csv contendo todos os clientes que vão receber a oferta especial.
- E outro arquivo csv com clientes que não receberão nenhum tipo de oferta.

In [24]:
# Arquivo com os clientes beneficiados
clientes_com_beneficio.to_csv('clientes_com_ofertas_especiais.csv')

In [25]:
# Arquivo com os clientes sem benefícios
clientes_sem_beneficio.to_csv('clientes_sem_ofertas_especiais.csv')

### Considerações Finais

#### Objetivos:
- Esse projeto foi criado para saber quais clientes vão receber descontos e ofertas especiais.
- Com esse arquivo contendo os clientes beneficiados, o setor responsável pode enviar uma mensagem para cada cliente parabenizando-os e mostrar para eles que quanto mais movimentos e operações se faz na conta mais chance tem de serem muito mais beneficiados.
- E o outro arquivo contendo os clientes com menos transações, o setor pode pegar esses dados e também mandar uma mensagem incentivando eles a no próximo ano fazerem mais operações na suas contas para ganharem descontos e ofertas especiais.

#### Conclusão:
- Depois de pegar as bases de dados com o cadastro de clientes e com as transações bancárias, foi feito as transformações necessárias e a criação de dois arquivos para serem enviados aos setores responsáveis.
- Esse ETL ajudará a organização a fidelizar o cliente, pois mostra para os clientes que eles são valorizados. E também, ao setor de Marketing a distribuir mais anúncios focado nas contas com menos movimentações.