# Desafio Análise de Dados

1. Nem todos os envolvidos estão convictos com a ideia de uma frente de BIs no BanVic. Como podemos convencer Camila Diniz, diretora comercial,  que as nossas soluções serão úteis para a empresa? Com base na análise exploratória realizada nos dados apresentados, quais perguntas de negócio podemos responder para mostrar o valor que dados possuem para a empresa? Pergunta de nível teórico. O seu projeto final não necessariamente precisa trazer os mesmos ou todos os indicadores citados nessa entrega.


2. Quais serão os indicadores ou visualizações utilizadas para responder às perguntas de negócio citadas anteriormente? Pergunta de nível teórico. O seu projeto final não necessariamente precisa trazer os mesmos ou todos os indicadores citados nessa entrega.


3. Apresentar pelo menos duas análises de negócio para cada uma das categorias. Pergunta de nível teórico. O seu projeto final não necessariamente precisa ter todas análises citadas nessa entrega: 


        Uma análise descritiva;
        Uma análise diagnóstica;
        Uma análise prescritiva;
        Uma análise preditiva.


4. Um relatório em PDF com suas análises, justificativas e raciocínio contendo os seguintes pontos:

        As respostas do item 1, 2 e 3.
        Um tópico descrevendo brevemente quais os processos de transformação e tratamento de dados foram aplicados por você.
        Um dashboard dos principais KPIs de negócio do BanVic permitindo um detalhamento por data, por agência e por clientes.
        Apresentar as análises que foram necessárias para o entendimento do negócio e que podem ser úteis no suporte para a tomada de decisão.
        E finalmente, com base nas suas análises, uma conclusão com recomendações/sugestões de negócio e encaminhamentos para a CEO do BanVic.
        Apresentar e justificar as ferramentas adotadas para a elaboração das análises.


## 1° importar as bibliotecas 

In [1]:
#importar bibliotecas
import pandas as pd

## 2° Importar e criar os dataframes

In [2]:
#criar as tabelas para trabalhar

agencias = pd.read_csv("data/agencias.csv")
clientes = pd.read_csv('data/clientes.csv')
colaborador_agencia = pd.read_csv('data/colaborador_agencia.csv')
colaboradores = pd.read_csv('data/colaboradores.csv')
contas = pd.read_csv('data/contas.csv')
propostas_credito = pd.read_csv('data/propostas_credito.csv')
transacoes = pd.read_csv('data/transacoes.csv')

## 3° Analisar cada um dos dataframes e transformar os dados conforme necessário

### 3.1 DataFrame 'agencias'

In [3]:
agencias.info()

print()
print(agencias.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   cod_agencia    10 non-null     int64 
 1   nome           10 non-null     object
 2   endereco       10 non-null     object
 3   cidade         10 non-null     object
 4   uf             10 non-null     object
 5   data_abertura  10 non-null     object
 6   tipo_agencia   10 non-null     object
dtypes: int64(1), object(6)
memory usage: 692.0+ bytes

   cod_agencia              nome  \
0            7   Agência Digital   
1            1    Agência Matriz   
2            2   Agência Tatuapé   
3            3  Agência Campinas   
4            4    Agência Osasco   

                                            endereco     cidade  uf  \
0  Av. Paulista, 1436 - Cerqueira César, São Paul...  São Paulo  SP   
1  Av. Paulista, 1436 - Cerqueira César, São Paul...  São Paulo  SP   
2  Praça Sílvio Romero, 15

    Os dados dos cabeçalhos se encontram de padronizados em letra minuscula e snake case. 
    O arquivo possui dez entradas e nenhuma das células apresenta valores nulos.
    É necessário alterar o tipo de dados para datetime na coluna data_abertura.

In [4]:
#transformando os dados para datetime
agencias['data_abertura'] = pd.to_datetime(agencias['data_abertura'])

#conferindo
agencias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   cod_agencia    10 non-null     int64         
 1   nome           10 non-null     object        
 2   endereco       10 non-null     object        
 3   cidade         10 non-null     object        
 4   uf             10 non-null     object        
 5   data_abertura  10 non-null     datetime64[ns]
 6   tipo_agencia   10 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 692.0+ bytes


### 3.2 DataFrame 'clientes'

In [5]:
clientes.info()
print()
print(clientes.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 998 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cod_cliente      998 non-null    int64 
 1   primeiro_nome    998 non-null    object
 2   ultimo_nome      998 non-null    object
 3   email            998 non-null    object
 4   tipo_cliente     998 non-null    object
 5   data_inclusao    998 non-null    object
 6   cpfcnpj          998 non-null    object
 7   data_nascimento  998 non-null    object
 8   endereco         998 non-null    object
 9   cep              998 non-null    object
dtypes: int64(1), object(9)
memory usage: 78.1+ KB

   cod_cliente primeiro_nome ultimo_nome                         email  \
0           28       Sabrina        Dias  moreiraemanuelly@example.org   
1          674   Luiz Felipe        Dias     pedroferreira@example.org   
2          693         Renan        Dias            ogomes@example.net   
3      

    É necessário transformar as colunas de data (data_inclusao e data_nascimento) para corresponderem ao formato datetime;
    É necessário padronizar o formato CEP para ter o traço.
    Não há células com valores nulos dentro do DataFrame 'clientes'

In [6]:
#arrumar os dados correspondentes para datetime

clientes['data_inclusao'] = pd.to_datetime(clientes['data_inclusao'])
clientes['data_nascimento'] = pd.to_datetime(clientes['data_nascimento'])


In [7]:
#Criar uma função para arrumar os dados de CEP

def formatar_cep(cep):
    if '-' not in cep:
        return f"{cep[:5]}-{cep[5:]}"
    else:
        return cep

# Aplicar a função à coluna desejada
clientes['cep'] = clientes['cep'].apply(formatar_cep)

In [8]:
#conferir se realizou a troca
print(clientes['cep'].sample(10))

340    02217-338
779    29165-027
224    94645-786
424    61725-909
264    66313-047
498    99555-106
864    81600-217
529    13347-642
881    08567-273
707    28353-018
Name: cep, dtype: object


### 3.3 DataFrame 'colaborador_agencia'

In [9]:
#conferir os dados
colaborador_agencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   cod_colaborador  100 non-null    int64
 1   cod_agencia      100 non-null    int64
dtypes: int64(2)
memory usage: 1.7 KB


    O DataFrame colaborador_agencia não possui valores nulos nas células, nem valores que precisam ter seus tipos alterados.

### 3.4 DataFrame 'colaboradores'

In [10]:
#Conferindo os dados do DataFrame 'colaboradores'

colaboradores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cod_colaborador  100 non-null    int64 
 1   primeiro_nome    100 non-null    object
 2   ultimo_nome      100 non-null    object
 3   email            100 non-null    object
 4   cpf              100 non-null    object
 5   data_nascimento  100 non-null    object
 6   endereco         100 non-null    object
 7   cep              100 non-null    object
dtypes: int64(1), object(7)
memory usage: 6.4+ KB


In [11]:
#amostrar o formato de data de nascimento dos colaboradores 
print(colaboradores['data_nascimento'].sample(5))

#converter o tipo de dados para datetime

colaboradores['data_nascimento'] = pd.to_datetime(colaboradores['data_nascimento'])

70    1993-11-10
63    1988-08-16
86    1977-03-08
84    1980-09-09
32    1991-04-25
Name: data_nascimento, dtype: object


In [12]:
#alterar o nome das colunas para não confundir na hora do merge

colaboradores.rename(columns={'endereco':'endereco_colaborador',
                              'cpf':'cpf_colaborador',
                              'cep':'cep_colaborador',
                              'email':'email_colaborador',
                              'primeiro_nome':'primeiro_nome_colab',
                              'ultimo_nome':'ultimo_nome_colab',
                              'data_nascimento':'data_nascimento_colab'},inplace=True,)

In [36]:
colaboradores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   cod_colaborador        100 non-null    int64         
 1   primeiro_nome_colab    100 non-null    object        
 2   ultimo_nome_colab      100 non-null    object        
 3   email_colaborador      100 non-null    object        
 4   cpf_colaborador        100 non-null    object        
 5   data_nascimento_colab  100 non-null    datetime64[ns]
 6   endereco_colaborador   100 non-null    object        
 7   cep_colaborador        100 non-null    object        
dtypes: datetime64[ns](1), int64(1), object(6)
memory usage: 6.4+ KB


    O DataFrame 'colaboradores' não possui valores nulos e foi necessário alterar o tipo de dados do campo data_nascimento para datetime.

### 3.5 DataFrame 'contas'

In [13]:
#entender os dados do DataFrame 'contas'

contas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   num_conta               999 non-null    int64  
 1   cod_cliente             999 non-null    int64  
 2   cod_agencia             999 non-null    int64  
 3   cod_colaborador         999 non-null    int64  
 4   tipo_conta              999 non-null    object 
 5   data_abertura           999 non-null    object 
 6   saldo_total             999 non-null    float64
 7   saldo_disponivel        999 non-null    float64
 8   data_ultimo_lancamento  999 non-null    object 
dtypes: float64(2), int64(4), object(3)
memory usage: 70.4+ KB


In [14]:
print(contas[['data_abertura','data_ultimo_lancamento']].sample(5))

               data_abertura          data_ultimo_lancamento
983  2022-08-02 15:03:00 UTC   2022-12-30 00:00:00.58848 UTC
28   2012-02-26 12:34:00 UTC         2022-12-08 08:47:13 UTC
366  2022-07-21 12:36:00 UTC  2022-12-29 23:59:59.643909 UTC
958  2022-11-06 12:02:00 UTC  2022-12-30 00:00:00.212304 UTC
205  2013-07-12 10:44:00 UTC         2019-09-11 05:47:27 UTC


In [15]:
#transformar as colunas de data para o formato datetime
contas['data_abertura'] = pd.to_datetime(contas['data_abertura'])

In [16]:
contas['data_ultimo_lancamento'] = pd.to_datetime(contas['data_ultimo_lancamento'], format='mixed')

### 3.6 DataFrame 'propostas_credito'

In [17]:
#entendendo os dados do DataFrame propostas_credito

propostas_credito.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   cod_proposta           2000 non-null   int64  
 1   cod_cliente            2000 non-null   int64  
 2   cod_colaborador        2000 non-null   int64  
 3   data_entrada_proposta  2000 non-null   object 
 4   taxa_juros_mensal      2000 non-null   float64
 5   valor_proposta         2000 non-null   float64
 6   valor_financiamento    2000 non-null   float64
 7   valor_entrada          2000 non-null   float64
 8   valor_prestacao        2000 non-null   float64
 9   quantidade_parcelas    2000 non-null   int64  
 10  carencia               2000 non-null   int64  
 11  status_proposta        2000 non-null   object 
dtypes: float64(5), int64(5), object(2)
memory usage: 187.6+ KB


In [18]:
#transformar os dados para o formato datetime da coluna 'data_entrada_proposta'
propostas_credito['data_entrada_proposta'] = pd.to_datetime(propostas_credito['data_entrada_proposta'])

    O dataframe 'propostas_credito' não possui valores nulos e preciso que a coluna 'data_entrada_proposta' tivesse seu valor alterado para o formato datetime.

### 3.7 DataFrame 'transacoes'


In [19]:
#entender os dados do DataFrame 'transacoes'
transacoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71999 entries, 0 to 71998
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   cod_transacao    71999 non-null  int64  
 1   num_conta        71999 non-null  int64  
 2   data_transacao   71999 non-null  object 
 3   nome_transacao   71999 non-null  object 
 4   valor_transacao  71999 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 2.7+ MB


In [20]:
#transformar a coluna 'data_transacao' para o formato datetime

transacoes['data_transacao'] = pd.to_datetime(transacoes['data_transacao'], format='mixed')

## 4° união dos dataframes

Utilizar o comando merge para unir os DataFrames em uma única tabela

In [49]:
#obtendo os titulos das colunas de cada DataFrame para saber como relacionar os dados


print("Propostas de crédito")
print(propostas_credito.columns)
print()
print("Transações")
print(transacoes.columns)

Propostas de crédito
Index(['cod_proposta', 'cod_cliente', 'cod_colaborador',
       'data_entrada_proposta', 'taxa_juros_mensal', 'valor_proposta',
       'valor_financiamento', 'valor_entrada', 'valor_prestacao',
       'quantidade_parcelas', 'carencia', 'status_proposta'],
      dtype='object')

Transações
Index(['cod_transacao', 'num_conta', 'data_transacao', 'nome_transacao',
       'valor_transacao'],
      dtype='object')


In [50]:
#unir agencias e colaborador_agencia pelo cod_agencia
agencia_e_colaborador = agencias.merge(colaborador_agencia, on='cod_agencia', how='left')

In [51]:
#unir agencia + colaborador com contas pela coluna 'cod_agencia'
agencia_e_contas = agencia_e_colaborador.merge(contas, on='cod_agencia', how='left')

In [52]:
#removendo valores duplicados
agencia_e_contas = agencia_e_contas.drop('data_abertura_x', axis='columns')

agencia_e_contas = agencia_e_contas.drop('cod_colaborador_x', axis='columns')

In [53]:
agencia_e_contas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9398 entries, 0 to 9397
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype              
---  ------                  --------------  -----              
 0   cod_agencia             9398 non-null   int64              
 1   nome                    9398 non-null   object             
 2   endereco                9398 non-null   object             
 3   cidade                  9398 non-null   object             
 4   uf                      9398 non-null   object             
 5   tipo_agencia            9398 non-null   object             
 6   num_conta               9398 non-null   int64              
 7   cod_cliente             9398 non-null   int64              
 8   cod_colaborador_y       9398 non-null   int64              
 9   tipo_conta              9398 non-null   object             
 10  data_abertura_y         9398 non-null   datetime64[ns, UTC]
 11  saldo_total             9398 non-null   flo

In [54]:
agencia_e_clientes = agencia_e_contas.merge(clientes, on='cod_cliente', how='left')

In [55]:
agencia_e_clientes.rename(columns={
    'cod_colaborador_y':'cod_colaborador',
    'data_abertura_y':'data_abertura',
    'endereco_y':'endereco',
}, inplace=True,)

In [56]:
colab_agencia_e_clientes = agencia_e_clientes.merge(colaboradores, on='cod_colaborador', how='left')

In [57]:
colab_agencia_e_clientes = colab_agencia_e_clientes.drop('endereco_x', axis='columns')

In [58]:
clientes_colab_propostas = colab_agencia_e_clientes.merge(propostas_credito, on='cod_cliente', how='left')

In [59]:
#remover a coluna duplicada
clientes_colab_propostas = clientes_colab_propostas.drop('cod_colaborador_x', axis='columns')

#renomear a coluna de código do colaborador
clientes_colab_propostas.rename(
    columns={'cod_colaborador_y':'cod_colaborador'}, inplace=True,
)

In [60]:
print(clientes_colab_propostas.columns)

Index(['cod_agencia', 'nome', 'cidade', 'uf', 'tipo_agencia', 'num_conta',
       'cod_cliente', 'tipo_conta', 'data_abertura', 'saldo_total',
       'saldo_disponivel', 'data_ultimo_lancamento', 'primeiro_nome',
       'ultimo_nome', 'email', 'tipo_cliente', 'data_inclusao', 'cpfcnpj',
       'data_nascimento', 'endereco', 'cep', 'primeiro_nome_colab',
       'ultimo_nome_colab', 'email_colaborador', 'cpf_colaborador',
       'data_nascimento_colab', 'endereco_colaborador', 'cep_colaborador',
       'cod_proposta', 'cod_colaborador', 'data_entrada_proposta',
       'taxa_juros_mensal', 'valor_proposta', 'valor_financiamento',
       'valor_entrada', 'valor_prestacao', 'quantidade_parcelas', 'carencia',
       'status_proposta'],
      dtype='object')


In [61]:
final_merged_df = clientes_colab_propostas.merge(transacoes, on='num_conta', how='left')

In [62]:
final_merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1441493 entries, 0 to 1441492
Data columns (total 43 columns):
 #   Column                  Non-Null Count    Dtype              
---  ------                  --------------    -----              
 0   cod_agencia             1441493 non-null  int64              
 1   nome                    1441493 non-null  object             
 2   cidade                  1441493 non-null  object             
 3   uf                      1441493 non-null  object             
 4   tipo_agencia            1441493 non-null  object             
 5   num_conta               1441493 non-null  int64              
 6   cod_cliente             1441493 non-null  int64              
 7   tipo_conta              1441493 non-null  object             
 8   data_abertura           1441493 non-null  datetime64[ns, UTC]
 9   saldo_total             1441493 non-null  float64            
 10  saldo_disponivel        1441493 non-null  float64            
 11  data_ultimo

In [63]:
print(final_merged_df.nunique())

cod_agencia                  10
nome                         10
cidade                        7
uf                            5
tipo_agencia                  2
num_conta                   999
cod_cliente                 999
tipo_conta                    1
data_abertura               998
saldo_total                 999
saldo_disponivel            999
data_ultimo_lancamento      988
primeiro_nome               202
ultimo_nome                  70
email                       994
tipo_cliente                  1
data_inclusao               997
cpfcnpj                     998
data_nascimento             975
endereco                    998
cep                         998
primeiro_nome_colab          75
ultimo_nome_colab            50
email_colaborador            94
cpf_colaborador              94
data_nascimento_colab        94
endereco_colaborador         94
cep_colaborador              94
cod_proposta               2000
cod_colaborador             100
data_entrada_proposta      2000
taxa_jur

## 5° Usando esses dados