# Desafio Análise de Dados

1. Nem todos os envolvidos estão convictos com a ideia de uma frente de BIs no BanVic. Como podemos convencer Camila Diniz, diretora comercial,  que as nossas soluções serão úteis para a empresa? Com base na análise exploratória realizada nos dados apresentados, quais perguntas de negócio podemos responder para mostrar o valor que dados possuem para a empresa? Pergunta de nível teórico. O seu projeto final não necessariamente precisa trazer os mesmos ou todos os indicadores citados nessa entrega.


2. Quais serão os indicadores ou visualizações utilizadas para responder às perguntas de negócio citadas anteriormente? Pergunta de nível teórico. O seu projeto final não necessariamente precisa trazer os mesmos ou todos os indicadores citados nessa entrega.


3. Apresentar pelo menos duas análises de negócio para cada uma das categorias. Pergunta de nível teórico. O seu projeto final não necessariamente precisa ter todas análises citadas nessa entrega: 


        Uma análise descritiva;
        Uma análise diagnóstica;
        Uma análise prescritiva;
        Uma análise preditiva.


4. Um relatório em PDF com suas análises, justificativas e raciocínio contendo os seguintes pontos:

        As respostas do item 1, 2 e 3.
        Um tópico descrevendo brevemente quais os processos de transformação e tratamento de dados foram aplicados por você.
        Um dashboard dos principais KPIs de negócio do BanVic permitindo um detalhamento por data, por agência e por clientes.
        Apresentar as análises que foram necessárias para o entendimento do negócio e que podem ser úteis no suporte para a tomada de decisão.
        E finalmente, com base nas suas análises, uma conclusão com recomendações/sugestões de negócio e encaminhamentos para a CEO do BanVic.
        Apresentar e justificar as ferramentas adotadas para a elaboração das análises.


### 1° importar as bibliotecas 

In [62]:
#importar bibliotecas
import pandas as pd

### 2° Importar e criar os dataframes

In [63]:
#criar as tabelas para trabalhar

agencias = pd.read_csv("data/agencias.csv")
clientes = pd.read_csv('data/clientes.csv')
colaborador_agencia = pd.read_csv('data/colaborador_agencia.csv')
colaboradores = pd.read_csv('data/colaboradores.csv')
contas = pd.read_csv('data/contas.csv')
propostas_credito = pd.read_csv('data/propostas_credito.csv')
transacoes = pd.read_csv('data/transacoes.csv')

### 3° Analisar cada um dos dataframes e transformar os dados conforme necessário

### 3.1 DataFrame 'agencias'

In [64]:
agencias.info()

print()
print(agencias.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   cod_agencia    10 non-null     int64 
 1   nome           10 non-null     object
 2   endereco       10 non-null     object
 3   cidade         10 non-null     object
 4   uf             10 non-null     object
 5   data_abertura  10 non-null     object
 6   tipo_agencia   10 non-null     object
dtypes: int64(1), object(6)
memory usage: 692.0+ bytes

   cod_agencia              nome  \
0            7   Agência Digital   
1            1    Agência Matriz   
2            2   Agência Tatuapé   
3            3  Agência Campinas   
4            4    Agência Osasco   

                                            endereco     cidade  uf  \
0  Av. Paulista, 1436 - Cerqueira César, São Paul...  São Paulo  SP   
1  Av. Paulista, 1436 - Cerqueira César, São Paul...  São Paulo  SP   
2  Praça Sílvio Romero, 15

    Os dados dos cabeçalhos se encontram de padronizados em letra minuscula e snake case. 
    O arquivo possui dez entradas e nenhuma das células apresenta valores nulos.
    É necessário alterar o tipo de dados para datetime na coluna data_abertura.

In [65]:
#transformando os dados para datetime
agencias['data_abertura'] = pd.to_datetime(agencias['data_abertura'])

#conferindo
agencias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   cod_agencia    10 non-null     int64         
 1   nome           10 non-null     object        
 2   endereco       10 non-null     object        
 3   cidade         10 non-null     object        
 4   uf             10 non-null     object        
 5   data_abertura  10 non-null     datetime64[ns]
 6   tipo_agencia   10 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 692.0+ bytes


### 3.2 DataFrame 'clientes'

In [66]:
clientes.info()
print()
print(clientes.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 998 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cod_cliente      998 non-null    int64 
 1   primeiro_nome    998 non-null    object
 2   ultimo_nome      998 non-null    object
 3   email            998 non-null    object
 4   tipo_cliente     998 non-null    object
 5   data_inclusao    998 non-null    object
 6   cpfcnpj          998 non-null    object
 7   data_nascimento  998 non-null    object
 8   endereco         998 non-null    object
 9   cep              998 non-null    object
dtypes: int64(1), object(9)
memory usage: 78.1+ KB

   cod_cliente primeiro_nome ultimo_nome                         email  \
0           28       Sabrina        Dias  moreiraemanuelly@example.org   
1          674   Luiz Felipe        Dias     pedroferreira@example.org   
2          693         Renan        Dias            ogomes@example.net   
3      

    É necessário transformar as colunas de data (data_inclusao e data_nascimento) para corresponderem ao formato datetime;
    É necessário padronizar o formato CEP para ter o traço.
    Não há células com valores nulos dentro do DataFrame 'clientes'

In [67]:
#arrumar os dados correspondentes para datetime

clientes['data_inclusao'] = pd.to_datetime(clientes['data_inclusao'])
clientes['data_nascimento'] = pd.to_datetime(clientes['data_nascimento'])


In [68]:
#Criar uma função para arrumar os dados de CEP

def formatar_cep(cep):
    if '-' not in cep:
        return f"{cep[:5]}-{cep[5:]}"
    else:
        return cep

# Aplicar a função à coluna desejada
clientes['cep'] = clientes['cep'].apply(formatar_cep)

In [69]:
#conferir se realizou a troca
print(clientes['cep'].sample(10))

364    73042-220
963    58701-124
852    33421-319
771    01613-203
303    38555-902
992    75614-912
138    91403-292
672    69878-651
175    06016-884
74     27315-383
Name: cep, dtype: object


### 3.3 DataFrame 'colaborador_agencia'

In [70]:
#conferir os dados
colaborador_agencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   cod_colaborador  100 non-null    int64
 1   cod_agencia      100 non-null    int64
dtypes: int64(2)
memory usage: 1.7 KB


    O DataFrame colaborador_agencia não possui valores nulos nas células, nem valores que precisam ter seus tipos alterados.

### 3.4 DataFrame 'colaboradores'

In [71]:
#Conferindo os dados do DataFrame 'colaboradores'

colaboradores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cod_colaborador  100 non-null    int64 
 1   primeiro_nome    100 non-null    object
 2   ultimo_nome      100 non-null    object
 3   email            100 non-null    object
 4   cpf              100 non-null    object
 5   data_nascimento  100 non-null    object
 6   endereco         100 non-null    object
 7   cep              100 non-null    object
dtypes: int64(1), object(7)
memory usage: 6.4+ KB


In [72]:
#amostrar o formato de data de nascimento dos colaboradores 
print(colaboradores['data_nascimento'].sample(5))

#converter o tipo de dados para datetime

colaboradores['data_nascimento'] = pd.to_datetime(colaboradores['data_nascimento'])

84    1980-09-09
41    1981-05-08
94    1982-05-18
90    1968-05-21
58    1973-03-24
Name: data_nascimento, dtype: object


    O DataFrame 'colaboradores' não possui valores nulos e foi necessário alterar o tipo de dados do campo data_nascimento para datetime.

### 3.5 DataFrame 'contas'

In [73]:
#entender os dados do DataFrame 'contas'

contas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   num_conta               999 non-null    int64  
 1   cod_cliente             999 non-null    int64  
 2   cod_agencia             999 non-null    int64  
 3   cod_colaborador         999 non-null    int64  
 4   tipo_conta              999 non-null    object 
 5   data_abertura           999 non-null    object 
 6   saldo_total             999 non-null    float64
 7   saldo_disponivel        999 non-null    float64
 8   data_ultimo_lancamento  999 non-null    object 
dtypes: float64(2), int64(4), object(3)
memory usage: 70.4+ KB


In [74]:
print(contas[['data_abertura','data_ultimo_lancamento']].sample(5))

               data_abertura          data_ultimo_lancamento
330  2019-07-18 12:56:00 UTC         2021-06-17 13:59:18 UTC
897  2019-12-10 12:32:00 UTC  2022-12-29 23:59:59.671918 UTC
315  2018-02-26 12:52:00 UTC  2022-12-29 23:59:59.242815 UTC
664  2019-06-22 15:37:00 UTC         2021-06-22 14:14:44 UTC
975  2022-08-15 13:30:00 UTC  2022-12-29 23:59:59.221345 UTC


In [75]:
#transformar as colunas de data para o formato datetime
contas['data_abertura'] = pd.to_datetime(contas['data_abertura'])

In [79]:
contas['data_ultimo_lancamento'] = pd.to_datetime(contas['data_ultimo_lancamento'], format='mixed')

### 3.6 DataFrame 'propostas_credito'

In [None]:
#entendendo os dados do DataFrame propostas_credito

propostas_credito.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   cod_proposta           2000 non-null   int64  
 1   cod_cliente            2000 non-null   int64  
 2   cod_colaborador        2000 non-null   int64  
 3   data_entrada_proposta  2000 non-null   object 
 4   taxa_juros_mensal      2000 non-null   float64
 5   valor_proposta         2000 non-null   float64
 6   valor_financiamento    2000 non-null   float64
 7   valor_entrada          2000 non-null   float64
 8   valor_prestacao        2000 non-null   float64
 9   quantidade_parcelas    2000 non-null   int64  
 10  carencia               2000 non-null   int64  
 11  status_proposta        2000 non-null   object 
dtypes: float64(5), int64(5), object(2)
memory usage: 187.6+ KB


In [92]:
#transformar os dados para o formato datetime da coluna 'data_entrada_proposta'
propostas_credito['data_entrada_proposta'] = pd.to_datetime(propostas_credito['data_entrada_proposta'])

1774   2019-05-26 21:22:38+00:00
601    2015-12-08 22:10:31+00:00
515    2015-11-24 23:41:06+00:00
983    2016-08-08 01:19:26+00:00
676    2016-06-07 05:12:20+00:00
Name: data_entrada_proposta, dtype: datetime64[ns, UTC]


    O dataframe 'propostas_credito' não possui valores nulos e preciso que a coluna 'data_entrada_proposta' tivesse seu valor alterado para o formato datetime.

### 3.7 DataFrame 'transacoes'


In [93]:
#entender os dados do DataFrame 'transacoes'
transacoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71999 entries, 0 to 71998
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   cod_transacao    71999 non-null  int64  
 1   num_conta        71999 non-null  int64  
 2   data_transacao   71999 non-null  object 
 3   nome_transacao   71999 non-null  object 
 4   valor_transacao  71999 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 2.7+ MB


In [95]:
#transformar a coluna 'data_transacao' para o formato datetime

transacoes['data_transacao'] = pd.to_datetime(transacoes['data_transacao'], format='mixed')