# Pré-Processamento dos dados Bancários

* Neste arquivo foi realizada a etapa de pré-processamento dos dados do Banco Vitória, organizada em seus respectivos datasets: Agências, Clientes, Colaboradores, Contas, Propostas de Crédito e Transações.
* O trabalho concentrou-se nas seguintes etapas: leitura dos dados, verificação de valores nulos, transformação de variáveis, identificação de duplicatas, elaboração do dicionário de dados e salvamento dos arquivos processados.
* O objetivo principal é destacar a relevância do pré-processamento como etapa fundamental antes da análise, uma vez que a qualidade dos dados impacta diretamente na consistência e confiabilidade dos resultados obtidos.

**Bibliotecas**:

In [1]:
import pandas as pd

## Agências

* **Leitura dos dados de Agências**:

In [3]:
agencias = pd.read_csv('../data/pre-processamento/agencias.csv', sep=',')
agencias.head(10)

Unnamed: 0,cod_agencia,nome,endereco,cidade,uf,data_abertura,tipo_agencia
0,7,Agência Digital,"Av. Paulista, 1436 - Cerqueira César, São Paul...",São Paulo,SP,2015-08-01,Digital
1,1,Agência Matriz,"Av. Paulista, 1436 - Cerqueira César, São Paul...",São Paulo,SP,2010-01-01,Física
2,2,Agência Tatuapé,"Praça Sílvio Romero, 158 - Tatuapé, São Paulo ...",São Paulo,SP,2010-06-14,Física
3,3,Agência Campinas,"Av. Francisco Glicério, 895 - Vila Lidia, Camp...",Campinas,SP,2012-03-04,Física
4,4,Agência Osasco,"Av. Antônio Carlos Costa, 1000 - Bela Vista, O...",Osasco,SP,2013-11-06,Física
5,5,Agência Porto Alegre,"Av. Bento Gonçalves, 1924 - Partenon, Porto Al...",Porto Alegre,RS,2013-12-01,Física
6,6,Agência Rio de Janeiro,"R. Sen. Dantas, 15 - Centro, Rio de Janeiro - ...",Rio de Janeiro,RJ,2015-04-01,Física
7,8,Agência Jardins,"Av. Brg. Faria Lima, 2491 - Jardim Paulistano,...",São Paulo,SP,2018-01-09,Física
8,9,Agência Florianópolis,"Av. Jorn. Rubéns de Arruda Ramos, 1280 - Centr...",Florianópolis,SC,2019-10-09,Física
9,10,Agência Recife,"Av. Conselheiro Aguiar, 4432 - Boa Viagem, Rec...",Recife,PE,2021-10-09,Física


In [4]:
agencias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   cod_agencia    10 non-null     int64 
 1   nome           10 non-null     object
 2   endereco       10 non-null     object
 3   cidade         10 non-null     object
 4   uf             10 non-null     object
 5   data_abertura  10 non-null     object
 6   tipo_agencia   10 non-null     object
dtypes: int64(1), object(6)
memory usage: 692.0+ bytes


* **Verificação de valores faltantes**:

In [5]:
valores_faltantes_agencias = agencias.isnull().values.any()

if valores_faltantes_agencias:
    print("Há valores falantes no dataset de agências.")
else:
    print("Não há valores faltantes no dataset de agências.")

Não há valores faltantes no dataset de agências.


* **Transformação de dados**:

In [6]:
agencias['data_abertura'] = pd.to_datetime(agencias['data_abertura'], format='%Y-%m-%d')

In [7]:
agencias['cod_agencia'] = agencias['cod_agencia'].astype(str)

In [8]:
agencias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   cod_agencia    10 non-null     object        
 1   nome           10 non-null     object        
 2   endereco       10 non-null     object        
 3   cidade         10 non-null     object        
 4   uf             10 non-null     object        
 5   data_abertura  10 non-null     datetime64[ns]
 6   tipo_agencia   10 non-null     object        
dtypes: datetime64[ns](1), object(6)
memory usage: 692.0+ bytes


In [9]:
agencias.head()

Unnamed: 0,cod_agencia,nome,endereco,cidade,uf,data_abertura,tipo_agencia
0,7,Agência Digital,"Av. Paulista, 1436 - Cerqueira César, São Paul...",São Paulo,SP,2015-08-01,Digital
1,1,Agência Matriz,"Av. Paulista, 1436 - Cerqueira César, São Paul...",São Paulo,SP,2010-01-01,Física
2,2,Agência Tatuapé,"Praça Sílvio Romero, 158 - Tatuapé, São Paulo ...",São Paulo,SP,2010-06-14,Física
3,3,Agência Campinas,"Av. Francisco Glicério, 895 - Vila Lidia, Camp...",Campinas,SP,2012-03-04,Física
4,4,Agência Osasco,"Av. Antônio Carlos Costa, 1000 - Bela Vista, O...",Osasco,SP,2013-11-06,Física


* **Verificação de duplicidade de dados**:

In [10]:
agencias.nunique()

cod_agencia      10
nome             10
endereco          9
cidade            7
uf                5
data_abertura    10
tipo_agencia      2
dtype: int64

In [11]:
for col in ['cod_agencia', 'nome', 'endereco','cidade','uf','data_abertura','tipo_agencia']:
    print(f"\nValores únicos da coluna {col}:")
    print(agencias[col].unique())


Valores únicos da coluna cod_agencia:
['7' '1' '2' '3' '4' '5' '6' '8' '9' '10']

Valores únicos da coluna nome:
['Agência Digital' 'Agência Matriz' 'Agência Tatuapé' 'Agência Campinas'
 'Agência Osasco' 'Agência Porto Alegre' 'Agência Rio de Janeiro'
 'Agência Jardins' 'Agência Florianópolis' 'Agência Recife']

Valores únicos da coluna endereco:
['Av. Paulista, 1436 - Cerqueira César, São Paulo - SP, 01310-916'
 'Praça Sílvio Romero, 158 - Tatuapé, São Paulo - SP, 03323-000'
 'Av. Francisco Glicério, 895 - Vila Lidia, Campinas - SP, 13012-000'
 'Av. Antônio Carlos Costa, 1000 - Bela Vista, Osasco - SP, 06053-014'
 'Av. Bento Gonçalves, 1924 - Partenon, Porto Alegre - RS, 90650-000'
 'R. Sen. Dantas, 15 - Centro, Rio de Janeiro - RJ, 20031-202'
 'Av. Brg. Faria Lima, 2491 - Jardim Paulistano, São Paulo - SP, 01452-000'
 'Av. Jorn. Rubéns de Arruda Ramos, 1280 - Centro, Florianópolis - SC, 88015-700'
 'Av. Conselheiro Aguiar, 4432 - Boa Viagem, Recife - PE, 51021-020']

Valores únicos 

In [12]:
for col in ['uf','data_abertura','tipo_agencia']:
    print(f"\nValores únicos da coluna {col}:")
    print(agencias[col].unique())


Valores únicos da coluna uf:
['SP' 'RS' 'RJ' 'SC' 'PE']

Valores únicos da coluna data_abertura:
<DatetimeArray>
['2015-08-01 00:00:00', '2010-01-01 00:00:00', '2010-06-14 00:00:00',
 '2012-03-04 00:00:00', '2013-11-06 00:00:00', '2013-12-01 00:00:00',
 '2015-04-01 00:00:00', '2018-01-09 00:00:00', '2019-10-09 00:00:00',
 '2021-10-09 00:00:00']
Length: 10, dtype: datetime64[ns]

Valores únicos da coluna tipo_agencia:
['Digital' 'Física']


* **Dicionário de dados de Agências**:

In [43]:
data_dictionary_agencia = pd.DataFrame([
    {
        'variavel': 'cod_agencia',
        'descricao': 'Código identificador único da agência, utilizado como chave primária no sistema',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'nome',
        'descricao': 'Nome oficial da agência bancária',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'endereco',
        'descricao': 'Endereço completo da agência (rua, número, bairro, cidade e estado)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'cidade',
        'descricao': 'Cidade onde a agência está localizada',
        'tipo': 'qualitativa',
        'subtipo': 'nominal geográfica',
    },
    {
        'variavel': 'uf',
        'descricao': 'Unidade Federativa (estado) onde a agência está localizada',
        'tipo': 'qualitativa',
        'subtipo': 'nominal geográfica',
    },
    {
        'variavel': 'data_abertura',
        'descricao': 'Data de abertura da agência',
        'tipo': 'quantitativa',
        'subtipo': 'contínua temporal',
    },
    {
        'variavel': 'tipo_agencia',
        'descricao': 'Classificação da agência, podendo ser Física ou Digital',
        'tipo': 'qualitativa',
        'subtipo': 'nominal categórica',
    }
])

data_dictionary_agencia.head(10)


Unnamed: 0,variavel,descricao,tipo,subtipo
0,cod_agencia,"Código identificador único da agência, utiliza...",qualitativa,nominal identificador
1,nome,Nome oficial da agência bancária,qualitativa,nominal
2,endereco,"Endereço completo da agência (rua, número, bai...",qualitativa,nominal
3,cidade,Cidade onde a agência está localizada,qualitativa,nominal geográfica
4,uf,Unidade Federativa (estado) onde a agência est...,qualitativa,nominal geográfica
5,data_abertura,Data de abertura da agência,quantitativa,contínua temporal
6,tipo_agencia,"Classificação da agência, podendo ser Física o...",qualitativa,nominal categórica


* **Salvamento dos arquivos**:

In [29]:
data_dictionary_agencia.to_csv('../data/data-dictionary/data_dictionary_agencia.csv', index=False)

In [15]:
agencias.to_csv('../data/pos-processamento/agencias_atualizada.csv', index=False)

* **Observações**:
    * Não há valores Faltantes nos dados.
    * Realizada transformação dos dados para “datetime” das colunas de data.
    * Transformado a coluna “cod_agencia” em string, pois é um identificador e não há calculo sobre ele, questão de boas práticas.
    * Verificado duplicadas e inconsistência nos valores das colunas e como resultado ocorreu tudo certo.

## Clientes

* **Leitura dos dados de Clientes**:

In [16]:
clientes = pd.read_csv("../data/pre-processamento/clientes.csv", sep=',')
clientes.head(10)

Unnamed: 0,cod_cliente,primeiro_nome,ultimo_nome,email,tipo_cliente,data_inclusao,cpfcnpj,data_nascimento,endereco,cep
0,28,Sabrina,Dias,moreiraemanuelly@example.org,PF,2017-04-03 16:11:00 UTC,357.081.496-39,2006-08-11,Praia de Duarte Vila Piratininga 81327-166 Fer...,95140-704
1,674,Luiz Felipe,Dias,pedroferreira@example.org,PF,2021-02-10 13:27:00 UTC,085.196.374-93,1995-10-11,"Avenida da Rosa, 654 João Paulo Ii 20295449 Nu...",76516-765
2,693,Renan,Dias,ogomes@example.net,PF,2020-01-21 13:12:00 UTC,783.416.059-10,1948-11-19,Jardim de Rodrigues Ipiranga 14161-477 Duarte ...,51779625
3,743,Clara,Dias,rafaelcorreia@example.org,PF,2019-05-06 11:39:00 UTC,589.237.610-95,1978-01-27,"Colônia Thomas Silva, 9 Tupi B 15771-946 Ferna...",19615792
4,769,André,Dias,danilo33@example.org,PF,2017-01-07 14:53:00 UTC,459.608.721-02,1990-08-25,"Rua Correia, 889 Diamante 59123250 Aragão / RS",01672838
5,824,Heloísa,Dias,alanadias@example.org,PF,2016-01-07 12:26:00 UTC,536.981.240-33,1967-05-12,"Favela de da Mata, 3 Conjunto Novo Dom Bosco 7...",07814-131
6,884,Maria Julia,Dias,alvesmariana@example.net,PF,2017-08-06 11:01:00 UTC,150.438.926-33,1950-12-10,"Esplanada Maria Luiza Ribeiro, 4 Conjunto Cali...",90221-380
7,899,Arthur,Dias,castropedro-lucas@example.net,PF,2021-10-17 13:00:00 UTC,509.481.762-02,1953-02-26,"Ladeira Elisa da Rocha, 69 João Pinheiro 13964...",44875-244
8,908,Vitor Gabriel,Dias,acardoso@example.com,PF,2021-04-02 10:22:00 UTC,158.406.379-39,1948-03-25,"Passarela Lucca Castro, 73 Vila Paris 99268696...",42603-833
9,945,Caio,Dias,moraesmarina@example.org,PF,2016-05-10 13:56:00 UTC,975.860.431-75,1955-06-11,"Fazenda Emanuel Gomes, 6 Cruzeiro 29428-910 No...",23176352


In [17]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 998 entries, 0 to 997
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cod_cliente      998 non-null    int64 
 1   primeiro_nome    998 non-null    object
 2   ultimo_nome      998 non-null    object
 3   email            998 non-null    object
 4   tipo_cliente     998 non-null    object
 5   data_inclusao    998 non-null    object
 6   cpfcnpj          998 non-null    object
 7   data_nascimento  998 non-null    object
 8   endereco         998 non-null    object
 9   cep              998 non-null    object
dtypes: int64(1), object(9)
memory usage: 78.1+ KB


* **Verificação de valores faltantes**:

In [18]:
valores_faltantes_clientes = clientes.isnull().values.any()

if valores_faltantes_clientes:
    print("Há valores falantes no dataset de clientes.")
else:
    print("Não há valores faltantes no dataset de clientes.")

Não há valores faltantes no dataset de clientes.


* **Transformação de dados**:

In [None]:
clientes['data_inclusao'] = clientes['data_inclusao'].astype(str).str.split(' ').str[0]

clientes['data_inclusao'] = pd.to_datetime(
    clientes['data_inclusao'],
    format="%Y-%m-%d",
    errors='coerce'
)

clientes['data_nascimento'] = pd.to_datetime(
    clientes['data_nascimento'],
    format="%Y-%m-%d",
    errors='coerce'
)


  data_inclusao data_nascimento
0    2017-04-03      2006-08-11
1    2021-02-10      1995-10-11
2    2020-01-21      1948-11-19
3    2019-05-06      1978-01-27
4    2017-01-07      1990-08-25
data_inclusao      0
data_nascimento    0
dtype: int64


In [20]:
clientes['nome_completo'] = clientes['primeiro_nome'] + " " + clientes['ultimo_nome']

In [21]:
clientes['cod_cliente'] = clientes['cod_cliente'].astype(str)

In [22]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 998 entries, 0 to 997
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   cod_cliente      998 non-null    object        
 1   primeiro_nome    998 non-null    object        
 2   ultimo_nome      998 non-null    object        
 3   email            998 non-null    object        
 4   tipo_cliente     998 non-null    object        
 5   data_inclusao    998 non-null    datetime64[ns]
 6   cpfcnpj          998 non-null    object        
 7   data_nascimento  998 non-null    datetime64[ns]
 8   endereco         998 non-null    object        
 9   cep              998 non-null    object        
 10  nome_completo    998 non-null    object        
dtypes: datetime64[ns](2), object(9)
memory usage: 85.9+ KB


In [23]:
clientes.head()

Unnamed: 0,cod_cliente,primeiro_nome,ultimo_nome,email,tipo_cliente,data_inclusao,cpfcnpj,data_nascimento,endereco,cep,nome_completo
0,28,Sabrina,Dias,moreiraemanuelly@example.org,PF,2017-04-03,357.081.496-39,2006-08-11,Praia de Duarte Vila Piratininga 81327-166 Fer...,95140-704,Sabrina Dias
1,674,Luiz Felipe,Dias,pedroferreira@example.org,PF,2021-02-10,085.196.374-93,1995-10-11,"Avenida da Rosa, 654 João Paulo Ii 20295449 Nu...",76516-765,Luiz Felipe Dias
2,693,Renan,Dias,ogomes@example.net,PF,2020-01-21,783.416.059-10,1948-11-19,Jardim de Rodrigues Ipiranga 14161-477 Duarte ...,51779625,Renan Dias
3,743,Clara,Dias,rafaelcorreia@example.org,PF,2019-05-06,589.237.610-95,1978-01-27,"Colônia Thomas Silva, 9 Tupi B 15771-946 Ferna...",19615792,Clara Dias
4,769,André,Dias,danilo33@example.org,PF,2017-01-07,459.608.721-02,1990-08-25,"Rua Correia, 889 Diamante 59123250 Aragão / RS",01672838,André Dias


* **Verificação de duplicidade de dados**:

In [24]:
clientes.nunique()

cod_cliente        998
primeiro_nome      202
ultimo_nome         70
email              994
tipo_cliente         1
data_inclusao      869
cpfcnpj            998
data_nascimento    975
endereco           998
cep                998
nome_completo      955
dtype: int64

In [None]:
duplicados_email = clientes[clientes.duplicated('email', keep=False)].sort_values('email')

print("Total de emails duplicados:", duplicados_email['email'].nunique())

if not duplicados_email.empty:
    print("\nExemplos de Emails duplicados:")
    print(duplicados_email[['cod_cliente','primeiro_nome','ultimo_nome','email']].head())


Total de emails duplicados: 4

Exemplos de Emails duplicados:
    cod_cliente primeiro_nome ultimo_nome                  email
290         205  Ana Carolina      Duarte  dteixeira@example.net
314         870        Arthur      Farias  dteixeira@example.net
359         151         Maitê      Santos   mcardoso@example.net
671         547     Gabrielly     da Cruz   mcardoso@example.net
2           693         Renan        Dias     ogomes@example.net


* **Dicionário de dados de Clientes**:

In [25]:
data_dictionary_clientes = pd.DataFrame([
    {
        'variavel': 'cod_cliente',
        'descricao': 'Código identificador único do cliente, utilizado como chave primária no sistema',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'primeiro_nome',
        'descricao': 'Primeiro nome do cliente',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'ultimo_nome',
        'descricao': 'Último nome ou sobrenome do cliente',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'nome_completo',
        'descricao': 'Nome completo do cliente (junção entre primeiro e último nome)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal derivada',
    },
    {
        'variavel': 'email',
        'descricao': 'Endereço de e-mail do cliente, utilizado como meio de contato',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'tipo_cliente',
        'descricao': 'Classificação do cliente: PF (Pessoa Física) ou PJ (Pessoa Jurídica)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal categórica',
    },
    {
        'variavel': 'data_inclusao',
        'descricao': 'Data de inclusão do cliente no sistema (sem horário)',
        'tipo': 'quantitativa',
        'subtipo': 'contínua temporal',
    },
    {
        'variavel': 'cpfcnpj',
        'descricao': 'Número de CPF (Pessoa Física) ou CNPJ (Pessoa Jurídica), identificador pessoal ou empresarial único',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador sensível',
    },
    {
        'variavel': 'data_nascimento',
        'descricao': 'Data de nascimento do cliente (quando Pessoa Física)',
        'tipo': 'quantitativa',
        'subtipo': 'contínua temporal',
    },
    {
        'variavel': 'endereco',
        'descricao': 'Endereço completo do cliente (rua, número, bairro, cidade e estado)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'cep',
        'descricao': 'Código de Endereçamento Postal (CEP) do cliente',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador geográfico',
    }
])

data_dictionary_clientes.head(20)


Unnamed: 0,variavel,descricao,tipo,subtipo
0,cod_cliente,"Código identificador único do cliente, utiliza...",qualitativa,nominal identificador
1,primeiro_nome,Primeiro nome do cliente,qualitativa,nominal
2,ultimo_nome,Último nome ou sobrenome do cliente,qualitativa,nominal
3,nome_completo,Nome completo do cliente (junção entre primeir...,qualitativa,nominal derivada
4,email,"Endereço de e-mail do cliente, utilizado como ...",qualitativa,nominal identificador
5,tipo_cliente,Classificação do cliente: PF (Pessoa Física) o...,qualitativa,nominal categórica
6,data_inclusao,Data de inclusão do cliente no sistema (sem ho...,quantitativa,contínua temporal
7,cpfcnpj,Número de CPF (Pessoa Física) ou CNPJ (Pessoa ...,qualitativa,nominal identificador sensível
8,data_nascimento,Data de nascimento do cliente (quando Pessoa F...,quantitativa,contínua temporal
9,endereco,"Endereço completo do cliente (rua, número, bai...",qualitativa,nominal


* **Salvamento dos arquivos**:

In [30]:
data_dictionary_clientes.to_csv('../data/data-dictionary/data_dictionary_clientes.csv', index=False)

In [29]:
clientes.to_csv('../data/pos-processamento/clientes_atualizada.csv', index=False)

* **Observações**:
    * Não há valores faltantes. 
    * Datas foram convertidas para datetime, com remoção de caracteres e horas. 
    * Criada coluna de nome completo para evitar repetições. 
    * Verificadas duplicidades: quatro e-mails repetidos, mas não necessariamente erro. 
    * Todos os registros são PJ, podendo indicar ausência de dados de PF ou formato real do banco.

## Colaborador por Agência

* **Leitura dos dados por Agência**:

In [30]:
Colaborador_agencia = pd.read_csv("../data/pre-processamento/colaborador_agencia.csv", sep=',')
Colaborador_agencia.head(10)

Unnamed: 0,cod_colaborador,cod_agencia
0,7,1
1,13,1
2,14,1
3,23,1
4,24,1
5,30,1
6,31,1
7,34,1
8,42,1
9,58,1


In [31]:
Colaborador_agencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   cod_colaborador  100 non-null    int64
 1   cod_agencia      100 non-null    int64
dtypes: int64(2)
memory usage: 1.7 KB


* **Verificação de valores faltantes**:

In [32]:
valores_faltantes_Colaborador_agencia = Colaborador_agencia.isnull().values.any()

if valores_faltantes_Colaborador_agencia:
    print("Há valores falantes no dataset de colaboradores por agência.")
else:
    print("Não há valores faltantes no dataset de colaboradores por agência.")

Não há valores faltantes no dataset de colaboradores por agência.


* **Transformação de dados**:

In [33]:
Colaborador_agencia['cod_agencia'] = Colaborador_agencia['cod_agencia'].astype(str)

In [34]:
Colaborador_agencia['cod_colaborador'] = Colaborador_agencia['cod_colaborador'].astype(str)

In [35]:
Colaborador_agencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cod_colaborador  100 non-null    object
 1   cod_agencia      100 non-null    object
dtypes: object(2)
memory usage: 1.7+ KB


* **Verificação de duplicidade de dados**:

In [36]:
Colaborador_agencia.nunique()

cod_colaborador    100
cod_agencia         10
dtype: int64

In [None]:
duplicados_colaborador = Colaborador_agencia[Colaborador_agencia.duplicated('cod_colaborador', keep=False)]
print("\nDuplicatas em cod_colaborador:")
print(duplicados_colaborador)

duplicados_agencia = Colaborador_agencia[Colaborador_agencia.duplicated('cod_agencia', keep=False)]
print("\nDuplicatas em cod_agencia (esperado, pois cada agência tem vários colaboradores):")
print(duplicados_agencia.head())

duplicados_relacao = Colaborador_agencia[Colaborador_agencia.duplicated(['cod_colaborador','cod_agencia'], keep=False)]
print("\nDuplicatas na relação colaborador-agência:")
print(duplicados_relacao)



Duplicatas em cod_colaborador:
Empty DataFrame
Columns: [cod_colaborador, cod_agencia]
Index: []

Duplicatas em cod_agencia (esperado, pois cada agência tem vários colaboradores):
  cod_colaborador cod_agencia
0               7           1
1              13           1
2              14           1
3              23           1
4              24           1

Duplicatas na relação colaborador-agência:
Empty DataFrame
Columns: [cod_colaborador, cod_agencia]
Index: []


* **Dicionário de dados de Colaborador por Agência**:

In [31]:
data_dictionary_colaborador_agencia = pd.DataFrame([
    {
        'variavel': 'cod_colaborador',
        'descricao': 'Identificador único do colaborador dentro do sistema',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'cod_agencia',
        'descricao': 'Código da agência a qual o colaborador está vinculado (chave estrangeira para tabela de agências)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal relacional',
    }
])

data_dictionary_colaborador_agencia.head()

Unnamed: 0,variavel,descricao,tipo,subtipo
0,cod_colaborador,Identificador único do colaborador dentro do s...,qualitativa,nominal identificador
1,cod_agencia,Código da agência a qual o colaborador está vi...,qualitativa,nominal relacional


* **Salvamento dos arquivos**:

In [32]:
data_dictionary_colaborador_agencia.to_csv('../data/data-dictionary/data_colaborador_agencia.csv', index=False)

In [40]:
Colaborador_agencia.to_csv('../data/pos-processamento/colaborador_agencia_atualizada.csv', index=False)

* **Observações**:
    * Não há valores faltantes. 
    * As colunas de identificação de colaborador e Agência foram transformadas para string
    * Verificadas duplicidades: Não há nada fora do comum,  100 dados de colaboradores e 10 de Agência, ambos identificadores únicos 

## Colaboradores

* **Leitura dos dados de Colaboradores**:

In [41]:
Colaboradores = pd.read_csv("../data/pre-processamento/colaboradores.csv", sep=',')
Colaboradores.head(10)

Unnamed: 0,cod_colaborador,primeiro_nome,ultimo_nome,email,cpf,data_nascimento,endereco,cep
0,14,Paulo,Dias,melissalopes@example.net,847.210.695-02,1974-04-24,"Lagoa de Rodrigues, 62 Zilah Sposito 37328-273...",27275674
1,19,Luiz Fernando,Dias,pcunha@example.net,820.415.963-33,1994-07-10,"Ladeira de Moreira, 82 Jardim Atlântico 27617-...",50013962
2,32,Vitor Hugo,Dias,aragaonicolas@example.net,936.172.548-37,1986-12-18,Área Sophie Moreira Maria Virgínia 71941-111 S...,08955-215
3,88,João Gabriel,Lima,luiz-otaviorezende@example.org,967.082.451-67,1994-10-19,"Trevo Murilo Ramos, 92 São Benedito 73615-597 ...",24224-305
4,39,Maria Eduarda,Melo,joao-pedro72@example.com,857.496.210-49,1996-03-01,"Parque de Moura, 65 Granja Werneck 67769059 da...",96896390
5,41,Olivia,Costa,sabrina59@example.com,190.768.435-20,1966-01-30,"Favela Rocha, 94 Laranjeiras 92500120 Viana / GO",90019993
6,45,Laura,Cunha,lviana@example.org,217.583.096-95,1977-02-07,"Lagoa Benício Moura, 5 Vila Paraíso 50235854 d...",19415-341
7,100,Lavínia,Cunha,noahmoraes@example.com,062.937.158-02,1975-03-24,"Colônia Lima, 83 Flamengo 36172-665 da Mota / SE",74890752
8,16,Benjamin,Gomes,vjesus@example.org,718.950.436-20,1963-12-21,"Conjunto Gomes, 888 Céu Azul 76308-427 Lopes d...",29604844
9,46,Alana,Gomes,samuel76@example.com,768.134.950-20,1977-07-16,Fazenda Emilly Costa Campo Alegre 55916-800 da...,88161-168


In [42]:
Colaboradores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cod_colaborador  100 non-null    int64 
 1   primeiro_nome    100 non-null    object
 2   ultimo_nome      100 non-null    object
 3   email            100 non-null    object
 4   cpf              100 non-null    object
 5   data_nascimento  100 non-null    object
 6   endereco         100 non-null    object
 7   cep              100 non-null    object
dtypes: int64(1), object(7)
memory usage: 6.4+ KB


* **Verificação de valores faltantes**:

In [43]:
valores_faltantes_Colaboradores = Colaboradores.isnull().values.any()

if valores_faltantes_Colaboradores:
    print("Há valores falantes no dataset de colaboradores.")
else:
    print("Não há valores faltantes no dataset de colaboradores.")

Não há valores faltantes no dataset de colaboradores.


* **Transformação de dados**:

In [44]:
Colaboradores['cod_colaborador'] = Colaboradores['cod_colaborador'].astype(str)

In [45]:
Colaboradores['data_nascimento'] = pd.to_datetime(Colaboradores['data_nascimento'], format='%Y-%m-%d')

In [46]:
Colaboradores["nome_completo"] = (
    Colaboradores["primeiro_nome"].astype(str) + " " + Colaboradores["ultimo_nome"].astype(str)
)

In [47]:
Colaboradores.head()

Unnamed: 0,cod_colaborador,primeiro_nome,ultimo_nome,email,cpf,data_nascimento,endereco,cep,nome_completo
0,14,Paulo,Dias,melissalopes@example.net,847.210.695-02,1974-04-24,"Lagoa de Rodrigues, 62 Zilah Sposito 37328-273...",27275674,Paulo Dias
1,19,Luiz Fernando,Dias,pcunha@example.net,820.415.963-33,1994-07-10,"Ladeira de Moreira, 82 Jardim Atlântico 27617-...",50013962,Luiz Fernando Dias
2,32,Vitor Hugo,Dias,aragaonicolas@example.net,936.172.548-37,1986-12-18,Área Sophie Moreira Maria Virgínia 71941-111 S...,08955-215,Vitor Hugo Dias
3,88,João Gabriel,Lima,luiz-otaviorezende@example.org,967.082.451-67,1994-10-19,"Trevo Murilo Ramos, 92 São Benedito 73615-597 ...",24224-305,João Gabriel Lima
4,39,Maria Eduarda,Melo,joao-pedro72@example.com,857.496.210-49,1996-03-01,"Parque de Moura, 65 Granja Werneck 67769059 da...",96896390,Maria Eduarda Melo


In [48]:
Colaboradores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   cod_colaborador  100 non-null    object        
 1   primeiro_nome    100 non-null    object        
 2   ultimo_nome      100 non-null    object        
 3   email            100 non-null    object        
 4   cpf              100 non-null    object        
 5   data_nascimento  100 non-null    datetime64[ns]
 6   endereco         100 non-null    object        
 7   cep              100 non-null    object        
 8   nome_completo    100 non-null    object        
dtypes: datetime64[ns](1), object(8)
memory usage: 7.2+ KB


* **Verificação de duplicidade de dados**:

In [49]:
Colaboradores.nunique()

cod_colaborador    100
primeiro_nome       79
ultimo_nome         51
email              100
cpf                100
data_nascimento    100
endereco           100
cep                100
nome_completo      100
dtype: int64

* **Dicionário de dados de Colaboradores**:

In [33]:
data_dictionary_colaboradores = pd.DataFrame([
    {
        'variavel': 'cod_colaborador',
        'descricao': 'Código identificador único do colaborador no sistema',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'primeiro_nome',
        'descricao': 'Primeiro nome do colaborador',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'ultimo_nome',
        'descricao': 'Último nome ou sobrenome do colaborador',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'nome_completo',
        'descricao': 'Nome completo do colaborador (junção entre primeiro nome e último nome)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal derivada',
    },
    {
        'variavel': 'email',
        'descricao': 'Endereço de e-mail do colaborador, utilizado como meio de contato',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'cpf',
        'descricao': 'Número de CPF do colaborador, identificador pessoal único',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador sensível',
    },
    {
        'variavel': 'data_nascimento',
        'descricao': 'Data de nascimento do colaborador',
        'tipo': 'quantitativa',
        'subtipo': 'contínua temporal',
    },
    {
        'variavel': 'endereco',
        'descricao': 'Endereço completo do colaborador (rua, número, bairro, cidade e estado)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'cep',
        'descricao': 'Código de Endereçamento Postal (CEP) do colaborador',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador geográfico',
    }
])

data_dictionary_colaboradores.head(10)




Unnamed: 0,variavel,descricao,tipo,subtipo
0,cod_colaborador,Código identificador único do colaborador no s...,qualitativa,nominal identificador
1,primeiro_nome,Primeiro nome do colaborador,qualitativa,nominal
2,ultimo_nome,Último nome ou sobrenome do colaborador,qualitativa,nominal
3,nome_completo,Nome completo do colaborador (junção entre pri...,qualitativa,nominal derivada
4,email,"Endereço de e-mail do colaborador, utilizado c...",qualitativa,nominal identificador
5,cpf,"Número de CPF do colaborador, identificador pe...",qualitativa,nominal identificador sensível
6,data_nascimento,Data de nascimento do colaborador,quantitativa,contínua temporal
7,endereco,"Endereço completo do colaborador (rua, número,...",qualitativa,nominal
8,cep,Código de Endereçamento Postal (CEP) do colabo...,qualitativa,nominal identificador geográfico


* **Salvamento dos arquivos**:

In [34]:
data_dictionary_colaboradores.to_csv('../data/data-dictionary/data_colaboradores.csv', index=False)

In [52]:
Colaboradores.to_csv('../data/pos-processamento/colaboradores_atualizada.csv', index=False)

* **Observações**:
    * Não há valores faltantes. 
    * As colunas de identificação de colaborador foi transformada para string.
    * A coluna data de nascimento foi transformada para datetime.
    * Feita a junção das colunas de primeiro e último nome em apenas uma, o que facilita a identificação.
    Verificadas duplicidades: Não há nada fora do comum, mas observa-se que a coluna nome ou sobrenome apresentaria repetição, diferente da coluna de junção que apresentou nomes completo únicos. 

## Contas

* **Leitura dos dados de Contas**:

In [53]:
contas = pd.read_csv("../data/pre-processamento/contas.csv", sep=',')
contas.head(10)

Unnamed: 0,num_conta,cod_cliente,cod_agencia,cod_colaborador,tipo_conta,data_abertura,saldo_total,saldo_disponivel,data_ultimo_lancamento
0,53,53,1,7,PF,2011-05-24 15:30:00 UTC,2984.7615,2814.67,2019-07-02 11:03:46 UTC
1,190,190,1,7,PF,2014-10-17 14:48:00 UTC,4262.4322,4191.86,2021-03-25 12:00:15 UTC
2,191,191,1,7,PF,2013-03-23 14:14:00 UTC,3266.568,3080.71,2016-09-09 23:34:15 UTC
3,203,203,1,7,PF,2016-08-03 16:13:00 UTC,21241.5424,19461.56,2022-12-28 07:58:24 UTC
4,254,254,1,7,PF,2012-10-24 13:48:00 UTC,13335.6966,13197.54,2013-12-20 22:20:00 UTC
5,306,306,1,7,PF,2012-05-23 12:11:00 UTC,22997.4738,21677.88,2016-10-05 03:14:36 UTC
6,472,472,1,7,PF,2022-08-07 12:08:00 UTC,4178.4237,4183.68,2022-12-30 00:00:00.67516 UTC
7,520,520,1,7,PF,2019-11-03 16:26:00 UTC,1809.8087,1288.51,2022-12-29 23:59:59.753932 UTC
8,739,739,1,7,PF,2014-02-26 12:20:00 UTC,45.7691,616.79,2022-12-29 23:59:59.789361 UTC
9,509,509,1,13,PF,2012-01-20 11:56:00 UTC,19159.7952,19863.76,2016-06-09 22:25:04 UTC


In [54]:
contas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   num_conta               999 non-null    int64  
 1   cod_cliente             999 non-null    int64  
 2   cod_agencia             999 non-null    int64  
 3   cod_colaborador         999 non-null    int64  
 4   tipo_conta              999 non-null    object 
 5   data_abertura           999 non-null    object 
 6   saldo_total             999 non-null    float64
 7   saldo_disponivel        999 non-null    float64
 8   data_ultimo_lancamento  999 non-null    object 
dtypes: float64(2), int64(4), object(3)
memory usage: 70.4+ KB


* **Verificação de valores faltantes**:

In [55]:
valores_faltantes_contas = contas.isnull().values.any()

if valores_faltantes_contas:
    print("Há valores falantes no dataset de contas.")
else:
    print("Não há valores faltantes no dataset de contas.")

Não há valores faltantes no dataset de contas.


* **Transformação de dados**:

In [None]:
contas['num_conta'] = contas['num_conta'].astype(str)
contas['cod_cliente'] = contas['cod_cliente'].astype(str)
contas['cod_agencia'] = contas['cod_agencia'].astype(str)
contas['cod_colaborador'] = contas['cod_colaborador'].astype(str)

In [None]:
contas['data_abertura_temp'] = contas['data_abertura'].astype(str).str.replace(" UTC", "", regex=False)

contas['data_abertura_temp'] = contas['data_abertura_temp'].str[:10]

contas['data_abertura'] = pd.to_datetime(contas['data_abertura_temp'])

contas['data_ultimo_lancamento_temp'] = contas['data_ultimo_lancamento'].astype(str).str.replace(" UTC", "", regex=False)
contas['data_ultimo_lancamento_temp'] = contas['data_ultimo_lancamento_temp'].str[:10]
contas['data_ultimo_lancamento'] = pd.to_datetime(contas['data_ultimo_lancamento_temp'])

del contas['data_abertura_temp']
del contas['data_ultimo_lancamento_temp']

In [62]:
contas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   num_conta               999 non-null    object        
 1   cod_cliente             999 non-null    object        
 2   cod_agencia             999 non-null    object        
 3   cod_colaborador         999 non-null    object        
 4   tipo_conta              999 non-null    object        
 5   data_abertura           999 non-null    datetime64[ns]
 6   saldo_total             999 non-null    float64       
 7   saldo_disponivel        999 non-null    float64       
 8   data_ultimo_lancamento  999 non-null    datetime64[ns]
dtypes: datetime64[ns](2), float64(2), object(5)
memory usage: 70.4+ KB


In [63]:
contas.head(10)

Unnamed: 0,num_conta,cod_cliente,cod_agencia,cod_colaborador,tipo_conta,data_abertura,saldo_total,saldo_disponivel,data_ultimo_lancamento
0,53,53,1,7,PF,2011-05-24,2984.7615,2814.67,2019-07-02
1,190,190,1,7,PF,2014-10-17,4262.4322,4191.86,2021-03-25
2,191,191,1,7,PF,2013-03-23,3266.568,3080.71,2016-09-09
3,203,203,1,7,PF,2016-08-03,21241.5424,19461.56,2022-12-28
4,254,254,1,7,PF,2012-10-24,13335.6966,13197.54,2013-12-20
5,306,306,1,7,PF,2012-05-23,22997.4738,21677.88,2016-10-05
6,472,472,1,7,PF,2022-08-07,4178.4237,4183.68,2022-12-30
7,520,520,1,7,PF,2019-11-03,1809.8087,1288.51,2022-12-29
8,739,739,1,7,PF,2014-02-26,45.7691,616.79,2022-12-29
9,509,509,1,13,PF,2012-01-20,19159.7952,19863.76,2016-06-09


* **Verificação de duplicidade de dados**:

In [64]:
contas.nunique()

num_conta                 999
cod_cliente               999
cod_agencia                10
cod_colaborador            94
tipo_conta                  1
data_abertura             870
saldo_total               999
saldo_disponivel          999
data_ultimo_lancamento    319
dtype: int64

* **Dicionário de dados de Contas**:

In [2]:
data_dictionary_contas = pd.DataFrame([
    {
        'variavel': 'num_conta',
        'descricao': 'Número da conta bancária, usado como identificador único da conta',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'cod_cliente',
        'descricao': 'Código do cliente titular da conta (chave estrangeira para tabela clientes)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal relacional',
    },
    {
        'variavel': 'cod_agencia',
        'descricao': 'Código da agência onde a conta foi aberta (chave estrangeira para tabela agências)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal relacional',
    },
    {
        'variavel': 'cod_colaborador',
        'descricao': 'Código do colaborador responsável pelo atendimento na abertura da conta (chave estrangeira para tabela colaboradores)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal relacional',
    },
    {
        'variavel': 'tipo_conta',
        'descricao': 'Tipo da conta: PF (Pessoa Física) ou PJ (Pessoa Jurídica)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal binária',
    },
    {
        'variavel': 'data_abertura',
        'descricao': 'Data em que a conta foi aberta',
        'tipo': 'quantitativa',
        'subtipo': 'discreta temporal',
    },
    {
        'variavel': 'saldo_total',
        'descricao': 'Saldo total da conta, incluindo valores que ainda não estão disponíveis',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'saldo_disponivel',
        'descricao': 'Saldo disponível para movimentação na conta',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'data_ultimo_lancamento',
        'descricao': 'Data do último lançamento registrado na conta',
        'tipo': 'quantitativa',
        'subtipo': 'discreta temporal',
    }
])

data_dictionary_contas.head(15)


Unnamed: 0,variavel,descricao,tipo,subtipo
0,num_conta,"Número da conta bancária, usado como identific...",qualitativa,nominal identificador
1,cod_cliente,Código do cliente titular da conta (chave estr...,qualitativa,nominal relacional
2,cod_agencia,Código da agência onde a conta foi aberta (cha...,qualitativa,nominal relacional
3,cod_colaborador,Código do colaborador responsável pelo atendim...,qualitativa,nominal relacional
4,tipo_conta,Tipo da conta: PF (Pessoa Física) ou PJ (Pesso...,qualitativa,nominal binária
5,data_abertura,Data em que a conta foi aberta,quantitativa,discreta temporal
6,saldo_total,"Saldo total da conta, incluindo valores que ai...",quantitativa,contínua
7,saldo_disponivel,Saldo disponível para movimentação na conta,quantitativa,contínua
8,data_ultimo_lancamento,Data do último lançamento registrado na conta,quantitativa,discreta temporal


* **Salvamento dos arquivos**:

In [36]:
data_dictionary_contas.to_csv('../data/data-dictionary/data_contas.csv', index=False)

In [68]:
contas.to_csv('../data/pos-processamento/contas_atualizada.csv', index=False)

* **Observações**:
    * Não há valores faltantes. 
    * As colunas de identificação de colaborador, cliente, agência e conta foram transformadas para string.
    * As colunas de data de abertura e último lançamento foram transformadas para datetime e removido valores de string e hora para facilitar a análise de dados.
    * Verificadas duplicidades: não há nada fora do comum.


## Propostas de Crédito

* **Leitura dos dados de Propostas por Crédito**:

In [69]:
propostas_credito = pd.read_csv("../data/pre-processamento/propostas_credito.csv", sep=',')
propostas_credito.head(10)

Unnamed: 0,cod_proposta,cod_cliente,cod_colaborador,data_entrada_proposta,taxa_juros_mensal,valor_proposta,valor_financiamento,valor_entrada,valor_prestacao,quantidade_parcelas,carencia,status_proposta
0,116,338,1,2014-05-30 18:43:12 UTC,0.0194,36199.950355,50032.03,13832.079645,1045.219825,58,0,Enviada
1,715,45,1,2021-06-17 13:09:32 UTC,0.0131,12897.538285,19848.55,6951.011715,232.124685,100,1,Enviada
2,755,494,1,2021-08-10 04:24:02 UTC,0.0203,122236.312551,187154.36,64918.047449,3673.518951,56,0,Enviada
3,953,381,1,2011-02-23 07:57:58 UTC,0.0167,47784.649757,59530.61,11745.960243,955.04156,109,3,Enviada
4,1046,176,1,2010-11-15 16:03:28 UTC,0.0211,178393.038243,214294.19,35901.151757,10219.659415,22,4,Enviada
5,1171,732,1,2020-05-04 21:51:58 UTC,0.0242,40476.959008,56464.88,15987.920992,20976.064001,2,0,Enviada
6,1434,560,1,2020-01-31 00:02:49 UTC,0.0169,137637.61549,192947.94,55310.32451,2861.607605,100,0,Enviada
7,1744,159,1,2016-03-04 20:31:58 UTC,0.018,1317.125762,1605.63,288.504238,36.078665,60,2,Enviada
8,1864,776,1,2019-09-13 10:21:31 UTC,0.011,106127.47061,128472.96,22345.48939,1774.933849,98,4,Enviada
9,1928,421,1,2014-05-08 15:43:27 UTC,0.02,3455.606489,6668.98,3213.373511,211.333552,20,2,Enviada


In [70]:
propostas_credito.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   cod_proposta           2000 non-null   int64  
 1   cod_cliente            2000 non-null   int64  
 2   cod_colaborador        2000 non-null   int64  
 3   data_entrada_proposta  2000 non-null   object 
 4   taxa_juros_mensal      2000 non-null   float64
 5   valor_proposta         2000 non-null   float64
 6   valor_financiamento    2000 non-null   float64
 7   valor_entrada          2000 non-null   float64
 8   valor_prestacao        2000 non-null   float64
 9   quantidade_parcelas    2000 non-null   int64  
 10  carencia               2000 non-null   int64  
 11  status_proposta        2000 non-null   object 
dtypes: float64(5), int64(5), object(2)
memory usage: 187.6+ KB


* **Verificação de valores faltantes**:

In [71]:
valores_faltantes_propostas_credito = propostas_credito.isnull().values.any()

if valores_faltantes_propostas_credito:
    print("Há valores falantes no dataset de propostas de crédito.")
else:
    print("Não há valores faltantes no dataset de propostas de crédito.")

Não há valores faltantes no dataset de propostas de crédito.


* **Transformação de dados**:

In [72]:
propostas_credito['cod_proposta'] = propostas_credito['cod_proposta'].astype(str)

In [73]:
propostas_credito['cod_cliente'] = propostas_credito['cod_cliente'].astype(str)

In [74]:
propostas_credito['cod_colaborador'] = propostas_credito['cod_colaborador'].astype(str)

In [None]:
propostas_credito['data_entrada_proposta'] = propostas_credito['data_entrada_proposta'].astype(str).str.split(' ').str[0]

propostas_credito['data_entrada_proposta'] = pd.to_datetime(
    propostas_credito['data_entrada_proposta'],
    format="%Y-%m-%d",
    errors='coerce'
)


0   2014-05-30
1   2021-06-17
2   2021-08-10
3   2011-02-23
4   2010-11-15
Name: data_entrada_proposta, dtype: datetime64[ns]
0


In [None]:
carencia_ordem = sorted(propostas_credito['carencia'].unique())

carencia_map = {
    0: 'Muito Baixa',
    1: 'Baixa',
    2: 'Média',
    3: 'Média Alta',
    4: 'Alta',
    5: 'Muito Alta',
    6: 'Extrema'
}

propostas_credito['carencia'] = propostas_credito['carencia'].map(carencia_map)

In [77]:
propostas_credito.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   cod_proposta           2000 non-null   object        
 1   cod_cliente            2000 non-null   object        
 2   cod_colaborador        2000 non-null   object        
 3   data_entrada_proposta  2000 non-null   datetime64[ns]
 4   taxa_juros_mensal      2000 non-null   float64       
 5   valor_proposta         2000 non-null   float64       
 6   valor_financiamento    2000 non-null   float64       
 7   valor_entrada          2000 non-null   float64       
 8   valor_prestacao        2000 non-null   float64       
 9   quantidade_parcelas    2000 non-null   int64         
 10  carencia               2000 non-null   object        
 11  status_proposta        2000 non-null   object        
dtypes: datetime64[ns](1), float64(5), int64(1), object(5)
memory u

In [78]:
propostas_credito.head()

Unnamed: 0,cod_proposta,cod_cliente,cod_colaborador,data_entrada_proposta,taxa_juros_mensal,valor_proposta,valor_financiamento,valor_entrada,valor_prestacao,quantidade_parcelas,carencia,status_proposta
0,116,338,1,2014-05-30,0.0194,36199.950355,50032.03,13832.079645,1045.219825,58,Muito Baixa,Enviada
1,715,45,1,2021-06-17,0.0131,12897.538285,19848.55,6951.011715,232.124685,100,Baixa,Enviada
2,755,494,1,2021-08-10,0.0203,122236.312551,187154.36,64918.047449,3673.518951,56,Muito Baixa,Enviada
3,953,381,1,2011-02-23,0.0167,47784.649757,59530.61,11745.960243,955.04156,109,Média Alta,Enviada
4,1046,176,1,2010-11-15,0.0211,178393.038243,214294.19,35901.151757,10219.659415,22,Alta,Enviada


* **Verificação de duplicidade de dados**:

In [79]:
propostas_credito.nunique()

cod_proposta             2000
cod_cliente               861
cod_colaborador           100
data_entrada_proposta    1659
taxa_juros_mensal         171
valor_proposta           2000
valor_financiamento      2000
valor_entrada            2000
valor_prestacao          2000
quantidade_parcelas       120
carencia                    7
status_proposta             4
dtype: int64

* **Dicionário de dados de Propostas de Crédito**:

In [37]:
data_dictionary_proposta_credito = pd.DataFrame([
    {
        'variavel': 'cod_proposta',
        'descricao': 'Código identificador único da proposta de crédito',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'cod_cliente',
        'descricao': 'Código do cliente que solicitou a proposta (chave estrangeira para tabela clientes)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal relacional',
    },
    {
        'variavel': 'cod_colaborador',
        'descricao': 'Código do colaborador que recebeu ou analisou a proposta (chave estrangeira para tabela colaboradores)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal relacional',
    },
    {
        'variavel': 'data_entrada_proposta',
        'descricao': 'Data em que a proposta foi registrada no sistema (sem informação de hora)',
        'tipo': 'quantitativa',
        'subtipo': 'discreta temporal',
    },
    {
        'variavel': 'taxa_juros_mensal',
        'descricao': 'Taxa de juros aplicada à proposta de crédito (mensal)',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'valor_proposta',
        'descricao': 'Valor total solicitado pelo cliente na proposta de crédito',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'valor_financiamento',
        'descricao': 'Valor que será efetivamente financiado após entrada e ajustes',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'valor_entrada',
        'descricao': 'Valor de entrada pago pelo cliente na proposta',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'valor_prestacao',
        'descricao': 'Valor da parcela mensal calculada para a proposta',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'quantidade_parcelas',
        'descricao': 'Número de parcelas previstas para pagamento do financiamento',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'carencia',
        'descricao': 'Categoria ordinal que indica o nível da carência (Muito Baixa, Baixa, Média Alta, Alta)',
        'tipo': 'qualitativa',
        'subtipo': 'ordinal',
    },
    {
        'variavel': 'status_proposta',
        'descricao': 'Situação atual da proposta no sistema (ex: Enviada, Aprovada, Recusada)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    }
])


data_dictionary_proposta_credito.head(12)



Unnamed: 0,variavel,descricao,tipo,subtipo
0,cod_proposta,Código identificador único da proposta de crédito,qualitativa,nominal identificador
1,cod_cliente,Código do cliente que solicitou a proposta (ch...,qualitativa,nominal relacional
2,cod_colaborador,Código do colaborador que recebeu ou analisou ...,qualitativa,nominal relacional
3,data_entrada_proposta,Data em que a proposta foi registrada no siste...,quantitativa,discreta temporal
4,taxa_juros_mensal,Taxa de juros aplicada à proposta de crédito (...,quantitativa,contínua
5,valor_proposta,Valor total solicitado pelo cliente na propost...,quantitativa,contínua
6,valor_financiamento,Valor que será efetivamente financiado após en...,quantitativa,contínua
7,valor_entrada,Valor de entrada pago pelo cliente na proposta,quantitativa,contínua
8,valor_prestacao,Valor da parcela mensal calculada para a proposta,quantitativa,contínua
9,quantidade_parcelas,Número de parcelas previstas para pagamento do...,quantitativa,discreta


* **Salvamento dos arquivos**:

In [38]:
data_dictionary_proposta_credito.to_csv('../data/data-dictionary/data_propostas_credito.csv', index=False)

In [83]:
propostas_credito.to_csv('../data/pos-processamento/propostas_credito_atualizada.csv', index=False)

* **Observações**:
    * Não há valores faltantes. 
    * As colunas de identificação de colaborador, cliente e proposta de crédito foram transformadas para string.
    * A coluna de data de entrada da proposta foi transformada para datetime e removido valores de string e hora para facilitar a análise de dados.
    * A coluna carência foi transformada em valores categóricos, antes de 0 a 6, agora de muito baixa a extrema.
    * Verificadas duplicidades: não há nada fora do comum.

## Transações

* **Leitura dos dados de Transações**:

In [98]:
transacoes = pd.read_csv("../data/pre-processamento/transacoes.csv", sep=',')
transacoes.head(10)

Unnamed: 0,cod_transacao,num_conta,data_transacao,nome_transacao,valor_transacao
0,3100,256,2020-05-22 03:15:21 UTC,Saque,-130.0
1,28405,256,2021-06-29 11:52:38 UTC,Saque,-255.0
2,1776,512,2020-05-17 13:04:50 UTC,Saque,-250.0
3,14311,512,2020-09-06 02:55:34 UTC,Saque,-80.0
4,25012,512,2020-10-16 09:26:52 UTC,Saque,-475.0
5,26883,512,2020-11-09 00:47:27 UTC,Saque,-210.0
6,35017,512,2021-04-13 08:17:24 UTC,Saque,-50.0
7,46264,512,2021-05-01 06:25:50 UTC,Saque,-1160.0
8,21340,768,2020-02-14 21:42:15 UTC,Saque,-170.0
9,64259,1,2019-08-11 15:13:07 UTC,Saque,-245.0


In [99]:
transacoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71999 entries, 0 to 71998
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   cod_transacao    71999 non-null  int64  
 1   num_conta        71999 non-null  int64  
 2   data_transacao   71999 non-null  object 
 3   nome_transacao   71999 non-null  object 
 4   valor_transacao  71999 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 2.7+ MB


* **Verificação de valores faltantes**:

In [100]:
valores_faltantes_transacoes = transacoes.isnull().values.any()

if valores_faltantes_transacoes:
    print("Há valores falantes no dataset de transações.")
else:
    print("Não há valores faltantes no dataset de transações.")

Não há valores faltantes no dataset de transações.


* **Transformação de dados**:

In [101]:
transacoes['cod_transacao'] = transacoes['cod_transacao'].astype(str)
transacoes['num_conta'] = transacoes['num_conta'].astype(str)

In [None]:
transacoes['data_transacao'] = transacoes['data_transacao'].astype(str).str.split(' ').str[0]

transacoes['data_transacao'] = pd.to_datetime(transacoes['data_transacao'], format="%Y-%m-%d", errors='coerce')

0   2020-05-22
1   2021-06-29
2   2020-05-17
3   2020-09-06
4   2020-10-16
Name: data_transacao, dtype: datetime64[ns]
0


In [103]:
transacoes['dia_da_semana'] = transacoes['data_transacao'].dt.day_name(locale='pt_BR')

In [104]:
transacoes.head()

Unnamed: 0,cod_transacao,num_conta,data_transacao,nome_transacao,valor_transacao,dia_da_semana
0,3100,256,2020-05-22,Saque,-130.0,Sexta-feira
1,28405,256,2021-06-29,Saque,-255.0,Terça-feira
2,1776,512,2020-05-17,Saque,-250.0,Domingo
3,14311,512,2020-09-06,Saque,-80.0,Domingo
4,25012,512,2020-10-16,Saque,-475.0,Sexta-feira


In [105]:
transacoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71999 entries, 0 to 71998
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   cod_transacao    71999 non-null  object        
 1   num_conta        71999 non-null  object        
 2   data_transacao   71999 non-null  datetime64[ns]
 3   nome_transacao   71999 non-null  object        
 4   valor_transacao  71999 non-null  float64       
 5   dia_da_semana    71999 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 3.3+ MB


* **Verificação de duplicidade de dados**:

In [106]:
transacoes.nunique()

cod_transacao      71999
num_conta            999
data_transacao      4029
nome_transacao        15
valor_transacao    30166
dia_da_semana          7
dtype: int64

In [107]:
transacoes['nome_transacao'].unique()

array(['Saque', 'Pix Saque', 'Compra Débito', 'DOC - Recebido',
       'Pix - Recebido', 'TED - Recebido', 'Compra Crédito',
       'DOC - Realizado', 'Pix - Realizado', 'TED - Realizado',
       'Estorno de Debito', 'Pagamento de boleto', 'Depósito em espécie',
       'Transferência entre CC - Débito',
       'Transferência entre CC - Crédito'], dtype=object)

* **Dicionário de dados por Transações**:

In [39]:
data_dictionary_transacoes = pd.DataFrame([
    {
        'variavel': 'cod_transacao',
        'descricao': 'Código identificador único da transação',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'num_conta',
        'descricao': 'Número da conta associada à transação (chave estrangeira para tabela contas)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal relacional',
    },
    {
        'variavel': 'data_transacao',
        'descricao': 'Data e hora em que a transação foi realizada',
        'tipo': 'quantitativa',
        'subtipo': 'discreta temporal',
    },
    {
        'variavel': 'nome_transacao',
        'descricao': 'Tipo ou descrição da transação (ex: Saque, Depósito, Transferência)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'valor_transacao',
        'descricao': 'Valor da transação, negativo para saques e positivo para depósitos',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    }
])

data_dictionary_transacoes.head(10)


Unnamed: 0,variavel,descricao,tipo,subtipo
0,cod_transacao,Código identificador único da transação,qualitativa,nominal identificador
1,num_conta,Número da conta associada à transação (chave e...,qualitativa,nominal relacional
2,data_transacao,Data e hora em que a transação foi realizada,quantitativa,discreta temporal
3,nome_transacao,"Tipo ou descrição da transação (ex: Saque, Dep...",qualitativa,nominal
4,valor_transacao,"Valor da transação, negativo para saques e pos...",quantitativa,contínua


* **Salvamento dos arquivos**:

In [40]:
data_dictionary_transacoes.to_csv('../data/data-dictionary/data_transacoes.csv', index=False)

In [110]:
transacoes.to_csv('../data/pos-processamento/transacoes_atualizada.csv', index=False)

* **Observações**:
    * Não há valores faltantes. 
    * As colunas de identificação de transação e conta foram transformadas para string.
    * A coluna de data de transação foi transformada para datetime e removido valores de string e hora para facilitar a análise de dados.
    * Criada coluna dia da semana com base na coluna de data transação para atender aos requisitos de entrega.
    * Verificadas duplicidades: não há nada fora do comum.

## Clientes (Dados Externos)

* **Leitura dos dados de Clientes (Dados Externos)**:

In [2]:
clientes_dados_externos = pd.read_csv('../data/pre-processamento/Clientes-dados-externos.csv', sep=',')
clientes_dados_externos.head(20)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,Complain,Satisfaction Score,Card Type,Point Earned
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1,1,2,DIAMOND,464
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0,1,3,DIAMOND,456
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1,1,3,DIAMOND,377
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0,0,5,GOLD,350
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0,0,5,GOLD,425
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1,1,5,DIAMOND,484
6,7,15592531,Bartlett,822,France,Male,50,7,0.0,2,1,1,10062.8,0,0,2,SILVER,206
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,1,0,119346.88,1,1,2,DIAMOND,282
8,9,15792365,He,501,France,Male,44,4,142051.07,2,0,1,74940.5,0,0,3,GOLD,251
9,10,15592389,H?,684,France,Male,27,2,134603.88,1,1,1,71725.73,0,0,3,GOLD,342


In [16]:
clientes_dados_externos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   RowNumber           10000 non-null  int64  
 1   CustomerId          10000 non-null  int64  
 2   Surname             10000 non-null  object 
 3   CreditScore         10000 non-null  int64  
 4   Geography           10000 non-null  object 
 5   Gender              10000 non-null  object 
 6   Age                 10000 non-null  int64  
 7   Tenure              10000 non-null  int64  
 8   Balance             10000 non-null  float64
 9   NumOfProducts       10000 non-null  int64  
 10  HasCrCard           10000 non-null  int64  
 11  IsActiveMember      10000 non-null  int64  
 12  EstimatedSalary     10000 non-null  float64
 13  Exited              10000 non-null  int64  
 14  Complain            10000 non-null  int64  
 15  Satisfaction Score  10000 non-null  int64  
 16  Card 

* **Verificação de valores faltantes**:

In [17]:
clientes_dados_externos = clientes_dados_externos.isnull().values.any()

if clientes_dados_externos:
    print("Há valores falantes no dataset de Clientes externos.")
else:
    print("Não há valores faltantes no dataset de Clientes externos.")

Não há valores faltantes no dataset de Clientes externos.


* **Transformação de dados**:

In [15]:
clientes_dados_externos['ID_Cliente'] = clientes_dados_externos['ID_Cliente'].astype(str)

In [None]:
colunas_atualizacao = {
    "RowNumber": "Numero_Linha",
    "CustomerId": "ID_Cliente",
    "Surname": "Sobrenome",
    "CreditScore": "Pontuação_Credito",
    "Geography": "Pais",
    "Gender": "Genero",
    "Age": "Idade",
    "Tenure": "Tempo_Relacionamento",
    "Balance": "Saldo",
    "NumOfProducts": "Numero_Produtos",
    "HasCrCard": "Possui_Cartao_Credito",
    "IsActiveMember": "Membro_Ativo",
    "EstimatedSalary": "Salario_Estimado",
    "Exited": "Saiu",
    "Complain": "Reclamou",
    "Satisfaction Score": "Pontuaçao_Satisfaçao",
    "Card Type": "Tipo_Cartao",
    "Point Earned": "Pontos_Acumulados"
}

clientes_dados_externos = clientes_dados_externos.rename(columns=colunas_atualizacao)
clientes_dados_externos.head()


Unnamed: 0,Numero_Linha,ID_Cliente,Sobrenome,Pontuação_Credito,Pais,Genero,Idade,Tempo_Relacionamento,Saldo,Numero_Produtos,Possui_Cartao_Credito,Membro_Ativo,Salario_Estimado,Saiu,Reclamou,Pontuaçao_Satisfaçao,Tipo_Cartao,Pontos_Acumulados
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1,1,2,DIAMOND,464
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0,1,3,DIAMOND,456
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1,1,3,DIAMOND,377
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0,0,5,GOLD,350
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0,0,5,GOLD,425


In [8]:
traducao_genero = {'Female': 'Feminino', 'Male': 'Masculino'}
clientes_dados_externos['Genero'] = clientes_dados_externos['Genero'].replace(traducao_genero)

traducao_geografia = {'France': 'França', 'Spain': 'Espanha', 'Germany': 'Alemanha'}
clientes_dados_externos['Pais'] = clientes_dados_externos['Pais'].replace(traducao_geografia)

traducao_cartao = {'DIAMOND': 'Diamante', 'GOLD': 'Ouro', 'SILVER': 'Prata', 'PLATINUM': 'Platina'}
clientes_dados_externos['Tipo_Cartao'] = clientes_dados_externos['Tipo_Cartao'].replace(traducao_cartao)

In [13]:
colunas_binarias = ["Possui_Cartao_Credito", "Membro_Ativo", "Saiu", "Reclamou"]
clientes_dados_externos[colunas_binarias] = clientes_dados_externos[colunas_binarias].replace({1: "Sim", 0: "Não"})

In [16]:
clientes_dados_externos.head()

Unnamed: 0,Numero_Linha,ID_Cliente,Sobrenome,Pontuação_Credito,Pais,Genero,Idade,Tempo_Relacionamento,Saldo,Numero_Produtos,Possui_Cartao_Credito,Membro_Ativo,Salario_Estimado,Saiu,Reclamou,Pontuaçao_Satisfaçao,Tipo_Cartao,Pontos_Acumulados
0,1,15634602,Hargrave,619,França,Feminino,42,2,0.0,1,Sim,Sim,101348.88,Sim,Sim,2,Diamante,464
1,2,15647311,Hill,608,Espanha,Feminino,41,1,83807.86,1,Não,Sim,112542.58,Não,Sim,3,Diamante,456
2,3,15619304,Onio,502,França,Feminino,42,8,159660.8,3,Sim,Não,113931.57,Sim,Sim,3,Diamante,377
3,4,15701354,Boni,699,França,Feminino,39,1,0.0,2,Não,Não,93826.63,Não,Não,5,Ouro,350
4,5,15737888,Mitchell,850,Espanha,Feminino,43,2,125510.82,1,Sim,Sim,79084.1,Não,Não,5,Ouro,425


In [17]:
clientes_dados_externos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Numero_Linha           10000 non-null  int64  
 1   ID_Cliente             10000 non-null  object 
 2   Sobrenome              10000 non-null  object 
 3   Pontuação_Credito      10000 non-null  int64  
 4   Pais                   10000 non-null  object 
 5   Genero                 10000 non-null  object 
 6   Idade                  10000 non-null  int64  
 7   Tempo_Relacionamento   10000 non-null  int64  
 8   Saldo                  10000 non-null  float64
 9   Numero_Produtos        10000 non-null  int64  
 10  Possui_Cartao_Credito  10000 non-null  object 
 11  Membro_Ativo           10000 non-null  object 
 12  Salario_Estimado       10000 non-null  float64
 13  Saiu                   10000 non-null  object 
 14  Reclamou               10000 non-null  object 
 15  Pon

* **Verificação de duplicidade de dados**:

In [9]:
clientes_dados_externos.nunique()

Numero_Linha             10000
ID_Cliente               10000
Sobrenome                 2932
Pontuação_Credito          460
Pais                         3
Genero                       2
Idade                       70
Tempo_Relacionamento        11
Saldo                     6382
Numero_Produtos              4
Possui_Cartao_Credito        2
Membro_Ativo                 2
Salario_Estimado          9999
Saiu                         2
Reclamou                     2
Pontuaçao_Satisfaçao         5
Tipo_Cartao                  4
Pontos_Acumulados          785
dtype: int64

* **Dicionário de dados de Clientes (Externos)**:

In [3]:
data_dictionary_clientes_externos = pd.DataFrame([
    {
        'variavel': 'Numero_Linha',
        'descricao': 'Número sequencial da linha no dataset',
        'tipo': 'quantitativa',
        'subtipo': 'discreta identificador técnico',
    },
    {
        'variavel': 'ID_Cliente',
        'descricao': 'Identificador único do cliente',
        'tipo': 'qualitativa',
        'subtipo': 'nominal identificador',
    },
    {
        'variavel': 'Sobrenome',
        'descricao': 'Sobrenome do cliente',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'Pontuação_Credito',
        'descricao': 'Pontuação de crédito do cliente atribuída pela instituição',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'Pais',
        'descricao': 'País de residência do cliente',
        'tipo': 'qualitativa',
        'subtipo': 'nominal',
    },
    {
        'variavel': 'Genero',
        'descricao': 'Gênero do cliente (Masculino/Feminino)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal binária',
    },
    {
        'variavel': 'Idade',
        'descricao': 'Idade do cliente em anos',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'Tempo_Relacionamento',
        'descricao': 'Tempo em anos que o cliente mantém relacionamento com o banco',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'Saldo',
        'descricao': 'Saldo atual do cliente na conta bancária',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'Numero_Produtos',
        'descricao': 'Número de produtos adquiridos pelo cliente',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    },
    {
        'variavel': 'Possui_Cartao_Credito',
        'descricao': 'Indica se o cliente possui cartão de crédito (Sim/Não)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal binária',
    },
    {
        'variavel': 'Membro_Ativo',
        'descricao': 'Indica se o cliente é um membro ativo (Sim/Não)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal binária',
    },
    {
        'variavel': 'Salario_Estimado',
        'descricao': 'Estimativa do salário anual do cliente',
        'tipo': 'quantitativa',
        'subtipo': 'contínua',
    },
    {
        'variavel': 'Saiu',
        'descricao': 'Indica se o cliente encerrou o relacionamento com o banco (Sim/Não)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal binária',
    },
    {
        'variavel': 'Reclamou',
        'descricao': 'Indica se o cliente registrou alguma reclamação (Sim/Não)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal binária',
    },
    {
        'variavel': 'Pontuaçao_Satisfaçao',
        'descricao': 'Pontuação de satisfação atribuída pelo cliente',
        'tipo': 'quantitativa',
        'subtipo': 'discreta ordinal',
    },
    {
        'variavel': 'Tipo_Cartao',
        'descricao': 'Tipo de cartão associado ao cliente (ex: Gold, Platinum, Diamond)',
        'tipo': 'qualitativa',
        'subtipo': 'nominal categórica',
    },
    {
        'variavel': 'Pontos_Acumulados',
        'descricao': 'Quantidade de pontos de fidelidade acumulados pelo cliente',
        'tipo': 'quantitativa',
        'subtipo': 'discreta',
    }
])

data_dictionary_clientes_externos.head(20)


Unnamed: 0,variavel,descricao,tipo,subtipo
0,Numero_Linha,Número sequencial da linha no dataset,quantitativa,discreta identificador técnico
1,ID_Cliente,Identificador único do cliente,qualitativa,nominal identificador
2,Sobrenome,Sobrenome do cliente,qualitativa,nominal
3,Pontuação_Credito,Pontuação de crédito do cliente atribuída pela...,quantitativa,discreta
4,Pais,País de residência do cliente,qualitativa,nominal
5,Genero,Gênero do cliente (Masculino/Feminino),qualitativa,nominal binária
6,Idade,Idade do cliente em anos,quantitativa,discreta
7,Tempo_Relacionamento,Tempo em anos que o cliente mantém relacioname...,quantitativa,discreta
8,Saldo,Saldo atual do cliente na conta bancária,quantitativa,contínua
9,Numero_Produtos,Número de produtos adquiridos pelo cliente,quantitativa,discreta


* **Salvamento dos arquivos**:

In [42]:
data_dictionary_clientes_externos.to_csv('../data/data-dictionary/data_dictionary_clientes_externos.csv', index=False)

In [21]:
clientes_dados_externos.to_csv('../data/pos-processamento/clientes_dados_externos_atualizada.csv', index=False)

* **Observações**:
    * Não há valores faltantes. 
    * A coluna de identificação de Cliente foi transformada em string.
    * Tradução dos nomes das colunas e valores categórico das colunas de gênero, país e tipo cartão para português.
    * Transformado os valores binários de 1 e 0 das colunas possui cartão, membro ativo, saiu e reclamou para sim e não, respectivamente.
    * Verificadas duplicidades: não há nada fora do comum.