# Entendimento dos dados

Este notebook tem a finalidade de proporcionar um maior entendimento a cerca dos dados disponibilizados.

* Para todas as bases serão realizadas as seguintes análises/operações:
    - Leitura do dataset
    - Informações a respeito das colunas
    - Quantidade de registros
    - Quantidade de valores faltantes
    - Separação de variáveis 


**Sumário**
1. Importação das bibliotecas
2. base_cadastral.csv
3. base_info.csv
4. base_pagamentos_desenvolvimento.csv

---

### 1. Importação das bibliotecas

**Bibliotecas utilizadas:**
- pandas: Manipulação de tabelas
- numpy: Manipulação numérica
- warnings: Evitar avisos indesejados

In [47]:
import pandas as pd
import numpy as np

from warnings import filterwarnings

# Ignorar avisos
filterwarnings('ignore')

# Configs pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Caminho base para as tabelas
base_path = '../data/'

---

### 2. base_cadastral.csv

**2.1 Leitura do dataset**

In [36]:
base_cadastral_path = base_path + 'base_cadastral.csv'

base_cadastral = pd.read_csv(base_cadastral_path, sep=';')

base_cadastral.head()

Unnamed: 0,ID_CLIENTE,DATA_CADASTRO,DDD,FLAG_PF,SEGMENTO_INDUSTRIAL,DOMINIO_EMAIL,PORTE,CEP_2_DIG
0,1661240395903230676,2013-08-22,99,,Serviços,YAHOO,PEQUENO,65
1,8274986328479596038,2017-01-25,31,,Comércio,YAHOO,MEDIO,77
2,345447888460137901,2000-08-15,75,,Serviços,HOTMAIL,PEQUENO,48
3,1003144834589372198,2017-08-06,49,,Serviços,OUTLOOK,PEQUENO,89
4,324916756972236008,2011-02-14,88,,Serviços,GMAIL,GRANDE,62


**2.2 Informações a respeito das colunas**

In [37]:
base_cadastral.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1315 entries, 0 to 1314
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID_CLIENTE           1315 non-null   int64 
 1   DATA_CADASTRO        1315 non-null   object
 2   DDD                  1078 non-null   object
 3   FLAG_PF              66 non-null     object
 4   SEGMENTO_INDUSTRIAL  1232 non-null   object
 5   DOMINIO_EMAIL        1285 non-null   object
 6   PORTE                1274 non-null   object
 7   CEP_2_DIG            1315 non-null   object
dtypes: int64(1), object(7)
memory usage: 82.3+ KB


Percebemos já a falta de alguns valores em algumas colunas presente neste Dataset, como: DDD, FLAG_PF, SEGMENTO INDUSTRIAL, DOMINIO_EMAIL e PORTE.

In [51]:
for col in base_cadastral.columns:
    print(f"\nColuna: {col}")
    print(base_cadastral[col].nunique())
    if col != "ID_CLIENTE":
        print(base_cadastral[col].unique())



Coluna: ID_CLIENTE
1315

Coluna: DATA_CADASTRO
777
['2013-08-22' '2017-01-25' '2000-08-15' '2017-08-06' '2011-02-14'
 '2018-03-27' '2009-08-30' '2014-06-23' '2001-05-31' '2016-02-24'
 '2006-07-18' '2016-08-14' '2006-09-11' '2012-05-29' '2014-03-02'
 '2017-03-09' '2015-11-23' '2012-03-11' '2003-06-03' '2016-11-29'
 '2017-08-09' '2013-07-29' '2015-11-25' '2002-01-24' '2017-10-19'
 '2014-03-13' '2007-06-17' '2011-02-15' '2012-08-27' '2014-08-14'
 '2015-03-02' '2015-12-29' '2015-09-14' '2005-11-24' '2014-08-07'
 '2012-12-13' '2015-12-08' '2007-02-05' '2011-12-22' '2015-02-27'
 '2016-10-30' '2008-06-03' '2007-07-31' '2009-08-18' '2014-07-22'
 '2010-08-04' '2009-03-30' '2007-10-17' '2007-03-19' '2013-10-21'
 '2016-10-04' '2015-04-01' '2014-02-06' '2011-07-13' '2009-08-02'
 '2015-11-24' '2012-12-06' '2011-05-16' '2008-05-22' '2017-02-21'
 '2015-06-23' '2018-03-20' '2014-07-23' '2011-05-19' '2018-03-21'
 '2013-05-05' '2012-03-26' '2014-08-21' '2016-11-22' '2006-12-18'
 '2017-09-20' '2006-08-0

Percebemos que pelo menos a nível a de ID, não há duplicidade de informações.

Além disso, podemos já alterar o valor de **FLAG_PF** que diz respeito a juridicidade do cliente. Alteraremos de "X" para 1 e os NaNs para 0. Esse passo tem como finalidade de simplificar a análise e evitar que erros de conversão possam ocorre no futuro.

Outra mudança a ser realizada, será a conversão de DATA_CADASTRO do tipo "object" para "datetime"

In [39]:
base_cadastral['FLAG_PF'].fillna(0, inplace=True)
base_cadastral.loc[base_cadastral['FLAG_PF'] == 'X', 'FLAG_PF'] = 1

base_cadastral['FLAG_PF'].unique()

array([0, 1], dtype=object)

In [62]:
base_cadastral['DATA_CADASTRO'] = pd.to_datetime(base_cadastral['DATA_CADASTRO'])

In [63]:
base_cadastral.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1315 entries, 0 to 1314
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_CLIENTE           1315 non-null   int64         
 1   DATA_CADASTRO        1315 non-null   datetime64[ns]
 2   DDD                  1078 non-null   object        
 3   FLAG_PF              1315 non-null   object        
 4   SEGMENTO_INDUSTRIAL  1232 non-null   object        
 5   DOMINIO_EMAIL        1285 non-null   object        
 6   PORTE                1274 non-null   object        
 7   CEP_2_DIG            1315 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(6)
memory usage: 82.3+ KB


**2.3 Quantidade de registros**

In [40]:
lin, cols = base_cadastral.shape

print(f'O dataset possui {lin} linhas e {cols} colunas')

O dataset possui 1315 linhas e 8 colunas


**2.4 Quantidade de registros faltantes**

In [46]:
print(base_cadastral.isna().sum())

print('-' * 100)

print((base_cadastral.isna().mean() * 100).sort_values(ascending=False))

ID_CLIENTE               0
DATA_CADASTRO            0
DDD                    237
FLAG_PF                  0
SEGMENTO_INDUSTRIAL     83
DOMINIO_EMAIL           30
PORTE                   41
CEP_2_DIG                0
dtype: int64
----------------------------------------------------------------------------------------------------
DDD                    18.022814
SEGMENTO_INDUSTRIAL     6.311787
PORTE                   3.117871
DOMINIO_EMAIL           2.281369
FLAG_PF                 0.000000
DATA_CADASTRO           0.000000
ID_CLIENTE              0.000000
CEP_2_DIG               0.000000
dtype: float64


**2.5 Separação de variáveis**

- Numéricas: -
- Categóricas: DDD, FLAG_PF, SEGMENTO_INDUSTRIAL, DOMINIO_EMAIL, PORTE, CEP_2_DIG
- Temporais: DATA_CADASTRO

---

### 3. base_info.csv

**3.1 Leitura do dataset**

In [49]:
base_info_path = base_path + 'base_info.csv'

base_info = pd.read_csv(base_info_path, sep=';')

base_info.head()

Unnamed: 0,ID_CLIENTE,SAFRA_REF,RENDA_MES_ANTERIOR,NO_FUNCIONARIOS
0,1661240395903230676,2018-09,16913.0,
1,8274986328479596038,2018-09,106430.0,141.0
2,345447888460137901,2018-09,707439.0,99.0
3,1003144834589372198,2018-09,239659.0,96.0
4,324916756972236008,2018-09,203123.0,103.0


**3.2 Informações sobre as colunas**

In [52]:
base_info.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24401 entries, 0 to 24400
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID_CLIENTE          24401 non-null  int64  
 1   SAFRA_REF           24401 non-null  object 
 2   RENDA_MES_ANTERIOR  23684 non-null  float64
 3   NO_FUNCIONARIOS     23149 non-null  float64
dtypes: float64(2), int64(1), object(1)
memory usage: 762.7+ KB


Percebemos a ausência de valores nas colunas RENDA_MES_ANTERIOR e NO_FUNCIONARIOS.

Além disso, podemos converter SAFRA_REF para datetime também.

In [56]:
for col in base_info.columns:
    print(f"\nColuna: {col}")
    print(base_info[col].nunique())
    if col != "ID_CLIENTE":
        print(base_info[col].unique())


Coluna: ID_CLIENTE
1336

Coluna: SAFRA_REF
40
['2018-09' '2018-10' '2018-11' '2018-12' '2019-01' '2019-02' '2019-03'
 '2019-04' '2019-05' '2019-06' '2019-07' '2019-08' '2019-09' '2019-10'
 '2019-11' '2019-12' '2020-01' '2020-02' '2020-03' '2020-04' '2020-05'
 '2020-06' '2020-07' '2020-08' '2020-09' '2020-10' '2020-11' '2020-12'
 '2021-01' '2021-02' '2021-03' '2021-04' '2021-05' '2021-06' '2021-07'
 '2021-08' '2021-09' '2021-10' '2021-11' '2021-12']

Coluna: RENDA_MES_ANTERIOR
23196
[ 16913. 106430. 707439. ... 292698. 106180. 338952.]

Coluna: NO_FUNCIONARIOS
128
[ nan 141.  99.  96. 103. 120.  79.  72. 101. 137. 105.  82. 107. 153.
  97. 115.  84. 128. 100. 123. 121. 106. 116.  95. 109.  89. 104. 125.
  90. 131. 102. 118. 122. 114.  83.  98.  85. 150. 144. 112.  92.  80.
  94. 119. 111. 126. 110.  71.  78. 127. 132. 108.  93. 113.  86. 138.
  87.  81.  75. 139. 129.  88. 117.  60. 133. 130. 135.  77. 134.  73.
  91. 143. 136.  74.   0.  62. 149. 145. 152.  76. 146. 156. 124. 148.
 14

In [None]:
base_info['SAFRA_REF'] = pd.to_datetime(base_info['SAFRA_REF'])

In [57]:
base_info.describe()

Unnamed: 0,ID_CLIENTE,RENDA_MES_ANTERIOR,NO_FUNCIONARIOS
count,24401.0,23684.0,23149.0
mean,4.668214e+18,288751.4,117.799646
std,2.669294e+18,211594.8,21.464574
min,8784237000000000.0,105.0,0.0
25%,2.347029e+18,133866.2,106.0
50%,4.795153e+18,240998.5,118.0
75%,7.061869e+18,392501.8,131.0
max,9.206031e+18,1682759.0,198.0


**3.3 Quantidade de registros**

In [58]:
lin, col = base_info.shape

print(f'O dataset tem {lin} linhas e {col} colunas.')

O dataset tem 24401 linhas e 4 colunas.


**3.4 Quantidade de registros faltantes**

In [61]:
print(base_info.isna().sum())

print('-' * 100)

print((base_info.isna().mean() * 100).sort_values(ascending=False))

ID_CLIENTE               0
SAFRA_REF                0
RENDA_MES_ANTERIOR     717
NO_FUNCIONARIOS       1252
dtype: int64
----------------------------------------------------------------------------------------------------
NO_FUNCIONARIOS       5.130937
RENDA_MES_ANTERIOR    2.938404
SAFRA_REF             0.000000
ID_CLIENTE            0.000000
dtype: float64


Observamos novamente a presença dos valores faltantes, entretanto, com um pouco mais de precisão em relação a contagem/proporção. Por hora, manteremos estes valores, visto que, ainda não temos real dimensão da sua capacidade previsiva do futuro target a ser construído.

**3.5 Separação de variáveis**

- Numéricas: RENDA_MES_ANTERIOR, NO_FUNCIONARIOS
- Categóricas: -
- Temporais: SAFRA_REF

---

### 4. base_pagamentos_desenvolvimento.csv

**4.1 Leitura do dataset**

In [64]:
base_pag_path = base_path + 'base_pagamentos_desenvolvimento.csv'

base_pag = pd.read_csv(base_pag_path, sep=';')

base_pag.head()

Unnamed: 0,ID_CLIENTE,SAFRA_REF,DATA_EMISSAO_DOCUMENTO,DATA_PAGAMENTO,DATA_VENCIMENTO,VALOR_A_PAGAR,TAXA
0,1661240395903230676,2018-08,2018-08-17,2018-09-06,2018-09-06,35516.41,6.99
1,1661240395903230676,2018-08,2018-08-19,2018-09-11,2018-09-10,17758.21,6.99
2,1661240395903230676,2018-08,2018-08-26,2018-09-18,2018-09-17,17431.96,6.99
3,1661240395903230676,2018-08,2018-08-30,2018-10-11,2018-10-05,1341.0,6.99
4,1661240395903230676,2018-08,2018-08-31,2018-09-20,2018-09-20,21309.85,6.99


**4.2 Informações sobre as colunas**

In [65]:
base_pag.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77414 entries, 0 to 77413
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ID_CLIENTE              77414 non-null  int64  
 1   SAFRA_REF               77414 non-null  object 
 2   DATA_EMISSAO_DOCUMENTO  77414 non-null  object 
 3   DATA_PAGAMENTO          77414 non-null  object 
 4   DATA_VENCIMENTO         77414 non-null  object 
 5   VALOR_A_PAGAR           76244 non-null  float64
 6   TAXA                    77414 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 4.1+ MB


In [66]:
base_pag.describe()

Unnamed: 0,ID_CLIENTE,VALOR_A_PAGAR,TAXA
count,77414.0,76244.0,77414.0
mean,4.66227e+18,46590.78,6.789623
std,2.665719e+18,46433.93,1.798225
min,8784237000000000.0,0.1,4.99
25%,2.369365e+18,18765.36,5.99
50%,4.817817e+18,34758.69,5.99
75%,6.969349e+18,60933.84,6.99
max,9.206031e+18,4400000.0,11.99


Percebemos a presença de valores faltantes na coluna VALOR_A_PAGAR. 

Além disso, com o intuito de seguir o padrão e garantir uma melhor separação das variáveis, transformaremos as colunas que dizem respeito a data para "datetime".

In [71]:
datetime_cols = ['SAFRA_REF', 'DATA_EMISSAO_DOCUMENTO', 'DATA_PAGAMENTO', 'DATA_VENCIMENTO']

base_pag[datetime_cols] = base_pag[datetime_cols].apply(pd.to_datetime)

base_pag.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77414 entries, 0 to 77413
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   ID_CLIENTE              77414 non-null  int64         
 1   SAFRA_REF               77414 non-null  datetime64[ns]
 2   DATA_EMISSAO_DOCUMENTO  77414 non-null  datetime64[ns]
 3   DATA_PAGAMENTO          77414 non-null  datetime64[ns]
 4   DATA_VENCIMENTO         77414 non-null  datetime64[ns]
 5   VALOR_A_PAGAR           76244 non-null  float64       
 6   TAXA                    77414 non-null  float64       
dtypes: datetime64[ns](4), float64(2), int64(1)
memory usage: 4.1 MB


**4.3 Quantidade de registros**

In [72]:
lin, col = base_pag.shape

print(f'O dataset tem {lin} linhas e {col} colunas.')

O dataset tem 77414 linhas e 7 colunas.


**4.4 Quantidade de registros faltantes**

In [74]:
base_pag.isna().sum()

print('-' * 100)

print((base_pag.isna().mean() * 100).sort_values(ascending=False))

----------------------------------------------------------------------------------------------------
VALOR_A_PAGAR             1.511355
SAFRA_REF                 0.000000
ID_CLIENTE                0.000000
DATA_EMISSAO_DOCUMENTO    0.000000
DATA_PAGAMENTO            0.000000
DATA_VENCIMENTO           0.000000
TAXA                      0.000000
dtype: float64


**4.5 Separação de variáveis**

- Numéricas: VALOR_A_PAGAR, TAXA
- Categóricas: -,
- Temporais: DATA_EMISSAO_DOCUMENTO, DATA_PAGAMENTO, DATA_VENCIMENTO