<B>TCC PUC MINAS - MAIO/2022</B><BR>
ANÁLISE DE PARCELAMENTO DE DÉBITOS INSCRITOS EM DÍVIDA ATIVA DA UNIÃO ATRAVÉS DE MACHINE LEARNING<BR>
FELIPE MARTINS<BR>

04 - CNPJ FINAL: AJUSTE
    
Tempo médio de processamento deste notebook: 50 minutos

In [1]:
import pandas as pd

In [2]:
%%time
df_cnpj_final = pd.read_csv("03_merge_empresa_estabelecimento.csv", usecols=[1, 2, 3, 4, 5, 6, 7, 8], dtype={"CNPJ_BASICO":"category", "CNPJ_ORDEM":"category", "CNPJ_DV":"category", "SIT_CADAST":"category", "DATA_INICIO_ATIV":"category", "CNAE_PRINC":"category", "NAT_JURID":"category", "PORTE":"category"}) #nrows=5
df_cnpj_final.head()

Wall time: 6min 24s


Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,DATA_INICIO_ATIV,CNAE_PRINC,NAT_JURID,PORTE
0,44628188,1,92,2,19730903,8512100,2062,3
1,7349468,1,35,2,20050329,5611204,2135,1
2,25405580,1,28,4,19930917,4774100,2135,1
3,62534730,1,20,2,19900314,4751201,2062,1
4,80969025,1,37,8,19881111,2399101,2135,1


In [3]:
df_cnpj_final.count()

CNPJ_BASICO         51528473
CNPJ_ORDEM          51528473
CNPJ_DV             51528473
SIT_CADAST          51528473
DATA_INICIO_ATIV    51528473
CNAE_PRINC          51528473
NAT_JURID           48505659
PORTE               48446228
dtype: int64

In [4]:
df_cnpj_final.isnull().sum()

CNPJ_BASICO               0
CNPJ_ORDEM                0
CNPJ_DV                   0
SIT_CADAST                0
DATA_INICIO_ATIV          0
CNAE_PRINC                0
NAT_JURID           3022814
PORTE               3082245
dtype: int64

In [5]:
df_cnpj_final.dtypes

CNPJ_BASICO         category
CNPJ_ORDEM          category
CNPJ_DV             category
SIT_CADAST          category
DATA_INICIO_ATIV    category
CNAE_PRINC          category
NAT_JURID           category
PORTE               category
dtype: object

In [6]:
df_cnpj_final.nunique()

CNPJ_BASICO         48828011
CNPJ_ORDEM              9999
CNPJ_DV                  100
SIT_CADAST                 5
DATA_INICIO_ATIV       23430
CNAE_PRINC              1343
NAT_JURID                 86
PORTE                      3
dtype: int64

In [7]:
%%time
# AJUSTANDO CNAE_PRINC
# O número original completo possui 7 dígitos e 1343 valores distintos.
# Analisando-se a estrutura do código, observa-se que 2 dígitos já são suficientes para identificar satisfatoriamente a atividade econômica.
df_cnpj_final['CNAE_PRINC'] = df_cnpj_final['CNAE_PRINC'].str[:2]

Wall time: 556 ms


In [9]:
df_cnpj_final.head(15)

Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,DATA_INICIO_ATIV,CNAE_PRINC,NAT_JURID,PORTE
0,44628188,1,92,2,19730903,85,2062,3
1,7349468,1,35,2,20050329,56,2135,1
2,25405580,1,28,4,19930917,47,2135,1
3,62534730,1,20,2,19900314,47,2062,1
4,80969025,1,37,8,19881111,23,2135,1
5,25409384,1,21,3,19880831,81,2062,1
6,80971302,1,46,8,19881118,56,2135,5
7,44641348,1,33,4,19800923,47,2135,1
8,7350395,1,0,4,20050425,77,2135,1
9,7350533,1,42,4,20050429,45,2062,1


In [10]:
# CONVERTENDO DATA PARA STRING
df_cnpj_final["DATA_INICIO_ATIV"] = df_cnpj_final["DATA_INICIO_ATIV"].astype(str)

In [11]:
%%time
# CONVERTENDO CAMPO DATA_INICIO_ATIV PARA DATA
# coerce: will force the dates which are outside the bounds to 'NaT'. Há 5 registros com esse problema (devem ser datas muito antigas).

df_cnpj_final['DATA_INICIO_ATIV'] = pd.to_datetime(df_cnpj_final['DATA_INICIO_ATIV'], format="%Y/%m/%d", errors = 'coerce')  

Wall time: 1min 28s


In [12]:
df_cnpj_final.head()

Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,DATA_INICIO_ATIV,CNAE_PRINC,NAT_JURID,PORTE
0,44628188,1,92,2,1973-09-03,85,2062,3
1,7349468,1,35,2,2005-03-29,56,2135,1
2,25405580,1,28,4,1993-09-17,47,2135,1
3,62534730,1,20,2,1990-03-14,47,2062,1
4,80969025,1,37,8,1988-11-11,23,2135,1


In [13]:
df_cnpj_final.dtypes

CNPJ_BASICO               category
CNPJ_ORDEM                category
CNPJ_DV                   category
SIT_CADAST                category
DATA_INICIO_ATIV    datetime64[ns]
CNAE_PRINC                  object
NAT_JURID                 category
PORTE                     category
dtype: object

In [14]:
%%time
# CRIANDO NOVO CAMPO COM ANO DO INÍCIO DA ATIVIDADE
df_cnpj_final['ANO_INICIO_ATIV'] = df_cnpj_final['DATA_INICIO_ATIV'].dt.year

Wall time: 3.87 s


In [15]:
df_cnpj_final.head()

Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,DATA_INICIO_ATIV,CNAE_PRINC,NAT_JURID,PORTE,ANO_INICIO_ATIV
0,44628188,1,92,2,1973-09-03,85,2062,3,1973.0
1,7349468,1,35,2,2005-03-29,56,2135,1,2005.0
2,25405580,1,28,4,1993-09-17,47,2135,1,1993.0
3,62534730,1,20,2,1990-03-14,47,2062,1,1990.0
4,80969025,1,37,8,1988-11-11,23,2135,1,1988.0


In [16]:
%%time
# CRIANDO NOVO CAMPO COM ANO ATIVIDADE MAIOR DO QUE 10 ANOS (contados do ano da base PGFN, que é 2021)
# não consegui fazer com pandas (acima). Mas deu certo com numpy:
import numpy as np
df_cnpj_final['ATIV_>10_ANOS'] = np.where(df_cnpj_final.ANO_INICIO_ATIV<=2010, 'S', 'N')

Wall time: 600 ms


In [17]:
df_cnpj_final.head()

Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,DATA_INICIO_ATIV,CNAE_PRINC,NAT_JURID,PORTE,ANO_INICIO_ATIV,ATIV_>10_ANOS
0,44628188,1,92,2,1973-09-03,85,2062,3,1973.0,S
1,7349468,1,35,2,2005-03-29,56,2135,1,2005.0,S
2,25405580,1,28,4,1993-09-17,47,2135,1,1993.0,S
3,62534730,1,20,2,1990-03-14,47,2062,1,1990.0,S
4,80969025,1,37,8,1988-11-11,23,2135,1,1988.0,S


In [18]:
df_cnpj_final.tail()

Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,DATA_INICIO_ATIV,CNAE_PRINC,NAT_JURID,PORTE,ANO_INICIO_ATIV,ATIV_>10_ANOS
51528468,62525290,1,44,8,1990-03-19,47,2135,5,1990.0,S
51528469,62526009,1,98,8,1969-09-25,47,2062,1,1969.0,S
51528470,7348995,1,25,2,2005-04-29,68,2305,3,2005.0,S
51528471,80959885,1,90,4,1988-09-29,47,2135,1,1988.0,S
51528472,25402355,1,38,8,1988-08-25,47,2135,5,1988.0,S


In [19]:
print(df_cnpj_final["ATIV_>10_ANOS"].value_counts())

N    29883599
S    21644874
Name: ATIV_>10_ANOS, dtype: int64


In [20]:
df_cnpj_final.dtypes

CNPJ_BASICO               category
CNPJ_ORDEM                category
CNPJ_DV                   category
SIT_CADAST                category
DATA_INICIO_ATIV    datetime64[ns]
CNAE_PRINC                  object
NAT_JURID                 category
PORTE                     category
ANO_INICIO_ATIV            float64
ATIV_>10_ANOS               object
dtype: object

In [21]:
# O MERGE NÃO DEU CERTO PARA 3 milhões de REGISTROS. NÃO SEI SE FOI ALGUM ERRO OU SE REALMENTE NÃO EXISTE CORRESPONDENTE.
df_cnpj_final.isnull().sum()

CNPJ_BASICO               0
CNPJ_ORDEM                0
CNPJ_DV                   0
SIT_CADAST                0
DATA_INICIO_ATIV          5
CNAE_PRINC                0
NAT_JURID           3022814
PORTE               3082245
ANO_INICIO_ATIV           5
ATIV_>10_ANOS             0
dtype: int64

In [22]:
# EXCLUINDO COLUNAS DESNECESSÁRIAS (para liberar memória)
df_cnpj_final = df_cnpj_final.drop(columns=['DATA_INICIO_ATIV','ANO_INICIO_ATIV'])

In [23]:
%%time
# CRIANDO NOVO CAMPO CNPJ COM PONTUAÇÃO (SE DER PROBLEMA DE MEMÓRIA, FECHAR OUTROS NOTEBOOKS ABERTOS)
df_cnpj_final['CNPJ_BASICO_2'] = df_cnpj_final['CNPJ_BASICO'].str[0:2]+"."+df_cnpj_final['CNPJ_BASICO'].str[2:5]+"."+df_cnpj_final['CNPJ_BASICO'].str[5:9]

Wall time: 7min 29s


In [24]:
df_cnpj_final.head()

Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,CNAE_PRINC,NAT_JURID,PORTE,ATIV_>10_ANOS,CNPJ_BASICO_2
0,44628188,1,92,2,85,2062,3,S,44.628.188
1,7349468,1,35,2,56,2135,1,S,07.349.468
2,25405580,1,28,4,47,2135,1,S,25.405.580
3,62534730,1,20,2,47,2062,1,S,62.534.730
4,80969025,1,37,8,23,2135,1,S,80.969.025


In [25]:
%%time
# UNINDO AS 3 COLUNAS CNPJ
df_cnpj_final['CNPJ_BASICO_3'] = df_cnpj_final['CNPJ_BASICO_2'].str[0:]+"/"+df_cnpj_final['CNPJ_ORDEM'].str[0:]+"-"+df_cnpj_final['CNPJ_DV'].str[0:]

Wall time: 3min 27s


In [26]:
df_cnpj_final.head()

Unnamed: 0,CNPJ_BASICO,CNPJ_ORDEM,CNPJ_DV,SIT_CADAST,CNAE_PRINC,NAT_JURID,PORTE,ATIV_>10_ANOS,CNPJ_BASICO_2,CNPJ_BASICO_3
0,44628188,1,92,2,85,2062,3,S,44.628.188,44.628.188/0001-92
1,7349468,1,35,2,56,2135,1,S,07.349.468,07.349.468/0001-35
2,25405580,1,28,4,47,2135,1,S,25.405.580,25.405.580/0001-28
3,62534730,1,20,2,47,2062,1,S,62.534.730,62.534.730/0001-20
4,80969025,1,37,8,23,2135,1,S,80.969.025,80.969.025/0001-37


In [27]:
# EXCLUINDO COLUNAS DESNECESSÁRIAS
df_cnpj_final = df_cnpj_final.drop(columns=['CNPJ_BASICO','CNPJ_ORDEM','CNPJ_DV','CNPJ_BASICO_2'])

In [28]:
df_cnpj_final.head()

Unnamed: 0,SIT_CADAST,CNAE_PRINC,NAT_JURID,PORTE,ATIV_>10_ANOS,CNPJ_BASICO_3
0,2,85,2062,3,S,44.628.188/0001-92
1,2,56,2135,1,S,07.349.468/0001-35
2,4,47,2135,1,S,25.405.580/0001-28
3,2,47,2062,1,S,62.534.730/0001-20
4,8,23,2135,1,S,80.969.025/0001-37


In [29]:
#REORDENANDO COLUNAS
df_cnpj_final = df_cnpj_final[['CNPJ_BASICO_3','SIT_CADAST','CNAE_PRINC','NAT_JURID','PORTE','ATIV_>10_ANOS']]

In [30]:
df_cnpj_final.head()

Unnamed: 0,CNPJ_BASICO_3,SIT_CADAST,CNAE_PRINC,NAT_JURID,PORTE,ATIV_>10_ANOS
0,44.628.188/0001-92,2,85,2062,3,S
1,07.349.468/0001-35,2,56,2135,1,S
2,25.405.580/0001-28,4,47,2135,1,S
3,62.534.730/0001-20,2,47,2062,1,S
4,80.969.025/0001-37,8,23,2135,1,S


In [31]:
%%time
# RENOMEANDO COLUNA
df_cnpj_final = df_cnpj_final.rename(columns = {'CNPJ_BASICO_3': 'CNPJ_BASICO'})

Wall time: 22.1 s


In [32]:
%%time
# EXPORTANTO DATASET FINAL
df_cnpj_final.to_csv("04_cnpj_final.csv")

Wall time: 2min 16s


In [33]:
df_cnpj_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51528473 entries, 0 to 51528472
Data columns (total 6 columns):
 #   Column         Dtype   
---  ------         -----   
 0   CNPJ_BASICO    object  
 1   SIT_CADAST     category
 2   CNAE_PRINC     object  
 3   NAT_JURID      category
 4   PORTE          category
 5   ATIV_>10_ANOS  object  
dtypes: category(3), object(3)
memory usage: 1.3+ GB
