# SCRIPT (B)

## Objetivo:
Após realizado a aquisição de informações da Base de dados do Cadastro Nacional da Pessoa Jurídica (CNPJ) fornecidas pela Receita Federal Brasileira (RFB), o propósito deste script é tratar e organizar as informações das tabelas de SIMPLES NACIONAL e ESTABELECIMENTOS.
Com estes dados em mão, o intuito é enriquecer os cadastros da carteira de cliente de uma empresa localizada no Distrito Federal.

## Bibliotecas usadas:

In [1]:
#Importação das bibliotecas utilizadas 
from pathlib import Path
import pandas as pd
import glob
import csv

## Diretórios e Repositórios dos dados

In [2]:
# Endereço onde serão salvos os arquivos adquiridos no portal da RFB.
input_files = Path('C:/Users/rapha/Documents/Python_Scripts/TCC/Dados_RFB')

#Pasta onde serão salvos os arquivos filtrados. 
extracted_files_filter = Path('C:/Users/rapha/Documents/Python_Scripts/TCC/Dados_RFB/Extracted_files_filter')

# Aquisição de informações de CNPJ para enriquecimento dos dados

# DADOS DA RFB DE SIMPLES NACIONAL

## O conjuntos de dados inclui informações sobre:

### ANTES

Cada registro representa um CNPJ básico inscrito no regime de tributação do Simples Nacional . 

0. cnpj_basico: Número base de inscrição no CNPJ (oito primeiros dígitos do CNPJ);
1. opcao_pelo_simples: Indicador da existência da opção pelo SIMPLES;
2. data_opcao_simples: Data opção pelo MEI; Simples;
3. data_exclusao_simples: Data de exclusão do Simples;
4. opcao_mei:Indicador da existência da opção pelo MEI;
5. data_opçao_mei:Data opção pelo MEI;
6. data_exclusao_mei: Data de exclusão do MEI.

### DEPOIS

0. cnpj_basico: Número base de inscrição no CNPJ (oito primeiros dígitos do CNPJ);
1. opcao_pelo_simples: Indicador da existência da opção pelo SIMPLES;
2. opcao_mei:Indicador da existência da opção pelo MEI;

In [3]:
# Cria uma lista e adiciona os arquivos SIMPLES da pasta nesta lista:
list_arquivos_Simples=[]

for arquivos in glob.glob(str(Path(f'{extracted_files_filter}' + '/' + '*SIMPLES*.csv'))):
    list_arquivos_Simples.append(arquivos)

In [4]:
#Realiza a leitura de cada arquivo adicionado na lista
tabela_simples=[]

for arquivos in list_arquivos_Simples:
    tabela_simples.append(pd.read_csv(arquivos, index_col=False, usecols=[1,2,3]))

In [5]:
#Concatena os resultados obtidos referente a informação de Simples Naconal
tb_simples = pd.concat(tabela_simples)
tb_simples.head()

Unnamed: 0,cnpj_basico,opcao_pelo_simples,opcao_mei
0,0,N,N
1,6,N,N
2,8,N,N
3,11,S,N
4,13,S,N


In [6]:
tb_simples.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30786307 entries, 0 to 30786306
Data columns (total 3 columns):
 #   Column              Dtype 
---  ------              ----- 
 0   cnpj_basico         int64 
 1   opcao_pelo_simples  object
 2   opcao_mei           object
dtypes: int64(1), object(2)
memory usage: 704.6+ MB


In [7]:
#Identificando a presença de dados faltantes para posterior tratamento;
tb_simples.isna().sum()

cnpj_basico           0
opcao_pelo_simples    0
opcao_mei             0
dtype: int64

# DADOS DA RFB DE ESTABELECIMENTOS:

## O conjuntos de dados inclui informações sobre:

Cada registro representa um Estabelecimento.. 

### ANTES

0. cnpj_basico: Número base de inscrição no CNPJ (oito primeiros dígitos do CNPJ);
1. cnpj_ordem: Número do Estabelecimento de inscrição no CNPJ (do nono até o décimo segundo dígito do CNPJ);
2. cnpj_dv:Dígito Verificador do número de inscrição no CNPJ (Dois últimos dígitos do CNPJ);
3. identificador_matriz_filial: Código do identificador matriz/filial (1 – matriz / 2 – filial);
4. nome_fantasia: Corresponde ao nome fantasia;
5. situacao_cadastral: Código da situação cadastral;(1 – nula / 2 – ativa / 3 – suspensa / 4 – inapta / 08 – baixada);
6. data_situacao_cadastral: Data do evento da situação cadastral;
7. motivo_situacao_cadastral: Código do motivo da situação cadastral;
8. nome_cidade_exterior: Nome da cidade no exterior;
9. pais: Código do país;
10. data_inicio_atividade: Data de início da atividade;
11. cnae_fiscal_principal: Código da atividade econômica principal do estabelecimento;
12. cnae_fiscal_secundaria: Código da(s) atividade(s) econômica(s) secundária(s) do estabelecimento;
13. tipo_logradouro: Descrição do tipo de logradouro;
14. logradouro: Nome do logradouro onde se localiza o estabelecimento;
15. numero: Número onde se localiza o estabelecimento. Quando não houver preenchimento do número haverá ‘s/n’;
16. complemento: Complemento para o endereço de localização do estabelecimento;
17. bairro: Bairro onde se localiza o estabelecimento;
18. cep: Código de endereçamento postal referente ao logradouro no qual o estabelecimento está localizado;
19. uf: Sigla da unidade da federação em que se encontra o estabelecimento;
20. municipio: Código do município de jurisdição onde se encontra o estabelecimento;
21. ddd_1: Contém o ddd 1;
22. telefone_1: Contém o número do telefone 1;
23. ddd_2: Contém o ddd 2;
24. telefone_2: Contém o número do telefone 2;
25. ddd_fax: Contém o ddd do fax;
26. fax: Contém o número do fax;
27. correio_eletronico: Contém o e-mail do contribuinte;
28. situacao_especial: Situação especial da empresa;
29. data_situacao_especial: Data em que a empresa entrou em situação especial;

### DEPOIS

0. cnpj_basico: Número base de inscrição no CNPJ (oito primeiros dígitos do CNPJ);
1. cnpj_ordem: Número do Estabelecimento de inscrição no CNPJ (do nono até o décimo segundo dígito do CNPJ);
2. cnpj_dv:Dígito Verificador do número de inscrição no CNPJ (Dois últimos dígitos do CNPJ);
3. identificador_matriz_filial: Código do identificador matriz/filial (1 – matriz / 0 – filial);
4. situacao_cadastral: Código da situação cadastral;(1 – nula / 2 – ativa / 3 – suspensa / 4 – inapta / 08 – baixada);
5. motivo_situacao_cadastral: Código do motivo da situação cadastral;
6. data_inicio_atividade: Data de início da atividade;
7. bairro: Bairro onde se localiza o estabelecimento;
8. uf: Sigla da unidade da federação em que se encontra o estabelecimento;
9. municipio: Código do município de jurisdição onde se encontra o estabelecimento;

In [8]:
# Cria uma lista e adiciona os arquivos de ESTABELECIMENTO da pasta nesta lista: 
list_arquivos_estabelecimento=[]

for arquivos in glob.glob(str(Path(f'{extracted_files_filter}' + '/' + '*ESTABELE*.csv'))):
    list_arquivos_estabelecimento.append(arquivos)

In [9]:
#Realiza a leitura de cada arquivo adicionado na lista
tabelas_estabelecimento=[]

for arquivos in list_arquivos_estabelecimento:
    tabelas_estabelecimento.append(pd.read_csv(arquivos, index_col=False, usecols=[1,2,3,4,5,6,8,9]))

In [10]:
#Concatena os resultados obtidos referente a informação de Estabelecimento
tb_estabelecimento = pd.concat(tabelas_estabelecimento)
tb_estabelecimento.head()

Unnamed: 0,cnpj_basico,cnpj_ordem,cnpj_dv,identificador_matriz_filial,Situacao_Cadastral,data_inicio_atividade,uf,municipio
0,26413435,1,51,1,4,19900320,DF,9701
1,26414656,1,44,1,4,19900323,DF,9701
2,26418335,1,18,1,4,19900405,DF,9701
3,26419762,1,10,1,4,19900411,DF,9701
4,26434001,1,38,1,2,19900607,DF,9701


In [11]:
tb_estabelecimento.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 869547 entries, 0 to 80968
Data columns (total 8 columns):
 #   Column                       Non-Null Count   Dtype 
---  ------                       --------------   ----- 
 0   cnpj_basico                  869547 non-null  int64 
 1   cnpj_ordem                   869547 non-null  int64 
 2   cnpj_dv                      869547 non-null  int64 
 3   identificador_matriz_filial  869547 non-null  int64 
 4   Situacao_Cadastral           869547 non-null  int64 
 5   data_inicio_atividade        869547 non-null  int64 
 6   uf                           869547 non-null  object
 7   municipio                    869547 non-null  int64 
dtypes: int64(7), object(1)
memory usage: 59.7+ MB


In [12]:
#Identificando a presença de dados faltantes para posterior tratamento;
tb_estabelecimento.isna().sum()

cnpj_basico                    0
cnpj_ordem                     0
cnpj_dv                        0
identificador_matriz_filial    0
Situacao_Cadastral             0
data_inicio_atividade          0
uf                             0
municipio                      0
dtype: int64

## Concatenando os resultados obtidos: SIMPLES + ESTABELECIMENTOS

In [13]:
#Concatenando as tabelas de Simples Nacional com a de Estabelecimentos.
simples_estabelecimento = pd.merge(tb_estabelecimento,tb_simples, on=['cnpj_basico','cnpj_basico'],how='left')

In [14]:
# Conversão das labels de 'S' e 'N' para 0 e 1:
simples_estabelecimento['opcao_pelo_simples'].fillna('0', inplace=True)
simples_estabelecimento['opcao_pelo_simples'].replace('N',0, inplace=True)
simples_estabelecimento['opcao_pelo_simples'].replace('S',1, inplace=True)
simples_estabelecimento['opcao_mei'].fillna('0', inplace=True)
simples_estabelecimento['opcao_mei'].replace('N',0, inplace=True)
simples_estabelecimento['opcao_mei'].replace('S',1, inplace=True)

# Conversão das labels '2' para 0 no campo identificador_matriz_filial:
simples_estabelecimento['identificador_matriz_filial'].replace(2,0, inplace=True)

simples_estabelecimento.head()

Unnamed: 0,cnpj_basico,cnpj_ordem,cnpj_dv,identificador_matriz_filial,Situacao_Cadastral,data_inicio_atividade,uf,municipio,opcao_pelo_simples,opcao_mei
0,26413435,1,51,1,4,19900320,DF,9701,0,0
1,26414656,1,44,1,4,19900323,DF,9701,0,0
2,26418335,1,18,1,4,19900405,DF,9701,0,0
3,26419762,1,10,1,4,19900411,DF,9701,0,0
4,26434001,1,38,1,2,19900607,DF,9701,0,0


In [15]:
#Criação do arquivo CSV
filepath = (str(Path(f'{input_files}' + '/' + 'simples_estabelecimento.csv'))) 
simples_estabelecimento.to_csv(path_or_buf=filepath, sep=';', na_rep='', header=True, index=True, index_label='index', encoding='utf-8')  