In [34]:
import pandas as pd
import os

In [35]:
# Caminho relativo para o arquivo dados.csv
open_path = os.path.join('..', 'dataset', 'ativos_filtrados_por_cnae.csv')

# Ler o arquivo
df = pd.read_csv(open_path,
                 sep=';',
                 encoding='latin1',
                 on_bad_lines='skip',
                 engine='python'
                 )


# Mapeamento das variáveis categóricas

As seguintes colunas aparecem com valores numéricos.  
Mas, para melhor apresentar os dados, é preciso mapear os valores segundo o documento de metadados do [gov.br](https://www.gov.br/receitafederal/dados/cnpj-metadados.pdf).

* PORTE DA EMPRESA
  * 00 – NÃO INFORMADO
  * 01 - MICRO EMPRESA
  * 03 - EMPRESA DE PEQUENO PORTE
  * 05 - DEMAIS
  
* IDENTIFICADOR MATRIZ/FILIAL
  * 1 – MATRIZ
  * 2 – FILIAL
  
* SITUAÇÃO CADASTRAL
  * 01 – NULA
  * 2 – ATIVA
  * 3 – SUSPENSA
  * 4 – INAPTA
  * 08 – BAIXADA

* OPÇÃO PELO SIMPLES
  * S - SIM
  * N - NÃO
  * `null` – OUTROS

* OPÇÃO PELO MEI
  * S - SIM
  * N - NÃO
  * `null` – OUTROS

Apenas 3 códigos de CNAE surgem dentre os clientes atuais da Telit Citerion.

* CNAE PRINCIPAL
  * 6461100 - Holdings de instituições financeiras
  * 7711000 - Locação de automóveis sem condutor
  * 8020001 - Atividades de monitoramento de sistemas de segurança eletrônico

In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43714 entries, 0 to 43713
Data columns (total 29 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   cnpj_basico                  43714 non-null  int64  
 1   cnpj_ordem                   43714 non-null  int64  
 2   cnpj_dv                      43714 non-null  int64  
 3   identificador_matriz_filial  43714 non-null  int64  
 4   nome_fantasia                29712 non-null  object 
 5   situacao_cadastral           43714 non-null  int64  
 6   data_situacao_cadastral      43293 non-null  object 
 7   motivo_situacao_cadastral    43714 non-null  int64  
 8   nome_da_cidade_no_exterior   254 non-null    object 
 9   pais                         5603 non-null   float64
 10  data_de_inicio_atividade     43714 non-null  object 
 11  cnae_fiscal_principal        43714 non-null  int64  
 12  cnae_fiscal_secundaria       32758 non-null  object 
 13  tipo_de_logradou

In [37]:
df = df.replace({'porte_empresa':{0:'Não informado',
                                  1:'Micro empresa',
                                  3:'Pequeno Porte',
                                  5:'Demais'
                                  },
                 'identificador_matriz_filial':{1:'Matriz',
                                                2:'Filial'
                                                },
                 'situacao_cadastral':{1:'Nula',
                                       2:'Ativa',
                                       3:'Suspensa',
                                       4:'Inapta',
                                       8:'Baixada'
                                       },
                  'cnae_fiscal_principal':{6461100:'Holdings financeiras',
                                           7711000:'Locação de automóveis s/c',
                                           8020001:'Monitoramento eletrônico'}
                 }
                )

In [38]:
df.head(4)

Unnamed: 0,cnpj_basico,cnpj_ordem,cnpj_dv,identificador_matriz_filial,nome_fantasia,situacao_cadastral,data_situacao_cadastral,motivo_situacao_cadastral,nome_da_cidade_no_exterior,pais,...,uf,municipio,ddd1,telefone1,ddd2,telefone2,correio_eletronico,razao_social,capital_social,porte_empresa
0,40680973,1,33,Matriz,,Ativa,2021-02-02,0,,,...,MG,5425,31.0,99823979,,,DARTASAL@GMAIL.COM,LDA LOCADORA LTDA,100000.0,Micro empresa
1,23848696,1,6,Matriz,LAVA JATO VIEIRA,Ativa,2022-06-28,0,,,...,ES,5651,28.0,98850866,,,,RV LOCACOES LTDA,150000.0,Micro empresa
2,24768304,1,61,Matriz,RASTREK DENILSON,Ativa,2021-05-13,0,,,...,CE,1389,85.0,85722855,,,DENILSONFERREIRA26@HOTMAIL.COM,ARGENTINA AZEVEDO DA SILVA,10000.0,Micro empresa
3,35018906,1,18,Matriz,,Ativa,2019-09-27,0,,,...,PR,7691,44.0,99521016,,,,CASTRO COSTA ADMINISTRADORA DE BENS LTDA,200000.0,Pequeno Porte


Salvando no diretório apropriado sob o nome "ativos_filtrados_mapeados.csv"

In [39]:
# Caminho relativo para o arquivo dados.csv
save_path = os.path.join('..', 'dataset', 'ativos_filtrados_mapeados.csv')

df.to_csv(save_path)