In [151]:
import pandas as pd
import os

In [152]:
# Dados da Receita Federal

open_path = os.path.join('..', 'dataset', 'ativos_filtrados_por_cnae.parquet')

df_cnpj = pd.read_parquet(open_path,
                 #sep=';',
                 #encoding='latin1',
                 #on_bad_lines='skip',
                 engine='pyarrow'
                 )

In [153]:
# Dados dos clientes

open_path = os.path.join('..', 'dataset', 'Clientes_categorizados_anonimizado.xlsx')

df_clientes = pd.read_excel(open_path)

# Mapeamento das variáveis categóricas

As seguintes colunas aparecem com valores numéricos.  
Mas, para melhor apresentar os dados, é preciso mapear os valores segundo o documento de metadados do [gov.br](https://www.gov.br/receitafederal/dados/cnpj-metadados.pdf).

* PORTE DA EMPRESA
  * 00 – NÃO INFORMADO
  * 01 - MICRO EMPRESA
  * 03 - EMPRESA DE PEQUENO PORTE
  * 05 - DEMAIS
  
* IDENTIFICADOR MATRIZ/FILIAL
  * 1 – MATRIZ
  * 2 – FILIAL
  
* SITUAÇÃO CADASTRAL
  * 01 – NULA
  * 2 – ATIVA
  * 3 – SUSPENSA
  * 4 – INAPTA
  * 08 – BAIXADA

* OPÇÃO PELO SIMPLES
  * S - SIM
  * N - NÃO
  * `null` – OUTROS

* OPÇÃO PELO MEI
  * S - SIM
  * N - NÃO
  * `null` – OUTROS

Os códigos de CNAE existentes entre os clientes atuais da Telit Citerion serviram de filtro na base de dados da Receita Federal.  
Os CNAE abaixo existem em ambos os datasets: de clientes e de prospectos.

4321500: 'Instalação e manutenção elétrica',
6461100: 'Holdings financeiras',
4520003: 'Elétrica de veículos automotores',
9499500: 'Outras atividades associativas',
7711000: 'Locação de automóveis sem condutor',
6190699: 'Outras atividades de telecomunicações',
4752100: 'Varejista de telefonia e comunicação',
6202300: 'Programas de computador customizáveis',
6512000: 'Seguros de ramos elementares',
5229099: 'Auxiliares dos transportes terrestres',
7739099: 'Aluguel de máquinas e equipamentos sem operador',
9511800: 'Manutenção de computadores e afins',
6120599: 'Telecomunicações sem fio',
4530703: 'Varejo de peças novas para veículos',
6190601: 'Provedores de redes',
4520007: 'Borracharia',
6209100: 'Serviços em tecnologia da informação',
5229002: 'Serviços de reboque de veículos',
8211300: 'Escritório e apoio administrativo',
8020001: 'Monitoramento de segurança eletrônico'

|CNAE | Resumo | Descrição|
|--------|----------------------------------|---------------------------------------------------------------------|
|4321500 | Instalação e manutenção elétrica | Instalação e manutenção elétrica​|
|6461100 | Holdings financeiras | Holdings de instituições financeiras​|
|4520003 | Elétrica de veículos automotores | Serviços de manutenção e reparação elétrica de veículos automotores​|
|9499500 | Outras atividades associativas | Atividades associativas não especificadas anteriormente​|
|7711000 | Locação de automóveis sem condutor | Locação de automóveis sem condutor​|
|6190699 | Outras atividades de telecomunicações | Outras atividades de telecomunicações não especificadas anteriormente​|
|4752100 | Varejista de telefonia e comunicação | Comércio varejista especializado de equipamentos de telefonia e comunicação​|
|6202300 | Programas de computador customizáveis | Desenvolvimento e licenciamento de programas de computador customizáveis​|
|6512000 | Seguros de ramos elementares | Sociedade seguradora de seguros de ramos elementares​|
|5229099 | Auxiliares dos transportes terrestres | Outras atividades auxiliares dos transportes terrestres não especificadas anteriormente​|
|7739099 | Aluguel de máquinas e equipamentos sem operador | Aluguel de outras máquinas e equipamentos comerciais e industriais não especificados anteriormente, sem operador​|
|9511800 | Manutenção de computadores e afins | Reparação e manutenção de computadores e de equipamentos periféricos​|
|6120599 | Telecomunicações sem fio | Serviços de telecomunicações sem fio não especificados anteriormente​|
|4530703 | Varejo de peças novas para veículos | Comércio a varejo de peças e acessórios novos para veículos automotores​|
|6190601 | Provedores de redes | Provedores de acesso às redes de comunicações​|
|4520007 | Borracharia | Serviços de borracharia para veículos automotores|​
|6209100 | Serviços em tecnologia da informação | Suporte técnico, manutenção e outros serviços em tecnologia da informação​|
|5229002 | Serviços de reboque de veículos | Serviços de reboque de veículos|​
|8211300 | Escritório e apoio administrativo | Serviços combinados de escritório e apoio administrativo​|
|8020001 | Monitoramento de segurança eletrônico | Atividades de monitoramento de sistemas de segurança eletrônico|

## Dados da Receita

In [154]:
df_cnpj.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1682916 entries, 0 to 1683342
Data columns (total 15 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   cnpj_basico                  1682916 non-null  int64  
 1   cnpj_ordem                   1682916 non-null  int64  
 2   cnpj_dv                      1682916 non-null  int64  
 3   identificador_matriz_filial  1682916 non-null  int64  
 4   data_situacao_cadastral      1682916 non-null  object 
 5   data_de_inicio_atividade     1682916 non-null  object 
 6   cnae_fiscal_principal        1682916 non-null  int64  
 7   cnae_fiscal_secundaria       1076797 non-null  object 
 8   bairro                       1682507 non-null  object 
 9   cep                          1681864 non-null  float64
 10  uf                           1682916 non-null  object 
 11  municipio                    1682916 non-null  int64  
 12  razao_social                 1682916 non-n

In [155]:
for i in set(df_cnpj['cnae_fiscal_principal']):
    print(i)

6512000
6190601
4530703
6120599
7711000
8020001
5229099
6461100
6202300
4520003
4520007
5229002
6209100
7739099
4321500
8211300
4752100
6190699
9499500
9511800


In [156]:
df_cnpj['cnae_fiscal_principal'] = df_cnpj['cnae_fiscal_principal'].astype(object)

In [157]:
mapping = {'porte_empresa':{0:'Não informado',
                            1:'Micro empresa',
                            3:'Pequeno Porte',
                            5:'Demais'
                            },
            'identificador_matriz_filial':{1:'Matriz',
                                           2:'Filial'
                                           },
            'situacao_cadastral':{1:'Nula',
                                  2:'Ativa',
                                  3:'Suspensa',
                                  4:'Inapta',
                                  8:'Baixada'
                                  },
            'cnae_fiscal_principal':{4321500: 'Instalação e manutenção elétrica',
                                     6461100: 'Holdings de instituições financeiras',
                                     4520003: 'Serviços de manutenção e reparação elétrica de veículos automotores',
                                     9499500: 'Atividades associativas não especificadas anteriormente',
                                     7711000: 'Locação de automóveis sem condutor',
                                     6190699: 'Outras atividades de telecomunicações não especificadas anteriormente',
                                     4752100: 'Comércio varejista especializado de equipamentos de telefonia e comunicação',
                                     6202300: 'Desenvolvimento e licenciamento de programas de computador customizáveis',
                                     6512000: 'Sociedade seguradora de seguros de ramos elementares',
                                     5229099: 'Outras atividades auxiliares dos transportes terrestres não especificadas anteriormente',
                                     7739099: 'Aluguel de outras máquinas e equipamentos comerciais e industriais não especificados anteriormente, sem operador',
                                     9511800: 'Reparação e manutenção de computadores e de equipamentos periféricos',
                                     6120599: 'Serviços de telecomunicações sem fio não especificados anteriormente',
                                     4530703: 'Comércio a varejo de peças e acessórios novos para veículos automotores',
                                     6190601: 'Provedores de acesso às redes de comunicações',
                                     4520007: 'Serviços de borracharia para veículos automotores',
                                     6209100: 'Suporte técnico, manutenção e outros serviços em tecnologia da informação',
                                     5229002: 'Serviços de reboque de veículos',
                                     8211300: 'Serviços combinados de escritório e apoio administrativo',
                                     8020001: 'Atividades de monitoramento de sistemas de segurança eletrônico'
                                    }
}

In [158]:
df_cnpj = df_cnpj.replace({'porte_empresa':{0:'Não informado',
                                            1:'Micro empresa',
                                            3:'Pequeno Porte',
                                            5:'Demais'
                                            },
                            'identificador_matriz_filial':{1:'Matriz',
                                                           2:'Filial'
                                                           },
                            'situacao_cadastral':{1:'Nula',
                                                 2:'Ativa',
                                                 3:'Suspensa',
                                                 4:'Inapta',
                                                 8:'Baixada'
                                                 },
                            'cnae_fiscal_principal':{4321500: 'Instalação e manutenção elétrica',
                                                    6461100: 'Holdings financeiras',
                                                    4520003: 'Elétrica de veículos automotores',
                                                    9499500: 'Outras atividades associativas',
                                                    7711000: 'Locação de automóveis sem condutor',
                                                    6190699: 'Outras atividades de telecomunicações',
                                                    4752100: 'Varejista de telefonia e comunicação',
                                                    6202300: 'Programas de computador customizáveis',
                                                    6512000: 'Seguros de ramos elementares',
                                                    5229099: 'Auxiliares dos transportes terrestres',
                                                    7739099: 'Aluguel de máquinas e equipamentos sem operador',
                                                    9511800: 'Manutenção de computadores e afins',
                                                    6120599: 'Telecomunicações sem fio',
                                                    4530703: 'Varejo de peças novas para veículos',
                                                    6190601: 'Provedores de redes',
                                                    4520007: 'Borracharia',
                                                    6209100: 'Serviços em tecnologia da informação',
                                                    5229002: 'Serviços de reboque de veículos',
                                                    8211300: 'Escritório e apoio administrativo',
                                                    8020001: 'Monitoramento de segurança eletrônico'
                                                    }
                            }
                           )

In [159]:
for i in set(df_cnpj['cnae_fiscal_principal']):
    print(i)

len(set(df_cnpj['cnae_fiscal_principal']))

Aluguel de máquinas e equipamentos sem operador
Outras atividades de telecomunicações
Outras atividades associativas
Seguros de ramos elementares
Varejista de telefonia e comunicação
Escritório e apoio administrativo
Locação de automóveis sem condutor
Instalação e manutenção elétrica
Provedores de redes
Elétrica de veículos automotores
Manutenção de computadores e afins
Serviços em tecnologia da informação
Holdings financeiras
Telecomunicações sem fio
Serviços de reboque de veículos
Monitoramento de segurança eletrônico
Auxiliares dos transportes terrestres
Varejo de peças novas para veículos
Programas de computador customizáveis
Borracharia


20

In [160]:
df_cnpj.head(4)

Unnamed: 0,cnpj_basico,cnpj_ordem,cnpj_dv,identificador_matriz_filial,data_situacao_cadastral,data_de_inicio_atividade,cnae_fiscal_principal,cnae_fiscal_secundaria,bairro,cep,uf,municipio,razao_social,capital_social,porte_empresa
0,7756651,33,32,Filial,2022-01-12,2022-01-12,Provedores de redes,61108036319400,CENTRO,79002190.0,MS,9051,BRASIL TECPAR SERVICOS DE TELECOMUNICACOES S.A,655801154,Demais
1,7756651,42,23,Filial,2022-02-16,2022-02-16,Provedores de redes,47512016204000,SETOR COMERCIAL,78550258.0,MT,8985,BRASIL TECPAR SERVICOS DE TELECOMUNICACOES S.A,655801154,Demais
2,4679549,1,5,Matriz,2004-04-09,2001-09-24,Escritório e apoio administrativo,,TANGUA,83508270.0,PR,7407,MERANO GASTRONOMIA BORGUEZAM LTDA,40000,Micro empresa
3,4718504,1,0,Matriz,2005-11-03,2001-10-09,Locação de automóveis sem condutor,771959902306007490104,PARQUE CAMPOLIM,18048100.0,SP,7145,RBM RAMIRES LOCADORA LTDA,50000,Demais


## Dados dos Clientes

In [161]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37 entries, 0 to 36
Data columns (total 50 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   Cliente anonimizado                   37 non-null     object 
 1   Tipo de venda                         34 non-null     object 
 2   Região                                37 non-null     object 
 3   Atividade Principal                   33 non-null     object 
 4   Porte                                 37 non-null     object 
 5   Capital Social                        37 non-null     float64
 6   Código e Descrição Natureza Juridica  37 non-null     object 
 7   CNAE Principal                        37 non-null     object 
 8   CNAE Secundário                       33 non-null     object 
 9   Unnamed: 9                            28 non-null     object 
 10  Unnamed: 10                           23 non-null     object 
 11  Unnamed: 11          

In [162]:
df_clientes['CNAE Principal'] = df_clientes['CNAE Principal'].str.replace(r'\D+', '',regex=True)

In [163]:
df_clientes['CNAE Principal'] = df_clientes['CNAE Principal'].astype(int)

In [164]:
df_clientes = df_clientes.replace({'CNAE Principal':{4321500: 'Instalação e manutenção elétrica',
                                                     6461100: 'Holdings financeiras',
                                                     4520003: 'Elétrica de veículos automotores',
                                                     9499500: 'Outras atividades associativas',
                                                     7711000: 'Locação de automóveis sem condutor',
                                                     6190699: 'Outras atividades de telecomunicações',
                                                     4752100: 'Varejista de telefonia e comunicação',
                                                     6202300: 'Programas de computador customizáveis',
                                                     6512000: 'Seguros de ramos elementares',
                                                     5229099: 'Auxiliares dos transportes terrestres',
                                                     7739099: 'Aluguel de máquinas e equipamentos sem operador',
                                                     9511800: 'Manutenção de computadores e afins',
                                                     6120599: 'Telecomunicações sem fio',
                                                     4530703: 'Varejo de peças novas para veículos',
                                                     6190601: 'Provedores de redes',
                                                     4520007: 'Borracharia',
                                                     6209100: 'Serviços em tecnologia da informação',
                                                     5229002: 'Serviços de reboque de veículos',
                                                     8211300: 'Escritório e apoio administrativo',
                                                     8020001: 'Monitoramento de segurança eletrônico'
                                                     }
                                  }
                                 )

In [165]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37 entries, 0 to 36
Data columns (total 50 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   Cliente anonimizado                   37 non-null     object 
 1   Tipo de venda                         34 non-null     object 
 2   Região                                37 non-null     object 
 3   Atividade Principal                   33 non-null     object 
 4   Porte                                 37 non-null     object 
 5   Capital Social                        37 non-null     float64
 6   Código e Descrição Natureza Juridica  37 non-null     object 
 7   CNAE Principal                        37 non-null     object 
 8   CNAE Secundário                       33 non-null     object 
 9   Unnamed: 9                            28 non-null     object 
 10  Unnamed: 10                           23 non-null     object 
 11  Unnamed: 11          

In [166]:
for i in set(df_clientes['CNAE Principal']):
    print(i)

print(len(set(df_clientes['CNAE Principal'])))

Aluguel de máquinas e equipamentos sem operador
Outras atividades de telecomunicações
Outras atividades associativas
Seguros de ramos elementares
Varejista de telefonia e comunicação
Escritório e apoio administrativo
Locação de automóveis sem condutor
Instalação e manutenção elétrica
Provedores de redes
Elétrica de veículos automotores
Manutenção de computadores e afins
Serviços em tecnologia da informação
Holdings financeiras
Telecomunicações sem fio
Serviços de reboque de veículos
Monitoramento de segurança eletrônico
Auxiliares dos transportes terrestres
Varejo de peças novas para veículos
Programas de computador customizáveis
Borracharia
20


# Salvando os Dados

Salvando no diretório apropriado sob o nome "ativos_filtrados_mapeados.csv"

In [167]:
save_path = os.path.join('..', 'dataset', 'ativos_filtrados_mapeados.parquet')

df_cnpj.to_parquet(save_path)

In [168]:
save_path = os.path.join('..', 'dataset', 'clientes_mapeados.parquet')

df_clientes['CNAE Principal'] = df_clientes['CNAE Principal'].astype(str)

df_clientes.to_parquet(save_path)