# Tratamento dos dados

In [1]:
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.7.9


In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
import pandas as pd 
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sea
from IPython.display import display

pd.options.display.max_columns = None

Iniciaremos lendo o arquivo com o dataset:

In [4]:
dtypes = {  'cnpj': 'str',
            'razao_social': 'str',
            'identificador_matriz_filial': 'str',             
            'situacao_cadastral': 'str', 
            'data_inicio_atividade': 'str', 
            'uf': 'str', 
            'codigo_municipio': 'str', 
            'municipio': 'str', 
            'capital_social_empresa': 'float64',
            'porte_empresa': 'str', 
            'opcao_pelo_simples': 'str', 
            'cod_natureza_juridica': 'str', 
            'nm_natureza_juridica': 'str', 
            'cod_subclass_natureza_juridica': 'str', 
            'nm_subclass_natureza_juridica': 'str', 
            'cod_secao': 'str', 
            'nm_secao': 'str', 
            'cod_divisao': 'str', 
            'nm_divisao': 'str', 
            'cod_grupo': 'str', 
            'nm_grupo': 'str', 
            'cod_classe': 'str', 
            'nm_classe': 'str', 
            'cod_cnae': 'str', 
            'nm_cnae': 'str',
            'participacoes': 'int64',  
            'vitorias': 'int64',
            'contratos': 'int64',
            'risco': 'boolean' # Usamos boolean aqui, então onde havia o número 1 será True, representando empresa 
                               # com alto risco. Onde houver False temos empresa com baixo risco.
         }

In [5]:
dataset = pd.read_csv('./dataset.csv', dtype = dtypes)

In [6]:
dataset.head()

Unnamed: 0,cnpj,identificador_matriz_filial,razao_social,situacao_cadastral,data_inicio_atividade,uf,codigo_municipio,municipio,capital_social_empresa,porte_empresa,opcao_pelo_simples,cod_natureza_juridica,nm_natureza_juridica,cod_subclass_natureza_juridica,nm_subclass_natureza_juridica,cod_secao,nm_secao,cod_divisao,nm_divisao,cod_grupo,nm_grupo,cod_classe,nm_classe,cod_cnae,nm_cnae,participacoes,vitorias,contratos,risco
0,191,MATRIZ,BANCO DO BRASIL SA,Ativa,1966-08-01,DF,9701,BRASILIA,90000000000.0,Demais,Não optante,2,Entidades Empresariais,2038,Sociedade de Economia Mista,K,ATIVIDADES FINANCEIRAS DE SEGUROS E SERVIÇOS R...,64,ATIVIDADES DE SERVIÇOS FINANCEIROS,64.2,Intermediação monetária - depósitos à vista,64.22-1,Bancos múltiplos com carteira comercial,6422100,Bancos múltiplos com carteira comercial,6585,6580,67,True
1,96369,FILIAL,BANCO DO BRASIL SA,Ativa,1975-08-11,RN,1619,APODI,0.0,Demais,Não optante,2,Entidades Empresariais,2038,Sociedade de Economia Mista,K,ATIVIDADES FINANCEIRAS DE SEGUROS E SERVIÇOS R...,64,ATIVIDADES DE SERVIÇOS FINANCEIROS,64.2,Intermediação monetária - depósitos à vista,64.21-2,Bancos comerciais,6421200,Bancos comerciais,1,1,1,False
2,105104,FILIAL,BANCO DO BRASIL SA,Ativa,1976-03-17,RJ,6001,RIO DE JANEIRO,0.0,Demais,Não optante,2,Entidades Empresariais,2038,Sociedade de Economia Mista,K,ATIVIDADES FINANCEIRAS DE SEGUROS E SERVIÇOS R...,64,ATIVIDADES DE SERVIÇOS FINANCEIROS,64.2,Intermediação monetária - depósitos à vista,64.21-2,Bancos comerciais,6421200,Bancos comerciais,0,0,1,False
3,304492,FILIAL,BANCO DO BRASIL SA,Ativa,1991-04-12,SP,6477,GUARULHOS,0.0,Demais,Não optante,2,Entidades Empresariais,2038,Sociedade de Economia Mista,K,ATIVIDADES FINANCEIRAS DE SEGUROS E SERVIÇOS R...,64,ATIVIDADES DE SERVIÇOS FINANCEIROS,64.2,Intermediação monetária - depósitos à vista,64.22-1,Bancos múltiplos com carteira comercial,6422100,Bancos múltiplos com carteira comercial,0,0,1,False
4,314455,FILIAL,BANCO DO BRASIL SA,Ativa,1991-04-02,DF,9701,BRASILIA,0.0,Demais,Não optante,2,Entidades Empresariais,2038,Sociedade de Economia Mista,K,ATIVIDADES FINANCEIRAS DE SEGUROS E SERVIÇOS R...,64,ATIVIDADES DE SERVIÇOS FINANCEIROS,64.2,Intermediação monetária - depósitos à vista,64.22-1,Bancos múltiplos com carteira comercial,6422100,Bancos múltiplos com carteira comercial,0,0,1,False


Não existem entradas nulas em nenhuma coluna:

In [7]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56850 entries, 0 to 56849
Data columns (total 29 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   cnpj                            56850 non-null  object 
 1   identificador_matriz_filial     56850 non-null  object 
 2   razao_social                    56850 non-null  object 
 3   situacao_cadastral              56850 non-null  object 
 4   data_inicio_atividade           56850 non-null  object 
 5   uf                              56850 non-null  object 
 6   codigo_municipio                56850 non-null  object 
 7   municipio                       56850 non-null  object 
 8   capital_social_empresa          56850 non-null  float64
 9   porte_empresa                   56850 non-null  object 
 10  opcao_pelo_simples              56850 non-null  object 
 11  cod_natureza_juridica           56850 non-null  object 
 12  nm_natureza_juridica            

Vamos iniciar o tratamento de algumas colunas, a fim de futuramente podermos aplicar algoritmos de ML.

* __identificador_matriz_filial__: vamos criar a coluna _identificador_matriz_, colocando o valor _True_ para Matriz e _False_ para Filial e excluir a coluna original

In [8]:
dataset['identificador_matriz'] = pd.Series(np.where(dataset['identificador_matriz_filial'].values == 'MATRIZ', True, False), dataset.index)
dataset.drop(['identificador_matriz_filial'], axis = 1, inplace = True)

* __codigo_municipio__ e __municipio__: verificando quantos valores únicos temos para cada uma das colunas relacionadas ao município:

In [9]:
print(dataset['codigo_municipio'].nunique())
print(dataset['municipio'].nunique())

2256
2202


Notamos que existem mais códigos que nomes de municípios. Isto ocorre porque podem haver municípios com nomes iguais em estados diferentes. Além disso, vemos que existem 2.256 códigos de município diferentes. Vamos analisar a distribuição de empresas por código de munícipio:

In [10]:
quantidades = dataset['codigo_municipio'].value_counts().to_frame('quantidade_empresas').reset_index()
quant = pd.merge(quantidades.astype(str), dataset[['municipio', 'codigo_municipio']], left_on = 'index', right_on = 'codigo_municipio')
quant.drop_duplicates(inplace = True)
quant.drop(['index'], axis = 1, inplace = True)
quant = quant[['municipio', 'codigo_municipio', 'quantidade_empresas']]
quant['porcentagem_do_total'] = quant['quantidade_empresas'].astype(int).div(len(dataset.index)).mul(100)

In [11]:
quant.head(20)

Unnamed: 0,municipio,codigo_municipio,quantidade_empresas,porcentagem_do_total
0,SAO PAULO,7107,4395,7.730871
4395,BRASILIA,9701,3760,6.613896
8155,RIO DE JANEIRO,6001,3650,6.420405
11805,BELO HORIZONTE,4123,2030,3.5708
13835,CURITIBA,7535,1594,2.80387
15429,PORTO ALEGRE,8801,1578,2.775726
17007,FORTALEZA,1389,1162,2.043975
18169,MANAUS,255,1160,2.040457
19329,RECIFE,2531,1068,1.878628
20397,GOIANIA,9373,1025,1.80299


Vamos agrupar os municípios que possuem menos de 1% do total das empresas e excluir a coluna com os códigos dos municípios, deixando a coluna com os nomes (optamos por deixar os nomes e não os códigos porque, nos munícipios que tem pelo menos 1% das empresas, não há nomes repetidos).

In [12]:
listaCidadesQueFicam = quant[quant['porcentagem_do_total'] > 1.0]['municipio'].to_list()
listaCidadesQueFicam

['SAO PAULO',
 'BRASILIA',
 'RIO DE JANEIRO',
 'BELO HORIZONTE',
 'CURITIBA',
 'PORTO ALEGRE',
 'FORTALEZA',
 'MANAUS',
 'RECIFE',
 'GOIANIA',
 'SALVADOR',
 'BELEM',
 'CAMPO GRANDE',
 'NATAL',
 'SAO LUIS',
 'PORTO VELHO',
 'CUIABA']

In [13]:
dataset['municipio'] = pd.Series(np.where(np.isin(dataset['municipio'], listaCidadesQueFicam), dataset['municipio'], 'OUTROS'))
dataset.drop(['codigo_municipio'], axis = 1, inplace = True)
dataset['municipio'].value_counts()

OUTROS            30131
SAO PAULO          4395
BRASILIA           3760
RIO DE JANEIRO     3650
BELO HORIZONTE     2030
CURITIBA           1594
PORTO ALEGRE       1578
FORTALEZA          1162
MANAUS             1160
RECIFE             1068
GOIANIA            1025
SALVADOR            982
BELEM               975
CAMPO GRANDE        766
NATAL               695
SAO LUIS            643
PORTO VELHO         632
CUIABA              604
Name: municipio, dtype: int64

* __porte_empresa__: verificando as categorias exixtentes nesta coluna

In [14]:
dataset['porte_empresa'].value_counts()

Micro Empresa               21384
Demais                      18540
Empresa de Pequeno Porte    16924
Não informado                   2
Name: porte_empresa, dtype: int64

In [15]:
dataset[dataset['porte_empresa'] == 'Não informado']   #Verificando quais são as 2 empresas com porte não informado

Unnamed: 0,cnpj,razao_social,situacao_cadastral,data_inicio_atividade,uf,municipio,capital_social_empresa,porte_empresa,opcao_pelo_simples,cod_natureza_juridica,nm_natureza_juridica,cod_subclass_natureza_juridica,nm_subclass_natureza_juridica,cod_secao,nm_secao,cod_divisao,nm_divisao,cod_grupo,nm_grupo,cod_classe,nm_classe,cod_cnae,nm_cnae,participacoes,vitorias,contratos,risco,identificador_matriz
35761,15874855000119,MTU MAINTENANCE BERLIN-BRANDENBURG GMBH,Ativa,2012-07-04,EX,OUTROS,0.0,Não informado,Não optante,2,Entidades Empresariais,2216,Empresa Domiciliada no Exterior,K,ATIVIDADES FINANCEIRAS DE SEGUROS E SERVIÇOS R...,64,ATIVIDADES DE SERVIÇOS FINANCEIROS,64.6,Atividades de sociedades de participação,64.62-0,Holdings de instituições não financeiras,6462000,Holdings de instituições não financeiras,0,0,2,False,True
43600,23685228000168,DEEP SEA SUPPLY SHIPOWNING I AS,Ativa,2015-11-17,EX,OUTROS,0.0,Não informado,Não optante,2,Entidades Empresariais,2216,Empresa Domiciliada no Exterior,K,ATIVIDADES FINANCEIRAS DE SEGUROS E SERVIÇOS R...,64,ATIVIDADES DE SERVIÇOS FINANCEIROS,64.6,Atividades de sociedades de participação,64.62-0,Holdings de instituições não financeiras,6462000,Holdings de instituições não financeiras,0,0,1,False,True


As duas empresas com porte 'Não Informado' tem o CNAE _Holdings de instituições não financeiras_. Sendo assim, concluímos que não se tratam de Micro Empresas nem Empresas de Pequeno Porte, então vamos agrupá-las com as empresas com porte 'Demais'.

In [16]:
dataset['porte_empresa'] = pd.Series(np.where(dataset['porte_empresa'].values == 'Não informado', "Demais", dataset['porte_empresa']), dataset.index)
dataset['porte_empresa'].value_counts()

Micro Empresa               21384
Demais                      18542
Empresa de Pequeno Porte    16924
Name: porte_empresa, dtype: int64

* __cod_natureza_juridica__, __nm_natureza_juridica__, __cod_subclass_natureza_juridica__ e __nm_subclass_natureza_juridica__: estas colunas estão relacionadas umas com as outras. As duas primeiras tem uma relação de um para um entre código e nome da natureza jurídica. As duas últimas são o código e nome da subclasse da natureza jurídica. Cada entrada de subclasse pertence à mesma natureza jurídica, enquanto cada natureza jurídica contém várias subclasses.

In [17]:
dataset['nm_natureza_juridica'].value_counts()

Entidades Empresariais           53882
Entidades sem Fins Lucrativos     2476
Administração Pública              488
Pessoas Físicas                      4
Name: nm_natureza_juridica, dtype: int64

In [18]:
dataset['nm_subclass_natureza_juridica'].nunique()

50

Abaixo, verificamos a distribuição das empresas nas 50 subclasses de natureza jurídicas que existem no dataset.

In [19]:
quantidades = dataset['nm_subclass_natureza_juridica'].value_counts().to_frame('quantidade_empresas').reset_index().astype(str) 
quant = pd.merge(quantidades, dataset['nm_subclass_natureza_juridica'], left_on = 'index', right_on = 'nm_subclass_natureza_juridica')
quant.drop_duplicates(inplace = True)
quant.drop(['index'], axis = 1, inplace = True)
quant['porcentagem_do_total'] = quant['quantidade_empresas'].astype(int).div(len(dataset.index)).mul(100)
quant

Unnamed: 0,quantidade_empresas,nm_subclass_natureza_juridica,porcentagem_do_total
0,33335,Sociedade Empresária Limitada,58.636763
33335,10519,Empresa Individual de Responsabilidade Limitad...,18.503078
43854,5124,Empresário (Individual),9.013193
48978,1884,Associação Privada,3.313984
50862,1723,Sociedade Simples Limitada,3.030783
52585,1507,Sociedade Anônima Fechada,2.650836
54092,543,Cooperativa,0.955145
54635,520,Sociedade Simples Pura,0.914688
55155,283,Fundação Privada,0.497801
55438,219,Serviço Social Autônomo,0.385224


Vamos agrupar as subclasses que possuem menos de 1% do total das empresas e excluir as colunas _cod_natureza_juridica_, _nm_natureza_juridica_ e _cod_subclass_natureza_juridica_, mantendo a coluna _nm_subclass_natureza_juridica_.

In [20]:
listaSubclassesQueFicam = quant[quant['porcentagem_do_total'] > 1.0]['nm_subclass_natureza_juridica'].to_list()
listaSubclassesQueFicam

['Sociedade Empresária Limitada',
 'Empresa Individual de Responsabilidade Limitada (de Natureza Empresária)',
 'Empresário (Individual)',
 'Associação Privada',
 'Sociedade Simples Limitada',
 'Sociedade Anônima Fechada']

In [21]:
dataset['nm_subclass_natureza_juridica'] = pd.Series(np.where(np.isin(dataset['nm_subclass_natureza_juridica'], listaSubclassesQueFicam), dataset['nm_subclass_natureza_juridica'], 'Outros'))
dataset.drop(['cod_natureza_juridica', 'nm_natureza_juridica', 'cod_subclass_natureza_juridica'], axis = 1, inplace = True)

* __cod_secao__, __nm_secao__, __cod_divisao__, __nm_divisao__, __cod_grupo__, __nm_grupo__, __cod_classe__, __nm_classe__, __cod_cnae__, __nm_cnae__: estas dez colunas se referem ao CNAE, sendo _cod_secao_ e _nm_secao_ mais abrangentes e _cod_cnae_ e _nm_cnae_ mais detalhados. Vamos verificar as quantidades de categorias para cada nível da classificação:

In [22]:
print(dataset['nm_secao'].nunique())
print(dataset['nm_divisao'].nunique())
print(dataset['nm_grupo'].nunique())
print(dataset['nm_classe'].nunique())
print(dataset['nm_cnae'].nunique())

20
82
263
594
1018


Distribuição das empresas por _Seção_:

In [23]:
qt = dataset['nm_secao'].value_counts(normalize = True).to_frame('Porcentagem empresas').reset_index()
qt.rename(columns = {'index': 'Seção CNAE'}, inplace = True)
qt

Unnamed: 0,Seção CNAE,Porcentagem empresas
0,COMÉRCIO REPARAÇÃO DE VEÍCULOS AUTOMOTORES E M...,0.287388
1,SAÚDE HUMANA E SERVIÇOS SOCIAIS,0.127916
2,CONSTRUÇÃO,0.118153
3,ATIVIDADES ADMINISTRATIVAS E SERVIÇOS COMPLEME...,0.104573
4,INDÚSTRIAS DE TRANSFORMAÇÃO,0.100176
5,ATIVIDADES PROFISSIONAIS CIENTÍFICAS E TÉCNICAS,0.065383
6,INFORMAÇÃO E COMUNICAÇÃO,0.051856
7,OUTRAS ATIVIDADES DE SERVIÇOS,0.035497
8,TRANSPORTE ARMAZENAGEM E CORREIO,0.025101
9,EDUCAÇÃO,0.021759


Distribuição das empresas por _Divisão_:

In [24]:
qt = dataset['nm_divisao'].value_counts(normalize = True).iloc[:20].to_frame('Porcentagem empresas').reset_index()
qt.rename(columns = {'index': 'Divisão CNAE'}, inplace = True)
df = pd.DataFrame({'Divisão CNAE': ['OUTROS'], 'Porcentagem empresas': [1.0 - qt['Porcentagem empresas'].sum()]})
qt = qt.append(df)
qt

Unnamed: 0,Divisão CNAE,Porcentagem empresas
0,COMÉRCIO VAREJISTA,0.155884
1,ATIVIDADES DE ATENÇÃO À SAÚDE HUMANA,0.118804
2,COMÉRCIO POR ATACADO EXCETO VEÍCULOS AUTOMOTOR...,0.105084
3,CONSTRUÇÃO DE EDIFÍCIOS,0.060264
4,SERVIÇOS ESPECIALIZADOS PARA CONSTRUÇÃO,0.041777
5,SERVIÇOS DE ARQUITETURA E ENGENHARIA TESTES E ...,0.039789
6,SERVIÇOS PARA EDIFÍCIOS E ATIVIDADES PAISAGÍST...,0.031469
7,SERVIÇOS DE ESCRITÓRIO DE APOIO ADMINISTRATIVO...,0.027282
8,COMÉRCIO E REPARAÇÃO DE VEÍCULOS AUTOMOTORES E...,0.02642
9,EDUCAÇÃO,0.021759


Distribuição das empresas por _Grupo_:

In [25]:
qt = dataset['nm_grupo'].value_counts(normalize = True).iloc[:20].to_frame('Porcentagem empresas').reset_index()
qt.rename(columns = {'index': 'Grupo CNAE'}, inplace = True)
df = pd.DataFrame({'Grupo CNAE': ['OUTROS'], 'Porcentagem empresas': [1.0 - qt['Porcentagem empresas'].sum()]})
qt = qt.append(df)
qt

Unnamed: 0,Grupo CNAE,Porcentagem empresas
0,Construção de edifícios,0.058206
1,Comércio varejista de equipamentos de informát...,0.053316
2,Atividades de atenção ambulatorial executadas ...,0.040686
3,Comércio atacadista de produtos de consumo não...,0.039226
4,Serviços de arquitetura e engenharia e ativida...,0.037397
5,Atividades de serviços de complementação diagn...,0.032788
6,Comércio varejista de produtos novos não espec...,0.029041
7,Instalações elétricas hidráulicas e outras ins...,0.026667
8,Comércio varejista de material de construção,0.025963
9,Atividades de limpeza,0.025347


Distribuição das empresas por _Classe_:

In [26]:
qt = dataset['nm_classe'].value_counts(normalize = True).iloc[:20].to_frame('Porcentagem empresas').reset_index()
qt.rename(columns = {'index': 'Classe CNAE'}, inplace = True)
df = pd.DataFrame({'Classe CNAE': ['OUTROS'], 'Porcentagem empresas': [1.0 - qt['Porcentagem empresas'].sum()]})
qt = qt.append(df)
qt

Unnamed: 0,Classe CNAE,Porcentagem empresas
0,Construção de edifícios,0.058206
1,Atividades de atenção ambulatorial executadas ...,0.040686
2,Atividades de serviços de complementação diagn...,0.032788
3,Serviços de engenharia,0.028531
4,Comércio varejista especializado de equipament...,0.026895
5,Atividades de profissionais da área de saúde e...,0.023641
6,Comércio varejista de outros produtos novos nã...,0.021882
7,Atividades de atendimento hospitalar,0.018047
8,Comércio atacadista de instrumentos e materiai...,0.017643
9,Comércio varejista de ferragens madeira e mate...,0.017397


Distribuição das empresas por _CNAE_:

In [27]:
qt = dataset['nm_cnae'].value_counts(normalize = True).iloc[:15].to_frame('Porcentagem empresas').reset_index()
qt.rename(columns = {'index': 'CNAE'}, inplace = True)
df = pd.DataFrame({'CNAE': ['OUTROS'], 'Porcentagem empresas': [1.0 - qt['Porcentagem empresas'].sum()]})
qt = qt.append(df)
qt

Unnamed: 0,CNAE,Porcentagem empresas
0,Construção de edifícios,0.058206
1,Serviços de engenharia,0.028531
2,Comércio varejista especializado de equipament...,0.026491
3,Atividade médica ambulatorial restrita a consu...,0.018399
4,Comércio atacadista de instrumentos e materiai...,0.016447
5,Atividades de atendimento hospitalar exceto pr...,0.014565
6,Limpeza em prédios e em domicílios,0.014301
7,Atividades de fisioterapia,0.013931
8,Comércio varejista de outros produtos não espe...,0.013826
9,Atividades de associações de defesa de direito...,0.012788


Observamos que granularidade é tanta que já no nível de _Grupo_, só duas categorias representam mais de 5% dos dados. Sendo assim, optamos por manter apenas as informações de _Seção_ e _Divisão_. Vamos agrupar as seções e as divisões que possuem menos de 1% do total das empresas.

In [28]:
qt = dataset['nm_secao'].value_counts(normalize = True).to_frame('Porcentagem empresas').reset_index()
qt.rename(columns = {'index': 'nm_secao'}, inplace = True)
listaSecoesQueFicam = qt[qt['Porcentagem empresas'] > 0.01]['nm_secao'].to_list()
dataset['nm_secao'] = pd.Series(np.where(np.isin(dataset['nm_secao'], listaSecoesQueFicam), dataset['nm_secao'], 'Outros'))

In [29]:
qt = dataset['nm_divisao'].value_counts(normalize = True).to_frame('Porcentagem empresas').reset_index()
qt.rename(columns = {'index': 'nm_divisao'}, inplace = True)
listaDivisoesQueFicam = qt[qt['Porcentagem empresas'] > 0.01]['nm_divisao'].to_list()
dataset['nm_divisao'] = pd.Series(np.where(np.isin(dataset['nm_divisao'], listaDivisoesQueFicam), dataset['nm_divisao'], 'Outros'))

In [30]:
dataset.drop(['cod_secao', 
              'cod_divisao', 
              'cod_grupo', 
              'nm_grupo', 
              'cod_classe', 
              'nm_classe', 
              'cod_cnae', 
              'nm_cnae'], axis = 1, inplace = True)

In [31]:
print('Seções')
print(dataset['nm_secao'].nunique())
print('Divisões')
print(dataset['nm_divisao'].nunique())

Seções
14
Divisões
20


* __data_inicio_atividade__: acreditamos que mais importante que a data exata de início de atividade de uma empresa seja a quantidade de anos de existência. Então vamos criar uma nova coluna com a idade da empresa e excluir a data de início de atividade

In [32]:
dataset['idade_empresa'] = 2021 - dataset['data_inicio_atividade'].str.split('-', expand = True)[0].astype(int)
dataset.drop(['data_inicio_atividade'], axis = 1, inplace = True)

In [33]:
dataset['idade_empresa'].describe()

count    56850.000000
mean        18.539402
std         11.602314
min          1.000000
25%         10.000000
50%         16.000000
75%         24.000000
max        114.000000
Name: idade_empresa, dtype: float64

* __situacao_cadastral__

In [34]:
dataset['situacao_cadastral'].value_counts(normalize = True)

Ativa       0.921337
Baixada     0.043676
Inapta      0.032454
Suspensa    0.002498
Nula        0.000035
Name: situacao_cadastral, dtype: float64

As empresas na situação _Ativa_ representam mais de 90% dos dados, então vamos transformar a coluna _situacao_cadastral_ em um indicador de se a empresa está ativa ou não.

In [35]:
dataset['situacao_cadastral_ativa'] = pd.Series(np.where(dataset['situacao_cadastral'].values == 'Ativa', True, False), dataset.index)
dataset.drop(['situacao_cadastral'], axis = 1, inplace = True)

Após o tratamento das colunas feito acima, ficamos com seguinte dataset, contendo 56.850 fornecedores do Governo Federal, com 17 colunas, sendo a coluna _risco_ a que queremos prever com o modelo de ML.

In [36]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56850 entries, 0 to 56849
Data columns (total 17 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   cnpj                           56850 non-null  object 
 1   razao_social                   56850 non-null  object 
 2   uf                             56850 non-null  object 
 3   municipio                      56850 non-null  object 
 4   capital_social_empresa         56850 non-null  float64
 5   porte_empresa                  56850 non-null  object 
 6   opcao_pelo_simples             56850 non-null  object 
 7   nm_subclass_natureza_juridica  56850 non-null  object 
 8   nm_secao                       56850 non-null  object 
 9   nm_divisao                     56850 non-null  object 
 10  participacoes                  56850 non-null  int64  
 11  vitorias                       56850 non-null  int64  
 12  contratos                      56850 non-null 

In [37]:
dataset.describe()

Unnamed: 0,capital_social_empresa,participacoes,vitorias,contratos,idade_empresa
count,56850.0,56850.0,56850.0,56850.0,56850.0
mean,24166210.0,773.320211,127.203342,4.667142,18.539402
std,791243500.0,3987.962876,743.158312,18.977881,11.602314
min,0.0,0.0,0.0,1.0,1.0
25%,10000.0,2.0,2.0,1.0,10.0
50%,100000.0,21.0,6.0,2.0,16.0
75%,450000.0,227.0,41.0,4.0,24.0
max,90000000000.0,239891.0,50899.0,1633.0,114.0


In [38]:
dataset

Unnamed: 0,cnpj,razao_social,uf,municipio,capital_social_empresa,porte_empresa,opcao_pelo_simples,nm_subclass_natureza_juridica,nm_secao,nm_divisao,participacoes,vitorias,contratos,risco,identificador_matriz,idade_empresa,situacao_cadastral_ativa
0,00000000000191,BANCO DO BRASIL SA,DF,BRASILIA,9.000000e+10,Demais,Não optante,Outros,Outros,Outros,6585,6580,67,True,True,55,True
1,00000000096369,BANCO DO BRASIL SA,RN,OUTROS,0.000000e+00,Demais,Não optante,Outros,Outros,Outros,1,1,1,False,False,46,True
2,00000000105104,BANCO DO BRASIL SA,RJ,RIO DE JANEIRO,0.000000e+00,Demais,Não optante,Outros,Outros,Outros,0,0,1,False,False,45,True
3,00000000304492,BANCO DO BRASIL SA,SP,OUTROS,0.000000e+00,Demais,Não optante,Outros,Outros,Outros,0,0,1,False,False,30,True
4,00000000314455,BANCO DO BRASIL SA,DF,BRASILIA,0.000000e+00,Demais,Não optante,Outros,Outros,Outros,0,0,1,False,False,30,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
56845,98413339000114,JOSE BRAZ RISPOLI,RS,OUTROS,2.500000e+04,Empresa de Pequeno Porte,Optante,Empresário (Individual),COMÉRCIO REPARAÇÃO DE VEÍCULOS AUTOMOTORES E M...,COMÉRCIO VAREJISTA,82,40,1,False,True,54,True
56846,98416225000128,SANTA CASA DE CARIDADE DE URUGUAIANA,RS,OUTROS,0.000000e+00,Demais,Não optante,Associação Privada,SAÚDE HUMANA E SERVIÇOS SOCIAIS,ATIVIDADES DE ATENÇÃO À SAÚDE HUMANA,2,2,2,False,True,53,True
56847,98420052000111,LABORATORIO DE ANALISES CLINICAS TARRAGO CARVA...,RS,OUTROS,4.000000e+04,Micro Empresa,Optante,Sociedade Empresária Limitada,SAÚDE HUMANA E SERVIÇOS SOCIAIS,ATIVIDADES DE ATENÇÃO À SAÚDE HUMANA,2,2,2,False,True,50,True
56848,98526122000110,MITRA DIOCESANA DE VACARIA,RS,OUTROS,0.000000e+00,Demais,Não optante,Outros,OUTRAS ATIVIDADES DE SERVIÇOS,ATIVIDADES DE ORGANIZAÇÕES ASSOCIATIVAS,1,1,1,False,True,50,True


In [39]:
dataset.to_csv('./dataset_tratado.csv', index = False)