Esse notebook faz o primeiro tratamento dos dados

In [1]:
import pandas as pd
import numpy as np
import json

with open('Raw_data//features_dictionary.json', 'r') as File:
    features_dictionary = json.load(File)

#estes dados são redundantes ou provavelmente irrelevantes para a análise
irrelevantes = ['dt_situacao', 'idade_emp_cat', 'de_faixa_faturamento_estimado_grupo', 'de_faixa_faturamento_estimado', 'fl_epp']
data = pd.read_csv('Raw_data//estaticos_market.gz', index_col=0).set_index('id').drop(columns=irrelevantes)

In [2]:
#retira variáveis que possúem mais de 30% de dados faltantes, das restantes
#separa as com dados faltantes para fazer uma segunda análise
not_nan = data.count()
usar=[]
verificar=[]
nao_descartado = []
for x in not_nan.keys():
    temp=not_nan[x]/len(data)
    if temp>0.70:
        if temp<1.0:
            verificar.append(x)
        nao_descartado.append((not_nan[x], temp, x))
        usar.append(x)
        
nao_descartado.sort(key=lambda k: k[0])
for x in nao_descartado:
    print("%6d %.6f " %(x[0], x[1]) + x[2])
print("total de variáveis:", len(not_nan.keys()))
print("Usar:", len(usar))
print("Faltando dados:", len(verificar))
data = data[usar]

347207 0.751046 qt_socios
347207 0.751046 qt_socios_pf
347207 0.751046 qt_socios_pj
379585 0.821083 fl_optante_simples
379585 0.821083 fl_optante_simei
403600 0.873030 nm_meso_regiao
403600 0.873030 nm_micro_regiao
417022 0.902063 nu_meses_rescencia
434785 0.940486 vl_faturamento_estimado_aux
434785 0.940486 vl_faturamento_estimado_grupo_aux
447447 0.967876 de_saude_tributaria
447447 0.967876 de_saude_rescencia
451130 0.975842 de_nivel_atividade
460359 0.995806 sg_uf_matriz
460371 0.995832 setor
460371 0.995832 nm_divisao
460371 0.995832 nm_segmento
460371 0.995832 fl_spa
460371 0.995832 fl_antt
460371 0.995832 fl_veiculo
460371 0.995832 vl_total_veiculos_pesados_grupo
460371 0.995832 vl_total_veiculos_leves_grupo
460371 0.995832 fl_simples_irregular
460371 0.995832 fl_passivel_iss
462298 1.000000 fl_matriz
462298 1.000000 de_natureza_juridica
462298 1.000000 sg_uf
462298 1.000000 natureza_juridica_macro
462298 1.000000 de_ramo
462298 1.000000 idade_empresa_anos
462298 1.000000 fl_me
4

In [3]:
#separa as variáveis por tipo de dado
#verifica a amplitude das variáveis numpericas
#conta a quantidade de diferentes tipos de variaveis
valores = {'numeric':{}, 'string':{}, 'bool':{}}
_NUMERIC_KINDS = set('uifc')
for column in usar:
    if data[column].dtype.kind in _NUMERIC_KINDS:
        valores['numeric'][column] = (data[column].min(), data[column].max())
    elif data[column].dtype.kind == 'b':
        valores['bool'][column] = (data[column].min(), data[column].max()) 
    else:
        valores['string'][column] = data[column].value_counts()
print('Numericos:', len(valores['numeric']))
print('Booleano:', len(valores['bool']))
print('String:', len(valores['string']))

Numericos: 10
Booleano: 8
String: 21


In [4]:
#imprime as classes das variáveis do tipo string
for item in valores['string'].keys():
    print('\t%s: lenght=%d' %(item, len(valores['string'][item])))
    print("Descrição:", features_dictionary[item], '\n')
    print(valores['string'][item], '\n')

	de_natureza_juridica: lenght=67
Descrição: character, juridic nature of the company. 

EMPRESARIO INDIVIDUAL                                                     295756
SOCIEDADE EMPRESARIA LIMITADA                                              91231
ASSOCIACAO PRIVADA                                                         29694
EMPRESA INDIVIDUAL DE RESPONSABILIDADE LIMITADA DE NATUREZA EMPRESARIA     15183
ORGAO DE DIRECAO LOCAL DE PARTIDO POLITICO                                  7301
                                                                           ...  
CONSORCIO PUBLICO DE DIREITO PRIVADO                                           1
ORGAO DE DIRECAO NACIONAL DE PARTIDO POLITICO                                  1
FUNDO PRIVADO                                                                  1
SOCIEDADE SIMPLES EM NOME COLETIVO                                             1
CONSORCIO DE EMPREGADORES                                                      1
Name: de_natureza_jur

In [5]:
#retira ou junta classes com poucas amostras e muda o tipo de classe para variáveis que se tornam booleanas
de_natureza_juridica = {}
for x in range(len(valores['string']['de_natureza_juridica'])):
    if valores['string']['de_natureza_juridica'][x]<100:
        de_natureza_juridica[valores['string']['de_natureza_juridica'].keys()[x]]="Outros"
        
replace = [("nm_divisao", {'EXTRACAO DE CARVAO MINERAL':'EXTRACAO DE MINERAIS NAO METALICOS',
                           'FABRICACAO DE PRODUTOS DO FUMO':'FABRICACAO DE PRODUTOS DIVERSOS'}, None),
           ("de_saude_rescencia", {'ATE 3 MESES':"ABAIXO DE 1 ANO", 'ATE 6 MESES':"ABAIXO DE 1 ANO", 
                                   'ATE 1 ANO':'ABAIXO DE 1 ANO', 'SEM INFORMACAO':np.nan}, None),
           ("de_nivel_atividade", {'ALTA':3,'MEDIA':2,'BAIXA':1,'MUITO BAIXA':0}, 'float'),
           ("de_natureza_juridica", de_natureza_juridica, None),
           ("natureza_juridica_macro", {'INSTITUICOES EXTRATERRITORIAIS':'OUTROS'}, None)]

types={}
for column, value, chage_type in replace:
    data[column]=data[column].replace(value)
    if chage_type:
        types[column]=chage_type
data = data.astype(types)

In [6]:
#conta de novo a quantidade de cada tipo de dado
valores = {'numeric':{}, 'categorical':{}, 'bool':{}}
_NUMERIC_KINDS = set('uifc')
for column in usar:
    if data[column].dtype.kind in _NUMERIC_KINDS:
        valores['numeric'][column] = (data[column].min(), data[column].max())
    elif data[column].dtype.kind == 'b':
        valores['bool'][column] = (data[column].min(), data[column].max()) 
    else:
        valores['categorical'][column] = data[column].value_counts()
print('Numericos:', len(valores['numeric']))
print('Booleano:', len(valores['bool']))
print('Categorico:', len(valores['categorical']))

Numericos: 11
Booleano: 8
Categorico: 20


In [7]:
for item in valores['numeric'].keys():
    print('\t%s: lenght=%d not_nan=%.6f' %(item, len(valores['numeric'][item]), not_nan[item]/len(data)))
    print(features_dictionary[item], '\n')
    print(valores['numeric'][item], '\n')

	idade_empresa_anos: lenght=2 not_nan=1.000000
numeric value, age of the company. 

(0.01643835616438356, 106.43287671232876) 

	vl_total_veiculos_pesados_grupo: lenght=2 not_nan=0.995832
numeric, economic value of the heavy weight vehicles of the economic group of the company 

(0.0, 9782.0) 

	vl_total_veiculos_leves_grupo: lenght=2 not_nan=0.995832
numeric, economic value of the light weight vehicles of the economic group of the company 

(0.0, 122090.0) 

	nu_meses_rescencia: lenght=2 not_nan=0.902063
character, number of months since the last update of the most lagged input from saude_tributaria 

(0.0, 66.0) 

	de_nivel_atividade: lenght=2 not_nan=0.975842
character, probability of being operating, ALTA high probality, BAIXA, low probality. 

(0.0, 3.0) 

	qt_socios: lenght=2 not_nan=0.751046
integer value, quantity of partners/shareholders of the cnpj 

(1.0, 246.0) 

	qt_socios_pf: lenght=2 not_nan=0.751046
integer value, quantity of partners/shareholders of the cnpj that are p

In [8]:
for item in valores['bool'].keys():
    print('\t%s: lenght=%d not_nan=%.6f' %(item, len(valores['bool'][item]), not_nan[item]/len(data)))
    print(features_dictionary[item], '\n')
    print(valores['bool'][item], '\n')

	fl_matriz: lenght=2 not_nan=1.000000
boolean value, true if the CNPJ corresponds to the "matriz". 

(False, True) 

	fl_me: lenght=2 not_nan=1.000000
boolean value, true if the company has the term 'ME' in the end of its legal name. 

(False, True) 

	fl_sa: lenght=2 not_nan=1.000000
boolean value, true if the company has the term 'SA' in the end of its legal name. 

(False, True) 

	fl_mei: lenght=2 not_nan=1.000000
boolean value, true if the company has the term 'MEI' in the end of its legal name. 

(False, True) 

	fl_ltda: lenght=2 not_nan=1.000000
boolean value, true if the company has the term 'LTDA' in the end of its legal name. 

(False, True) 

	fl_st_especial: lenght=2 not_nan=1.000000
boolean value, true if dt_situacao_especial is not null. If it is not null means that some extraordinary situation is identified by the IRS (ESPOLIO DE EMPRESARIO EMPRESA INDIVIDUAL OU EIRELI, FALIDO, EM LIQUIDACAO, LIQUIDACAO JUDICIAL, LIQUIDACAO EXTRA JUDICIAL, REGISTRO NA JUNTA COMERCIAL EM

In [9]:
for item in valores['categorical'].keys():
    print('\t%s: lenght=%d not_nan=%.6f' %(item, len(valores['categorical'][item]), not_nan[item]/len(data)))
    print(features_dictionary[item], '\n')
    print(valores['categorical'][item], '\n')

	de_natureza_juridica: lenght=33 not_nan=1.000000
character, juridic nature of the company. 

EMPRESARIO INDIVIDUAL                                                     295756
SOCIEDADE EMPRESARIA LIMITADA                                              91231
ASSOCIACAO PRIVADA                                                         29694
EMPRESA INDIVIDUAL DE RESPONSABILIDADE LIMITADA DE NATUREZA EMPRESARIA     15183
ORGAO DE DIRECAO LOCAL DE PARTIDO POLITICO                                  7301
ORGANIZACAO RELIGIOSA                                                       2908
SOCIEDADE ANONIMA FECHADA                                                   2196
CONDOMINIO EDILICIO                                                         2084
ENTIDADE SINDICAL                                                           1763
CANDIDATO A CARGO POLITICO ELETIVO                                          1617
SOCIEDADE SIMPLES LIMITADA                                                  1316
EMPRESA INDIVID

In [10]:
#normaliza os dados numéricos
#salva arquivo com a localização dos dados faltantes
#preenche os dados faltantes
data[[x for x in valores["numeric"] if x in verificar]].isna().to_csv('Data//NaN_num.gz')
mean = data[valores["numeric"]].mean()  
std  = data[valores["numeric"]].std()  
data.update(((data[valores["numeric"]]-mean)/std).fillna(value=0))
data[valores["numeric"]].count()

idade_empresa_anos                   462298
vl_total_veiculos_pesados_grupo      462298
vl_total_veiculos_leves_grupo        462298
nu_meses_rescencia                   462298
de_nivel_atividade                   462298
qt_socios                            462298
qt_socios_pf                         462298
qt_socios_pj                         462298
vl_faturamento_estimado_aux          462298
vl_faturamento_estimado_grupo_aux    462298
qt_filiais                           462298
dtype: int64

In [11]:
#salva um arquivo com os dados numéricos e booleanos 
data[list(valores["numeric"].keys())+list(valores["bool"].keys())].to_csv('Data//num_bool.gz')

In [12]:
#transforma os dados categoricos em one hot encoding 
#salva um dataframe com a localização dos dados faltantes
data[[x for x in valores["categorical"] if x in verificar]].isna().to_csv('Data//NaN_cat.gz')
for x in valores["categorical"]:
    pd.get_dummies(data[x].astype('category')).to_csv('Data//cat//' + x + '.gz')