# Desafio final Code:Nation Data Science

***
## Objetivo

O objetivo deste produto é fornecer um serviço automatizado que recomenda leads para um usuário dado sua atual lista de clientes (Portfólio).
 
## Contextualização

Algumas empresas gostariam de saber quem são as demais empresas em um determinado mercado (população) que tem maior probabilidade se tornarem seus próximos clientes. Ou seja, a sua solução deve encontrar no mercado quem são os leads mais aderentes dado as características dos clientes presentes no portfólio do usuário.

Além disso, sua solução deve ser agnóstica ao usuário. Qualquer usuário com uma lista de clientes que queira explorar esse mercado pode extrair valor do serviço.       

Para o desafio, deverão ser consideradas as seguintes bases:

* Mercado: Base com informações sobre as empresas do Mercado a ser considerado. 
* Portfolio 1: Ids dos clientes da empresa 1
* Portfolio 2: Ids dos clientes da empresa 2
* Portfolio 3: Ids dos clientes da empresa 3 

Obs: todas as empresas(ids) dos portfolios estão contidos no Mercado(base de população). 

Link para download das bases Mercado, Portfolio 1, Portfolio 2 e Portfolio 3 respectivamente: 

[https://drive.google.com/open?id=1y8-kGTMrsMi4q49x7LBYfu_iP2f0Xudi](https://drive.google.com/open?id=1y8-kGTMrsMi4q49x7LBYfu_iP2f0Xudi)

[https://drive.google.com/open?id=1hgBhk-S0jKCF-GYBz8eaaktvmkH9xI0b](https://drive.google.com/open?id=1hgBhk-S0jKCF-GYBz8eaaktvmkH9xI0b)

[https://drive.google.com/open?id=1bbSy_0C981TbenfQOAhaK6Q_-q-ppq1X](https://drive.google.com/open?id=1bbSy_0C981TbenfQOAhaK6Q_-q-ppq1X)

[https://drive.google.com/open?id=18VH0WhmF3iRLk_pVwcTclUn_AiZFGYTX](https://drive.google.com/open?id=18VH0WhmF3iRLk_pVwcTclUn_AiZFGYTX)

As bases de portfólio poderão ser utilizadas para testar a aderência da solução. Além disso, se a equipe desejar, poderá simular portfólios por meio de amostragens no mercado. 

## Requisitos técnicos obrigatórios

-  Utilizar técnicas de data science e machine learning para desenvolver o projeto;
-  Apresentar o desenvolvimento e outputs do modelo em um Jupyter Notebook ou outra tecnologia de apresentação de Output de modelos de Machine Learning;
-  A análise deve considerar os seguintes pontos: análise exploratória dos dados, tratamento dos dados, avaliação de algoritmos, treinamento do modelo, avaliação de performance do modelo e visualização dos resultados; 
-  Para a apresentação do projeto, o tempo entre o treinamento do modelo e o output deve ser menor que 20 min. 


***
## Sistema de recomendação:

> ### Pacotes:

In [1]:
import pandas as pd
import numpy as np

> ### Dados:

In [2]:
market = pd.read_csv("estaticos_market.csv")

In [3]:
portfolio = pd.read_csv("estaticos_portfolio2.csv")

In [4]:
dicionario = pd.read_csv("dicionario.csv")

In [5]:
# Ajuste para visualização completa dos datasets:
pd.set_option('display.max_colwidth', -1)
pd.set_option('display.max_columns', len(market.columns))
pd.set_option('display.max_rows', len(market))

***
## T1 - Complemento do dataset Portfólio:
O dataset portfólio possui apenas a coluna 'id', iremos completar  com os demais dados que estão presentes no dataset market.

In [6]:
# DataFrame etapa de Tratamento 1:
market_T1= market.copy()

# Criação da coluna id_num para auxiliar a manipulação:
market_T1['id_num'] = market_T1['Unnamed: 0']

# Elimina coluna Unnamed: 0':
market_T1 = market_T1.drop(['Unnamed: 0'], axis = 1)

# Geração de portfolio completo:
portfolio_T1 = pd.DataFrame(portfolio['id'])
portfolio_T1 = pd.merge(portfolio_T1, market, on='id', how='left')

> ### Heads:

In [7]:
market_T1.head(3)

Unnamed: 0,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_tancagem,vl_total_veiculos_antt,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,vl_total_tancagem_grupo,vl_total_veiculos_antt_grupo,vl_potenc_cons_oleo_gas,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_st_suspensa,qt_socios_masculino,qt_socios_feminino,qt_socios_pep,qt_alteracao_socio_total,qt_alteracao_socio_90d,qt_alteracao_socio_180d,qt_alteracao_socio_365d,qt_socios_pj_ativos,qt_socios_pj_nulos,qt_socios_pj_baixados,qt_socios_pj_suspensos,qt_socios_pj_inaptos,vl_idade_media_socios_pj,vl_idade_maxima_socios_pj,vl_idade_minima_socios_pj,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,coligada_mais_nova_baixada,coligada_mais_antiga_baixada,idade_media_coligadas_baixadas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,vl_folha_coligados,media_vl_folha_coligados,max_vl_folha_coligados,min_vl_folha_coligados,vl_folha_coligados_gp,media_vl_folha_coligados_gp,max_vl_folha_coligados_gp,min_vl_folha_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,total_filiais_coligados,media_filiais_coligados,max_filiais_coligados,min_filiais_coligados,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_ate_18,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_analfabeto,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,grau_instrucao_macro_desconhecido,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais,id_num
0,a6984c3ae395090e3bee8ad63c3758b110de096d5d819583a784a113726db849,True,SOCIEDADE EMPRESARIA LIMITADA,RN,ENTIDADES EMPRESARIAIS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,14.457534,10 a 15,False,False,False,False,False,2005-03-25,False,True,True,SIM,CONSTRUCAO DE EDIFICIOS,CONSTRUCAO,False,False,False,,,,,True,8.0,0.0,0.0,,,,False,RN,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,,,LESTE POTIGUAR,NATAL,True,2.0,2.0,0.0,44.0,47.0,41.0,2.0,,2.0,,,,,,,,,,,,,,,6.0,8.0,6.0,6.0,0.0,0.0,0.0,0.0,220.477778,536.366667,57.3,57.3,536.366667,220.477778,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6.0,0.0,0.0,0.0,2.0,1.0,5.0,0.0,0.0,1.0,5.0,0.0,145.0,145.0,36.25,91.0,6.0,9375912.0,2343978.0,5275238.5,638798.4,9375912.0,2343978.0,5275238.5,638798.4,21809443.0,3634907.0,13188096.0,210000.0,22019443.0,3669907.0,13188096.0,210000.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,6.0,21809443.0,"DE R$ 1.500.000,01 A R$ 4.800.000,00","DE R$ 1.500.000,01 A R$ 4.800.000,00",3132172.8,3132172.8,119.0,26.0,100.0,0.0,,1.0,4.0,6.0,5.0,3.0,4.0,2.0,,1.0,,1.0,25.0,,,26.0,19.166667,0.0,0.0,119.0,145.0,13.309195,93.266667,-0.933333,43.738462,93.266667,19.166667,26.0,26.0,27.0,0.0,-3.703704,0.0,0,0
1,6178f41ade1365e44bc2c46654c2c8c0eaae27dcb476c47fdef50b33f4f56f05,True,EMPRESARIO INDIVIDUAL,PI,OUTROS,SERVICOS DE ALOJAMENTO/ALIMENTACAO,SERVIÇO,1.463014,1 a 5,False,False,False,True,False,2017-05-12,False,True,True,SIM,ALIMENTACAO,ALOJAMENTO E ALIMENTACAO,False,False,False,,,,,,,0.0,0.0,,,,,PI,CINZA,ATE 1 ANO,9.0,BAIXA,,False,,468.93,CENTRO NORTE PIAUIENSE,TERESINA,True,1.0,1.0,0.0,27.0,27.0,27.0,1.0,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 81.000,01 A R$ 360.000,00","DE R$ 81.000,01 A R$ 360.000,00",210000.0,210000.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,1
2,4a7e5069a397f12fdd7fd57111d6dc5d3ba558958efc02edc5147bc2a2535b08,True,EMPRESARIO INDIVIDUAL,AM,OUTROS,"TRANSPORTE, ARMAZENAGEM E CORREIO",SERVIÇO,7.093151,5 a 10,False,False,False,True,False,2011-09-26,False,False,True,SIM,TRANSPORTE TERRESTRE,TRANSPORTE ARMAZENAGEM E CORREIO,False,False,False,,,,,True,,0.0,0.0,,,,True,AM,AMARELO,ACIMA DE 1 ANO,26.0,MEDIA,,False,,713.5,CENTRO AMAZONENSE,MANAUS,True,1.0,1.0,0.0,32.0,32.0,32.0,,1.0,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"ATE R$ 81.000,00","ATE R$ 81.000,00",50000.0,50000.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,2


In [8]:
portfolio_T1.head(3)

Unnamed: 0.1,id,Unnamed: 0,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_tancagem,vl_total_veiculos_antt,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,vl_total_tancagem_grupo,vl_total_veiculos_antt_grupo,vl_potenc_cons_oleo_gas,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_st_suspensa,qt_socios_masculino,qt_socios_feminino,qt_socios_pep,qt_alteracao_socio_total,qt_alteracao_socio_90d,qt_alteracao_socio_180d,qt_alteracao_socio_365d,qt_socios_pj_ativos,qt_socios_pj_nulos,qt_socios_pj_baixados,qt_socios_pj_suspensos,qt_socios_pj_inaptos,vl_idade_media_socios_pj,vl_idade_maxima_socios_pj,vl_idade_minima_socios_pj,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,coligada_mais_nova_baixada,coligada_mais_antiga_baixada,idade_media_coligadas_baixadas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,vl_folha_coligados,media_vl_folha_coligados,max_vl_folha_coligados,min_vl_folha_coligados,vl_folha_coligados_gp,media_vl_folha_coligados_gp,max_vl_folha_coligados_gp,min_vl_folha_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,total_filiais_coligados,media_filiais_coligados,max_filiais_coligados,min_filiais_coligados,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_ate_18,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_analfabeto,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,grau_instrucao_macro_desconhecido,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais
0,09e95c1a84049001d086470a8f320a19b076f955a89122ff8360ac2e4d6eca5d,1646,True,AUTARQUIA ESTADUAL OU DO DISTRITO FEDERAL,AC,ADMINISTRACAO PUBLICA,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,11.243836,10 a 15,False,False,False,False,False,2007-08-03,False,True,True,NAO,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,,,4.0,0.0,False,,0.0,4.0,,,,False,AC,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,46132.0,2791.15,VALE DO ACRE,RIO BRANCO,True,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 300.000.000,01 A R$ 500.000.000,00","DE R$ 300.000.000,01 A R$ 500.000.000,00",327487200.0,327487200.0,451.0,1361.0,81.78,18.22,,,23.0,411.0,508.0,282.0,103.0,22.0,10.0,2.0,,2.0,523.0,836.0,,1361.0,25.533333,0.0,0.0,451.0,1812.0,84.967827,357.066667,-6.5,99.961009,357.066667,25.533333,1361.0,1361.0,1383.0,0.0,-1.590745,0.0,0
1,dc9d155f5bcd3172031e2ec9431786e8871ff4b0ff4728bb62194ca0842cce3e,2696,True,MUNICIPIO,RN,OUTROS,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,43.789041,> 20,False,False,False,False,False,2004-12-11,False,False,False,SIM,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,,,20.0,16.0,False,8.0,16.0,20.0,,,,False,RN,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,1309391.0,1007.87,AGRESTE POTIGUAR,AGRESTE POTIGUAR,True,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 100.000.000,01 A R$ 300.000.000,00","DE R$ 100.000.000,01 A R$ 300.000.000,00",176802910.0,176802910.0,1359.0,991.0,42.89,57.11,,11.0,59.0,104.0,157.0,129.0,163.0,113.0,132.0,123.0,,54.0,414.0,523.0,,991.0,23.2,0.0,0.0,1361.0,2352.0,80.756709,5014.966667,-9.233333,149.173091,526.133333,23.2,991.0,991.0,1306.0,0.0,-24.119449,0.0,0
2,16843c9ffb920170477118933798510d8d5f00f5c56c1221773356355bded321,3681,True,SOCIEDADE SIMPLES LIMITADA,PI,ENTIDADES EMPRESARIAIS,SERVICOS DE EDUCACAO,SERVIÇO,16.389041,15 a 20,False,False,False,False,False,2005-09-24,False,False,True,NAO,EDUCACAO,EDUCACAO,False,False,True,,,1.0,1.0,False,1.0,1.0,1.0,,,,False,PI,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,60101.0,688.31,NORTE PIAUIENSE,BAIXO PARNAIBA PIAUIENSE,True,2.0,2.0,0.0,70.0,70.0,70.0,1.0,,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",27818640.0,27818640.0,172.0,119.0,52.1,47.9,,1.0,10.0,27.0,30.0,20.0,15.0,11.0,3.0,2.0,,19.0,9.0,91.0,,119.0,4.866667,21.0,7.0,172.0,291.0,42.166782,149.033333,0.0,65.942017,149.033333,4.866667,119.0,104.0,113.0,14.423077,5.309735,6.25,0


> ### Linhas x Colunas:

In [9]:
print('Market:', market_T1.shape)
print('Portfolio:', portfolio_T1.shape)

Market: (462298, 182)
Portfolio: (566, 182)


***
## T2 - exclusão de empresas com problemas fiscais, judiciais, financeiros e operacionais:


In [10]:
# DataFrame etapa de Tratamento 2:
market_T2= market_T1.copy()

>### fl_st_especial:

fl_st_especial == True, indica se a empresa está em situação extraordinária (falência, recuperação judicial e outros)

In [11]:
dicionario.loc[dicionario['Coluna'] == 'fl_st_especial']

Unnamed: 0,Coluna,Tipo,Descrição
14,fl_st_especial,boolean value,true if dt_situacao_especial is not null. If it is not null means that some extraordinary situation is identified by the IRS (*ESPOLIO DE EMPRESARIO EMPRESA INDIVIDUAL OU EIRELI | *FALIDO | *EM LIQUIDACAO | *LIQUIDACAO JUDICIAL | *LIQUIDACAO EXTRA JUDICIAL | *REGISTRO NA JUNTA COMERCIAL EM ANDAMENTO | *EM LIQUID EXTRA JUDICIAL | *RECUPERACAO JUDICIAL | *INTERVENCAO*)


In [12]:
# Contagem:
market_T2['fl_st_especial'].value_counts()

False    462230
True     68    
Name: fl_st_especial, dtype: int64

In [13]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['fl_st_especial'] != True]

> ### fl_simples_irregular

fl_simples_irregular == True, indica que a empresa está no modelo de tributação simples e em situação irregular.

In [14]:
dicionario.loc[dicionario['Coluna'] == 'fl_simples_irregular']

Unnamed: 0,Coluna,Tipo,Descrição
41,fl_simples_irregular,boolean,true if the company is taxed under the SIMPLES regime and has a impeditive CNAE (economic activities that are not allowed to be taxed according to the simples regime) revenue above the limit of the regime.


In [15]:
# Contagem: 
market_T2['fl_simples_irregular'].value_counts()

False    459962
True     341   
Name: fl_simples_irregular, dtype: int64

In [16]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['fl_simples_irregular'] != True]

> ### de_saude_tributaria

de_saude_tributaria: Verde indica que está ok, vermelho indica problema tributário.

In [17]:
dicionario.loc[dicionario['Coluna'] == 'de_saude_tributaria']

Unnamed: 0,Coluna,Tipo,Descrição
36,de_saude_tributaria,character,indicator of health tax status | Green if all tax are OK | Red if none are OK


In [18]:
# Contagem: 
market_T2['de_saude_tributaria'].value_counts()

VERDE       145253
AZUL        105069
AMARELO     91016 
CINZA       64018 
LARANJA     36082 
VERMELHO    5600  
Name: de_saude_tributaria, dtype: int64

In [19]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['de_saude_tributaria'] != 'VERMELHO']

> ### de_nivel_atividade

de_nivel_atividade: Probabilidade da empresa estar em atividade.

In [20]:
dicionario.loc[dicionario['Coluna'] == 'de_nivel_atividade']

Unnamed: 0,Coluna,Tipo,Descrição
39,de_nivel_atividade,character,probability of being operating | ALTA high probality | BAIXA | low probality.


In [21]:
# Contagem: 
market_T2['de_nivel_atividade'].value_counts()

MEDIA          215322
ALTA           151237
BAIXA          73989 
MUITO BAIXA    4573  
Name: de_nivel_atividade, dtype: int64

In [22]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['de_nivel_atividade'] != 'MUITO BAIXA']
market_T2 = market_T2[market_T2['de_nivel_atividade'] != 'BAIXA']

> ### qt_socios_st_suspensa

qt_socios_st_suspensa: Irregularidades dos sócios junto a Receita Federal.

In [23]:
dicionario.loc[dicionario['Coluna'] == 'qt_socios_st_suspensa']

Unnamed: 0,Coluna,Tipo,Descrição
54,qt_socios_st_suspensa,integer value,quantity of partners with suspended situation under IRS - Receit Federal


In [24]:
# Contagem: 
(market_T2['qt_socios_st_suspensa'] == market_T2['qt_socios']).value_counts()

False    376439
True     1288  
dtype: int64

In [25]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[(market_T2['qt_socios_st_suspensa'] == market_T2['qt_socios']) != True]

> ### Coligados com situação irregular

Quantidade de coligados com situação irregular (Suspenso, Inapto e Baixado) igual a quantidade total.

In [26]:
dicionario.loc[dicionario['Coluna'].isin(['qt_coligados', 'qt_coligados_baixada', 'qt_coligados_inapta', 'qt_coligados_suspensa'])]

Unnamed: 0,Coluna,Tipo,Descrição
70,qt_coligados,integer value,quantity of connected companies
74,qt_coligados_baixada,integer value,quantity of connected companies that are considered as closed according to the IRS
75,qt_coligados_inapta,integer value,quantity of connected companies that are considered as inapt/unfit according to the IRS
76,qt_coligados_suspensa,integer value,quantity of connected companies that are considered suspended according to the IRS


In [27]:
# Contagem:
(market_T2['qt_coligados_suspensa'] + market_T2['qt_coligados_inapta'] + market_T2['qt_coligados_baixada'] == market_T2['qt_coligados']).value_counts()

False    376223
True     216   
dtype: int64

In [28]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[(market_T2['qt_coligados_suspensa'] + market_T2['qt_coligados_inapta'] + market_T2['qt_coligados_baixada'] == market_T2['qt_coligados']) != True]

> ***

#### Market após T2:

In [29]:
# Comparativo:
print('Market inicial:', market_T1.shape)
print('Market após tratamento:', market_T2.shape)
print('Empresas inadequadas eliminadas do market:', market_T1.shape[0] - market_T2.shape[0])

Market inicial: (462298, 182)
Market após tratamento: (376223, 182)
Empresas inadequadas eliminadas do market: 86075


#### Portfólio após T2:

In [30]:
# portfolio apenas com empresas adequadas: 
portfolio_T2 = pd.DataFrame(portfolio['id'])
portfolio_T2['Tr_exc'] = portfolio_T2['id'].isin(market_T2['id'])
portfolio_T2 = portfolio_T2[portfolio_T2['Tr_exc'] == True]
portfolio_T2 = portfolio_T2.drop(['Tr_exc'], axis = 1)
portfolio_T2 = pd.merge(portfolio_T2, market_T2, on='id', how='left')

# Comparação:
print('Portfolio inicial:', portfolio_T1.shape)
print('Portfolio após tratamento:', portfolio_T2.shape)
print('Empresas inadequadas eliminadas do market:', portfolio_T1.shape[0] - portfolio_T2.shape[0])

Portfolio inicial: (566, 182)
Portfolio após tratamento: (546, 182)
Empresas inadequadas eliminadas do market: 20


***
## T3 - Tratamento de NA's

> ### NA's por colunas:

In [31]:
# Verificação de percentual de  NA's
qtd_na_por_col_portfolio_T2 = pd.DataFrame(portfolio_T2.isna().sum().sort_values(ascending=False).reset_index())
qtd_na_por_col_portfolio_T2.columns = ['Coluna', 'Qtd_NA']
qtd_na_por_col_portfolio_T2['Qtd_nao_NA'] = (len(portfolio_T2) - qtd_na_por_col_portfolio_T2['Qtd_NA'])
qtd_na_por_col_portfolio_T2['Percentual_de_NA'] = ((qtd_na_por_col_portfolio_T2['Qtd_NA'] * 100) / len(portfolio_T2)).round(2)
qtd_na_por_col_portfolio_T2.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152,153,154,155,156,157,158,159,160,161,162,163,164,165,166,167,168,169,170,171,172,173,174,175,176,177,178,179,180,181
Coluna,grau_instrucao_macro_desconhecido,qt_alteracao_socio_total,qt_alteracao_socio_90d,qt_alteracao_socio_180d,qt_alteracao_socio_365d,idade_media_coligadas_baixadas,coligada_mais_nova_baixada,qt_socios_st_suspensa,coligada_mais_antiga_baixada,vl_total_veiculos_antt,vl_total_veiculos_antt_grupo,vl_total_tancagem,vl_total_tancagem_grupo,qt_socios_pep,qt_socios_pj_nulos,qt_socios_pj_suspensos,qt_socios_pj_inaptos,vl_idade_media_socios_pj,vl_idade_maxima_socios_pj,vl_idade_minima_socios_pj,qt_socios_pj_ativos,qt_socios_pj_baixados,vl_potenc_cons_oleo_gas,grau_instrucao_macro_analfabeto,total_filiais_coligados,max_filiais_coligados,media_filiais_coligados,min_filiais_coligados,qt_socios_feminino,idade_ate_18,vl_folha_coligados,media_vl_folha_coligados,max_vl_folha_coligados,min_vl_folha_coligados,vl_folha_coligados_gp,media_vl_folha_coligados_gp,max_vl_folha_coligados_gp,min_vl_folha_coligados_gp,min_funcionarios_coligados_gp,max_funcionarios_coligados_gp,qt_funcionarios_coligados,media_funcionarios_coligados_gp,qt_funcionarios_coligados_gp,qt_art,sum_faturamento_estimado_coligadas,min_faturamento_est_coligados_gp,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,faturamento_est_coligados,qt_coligados_nula,idade_media_coligadas_ativas,qt_coligados_exterior,qt_coligados_sudeste,qt_coligados_centro,qt_coligados_nordeste,qt_coligados_sul,qt_coligados_norte,qt_coligados_epp,qt_coligados_ltda,qt_coligados_me,qt_coligados_sa,qt_coligadas,coligada_mais_antiga_ativa,qt_coligados_suspensa,coligada_mais_nova_ativa,idade_minima_coligadas,idade_maxima_coligadas,idade_media_coligadas,qt_regioes_coligados,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_ufs_coligados,qt_coligados_mei,qt_ramos_coligados,qt_coligados_industria,qt_coligados_atividade_inativo,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_baixo,qt_coligados_ccivil,qt_coligados_serviço,qt_coligados_comercio,qt_coligados_agropecuaria,qt_socios_masculino,qt_socios_st_regular,idade_minima_socios,idade_media_socios,idade_maxima_socios,qt_socios,qt_socios_pj,qt_socios_pf,de_indicador_telefone,vl_frota,idade_de_19_a_23,vl_total_veiculos_pesados,vl_total_veiculos_leves,nm_meso_regiao,nm_micro_regiao,empsetorcensitariofaixarendapopulacao,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,idade_de_54_a_58,grau_instrucao_macro_escolaridade_superior,idade_de_24_a_28,idade_de_49_a_53,idade_de_44_a_48,idade_de_29_a_33,grau_instrucao_macro_escolaridade_media,tx_crescimento_24meses,tx_crescimento_12meses,idade_de_34_a_38,idade_de_39_a_43,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_matriz,fl_optante_simples,fl_epp,de_natureza_juridica,dt_situacao,fl_st_especial,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,fl_ltda,sg_uf,fl_mei,fl_sa,fl_me,idade_emp_cat,idade_empresa_anos,setor,de_ramo,natureza_juridica_macro,fl_email,id_num,fl_optante_simei,min_meses_servicos_all,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,media_meses_servicos,sg_uf_matriz,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_rotatividade,meses_ultima_contratacaco,total,percent_func_genero_fem,percent_func_genero_masc,qt_funcionarios_grupo,qt_ex_funcionarios,vl_faturamento_estimado_grupo_aux,vl_faturamento_estimado_aux,de_faixa_faturamento_estimado_grupo,de_faixa_faturamento_estimado,qt_filiais,fl_passivel_iss,fl_simples_irregular,de_nivel_atividade,nu_meses_rescencia,de_saude_rescencia,de_saude_tributaria,id
Qtd_NA,546,546,546,546,546,545,545,545,545,541,541,519,516,514,495,495,495,495,495,495,495,495,454,433,394,394,394,394,354,335,315,315,315,315,313,313,313,313,298,298,298,298,298,292,259,259,259,259,259,259,259,259,259,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,242,201,200,200,200,174,174,174,117,91,86,70,70,68,68,67,59,47,33,17,15,13,5,3,3,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Qtd_nao_NA,0,0,0,0,0,1,1,1,1,5,5,27,30,32,51,51,51,51,51,51,51,51,92,113,152,152,152,152,192,211,231,231,231,231,233,233,233,233,248,248,248,248,248,254,287,287,287,287,287,287,287,287,287,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,293,304,345,346,346,346,372,372,372,429,455,460,476,476,478,478,479,487,499,513,529,531,533,541,543,543,545,545,545,545,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546,546
Percentual_de_NA,100,100,100,100,100,99.82,99.82,99.82,99.82,99.08,99.08,95.05,94.51,94.14,90.66,90.66,90.66,90.66,90.66,90.66,90.66,90.66,83.15,79.3,72.16,72.16,72.16,72.16,64.84,61.36,57.69,57.69,57.69,57.69,57.33,57.33,57.33,57.33,54.58,54.58,54.58,54.58,54.58,53.48,47.44,47.44,47.44,47.44,47.44,47.44,47.44,47.44,47.44,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,46.34,44.32,36.81,36.63,36.63,36.63,31.87,31.87,31.87,21.43,16.67,15.75,12.82,12.82,12.45,12.45,12.27,10.81,8.61,6.04,3.11,2.75,2.38,0.92,0.55,0.55,0.18,0.18,0.18,0.18,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [32]:
# DataFrame etapa de Tratamento 3:
market_T3 = market_T2.copy()

> ### Exclusão de colunas com alto percentual de NA:

In [33]:
percent_NA = 55

In [34]:
# Seleção de todas as colunas que tenham alta quantidade de NA's:
colunas_NA_exclusao = qtd_na_por_col_portfolio_T2['Coluna'].loc[qtd_na_por_col_portfolio_T2['Percentual_de_NA'] >= percent_NA]
# Exclusão das colunas:
market_T3 = market_T3.drop(colunas_NA_exclusao, axis = 1)

> ### Tipos de dados:

In [35]:
tipos_market_T3 = pd.DataFrame(market_T3.dtypes).reset_index()
tipos_market_T3.columns = ['Colunas', 'Tipos']
tipos_market_T3.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143
Colunas,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais,id_num
Tipos,object,bool,object,object,object,object,object,float64,object,bool,bool,bool,bool,bool,object,bool,bool,bool,object,object,object,object,object,object,float64,float64,object,float64,float64,float64,object,object,object,object,float64,object,object,object,float64,float64,object,object,object,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,object,object,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,int64,int64


In [36]:
# listas de tipos:
tipo_float = list(market_T3.select_dtypes(include=['float']).columns)
tipo_int = list(market_T3.select_dtypes(include=['int']).columns)
tipo_bool = list(market_T3.select_dtypes(include=['bool']).columns)
tipo_object = list(market_T3.select_dtypes(include=['object']).columns)

In [37]:
# Remoção das colunas de identificação das listas de tipos:
tipo_object.remove('id')
tipo_int.remove('id_num')

> ### Preenchimento de NA'S:

 - Variavéis numéricas por 0;
 - Variavéis categóricas por moda;

In [38]:
# Preenchimento de Na's
market_T3[tipo_int] = market_T3[tipo_int].fillna(0)
market_T3[tipo_float] = market_T3[tipo_float].fillna(0)
market_T3[tipo_bool] = market_T3[tipo_bool].fillna(market_T3[tipo_bool].mode(dropna=True))
market_T3[tipo_object] = market_T3[tipo_object].fillna(market_T3[tipo_object].mode(dropna=True))
market_T3[tipo_object] = market_T3[tipo_object].fillna('INDETERMINADA')

In [39]:
# Visualização do dataframe após o tratamento:
market_T3.head(3)

Unnamed: 0,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais,id_num
0,a6984c3ae395090e3bee8ad63c3758b110de096d5d819583a784a113726db849,True,SOCIEDADE EMPRESARIA LIMITADA,RN,ENTIDADES EMPRESARIAIS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,14.457534,10 a 15,False,False,False,False,False,2005-03-25,False,True,True,SIM,CONSTRUCAO DE EDIFICIOS,CONSTRUCAO,False,False,False,0.0,0.0,True,8.0,0.0,0.0,False,RN,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,0.0,0.0,LESTE POTIGUAR,NATAL,True,2.0,2.0,0.0,44.0,47.0,41.0,2.0,2.0,6.0,8.0,6.0,6.0,0.0,0.0,0.0,0.0,220.477778,536.366667,57.3,57.3,536.366667,220.477778,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6.0,0.0,0.0,0.0,2.0,1.0,5.0,0.0,0.0,1.0,5.0,0.0,145.0,145.0,36.25,91.0,6.0,21809443.0,3634907.0,13188096.0,210000.0,22019443.0,3669907.0,13188096.0,210000.0,0.0,0.0,0.0,0.0,0.0,6.0,21809443.0,"DE R$ 1.500.000,01 A R$ 4.800.000,00","DE R$ 1.500.000,01 A R$ 4.800.000,00",3132172.8,3132172.8,119.0,26.0,100.0,0.0,1.0,4.0,6.0,5.0,3.0,4.0,2.0,0.0,1.0,1.0,25.0,0.0,26.0,19.166667,0.0,0.0,119.0,145.0,13.309195,93.266667,-0.933333,43.738462,93.266667,19.166667,26.0,26.0,27.0,0.0,-3.703704,0.0,0,0
3,3348900fe63216a439d2e5238c79ddd46ede454df7b9d8c24ac33eb21d4b21ef,True,EMPRESARIO INDIVIDUAL,AM,OUTROS,SERVICOS DIVERSOS,SERVIÇO,6.512329,5 a 10,False,False,False,False,False,2012-04-25,False,True,True,SIM,REPARACAO E MANUTENCAO DE EQUIPAMENTOS DE INFORMATICA E COMUNICACAO E DE OBJETOS PESSOAIS E DOMESTICOS,OUTRAS ATIVIDADES DE SERVICOS,False,False,False,0.0,0.0,True,0.0,0.0,0.0,False,AM,AMARELO,ACIMA DE 1 ANO,26.0,MEDIA,INDETERMINADA,False,0.0,475.73,CENTRO AMAZONENSE,MANAUS,True,1.0,1.0,0.0,36.0,36.0,36.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 81.000,01 A R$ 360.000,00","DE R$ 81.000,01 A R$ 360.000,00",210000.0,210000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,3
4,1f9bcabc9d3173c1fe769899e4fac14b053037b953a1e4b102c769f7611ab29f,True,EMPRESARIO INDIVIDUAL,RN,OUTROS,"SERVICOS PROFISSIONAIS, TECNICOS E CIENTIFICOS",SERVIÇO,3.2,1 a 5,False,False,False,False,False,2015-08-17,False,True,True,SIM,SERVICOS DE ARQUITETURA E ENGENHARIA TESTES E ANALISES TECNICAS,ATIVIDADES PROFISSIONAIS CIENTIFICAS E TECNICAS,False,False,False,0.0,0.0,True,0.0,0.0,0.0,False,RN,VERDE,ACIMA DE 1 ANO,27.0,ALTA,INDETERMINADA,False,0.0,2874.04,LESTE POTIGUAR,NATAL,True,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 81.000,01 A R$ 360.000,00","DE R$ 81.000,01 A R$ 360.000,00",210000.0,210000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,4


***
## T4 - Redução de escopo:

In [40]:
# DataFrame etapa de Tratamento 4:
market_T4 = market_T3.copy()

# Geração de portfolio completo:
portfolio_T4 = pd.DataFrame(portfolio['id'])
portfolio_T4['Tr_exc'] = portfolio_T4['id'].isin(market_T3['id'])
portfolio_T4 = portfolio_T4[portfolio_T4['Tr_exc'] == True]
portfolio_T4 = portfolio_T4.drop(['Tr_exc'], axis = 1)
portfolio_T4 = pd.merge(portfolio_T4, market_T3, on='id', how='left')

#### Dimensões market:

In [41]:
market_T4.shape

(376223, 144)

> #### Remoção de valores não semelhantes:

In [42]:
# Valores semelhantes nas colunas de tipo object:
#market_reduzido = pd.DataFrame()
#for col in tipo_object:
#    market_reduzido = market_T4[market_T4[col].isin(portfolio_T4[col].unique()) == True]

market_reduzido = pd.DataFrame()
market_reduzido = market_T4[market_T4['de_natureza_juridica'].isin(portfolio_T4['de_natureza_juridica'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['sg_uf'].isin(portfolio_T4['sg_uf'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['natureza_juridica_macro'].isin(portfolio_T4['natureza_juridica_macro'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['de_ramo'].isin(portfolio_T4['de_ramo'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['setor'].isin(portfolio_T4['setor'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['idade_emp_cat'].isin(portfolio_T4['idade_emp_cat'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_divisao'].isin(portfolio_T4['nm_divisao'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_segmento'].isin(portfolio_T4['nm_segmento'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_meso_regiao'].isin(portfolio_T4['nm_meso_regiao'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_micro_regiao'].isin(portfolio_T4['nm_micro_regiao'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['de_faixa_faturamento_estimado'].isin(portfolio_T4['de_faixa_faturamento_estimado'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['de_faixa_faturamento_estimado_grupo'].isin(portfolio_T4['de_faixa_faturamento_estimado_grupo'].unique()) == True]

In [43]:
market_reduzido.shape

(1722, 144)

In [44]:
# Valores semelhantes nas colunas de tipo bool:
#for col in tipo_bool:
#    market_reduzido = market_reduzido[market_reduzido[col].isin(portfolio_T4[col].unique()) == True]

market_reduzido = market_reduzido[market_reduzido['fl_matriz'].isin(portfolio_T4['fl_matriz'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_me'].isin(portfolio_T4['fl_me'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_sa'].isin(portfolio_T4['fl_sa'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_mei'].isin(portfolio_T4['fl_mei'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_ltda'].isin(portfolio_T4['fl_ltda'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_st_especial'].isin(portfolio_T4['fl_st_especial'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_email'].isin(portfolio_T4['fl_email'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_telefone'].isin(portfolio_T4['fl_telefone'].unique()) == True]


In [45]:
market_reduzido.shape

(1314, 144)

In [46]:
# Valores semelhantes nas colunas de tipo int:
#for col in tipo_int:
#    market_reduzido = market_reduzido[market_reduzido[col].between(portfolio_T4[col].min(), portfolio_T4[col].max(), inclusive=True) == True]

market_reduzido = market_reduzido[market_reduzido['qt_filiais'].between(portfolio_T4['qt_filiais'].min(), portfolio_T4['qt_filiais'].max(), inclusive=True) == True]


In [47]:
market_reduzido.shape

(1312, 144)

In [48]:
# Valores semelhantes nas colunas de tipo float:
#for col in tipo_float:
#    market_reduzido = market_reduzido[market_reduzido[col].between(portfolio_T4[col].min(), portfolio_T4[col].max(), inclusive=True) == True]

market_reduzido = market_reduzido[market_reduzido['idade_empresa_anos'].between(portfolio_T4['idade_empresa_anos'].min(), portfolio_T4['idade_empresa_anos'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['percent_func_genero_masc'].between(portfolio_T4['percent_func_genero_masc'].min(), portfolio_T4['percent_func_genero_masc'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['percent_func_genero_fem'].between(portfolio_T4['percent_func_genero_fem'].min(), portfolio_T4['percent_func_genero_fem'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['qt_ex_funcionarios'].between(portfolio_T4['qt_ex_funcionarios'].min(), portfolio_T4['qt_ex_funcionarios'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['qt_funcionarios'].between(portfolio_T4['qt_funcionarios'].min(), portfolio_T4['qt_funcionarios'].max(), inclusive=True) == True]

In [49]:
market_reduzido.shape

(1304, 144)

> ***

In [50]:
# Visualização do market após o tratamento:
market_reduzido.head(3)

Unnamed: 0,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais,id_num
123,6e292487550f4b68a5a710b1512039761b07cdb9d1125728af3e601076c8946b,True,MUNICIPIO,PI,OUTROS,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,43.876712,> 20,False,False,False,False,False,2005-11-03,False,False,False,NAO,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,1.0,1.0,False,0.0,1.0,1.0,False,PI,AZUL,ACIMA DE 1 ANO,23.0,ALTA,INDETERMINADA,False,132025.0,349.93,NORTE PIAUIENSE,BAIXO PARNAIBA PIAUIENSE,True,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",29879280.0,29879280.0,7.0,187.0,30.48,69.52,0.0,0.0,2.0,11.0,38.0,23.0,40.0,28.0,45.0,75.0,52.0,57.0,187.0,101.366667,0.0,0.0,7.0,194.0,308.319244,509.166667,101.366667,308.558289,509.166667,101.366667,187.0,187.0,188.0,0.0,-0.531915,0.0,0,123
645,59d43a34290fd77e9b35e6eb5374ca7bd3ef67a2e1c50720faa4478002d00ad1,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,ELETROELETRONICOS,INDUSTRIA,13.890411,10 a 15,False,False,False,False,False,2004-12-10,False,False,True,SIM,FABRICACAO DE MAQUINAS APARELHOS E MATERIAIS ELETRICOS,INDUSTRIAS DE TRANSFORMACAO,False,False,True,2.0,2.0,False,0.0,2.0,2.0,False,PI,VERDE,ACIMA DE 1 ANO,24.0,ALTA,BOA,False,76387.0,2966.25,CENTRO NORTE PIAUIENSE,TERESINA,False,3.0,3.0,0.0,39.0,45.0,36.0,3.0,3.0,7.0,7.0,7.0,7.0,0.0,0.0,0.0,0.0,137.228571,320.733333,50.8,50.8,320.733333,137.228571,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7.0,0.0,0.0,0.0,1.0,1.0,6.0,1.0,0.0,2.0,4.0,0.0,567.0,569.0,113.8,356.0,0.0,152137332.0,21733900.0,116220100.0,210000.0,152508244.0,21786892.0,116591010.0,210000.0,0.0,0.0,0.0,0.0,0.0,7.0,152137332.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",24980108.0,24980108.0,208.0,115.0,85.22,14.78,10.0,29.0,28.0,23.0,18.0,4.0,1.0,2.0,0.0,10.0,82.0,23.0,115.0,2.466667,21.0,10.0,208.0,324.0,36.024486,146.966667,-0.033333,54.712069,146.966667,2.466667,116.0,106.0,134.0,9.433962,-13.432836,9.049774,0,645
693,5b8e57173320b1ae3cb45733782609c27b6ee9e8ef2c463c5e0ff2483f5f775f,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,16.736986,15 a 20,False,False,False,False,False,2005-11-03,False,False,True,SIM,SERVICOS ESPECIALIZADOS PARA CONSTRUCAO,CONSTRUCAO,False,False,False,0.0,0.0,False,0.0,0.0,0.0,False,MA,AZUL,ACIMA DE 1 ANO,23.0,ALTA,INDETERMINADA,False,0.0,0.0,NORTE MARANHENSE,AGLOMERACAO URBANA DE SAO LUIS,True,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",12930516.0,12930516.0,132.0,102.0,82.35,17.65,4.0,14.0,20.0,31.0,13.0,10.0,8.0,2.0,0.0,6.0,94.0,1.0,102.0,2.066667,46.0,25.0,132.0,234.0,14.386895,65.766667,-0.3,24.759477,65.766667,2.066667,102.0,87.0,61.0,17.241379,67.213115,27.322404,0,693


***

In [51]:
# Geração de portfolio completo:
portfolio_T4 = pd.DataFrame(portfolio['id'])
portfolio_T4['Tr_exc'] = portfolio_T4['id'].isin(market_T3['id'])
portfolio_T4 = portfolio_T4[portfolio_T4['Tr_exc'] == True]
portfolio_T4 = portfolio_T4.drop(['Tr_exc'], axis = 1)
portfolio_T4 = pd.merge(portfolio_T4, market_T3, on='id', how='left')

In [52]:
# market reduzido sem os atuais clientes:
market_reduzido_sem_clientes = pd.DataFrame(market_reduzido['id'])
market_reduzido_sem_clientes['Tr_exc'] = market_reduzido_sem_clientes['id'].isin(portfolio_T4['id'])
market_reduzido_sem_clientes = market_reduzido_sem_clientes[market_reduzido_sem_clientes['Tr_exc'] != True]
market_reduzido_sem_clientes = market_reduzido_sem_clientes.drop(['Tr_exc'], axis = 1)
market_reduzido_sem_clientes = pd.merge(market_reduzido_sem_clientes, market_T4, on='id', how='left')

In [53]:
market_reduzido_sem_clientes.shape

(758, 144)

> ***

In [54]:
# Visualização do market após o tratamento:
market_reduzido_sem_clientes.head(3)

Unnamed: 0,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais,id_num
0,6e292487550f4b68a5a710b1512039761b07cdb9d1125728af3e601076c8946b,True,MUNICIPIO,PI,OUTROS,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,43.876712,> 20,False,False,False,False,False,2005-11-03,False,False,False,NAO,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,1.0,1.0,False,0.0,1.0,1.0,False,PI,AZUL,ACIMA DE 1 ANO,23.0,ALTA,INDETERMINADA,False,132025.0,349.93,NORTE PIAUIENSE,BAIXO PARNAIBA PIAUIENSE,True,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",29879280.0,29879280.0,7.0,187.0,30.48,69.52,0.0,0.0,2.0,11.0,38.0,23.0,40.0,28.0,45.0,75.0,52.0,57.0,187.0,101.366667,0.0,0.0,7.0,194.0,308.319244,509.166667,101.366667,308.558289,509.166667,101.366667,187.0,187.0,188.0,0.0,-0.531915,0.0,0,123
1,59d43a34290fd77e9b35e6eb5374ca7bd3ef67a2e1c50720faa4478002d00ad1,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,ELETROELETRONICOS,INDUSTRIA,13.890411,10 a 15,False,False,False,False,False,2004-12-10,False,False,True,SIM,FABRICACAO DE MAQUINAS APARELHOS E MATERIAIS ELETRICOS,INDUSTRIAS DE TRANSFORMACAO,False,False,True,2.0,2.0,False,0.0,2.0,2.0,False,PI,VERDE,ACIMA DE 1 ANO,24.0,ALTA,BOA,False,76387.0,2966.25,CENTRO NORTE PIAUIENSE,TERESINA,False,3.0,3.0,0.0,39.0,45.0,36.0,3.0,3.0,7.0,7.0,7.0,7.0,0.0,0.0,0.0,0.0,137.228571,320.733333,50.8,50.8,320.733333,137.228571,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7.0,0.0,0.0,0.0,1.0,1.0,6.0,1.0,0.0,2.0,4.0,0.0,567.0,569.0,113.8,356.0,0.0,152137332.0,21733900.0,116220100.0,210000.0,152508244.0,21786892.0,116591010.0,210000.0,0.0,0.0,0.0,0.0,0.0,7.0,152137332.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",24980108.0,24980108.0,208.0,115.0,85.22,14.78,10.0,29.0,28.0,23.0,18.0,4.0,1.0,2.0,0.0,10.0,82.0,23.0,115.0,2.466667,21.0,10.0,208.0,324.0,36.024486,146.966667,-0.033333,54.712069,146.966667,2.466667,116.0,106.0,134.0,9.433962,-13.432836,9.049774,0,645
2,5b8e57173320b1ae3cb45733782609c27b6ee9e8ef2c463c5e0ff2483f5f775f,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,16.736986,15 a 20,False,False,False,False,False,2005-11-03,False,False,True,SIM,SERVICOS ESPECIALIZADOS PARA CONSTRUCAO,CONSTRUCAO,False,False,False,0.0,0.0,False,0.0,0.0,0.0,False,MA,AZUL,ACIMA DE 1 ANO,23.0,ALTA,INDETERMINADA,False,0.0,0.0,NORTE MARANHENSE,AGLOMERACAO URBANA DE SAO LUIS,True,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",12930516.0,12930516.0,132.0,102.0,82.35,17.65,4.0,14.0,20.0,31.0,13.0,10.0,8.0,2.0,0.0,6.0,94.0,1.0,102.0,2.066667,46.0,25.0,132.0,234.0,14.386895,65.766667,-0.3,24.759477,65.766667,2.066667,102.0,87.0,61.0,17.241379,67.213115,27.322404,0,693


> ***
#### Market após T4:

In [55]:
# Comparativo:
print('Market inicial:', market_T1.shape)
print('Market após tratamento:', market_reduzido_sem_clientes.shape)
print('Empresas inadequadas eliminadas do market:', market_T1.shape[0] - market_reduzido_sem_clientes.shape[0])

Market inicial: (462298, 182)
Market após tratamento: (758, 144)
Empresas inadequadas eliminadas do market: 461540


***
## T5 - Codificação de variavéis:

In [56]:
# DataFrame etapa de Tratamento 5:
market_T5_a = market_reduzido.copy()

In [57]:
# Exclusão de variavéis de identificação:
market_T5_b = market_T5_a.drop(['id', 'id_num'], axis = 1)
# Visualização do mercado:
market_T5_b.head(3)

Unnamed: 0,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais
123,True,MUNICIPIO,PI,OUTROS,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,43.876712,> 20,False,False,False,False,False,2005-11-03,False,False,False,NAO,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,1.0,1.0,False,0.0,1.0,1.0,False,PI,AZUL,ACIMA DE 1 ANO,23.0,ALTA,INDETERMINADA,False,132025.0,349.93,NORTE PIAUIENSE,BAIXO PARNAIBA PIAUIENSE,True,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",29879280.0,29879280.0,7.0,187.0,30.48,69.52,0.0,0.0,2.0,11.0,38.0,23.0,40.0,28.0,45.0,75.0,52.0,57.0,187.0,101.366667,0.0,0.0,7.0,194.0,308.319244,509.166667,101.366667,308.558289,509.166667,101.366667,187.0,187.0,188.0,0.0,-0.531915,0.0,0
645,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,ELETROELETRONICOS,INDUSTRIA,13.890411,10 a 15,False,False,False,False,False,2004-12-10,False,False,True,SIM,FABRICACAO DE MAQUINAS APARELHOS E MATERIAIS ELETRICOS,INDUSTRIAS DE TRANSFORMACAO,False,False,True,2.0,2.0,False,0.0,2.0,2.0,False,PI,VERDE,ACIMA DE 1 ANO,24.0,ALTA,BOA,False,76387.0,2966.25,CENTRO NORTE PIAUIENSE,TERESINA,False,3.0,3.0,0.0,39.0,45.0,36.0,3.0,3.0,7.0,7.0,7.0,7.0,0.0,0.0,0.0,0.0,137.228571,320.733333,50.8,50.8,320.733333,137.228571,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7.0,0.0,0.0,0.0,1.0,1.0,6.0,1.0,0.0,2.0,4.0,0.0,567.0,569.0,113.8,356.0,0.0,152137332.0,21733900.0,116220100.0,210000.0,152508244.0,21786892.0,116591010.0,210000.0,0.0,0.0,0.0,0.0,0.0,7.0,152137332.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",24980108.0,24980108.0,208.0,115.0,85.22,14.78,10.0,29.0,28.0,23.0,18.0,4.0,1.0,2.0,0.0,10.0,82.0,23.0,115.0,2.466667,21.0,10.0,208.0,324.0,36.024486,146.966667,-0.033333,54.712069,146.966667,2.466667,116.0,106.0,134.0,9.433962,-13.432836,9.049774,0
693,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,16.736986,15 a 20,False,False,False,False,False,2005-11-03,False,False,True,SIM,SERVICOS ESPECIALIZADOS PARA CONSTRUCAO,CONSTRUCAO,False,False,False,0.0,0.0,False,0.0,0.0,0.0,False,MA,AZUL,ACIMA DE 1 ANO,23.0,ALTA,INDETERMINADA,False,0.0,0.0,NORTE MARANHENSE,AGLOMERACAO URBANA DE SAO LUIS,True,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",12930516.0,12930516.0,132.0,102.0,82.35,17.65,4.0,14.0,20.0,31.0,13.0,10.0,8.0,2.0,0.0,6.0,94.0,1.0,102.0,2.066667,46.0,25.0,132.0,234.0,14.386895,65.766667,-0.3,24.759477,65.766667,2.066667,102.0,87.0,61.0,17.241379,67.213115,27.322404,0


In [58]:
#Conversões
market_T5_b[tipo_float] = market_T5_b[tipo_float].astype('int')
market_T5_b[tipo_bool] = market_T5_b[tipo_bool].astype('category')
market_T5_b[tipo_bool] = market_T5_b[tipo_bool].apply(lambda x: x.cat.codes)
market_T5_b[tipo_object] = market_T5_b[tipo_object].astype('category')
market_T5_b[tipo_object] = market_T5_b[tipo_object].apply(lambda x: x.cat.codes)

> ***
#### Mercado após T5:

In [59]:
market_T5 = market_T5_a[['id','id_num']]
market_T5 = pd.concat([market_T5, market_T5_b], axis=1)
# Visualização do mercado completo:
market_T5.head(3)

Unnamed: 0,id,id_num,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais
123,6e292487550f4b68a5a710b1512039761b07cdb9d1125728af3e601076c8946b,123,0,12,3,3,0,4,43,2,0,0,0,0,0,292,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,0,3,1,0,23,0,1,0,132025,349,10,9,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,29879280,29879280,7,187,30,69,0,0,2,11,38,23,40,28,45,75,52,57,187,101,0,0,7,194,308,509,101,308,509,101,187,187,188,0,0,0,0
645,59d43a34290fd77e9b35e6eb5374ca7bd3ef67a2e1c50720faa4478002d00ad1,645,0,23,3,1,8,3,13,0,0,0,0,0,0,205,0,0,1,1,32,13,0,0,1,2,2,0,0,2,2,0,3,3,0,24,0,0,0,76387,2966,4,56,0,3,3,0,39,45,36,3,3,7,7,7,7,0,0,0,0,137,320,50,50,320,137,0,0,0,0,0,0,0,7,0,0,0,1,1,6,1,0,2,4,0,567,569,113,356,0,152137332,21733904,116220100,210000,152508244,21786892,116591010,210000,0,0,0,0,0,7,152137332,1,1,24980108,24980108,208,115,85,14,10,29,28,23,18,4,1,2,0,10,82,23,115,2,21,10,208,324,36,146,0,54,146,2,116,106,134,9,-13,9,0
693,5b8e57173320b1ae3cb45733782609c27b6ee9e8ef2c463c5e0ff2483f5f775f,693,0,7,2,3,10,2,16,1,0,0,0,0,0,292,0,0,1,1,56,10,0,0,0,0,0,0,0,0,0,0,2,1,0,23,0,1,0,0,0,9,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,12930516,12930516,132,102,82,17,4,14,20,31,13,10,8,2,0,6,94,1,102,2,46,25,132,234,14,65,0,24,65,2,102,87,61,17,67,27,0


> ***
#### Portfólio após T5

In [60]:
portfolio_T5 = pd.DataFrame(portfolio['id'])
portfolio_T5['Tr_exc'] = portfolio_T5['id'].isin(market_T5['id'])
portfolio_T5 = portfolio_T5[portfolio_T5['Tr_exc'] == True]
portfolio_T5 = portfolio_T5.drop(['Tr_exc'], axis = 1)
portfolio_T5 = pd.merge(portfolio_T5, market_T5, on='id', how='left')

In [61]:
# Visualização do portfólio completo:
portfolio_T5.head(3)

Unnamed: 0,id,id_num,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais
0,09e95c1a84049001d086470a8f320a19b076f955a89122ff8360ac2e4d6eca5d,1646,0,1,0,0,0,4,11,0,0,0,0,0,0,367,0,1,1,0,0,0,0,0,1,4,0,0,0,0,4,0,0,3,0,23,0,0,0,46132,2791,17,45,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,4,327487200,327487200,451,1361,81,18,0,23,411,508,282,103,22,10,2,2,523,836,1361,25,0,0,451,1812,84,357,-6,99,357,25,1361,1361,1383,0,-1,0,0
1,dc9d155f5bcd3172031e2ec9431786e8871ff4b0ff4728bb62194ca0842cce3e,2696,0,12,4,3,0,4,43,2,0,0,0,0,0,206,0,0,0,1,0,0,0,0,1,20,16,0,8,16,20,0,4,3,0,23,0,0,0,1309391,1007,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,176802910,176802910,1359,991,42,57,11,59,104,157,129,163,113,132,123,54,414,523,991,23,0,0,1361,2352,80,5014,-9,149,526,23,991,991,1306,0,-24,0,0
2,16843c9ffb920170477118933798510d8d5f00f5c56c1221773356355bded321,3681,0,24,3,1,19,4,16,1,0,0,0,0,0,282,0,0,1,0,25,11,0,0,1,1,1,0,1,1,1,0,3,3,0,23,0,0,0,60101,688,10,9,1,2,2,0,70,70,70,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,27818640,27818640,172,119,52,47,1,10,27,30,20,15,11,3,2,19,9,91,119,4,21,7,172,291,42,149,0,65,149,4,119,104,113,14,5,6,0


***
## Datasets para o treinamento:

> #### Mercado tratado:

In [62]:
# Market completo:
mercado_completo = market_T5.copy()

In [63]:
# Market sem id:
mercado_completo_sid = market_T5_b.copy()

> #### Mercado tratado sem os atuais clientes:

In [64]:
# Market sem os atuais clientes: 
mercado_alvo = pd.DataFrame(mercado_completo['id'])
mercado_alvo['Tr_exc'] = mercado_alvo['id'].isin(portfolio_T5['id'])
mercado_alvo = mercado_alvo[mercado_alvo['Tr_exc'] != True]
mercado_alvo = mercado_alvo.drop(['Tr_exc'], axis = 1)
mercado_alvo = pd.merge(mercado_alvo, mercado_completo, on='id', how='left')

In [65]:
# Market sem os atuais clientes e sem id:
mercado_alvo_sid = mercado_alvo.drop(['id', 'id_num'], axis = 1)

> #### Portfólio tratado:

In [66]:
# portfólio completo:
portfolio_completo = portfolio_T5.copy()

In [67]:
# portfólio sem id:
portfolio_completo_sid = portfolio_completo.drop(['id', 'id_num'], axis = 1)

> ***
- market original : market
- market original com 'id_num' : market_T1
- portfolio original : portfolio
>***
- market tratado : mercado_completo
- market tratado sem id's : mercado_sid
>***
- market tratado sem os atuais clientes : mercado_alvo
- market tratado sem os atuais clientes e sem id's : mercado_alvo_sid
>***
- portfolio tratado : portfolio_completo
- portfolio tratado sem id's : portfolio_completo_sid
> ***

***
## Modelo de recomendação KNN:

> ### Pacotes:

In [68]:
import sklearn
from sklearn.neighbors import NearestNeighbors

> ### Treino:

In [69]:
%%time
nbrs = NearestNeighbors(n_neighbors=20).fit(mercado_alvo_sid)

CPU times: user 6.17 ms, sys: 2.37 ms, total: 8.54 ms
Wall time: 6.26 ms


> ### Referência / Alvo:

In [70]:
# Criação de cliente alvo:
cliente_ideal = portfolio_completo_sid.mode()
cliente_ideal = pd.DataFrame(cliente_ideal.iloc[0]).reset_index()
cliente_ideal.columns = ['Colunas', 'Amostra_valores']
cliente_ideal_geral = list(cliente_ideal['Amostra_valores'])

In [71]:
# valores cliente alvo:
print(cliente_ideal_geral)

[0.0, 23.0, 1.0, 1.0, 0.0, 4.0, 43.0, 2.0, 0.0, 0.0, 0.0, 0.0, 0.0, 292.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 3.0, 0.0, 23.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.0, 34.0, 1.0, 2.0, 2.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 11024424.0, 11024424.0, 52.0, 71.0, 32.0, 58.0, 0.0, 6.0, 16.0, 16.0, 16.0, 5.0, 3.0, 2.0, 0.0, 0.0, 38.0, 3.0, 71.0, 2.0, 0.0, 0.0, 124.0, 246.0, 29.0, 5014.0, 0.0, 47.0, 265.0, 2.0, 71.0, 69.0, 68.0, 0.0, 0.0, 0.0, 0.0]


> ### Recomendação:

In [72]:
%%time
# Recomendação:
print(nbrs.kneighbors([cliente_ideal_geral]))

(array([[218621.9025967 , 291459.52172128, 292162.09733468,
        334553.64085151, 382330.25761768, 395955.92343467,
        437128.86211391, 464311.8136339 , 510710.6683965 ,
        582866.57091225, 608255.91311388, 655692.05399257,
        655709.94595095, 661026.70207942, 693933.97541265,
        750161.06357835, 783079.7214339 , 802847.72486132,
        815986.77459442, 877432.17443173]]), array([[ 75,  76, 293, 391, 107, 449, 470, 484, 549, 168, 207, 495, 135,
        409, 212, 557, 430, 746, 118, 252]]))
CPU times: user 2.05 ms, sys: 294 µs, total: 2.34 ms
Wall time: 2.18 ms


In [73]:
# Coleta de indices recomendados:
distances, indices= nbrs.kneighbors([cliente_ideal_geral])
indices = indices[0].tolist()
print(indices) # Esses indices sao do dataset de usado no treino (mercado_alvo_sid)

[75, 76, 293, 391, 107, 449, 470, 484, 549, 168, 207, 495, 135, 409, 212, 557, 430, 746, 118, 252]


> ### Visualização da recomendação:

In [74]:
# coletando o 'id_num'
rec = mercado_alvo.iloc[indices]
# Dataset com recomendações: 
recomendacao = pd.DataFrame()
recomendacao = rec['id_num']
recomendacao = pd.merge(recomendacao, market_T1, on='id_num', how='left')
recomendacao

Unnamed: 0,id_num,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_tancagem,vl_total_veiculos_antt,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,vl_total_tancagem_grupo,vl_total_veiculos_antt_grupo,vl_potenc_cons_oleo_gas,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_st_suspensa,qt_socios_masculino,qt_socios_feminino,qt_socios_pep,qt_alteracao_socio_total,qt_alteracao_socio_90d,qt_alteracao_socio_180d,qt_alteracao_socio_365d,qt_socios_pj_ativos,qt_socios_pj_nulos,qt_socios_pj_baixados,qt_socios_pj_suspensos,qt_socios_pj_inaptos,vl_idade_media_socios_pj,vl_idade_maxima_socios_pj,vl_idade_minima_socios_pj,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,coligada_mais_nova_baixada,coligada_mais_antiga_baixada,idade_media_coligadas_baixadas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,vl_folha_coligados,media_vl_folha_coligados,max_vl_folha_coligados,min_vl_folha_coligados,vl_folha_coligados_gp,media_vl_folha_coligados_gp,max_vl_folha_coligados_gp,min_vl_folha_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,total_filiais_coligados,media_filiais_coligados,max_filiais_coligados,min_filiais_coligados,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_ate_18,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_analfabeto,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,grau_instrucao_macro_desconhecido,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais
0,45821,3bc22585410624543970edbb68aa5b509f8077f112c5517d1395cdd20bac35fb,True,SOCIEDADE EMPRESARIA LIMITADA,AM,ENTIDADES EMPRESARIAIS,SERVICOS DE EDUCACAO,SERVIÇO,20.071233,> 20,False,False,False,False,False,2005-11-03,False,False,False,SIM,EDUCACAO,EDUCACAO,False,False,False,,,,,True,,0.0,0.0,,,,False,AM,LARANJA,ACIMA DE 1 ANO,48.0,ALTA,BOA,False,,1315.56,CENTRO AMAZONENSE,MANAUS,True,2.0,2.0,0.0,49.0,70.0,28.0,1.0,,,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",10869876.0,10869876.0,257.0,77.0,29.87,70.13,,2.0,18.0,8.0,12.0,18.0,7.0,6.0,3.0,3.0,,4.0,15.0,58.0,,77.0,3.7,11.0,18.0,257.0,334.0,31.202803,162.233333,-0.233333,56.808658,162.233333,3.7,77.0,84.0,111.0,-8.333333,-30.630631,22.360248,0
1,46268,66f097283634301e7ecdd5bd342941b44d40d91a83ba61c7a8ba6bdf60a194ce,True,EMPRESA INDIVIDUAL DE RESPONSABILIDADE LIMITADA DE NATUREZA EMPRESARIA,MA,OUTROS,SERVICOS DE EDUCACAO,SERVIÇO,15.928767,15 a 20,False,False,False,False,False,2005-11-03,False,True,False,SIM,EDUCACAO,EDUCACAO,False,False,False,,,,,True,2.0,0.0,0.0,,,,False,MA,LARANJA,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,,807.06,NORTE MARANHENSE,AGLOMERACAO URBANA DE SAO LUIS,True,1.0,1.0,0.0,40.0,40.0,40.0,1.0,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",10818360.0,10818360.0,298.0,63.0,38.1,61.9,,1.0,11.0,15.0,13.0,9.0,7.0,2.0,5.0,,,3.0,15.0,45.0,,63.0,2.2,6.0,6.0,299.0,362.0,43.420442,204.8,0.0,72.466667,204.8,2.2,63.0,63.0,87.0,0.0,-27.586207,9.52381,0
2,192083,8ff004e3a8994814c2d1f7e548712537445495fd15dae66d357201d90d38cb95,True,SOCIEDADE EMPRESARIA LIMITADA,RO,ENTIDADES EMPRESARIAIS,SERVICOS DE SAUDE,SERVIÇO,22.679452,> 20,False,False,False,False,False,2003-10-18,False,False,True,NAO,ATIVIDADES DE ATENCAO A SAUDE HUMANA,SAUDE HUMANA E SERVICOS SOCIAIS,False,False,True,,,1.0,0.0,False,,0.0,1.0,,,,False,RO,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,20280.0,,,,True,2.0,2.0,0.0,31.0,31.0,31.0,1.0,,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",10818360.0,10818360.0,123.0,59.0,23.73,76.27,,3.0,11.0,8.0,14.0,5.0,10.0,3.0,2.0,3.0,,1.0,43.0,15.0,,59.0,3.466667,6.0,9.0,123.0,182.0,32.351465,257.566667,-0.366667,52.666102,257.566667,3.466667,59.0,62.0,64.0,-4.83871,-7.8125,14.876033,0
3,250890,a6f906772ab503b8286381d1e762161cfc50299d069faa36608acf2083f93972,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,COMERCIO E REPARACAO DE VEICULOS,COMERCIO,37.115068,> 20,False,False,False,False,False,2005-07-16,False,True,True,SIM,COMERCIO E REPARACAO DE VEICULOS AUTOMOTORES E MOTOCICLETAS,COMERCIO; REPARACAO DE VEICULOS AUTOMOTORES E MOTOCICLETAS,False,True,True,,,8.0,4.0,False,,4.0,8.0,,,,False,PI,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,164252.0,1068.09,CENTRO NORTE PIAUIENSE,TERESINA,True,2.0,2.0,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",10818360.0,10818360.0,56.0,41.0,78.05,21.95,,2.0,8.0,7.0,16.0,4.0,,1.0,2.0,1.0,,7.0,18.0,16.0,,41.0,2.766667,10.0,9.0,56.0,98.0,43.463605,379.1,-0.666667,52.062698,379.1,2.766667,42.0,41.0,38.0,2.439024,10.526316,21.686747,1
4,66694,97ebe3da3897738d4d0d0d52951464c328ee830a4801b2be7365bb453e495654,True,ORGAO PUBLICO DO PODER EXECUTIVO ESTADUAL OU DO DISTRITO FEDERAL,AC,ADMINISTRACAO PUBLICA,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,11.167123,10 a 15,False,False,False,False,False,2007-08-31,False,True,True,NAO,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,,,21.0,0.0,False,,0.0,21.0,,,,False,AC,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,353468.0,2355.83,VALE DO ACRE,RIO BRANCO,True,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",10921392.0,10921392.0,70.0,46.0,47.83,52.17,,,1.0,9.0,12.0,4.0,5.0,4.0,4.0,7.0,,4.0,8.0,34.0,,46.0,41.5,0.0,0.0,70.0,116.0,113.514655,5014.966667,2.033333,93.99058,409.166667,41.5,46.0,46.0,48.0,0.0,-4.166667,0.0,0
5,287960,e05cad186a50190e1cc2a3b2c0f4983637fcee39f2a4104ed97d19ec825cdb55,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,INDUSTRIA DA CONSTRUCAO,CONSTRUÇÃO CIVIL,27.545205,> 20,False,False,False,False,False,2005-11-03,False,True,True,SIM,CONSTRUCAO DE EDIFICIOS,CONSTRUCAO,False,False,True,,,3.0,2.0,False,,2.0,3.0,,,,False,PI,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,155058.0,4331.36,CENTRO NORTE PIAUIENSE,TERESINA,True,2.0,2.0,0.0,36.0,36.0,36.0,1.0,,,1.0,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",10766844.0,10766844.0,195.0,57.0,91.23,8.77,,4.0,10.0,14.0,12.0,6.0,6.0,4.0,1.0,,1.0,48.0,4.0,4.0,,57.0,6.966667,23.0,75.0,198.0,256.0,11.815495,80.633333,-0.066667,27.843678,80.633333,6.966667,58.0,115.0,61.0,-49.565217,-4.918033,89.285714,0
6,300390,874edc3770468e023f58150b7013d43b616653487d5e1fd02a0ddd883a56d735,True,ORGAO PUBLICO DO PODER EXECUTIVO ESTADUAL OU DO DISTRITO FEDERAL,AC,ADMINISTRACAO PUBLICA,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,11.167123,10 a 15,False,False,False,False,False,2007-08-31,False,True,True,NAO,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,,,1.0,0.0,False,,0.0,1.0,,,,False,AC,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,,907.45,VALE DO ACRE,RIO BRANCO,True,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",11333520.0,11333520.0,36.0,46.0,36.96,63.04,,,8.0,4.0,9.0,7.0,6.0,4.0,2.0,6.0,,4.0,8.0,34.0,,46.0,34.366667,0.0,0.0,36.0,82.0,177.641463,5014.966667,2.033333,147.793478,517.3,34.366667,46.0,46.0,47.0,0.0,-2.12766,0.0,0
7,306097,dbd0dcffe463a6c102fc601b6ce47939a3ab11b72c51d1e01dfe5f23f879fbd3,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,SERVICOS DE EDUCACAO,SERVIÇO,37.019178,> 20,False,False,False,False,False,2005-11-03,False,False,False,SIM,EDUCACAO,EDUCACAO,False,False,True,,,1.0,0.0,True,,0.0,1.0,,,,False,MA,VERDE,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,3306.0,1699.17,OESTE MARANHENSE,IMPERATRIZ,True,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",11230488.0,11440488.0,100.0,60.0,46.67,53.33,,1.0,8.0,3.0,12.0,9.0,10.0,8.0,3.0,6.0,,15.0,10.0,35.0,,60.0,4.766667,8.0,10.0,100.0,160.0,68.220625,5027.166667,-0.2,58.520556,315.4,4.766667,60.0,62.0,72.0,-3.225806,-16.666667,16.393443,1
8,338678,a4dd3dea1a0cb2c21c62327839d785b3eb10db014910e0cb8ef722bddf373137,True,ENTIDADE SINDICAL,MA,ENTIDADES SEM FINS LUCRATIVOS,SERVICOS DIVERSOS,SERVIÇO,30.660274,> 20,False,False,False,False,False,2005-11-03,False,True,True,SIM,ATIVIDADES DE ORGANIZACOES ASSOCIATIVAS,OUTRAS ATIVIDADES DE SERVICOS,False,False,True,,,1.0,0.0,False,,0.0,1.0,,,,False,MA,LARANJA,ACIMA DE 1 ANO,22.0,MEDIA,,False,26842.0,,NORTE MARANHENSE,AGLOMERACAO URBANA DE SAO LUIS,True,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",11385036.0,11385036.0,32.0,51.0,37.25,62.75,,,2.0,5.0,16.0,12.0,7.0,1.0,1.0,7.0,,1.0,22.0,28.0,,51.0,21.133333,0.0,0.0,32.0,83.0,109.036546,238.666667,14.2,123.922876,238.666667,21.133333,51.0,51.0,53.0,0.0,-3.773585,0.0,0
9,107814,2cac738d47543b3d2016f2bbc0d89cee29583a815ebbcc7da98937630090598b,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,"TRANSPORTE, ARMAZENAGEM E CORREIO",SERVIÇO,14.569863,10 a 15,False,False,False,False,False,2005-11-03,False,False,False,SIM,TRANSPORTE TERRESTRE,TRANSPORTE ARMAZENAGEM E CORREIO,False,True,True,,8.0,1.0,0.0,False,,0.0,1.0,,8.0,,False,PI,AZUL,ACIMA DE 1 ANO,24.0,ALTA,BOA,False,3375.0,1009.21,CENTRO NORTE PIAUIENSE,TERESINA,True,3.0,3.0,0.0,56.333333,75.0,35.0,3.0,,,3.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",11436552.0,11436552.0,128.0,87.0,97.7,2.3,,8.0,14.0,13.0,14.0,11.0,8.0,8.0,3.0,8.0,,23.0,63.0,1.0,,87.0,9.533333,9.0,5.0,128.0,215.0,56.930233,322.5,0.333333,89.435632,322.5,9.533333,87.0,83.0,94.0,4.819277,-7.446809,5.882353,0


***


## clusters