## Requisitos técnicos obrigatórios

 - Utilizar técnicas de data science e machine learning para desenvolver o projeto;
 - Apresentar o desenvolvimento e outputs do modelo em um Jupyter Notebook ou outra tecnologia de apresentação de Output de modelos de Machine Learning;
 - A análise deve considerar os seguintes pontos: análise exploratória dos dados, tratamento dos dados, avaliação de algoritmos, treinamento do modelo, avaliação de performance do modelo e visualização dos resultados;
 - Para a apresentação do projeto, o tempo entre o treinamento do modelo e o output deve ser menor que 20 min.

## Objetivo

O objetivo deste produto é fornecer um serviço automatizado que recomenda leads para um usuário dado sua atual lista de clientes (Portfólio).

## Contextualização
Algumas empresas gostariam de saber quem são as demais empresas em um determinado mercado (população) que tem maior probabilidade se tornarem seus próximos clientes. Ou seja, a sua solução deve encontrar no mercado quem são os leads mais aderentes dado as características dos clientes presentes no portfólio do usuário.

Além disso, sua solução deve ser agnóstica ao usuário. Qualquer usuário com uma lista de clientes que queira explorar esse mercado pode extrair valor do serviço.

Para o desafio, deverão ser consideradas as seguintes bases:

 - `Mercado`: Base com informações sobre as empresas do Mercado a ser considerado. 
 - `Portfolio 1`: Ids dos clientes da empresa 1 
 - `Portfolio 2`: Ids dos clientes da empresa 2 
 - `Portfolio 3`: Ids dos clientes da empresa 3

Obs: todas as empresas(ids) dos portfolios estão contidos no Mercado(base de população).

As bases de portfólio poderão ser utilizadas para testar a aderência da solução. Além disso, se a equipe desejar, poderá simular portfólios por meio de amostragens no mercado.


# O que é um lead?

Primeiro, é importante definir o que é um lead. Basicamente, são pessoas que demonstram interesse em algo que sua empresa oferece e deixam um contato.  Toda pessoa que deixou um contato identificável pode ser considerado um lead. Por exemplo: nome e e-mail; empresa e telefone.

Dependendo da etapa do funil de vendas, o lead pode ter mais ou menos dados preenchidos. Para o topo do funil talvez você só precise de nome e e-mail. Já para os leads mais próximos da compra, é necessário saber cargo, empresa, segmento, telefone, etc.

É importante diferenciar o que é um lead e o que é uma pessoa. Por exemplo: “Marcos Alves, Gerente”, não é um lead, pois não tem informação de contato. Agora, se o mesmo se cadastrar com e-mail pessoal e um empresarial válidos, será considerado como dois leads diferentes. Isso porque a maioria das ferramentas de marketing utilizam o e-mail como método de identificação dos contatos. O processo de análise e qualificação dos leads pode encontrar essas pessoas e mesclar os dados dos contatos.

# Quais as etapas de qualificação de um lead?

Agora que você já sabe o que é um lead, vamos para a qualificação. É errado pensar que todo lead é igual. Já que eles variam muito entre níveis de importância, qualidade, engajamento e, consequentemente, potencial de compra. 

“Leads qualificados”, são aqueles que possuem maior aderência ao seu negócio, e têm grandes chances de se tornar um cliente. Eles podem ser classificados como: 

 - MQL (Marketing Qualified Lead) 
 - SAL (Sales Accepted Lead) uma etapa intermediária de validação
 - SQL (Sales Qualified Lead)

In [None]:

## Métricas

 - Métricas de similaridade ?

In [44]:
import pandas as pd
from pandas_profiling import ProfileReport
import pandas.util.testing as tm

## Functions

In [None]:
pd.set_option("display.max_columns",300)

In [46]:
def generate_profile_report(data, name):
    market_report = ProfileReport(data, title=name.capitalize() + ' Dataset Profiling Report')
    market_report.to_file(output_file='reports/'+ name +'_dataset_report.html')

In [47]:
def get_missing_data(data):
    return data.isnull().mean().round(4) * 100

In [48]:
def get_missing_data(data):
    missing_data =  pd.DataFrame({'column': data.columns, 
                                  'types': data.dtypes, 
                                  'missing (%)': data.isnull().mean().round(4) * 100})

    return missing_data.sort_values('missing (%)', ascending=False)

In [49]:
def reduce_overall_missing(data, percent):
    return data[data.columns[data.isnull().mean() < percent]]

In [51]:
market = pd.read_csv(r'../data/market.csv', sep=',')
market = market.drop(['Unnamed: 0','id'], axis=1)
market.shape

(462298, 180)

In [52]:
market.sample(5)

Unnamed: 0,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,vl_total_tancagem,vl_total_veiculos_antt,vl_total_veiculos_leves,vl_total_veiculos_pesados,fl_optante_simples,qt_art,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,vl_total_tancagem_grupo,vl_total_veiculos_antt_grupo,vl_potenc_cons_oleo_gas,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,de_indicador_telefone,fl_simples_irregular,vl_frota,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_st_suspensa,qt_socios_masculino,qt_socios_feminino,qt_socios_pep,qt_alteracao_socio_total,qt_alteracao_socio_90d,qt_alteracao_socio_180d,qt_alteracao_socio_365d,qt_socios_pj_ativos,qt_socios_pj_nulos,qt_socios_pj_baixados,qt_socios_pj_suspensos,qt_socios_pj_inaptos,vl_idade_media_socios_pj,vl_idade_maxima_socios_pj,vl_idade_minima_socios_pj,qt_coligados,qt_socios_coligados,qt_coligados_matriz,qt_coligados_ativo,qt_coligados_baixada,qt_coligados_inapta,qt_coligados_suspensa,qt_coligados_nula,idade_media_coligadas,idade_maxima_coligadas,idade_minima_coligadas,coligada_mais_nova_ativa,coligada_mais_antiga_ativa,idade_media_coligadas_ativas,coligada_mais_nova_baixada,coligada_mais_antiga_baixada,idade_media_coligadas_baixadas,qt_coligados_sa,qt_coligados_me,qt_coligados_mei,qt_coligados_ltda,qt_coligados_epp,qt_coligados_norte,qt_coligados_sul,qt_coligados_nordeste,qt_coligados_centro,qt_coligados_sudeste,qt_coligados_exterior,qt_ufs_coligados,qt_regioes_coligados,qt_ramos_coligados,qt_coligados_industria,qt_coligados_agropecuaria,qt_coligados_comercio,qt_coligados_serviço,qt_coligados_ccivil,qt_funcionarios_coligados,qt_funcionarios_coligados_gp,media_funcionarios_coligados_gp,max_funcionarios_coligados_gp,min_funcionarios_coligados_gp,vl_folha_coligados,media_vl_folha_coligados,max_vl_folha_coligados,min_vl_folha_coligados,vl_folha_coligados_gp,media_vl_folha_coligados_gp,max_vl_folha_coligados_gp,min_vl_folha_coligados_gp,faturamento_est_coligados,media_faturamento_est_coligados,max_faturamento_est_coligados,min_faturamento_est_coligados,faturamento_est_coligados_gp,media_faturamento_est_coligados_gp,max_faturamento_est_coligados_gp,min_faturamento_est_coligados_gp,total_filiais_coligados,media_filiais_coligados,max_filiais_coligados,min_filiais_coligados,qt_coligados_atividade_alto,qt_coligados_atividade_medio,qt_coligados_atividade_baixo,qt_coligados_atividade_mt_baixo,qt_coligados_atividade_inativo,qt_coligadas,sum_faturamento_estimado_coligadas,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_ex_funcionarios,qt_funcionarios_grupo,percent_func_genero_masc,percent_func_genero_fem,idade_ate_18,idade_de_19_a_23,idade_de_24_a_28,idade_de_29_a_33,idade_de_34_a_38,idade_de_39_a_43,idade_de_44_a_48,idade_de_49_a_53,idade_de_54_a_58,idade_acima_de_58,grau_instrucao_macro_analfabeto,grau_instrucao_macro_escolaridade_fundamental,grau_instrucao_macro_escolaridade_media,grau_instrucao_macro_escolaridade_superior,grau_instrucao_macro_desconhecido,total,meses_ultima_contratacaco,qt_admitidos_12meses,qt_desligados_12meses,qt_desligados,qt_admitidos,media_meses_servicos_all,max_meses_servicos_all,min_meses_servicos_all,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais
331172,True,EMPRESARIO INDIVIDUAL,PI,OUTROS,COMERCIO VAREJISTA,COMERCIO,6.920548,5 a 10,False,False,False,False,False,2011-11-28,False,True,True,SIM,COMERCIO VAREJISTA,COMERCIO; REPARACAO DE VEICULOS AUTOMOTORES E ...,False,False,False,,,,,True,,0.0,0.0,,,,False,PI,AZUL,ACIMA DE 1 ANO,22.0,MEDIA,,False,,728.97,CENTRO NORTE PIAUIENSE,TERESINA,False,1.0,1.0,0.0,38.0,38.0,38.0,1.0,,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 81.000,01 A R$ 360.000,00","DE R$ 81.000,01 A R$ 360.000,00",185457.6,185457.6,3.0,1.0,100.0,0.0,,,,,,1.0,,,,,,,1.0,,,1.0,47.566667,0.0,0.0,3.0,4.0,30.675,47.566667,18.3,47.566667,47.566667,47.566667,1.0,1.0,2.0,0.0,-50.0,0.0,0
446061,True,EMPRESARIO INDIVIDUAL,AM,OUTROS,SERVICOS ADMINISTRATIVOS,SERVIÇO,0.090411,<= 1,False,False,False,True,False,2018-09-25,False,True,True,SIM,SERVICOS DE ESCRITORIO DE APOIO ADMINISTRATIVO...,ATIVIDADES ADMINISTRATIVAS E SERVICOS COMPLEME...,False,False,False,,,,,,,0.0,0.0,,,,,AM,,,,,,False,,,CENTRO AMAZONENSE,MANAUS,True,1.0,1.0,0.0,47.0,47.0,47.0,1.0,,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0
70945,True,CONDOMINIO EDILICIO,MA,ENTIDADES SEM FINS LUCRATIVOS,SERVICOS ADMINISTRATIVOS,SERVIÇO,13.915068,10 a 15,False,False,False,False,False,2004-12-01,False,False,False,SIM,SERVICOS PARA EDIFICIOS E ATIVIDADES PAISAGIST...,ATIVIDADES ADMINISTRATIVAS E SERVICOS COMPLEME...,False,False,False,,,,,False,,0.0,0.0,,,,False,MA,AZUL,ACIMA DE 1 ANO,23.0,ALTA,,False,,2131.13,NORTE MARANHENSE,AGLOMERACAO URBANA DE SAO LUIS,True,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 360.000,01 A R$ 1.500.000,00","DE R$ 360.000,01 A R$ 1.500.000,00",412128.0,412128.0,3.0,4.0,100.0,0.0,,,,,2.0,1.0,,1.0,,,,,4.0,,,4.0,13.066667,0.0,0.0,3.0,7.0,57.766667,103.366667,11.133333,70.908333,103.366667,13.066667,4.0,4.0,3.0,0.0,33.333333,0.0,0
23340,True,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,BENS DE CONSUMO,INDUSTRIA,8.89589,5 a 10,False,False,False,False,False,2009-12-07,False,False,True,NAO,FABRICACAO DE MOVEIS,INDUSTRIAS DE TRANSFORMACAO,False,False,False,,,,,True,,0.0,0.0,,,,False,PI,AZUL,ACIMA DE 1 ANO,23.0,ALTA,BOA,False,,1248.88,SUDESTE PIAUIENSE,PICOS,True,1.0,1.0,0.0,45.0,45.0,45.0,1.0,,,1.0,,,,,,,,,,,,,,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,255.166667,255.166667,255.166667,255.166667,255.166667,255.166667,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,,,,,,,,,,,,,,210000.0,210000.0,210000.0,210000.0,210000.0,210000.0,210000.0,210000.0,,,,,0.0,0.0,0.0,0.0,0.0,1.0,210000.0,"DE R$ 1.500.000,01 A R$ 4.800.000,00","DE R$ 1.500.000,01 A R$ 4.800.000,00",1545480.0,1755480.0,24.0,10.0,70.0,30.0,,1.0,2.0,3.0,2.0,1.0,,1.0,,,,2.0,7.0,1.0,,10.0,8.033333,1.0,4.0,24.0,34.0,34.136275,93.266667,2.033333,60.756667,93.266667,41.5,10.0,15.0,21.0,-33.333333,-52.380952,34.782609,1
16632,True,SOCIEDADE EMPRESARIA LIMITADA,RN,ENTIDADES EMPRESARIAIS,COMERCIO VAREJISTA,COMERCIO,31.906849,> 20,False,False,False,False,False,2005-11-03,False,False,False,SIM,COMERCIO VAREJISTA,COMERCIO; REPARACAO DE VEICULOS AUTOMOTORES E ...,False,False,False,,,,,False,,0.0,0.0,,,,False,RN,AMARELO,ACIMA DE 1 ANO,23.0,MEDIA,,False,,5083.05,LESTE POTIGUAR,NATAL,False,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"DE R$ 81.000,01 A R$ 360.000,00","DE R$ 81.000,01 A R$ 360.000,00",210000.0,210000.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0


In [None]:
# generate_profile_report(market, 'market')

In [54]:
mkt_missing_data = get_missing_data(market)
mkt_missing_data[mkt_missing_data['missing (%)']>0]

Unnamed: 0,column,types,missing (%)
grau_instrucao_macro_desconhecido,grau_instrucao_macro_desconhecido,float64,100.00
qt_alteracao_socio_total,qt_alteracao_socio_total,float64,100.00
qt_alteracao_socio_90d,qt_alteracao_socio_90d,float64,100.00
qt_alteracao_socio_180d,qt_alteracao_socio_180d,float64,100.00
qt_alteracao_socio_365d,qt_alteracao_socio_365d,float64,100.00
...,...,...,...
fl_antt,fl_antt,object,0.42
fl_veiculo,fl_veiculo,object,0.42
vl_total_veiculos_pesados_grupo,vl_total_veiculos_pesados_grupo,float64,0.42
vl_total_veiculos_leves_grupo,vl_total_veiculos_leves_grupo,float64,0.42


In [None]:
without_missing = reduce_overall_missing(market, .7)

In [None]:
without_missing.columns

# Regras Extraidas

 - Microempreendedor Individual não pode ter sócio em seu empreendimento. - `fl_optante_simei` == `True`

# Feature Inputation Categorical

In [28]:
without_missing.fillna({'nm_meso_regiao': -999, 'nm_meso_regiao': -999, 'de_saude_rescencia': -999,
                        'de_saude_tributaria': -999, 'de_nivel_atividade': -999, 'sg_uf_matriz': -999,
                        'nm_segmento': -999, 'nm_divisao': -999, 'setor': -999, 'nm_micro_regiao':-999}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._update_inplace(new_data)


In [32]:
df = get_missing_data(without_missing)
df[df['missing (%)'] > 0]

Unnamed: 0,column,types,missing (%)
qt_socios_feminino,qt_socios_feminino,float64,68.63
qt_socios_masculino,qt_socios_masculino,float64,57.79
qt_socios_st_regular,qt_socios_st_regular,float64,33.51
idade_minima_socios,idade_minima_socios,float64,32.79
idade_maxima_socios,idade_maxima_socios,float64,32.79
idade_media_socios,idade_media_socios,float64,32.79
empsetorcensitariofaixarendapopulacao,empsetorcensitariofaixarendapopulacao,float64,31.11
qt_socios,qt_socios,float64,24.9
qt_socios_pj,qt_socios_pj,float64,24.9
qt_socios_pf,qt_socios_pf,float64,24.9


In [42]:
without_missing[(without_missing['vl_total_veiculos_pesados_grupo'] > 0) ].sample(5)

Unnamed: 0,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_epp,fl_mei,fl_ltda,dt_situacao,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,fl_optante_simples,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,fl_simples_irregular,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,qt_socios_masculino,qt_socios_feminino,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_filiais
302728,True,MUNICIPIO,PI,OUTROS,"ADMINISTRACAO PUBLICA, DEFESA E SEGURIDADE SOCIAL",SERVIÇO,43.854795,> 20,False,False,False,False,False,2005-11-03,False,False,False,NAO,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,ADMINISTRACAO PUBLICA DEFESA E SEGURIDADE SOCIAL,False,False,True,False,8.0,2.0,False,PI,VERDE,ACIMA DE 1 ANO,23.0,ALTA,False,324.69,CENTRO NORTE PIAUIENSE,MEDIO PARNAIBA PIAUIENSE,True,,,,,,,,,,"DE R$ 10.000.000,01 A R$ 30.000.000,00","DE R$ 10.000.000,01 A R$ 30.000.000,00",14888124.0,19788124.0,4
165803,True,SOCIEDADE EMPRESARIA LIMITADA,RO,ENTIDADES EMPRESARIAIS,COMERCIO VAREJISTA,COMERCIO,6.786301,5 a 10,False,False,False,False,False,2012-01-16,False,True,True,NAO,COMERCIO VAREJISTA,COMERCIO; REPARACAO DE VEICULOS AUTOMOTORES E ...,False,False,True,False,1.0,0.0,False,RO,VERDE,ACIMA DE 1 ANO,22.0,ALTA,False,3369.2,-999,-999,True,2.0,2.0,0.0,37.5,48.0,27.0,2.0,2.0,,"DE R$ 1.500.000,01 A R$ 4.800.000,00","DE R$ 1.500.000,01 A R$ 4.800.000,00",2967321.5,2967321.5,0
242998,False,SOCIEDADE EMPRESARIA LIMITADA,RO,ENTIDADES EMPRESARIAIS,"TRANSPORTE, ARMAZENAGEM E CORREIO",SERVIÇO,3.468493,1 a 5,False,False,False,False,False,2015-05-11,False,False,True,NAO,TRANSPORTE TERRESTRE,TRANSPORTE ARMAZENAGEM E CORREIO,False,False,False,False,21.0,0.0,False,PR,VERDE,ACIMA DE 1 ANO,22.0,MEDIA,False,2297.78,-999,-999,True,4.0,3.0,1.0,53.0,55.0,51.0,3.0,1.0,2.0,"DE R$ 81.000,01 A R$ 360.000,00","DE R$ 100.000.000,01 A R$ 300.000.000,00",210000.0,171411440.0,77
199356,False,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,COMERCIO VAREJISTA,COMERCIO,8.032877,5 a 10,False,False,False,False,False,2010-10-18,False,False,False,NAO,COMERCIO VAREJISTA,COMERCIO; REPARACAO DE VEICULOS AUTOMOTORES E ...,False,False,True,False,8.0,26.0,False,PI,VERDE,ACIMA DE 1 ANO,22.0,ALTA,False,1576.28,NORTE PIAUIENSE,LITORAL PIAUIENSE,True,2.0,2.0,0.0,66.5,69.0,64.0,2.0,1.0,1.0,"DE R$ 1.500.000,01 A R$ 4.800.000,00","DE R$ 4.800.000,01 A R$ 10.000.000,00",2905502.5,9791050.0,17
84418,False,SOCIEDADE EMPRESARIA LIMITADA,PI,ENTIDADES EMPRESARIAIS,"TRANSPORTE, ARMAZENAGEM E CORREIO",SERVIÇO,10.926027,10 a 15,False,False,False,False,False,2007-11-27,False,True,True,NAO,ARMAZENAMENTO E ATIVIDADES AUXILIARES DOS TRAN...,TRANSPORTE ARMAZENAGEM E CORREIO,False,False,False,False,22.0,3.0,False,PI,VERDE,ACIMA DE 1 ANO,23.0,MEDIA,False,817.52,NORTE PIAUIENSE,LITORAL PIAUIENSE,True,3.0,3.0,0.0,39.0,49.0,23.0,3.0,1.0,2.0,"DE R$ 81.000,01 A R$ 360.000,00","DE R$ 30.000.000,01 A R$ 100.000.000,00",210000.0,56094556.0,4


### Feature imputation with 0

Campos abaixo não possuem o valor zero para a quantidade mínima ou seja, possuem NaN no lugar do zero.

In [None]:
# SE O USUARIO FOR MEI

# without_missing['qt_socios_feminino'] = without_missing['qt_socios_feminino'].fillna(0) if without_missing['fl_optante_simei'] == True
# without_missing['qt_socios_masculino'] = without_missing['qt_socios_feminino'].fillna(0) if without_missing['fl_optante_simei'] == True
# without_missing['qt_socios_st_regular'] = without_missing['qt_socios_st_regular'].fillna(0) if without_missing['fl_optante_simei'] == True

without_missing['qt_socios_st_regular'] = without_missing['qt_socios_st_regular'].fillna(0) if without_missing[(without_missing['qt_socios'] == 1) &
                                                                                                                (without_missing['qt_socios_st_regular'].isnull())]

without_missing['vl_total_veiculos_leves_grupo'] = without_missing['vl_total_veiculos_leves_grupo'].fillna(0)

In [None]:
# SE O USUARIO NÃO FOR MEI

# without_missing['qt_socios_feminino'] = without_missing['qt_socios_feminino'].fillna(without_missing['qt_socios_feminino'].mean()) if without_missing['fl_optante_simei'] == False
# without_missing['qt_socios_masculino'] = without_missing['qt_socios_masculino'].fillna(without_missing['qt_socios_masculino'].mean()) if without_missing['fl_optante_simei'] == True
# without_missing['qt_socios_st_regular'] = without_missing['qt_socios_st_regular'].fillna(0) if without_missing['fl_optante_simei'] == True

### Feature inputation with frequency

Campos abaixo estão mais associados a um valor médio estatístico ou seja, um valor que não pode ter valor zero e pode ser ser definido em vitude do todo ao qual pertence.

In [None]:
# TO INPUT WITH MEAN OR FREQUENCY

# without_missing['qt_socios_pf'] = without_missing['qt_socios_pf'].fillna(without_missing['qt_socios_pf'].mean())
# without_missing['empsetorcensitariofaixarendapopulacao'] = without_missing['empsetorcensitariofaixarendapopulacao'].fillna(without_missing['empsetorcensitariofaixarendapopulacao'].mean())


## Feature inputation with True or False

In [None]:
without_missing['fl_optante_simei'] = True if without_missing[(without_missing['fl_optante_simei'].isnull()) & 
                                                              (without_missing['qt_socios'] == 1)]
    
without_missing['fl_optante_simei'] = False if without_missing[(without_missing['fl_optante_simei'].isnull()) & 
                                                               (without_missing['qt_socios'] > 1)]

# para os casos abaixo olhar para a variaével `de_faixa_faturamento_estimado`
# a qual categoriza os não optantes na categoria DE R 81.000,01𝐴𝑅  360.000,00 para cima
without_missing[(without_missing['fl_optante_simei'].isnull()) & 
                (without_missing['qt_socios'].isnull())]

## A analisar

In [None]:
empty_columns = ['qt_socios','qt_socios_pf','qt_socios_pj',
                 'idade_media_socios','idade_maxima_socios',
                 'idade_minima_socios','qt_socios_st_regular',
                 'qt_socios_masculino', 'qt_socios_feminino']

# without_missing['idade_media_socios'] = without_missing['idade_media_socios'].fillna(without_missing['idade_media_socios'].mean())
# without_missing['idade_maxima_socios'] = without_missing['idade_maxima_socios'].fillna(without_missing['idade_maxima_socios'].mean())
# without_missing['idade_minima_socios'] = without_missing['idade_minima_socios'].fillna(without_missing['idade_minima_socios'].mean())

without_missing[(without_missing['fl_optante_simei'].isnull()) & 
                (without_missing['qt_socios'].isnull())]

# DATA PREPARATION

# Alta Correlação

In [None]:
# droped_columns = ['id','de_natureza_juridica', 'sg_uf', 'natureza_juridica_macro', 
#                   'de_ramo', 'setor', 'idade_emp_cat', 'dt_situacao', 'nm_divisao',
#                   'nm_segmento']

# colormap = plt.cm.viridis
# plt.figure(figsize=(12,12))
# plt.title('Pearson Correlation of Features', y=1.05, size=15)
# sns.set(font_scale=1.05)
# sns.heatmap(without_missing.drop(droped_columns, axis=1).astype(float).corr(),linewidths=0.1,vmax=1.0, square=True,cmap=colormap, linecolor='white', annot=True)

# Feature Engineering

# K-means vc GMM

# Referências
 - http://www.whip.com.br/blog/lead-qualificado/
 - https://data-flair.training/blogs/r-data-science-project-customer-segmentation/
 - https://towardsdatascience.com/unsupervised-learning-project-creating-customer-segments-17c4b4bbf925
 - https://towardsdatascience.com/a-gentle-introduction-to-customer-segmentation-375fb4346a33
 - https://www.kdnuggets.com/2019/11/customer-segmentation-using-k-means-clustering.html
 - https://github.com/fanta-mnix/customer-segmentation/blob/master/customer_segments.ipynb
 - https://towardsdatascience.com/customer-segmentation-using-k-means-clustering-d33964f238c3
 - https://www.datarevenue.com/en-blog/machine-learning-for-marketing
 - https://towardsdatascience.com/build-your-own-clustering-based-recommendation-engine-in-15-minutes-bdddd591d394
 - https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/

# Model to Production

 - https://towardsdatascience.com/a-true-end-to-end-ml-example-lead-scoring-f5b52e9a3c80