# Desafio final Code:Nation Data Science

***
## Objetivo

O objetivo deste produto é fornecer um serviço automatizado que recomenda leads para um usuário dado sua atual lista de clientes (Portfólio).
 
## Contextualização

Algumas empresas gostariam de saber quem são as demais empresas em um determinado mercado (população) que tem maior probabilidade se tornarem seus próximos clientes. Ou seja, a sua solução deve encontrar no mercado quem são os leads mais aderentes dado as características dos clientes presentes no portfólio do usuário.

Além disso, sua solução deve ser agnóstica ao usuário. Qualquer usuário com uma lista de clientes que queira explorar esse mercado pode extrair valor do serviço.       

Para o desafio, deverão ser consideradas as seguintes bases:

* Mercado: Base com informações sobre as empresas do Mercado a ser considerado. 
* Portfolio 1: Ids dos clientes da empresa 1
* Portfolio 2: Ids dos clientes da empresa 2
* Portfolio 3: Ids dos clientes da empresa 3 

Obs: todas as empresas(ids) dos portfolios estão contidos no Mercado(base de população). 

Link para download das bases Mercado, Portfolio 1, Portfolio 2 e Portfolio 3 respectivamente: 

[https://drive.google.com/open?id=1y8-kGTMrsMi4q49x7LBYfu_iP2f0Xudi](https://drive.google.com/open?id=1y8-kGTMrsMi4q49x7LBYfu_iP2f0Xudi)

[https://drive.google.com/open?id=1hgBhk-S0jKCF-GYBz8eaaktvmkH9xI0b](https://drive.google.com/open?id=1hgBhk-S0jKCF-GYBz8eaaktvmkH9xI0b)

[https://drive.google.com/open?id=1bbSy_0C981TbenfQOAhaK6Q_-q-ppq1X](https://drive.google.com/open?id=1bbSy_0C981TbenfQOAhaK6Q_-q-ppq1X)

[https://drive.google.com/open?id=18VH0WhmF3iRLk_pVwcTclUn_AiZFGYTX](https://drive.google.com/open?id=18VH0WhmF3iRLk_pVwcTclUn_AiZFGYTX)

As bases de portfólio poderão ser utilizadas para testar a aderência da solução. Além disso, se a equipe desejar, poderá simular portfólios por meio de amostragens no mercado. 

## Requisitos técnicos obrigatórios

-  Utilizar técnicas de data science e machine learning para desenvolver o projeto;
-  Apresentar o desenvolvimento e outputs do modelo em um Jupyter Notebook ou outra tecnologia de apresentação de Output de modelos de Machine Learning;
-  A análise deve considerar os seguintes pontos: análise exploratória dos dados, tratamento dos dados, avaliação de algoritmos, treinamento do modelo, avaliação de performance do modelo e visualização dos resultados; 
-  Para a apresentação do projeto, o tempo entre o treinamento do modelo e o output deve ser menor que 20 min. 


***
## Sistema de recomendação:

> ### Pacotes:

In [1]:
import pandas as pd
import numpy as np

> ### Dados:

In [None]:
market = pd.read_csv("estaticos_market.csv")

In [None]:
portfolio = pd.read_csv("estaticos_portfolio2.csv")

In [None]:
dicionario = pd.read_csv("dicionario.csv")

In [None]:
# Ajuste para visualização completa dos datasets:
pd.set_option('display.max_colwidth', -1)
pd.set_option('display.max_columns', len(market.columns))
pd.set_option('display.max_rows', len(market))

***
## T1 - Complemento do dataset Portfólio:
O dataset portfólio possui apenas a coluna 'id', iremos completar  com os demais dados que estão presentes no dataset market.

In [None]:
# DataFrame etapa de Tratamento 1:
market_T1= market.copy()

# Criação da coluna id_num para auxiliar a manipulação:
market_T1['id_num'] = market_T1['Unnamed: 0']

# Elimina coluna Unnamed: 0':
market_T1 = market_T1.drop(['Unnamed: 0'], axis = 1)

# Geração de portfolio completo:
portfolio_T1 = pd.DataFrame(portfolio['id'])
portfolio_T1 = pd.merge(portfolio_T1, market, on='id', how='left')

> ### Heads:

In [None]:
market_T1.head(3)

In [None]:
portfolio_T1.head(3)

> ### Linhas x Colunas:

In [None]:
print('Market:', market_T1.shape)
print('Portfolio:', portfolio_T1.shape)

***
## T2 - exclusão de empresas com problemas fiscais, judiciais, financeiros e operacionais:


In [None]:
# DataFrame etapa de Tratamento 2:
market_T2= market_T1.copy()

>### fl_st_especial:

fl_st_especial == True, indica se a empresa está em situação extraordinária (falência, recuperação judicial e outros)

In [None]:
dicionario.loc[dicionario['Coluna'] == 'fl_st_especial']

In [None]:
# Contagem:
market_T2['fl_st_especial'].value_counts()

In [None]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['fl_st_especial'] != True]

> ### fl_simples_irregular

fl_simples_irregular == True, indica que a empresa está no modelo de tributação simples e em situação irregular.

In [None]:
dicionario.loc[dicionario['Coluna'] == 'fl_simples_irregular']

In [None]:
# Contagem: 
market_T2['fl_simples_irregular'].value_counts()

In [None]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['fl_simples_irregular'] != True]

> ### de_saude_tributaria

de_saude_tributaria: Verde indica que está ok, vermelho indica problema tributário.

In [None]:
dicionario.loc[dicionario['Coluna'] == 'de_saude_tributaria']

In [None]:
# Contagem: 
market_T2['de_saude_tributaria'].value_counts()

In [None]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['de_saude_tributaria'] != 'VERMELHO']

> ### de_nivel_atividade

de_nivel_atividade: Probabilidade da empresa estar em atividade.

In [None]:
dicionario.loc[dicionario['Coluna'] == 'de_nivel_atividade']

In [None]:
# Contagem: 
market_T2['de_nivel_atividade'].value_counts()

In [None]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[market_T2['de_nivel_atividade'] != 'MUITO BAIXA']
market_T2 = market_T2[market_T2['de_nivel_atividade'] != 'BAIXA']

> ### qt_socios_st_suspensa

qt_socios_st_suspensa: Irregularidades dos sócios junto a Receita Federal.

In [None]:
dicionario.loc[dicionario['Coluna'] == 'qt_socios_st_suspensa']

In [None]:
# Contagem: 
(market_T2['qt_socios_st_suspensa'] == market_T2['qt_socios']).value_counts()

In [None]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[(market_T2['qt_socios_st_suspensa'] == market_T2['qt_socios']) != True]

> ### Coligados com situação irregular

Quantidade de coligados com situação irregular (Suspenso, Inapto e Baixado) igual a quantidade total.

In [None]:
dicionario.loc[dicionario['Coluna'].isin(['qt_coligados', 'qt_coligados_baixada', 'qt_coligados_inapta', 'qt_coligados_suspensa'])]

In [None]:
# Contagem:
(market_T2['qt_coligados_suspensa'] + market_T2['qt_coligados_inapta'] + market_T2['qt_coligados_baixada'] == market_T2['qt_coligados']).value_counts()

In [None]:
# Eliminação de empresas com problemas:
market_T2 = market_T2[(market_T2['qt_coligados_suspensa'] + market_T2['qt_coligados_inapta'] + market_T2['qt_coligados_baixada'] == market_T2['qt_coligados']) != True]

> ***

#### Market após T2:

In [None]:
# Comparativo:
print('Market inicial:', market_T1.shape)
print('Market após tratamento:', market_T2.shape)
print('Empresas inadequadas eliminadas do market:', market_T1.shape[0] - market_T2.shape[0])

#### Portfólio após T2:

In [None]:
# portfolio apenas com empresas adequadas: 
portfolio_T2 = pd.DataFrame(portfolio['id'])
portfolio_T2['Tr_exc'] = portfolio_T2['id'].isin(market_T2['id'])
portfolio_T2 = portfolio_T2[portfolio_T2['Tr_exc'] == True]
portfolio_T2 = portfolio_T2.drop(['Tr_exc'], axis = 1)
portfolio_T2 = pd.merge(portfolio_T2, market_T2, on='id', how='left')

# Comparação:
print('Portfolio inicial:', portfolio_T1.shape)
print('Portfolio após tratamento:', portfolio_T2.shape)
print('Empresas inadequadas eliminadas do market:', portfolio_T1.shape[0] - portfolio_T2.shape[0])

***
## T3 - Tratamento de NA's

> ### NA's por colunas:

In [None]:
# Verificação de percentual de  NA's
qtd_na_por_col_portfolio_T2 = pd.DataFrame(portfolio_T2.isna().sum().sort_values(ascending=False).reset_index())
qtd_na_por_col_portfolio_T2.columns = ['Coluna', 'Qtd_NA']
qtd_na_por_col_portfolio_T2['Qtd_nao_NA'] = (len(portfolio_T2) - qtd_na_por_col_portfolio_T2['Qtd_NA'])
qtd_na_por_col_portfolio_T2['Percentual_de_NA'] = ((qtd_na_por_col_portfolio_T2['Qtd_NA'] * 100) / len(portfolio_T2)).round(2)
qtd_na_por_col_portfolio_T2.T

In [None]:
# DataFrame etapa de Tratamento 3:
market_T3 = market_T2.copy()

> ### Exclusão de colunas com alto percentual de NA:

In [None]:
percent_NA = 60

In [None]:
# Seleção de todas as colunas que tenham alta quantidade de NA's:
colunas_NA_exclusao = qtd_na_por_col_portfolio_T2['Coluna'].loc[qtd_na_por_col_portfolio_T2['Percentual_de_NA'] >= percent_NA]
# Exclusão das colunas:
market_T3 = market_T3.drop(colunas_NA_exclusao, axis = 1)

> ### Tipos de dados:

In [None]:
tipos_market_T3 = pd.DataFrame(market_T3.dtypes).reset_index()
tipos_market_T3.columns = ['Colunas', 'Tipos']
tipos_market_T3.T

In [None]:
# listas de tipos:
tipo_float = list(market_T3.select_dtypes(include=['float']).columns)
tipo_int = list(market_T3.select_dtypes(include=['int']).columns)
tipo_bool = list(market_T3.select_dtypes(include=['bool']).columns)
tipo_object = list(market_T3.select_dtypes(include=['object']).columns)

In [None]:
# Remoção das colunas de identificação das listas de tipos:
tipo_object.remove('id')
tipo_int.remove('id_num')

> ### Preenchimento de NA'S:

 - Variavéis numéricas por 0;
 - Variavéis categóricas por moda;

In [None]:
# Preenchimento de Na's
market_T3[tipo_int] = market_T3[tipo_int].fillna(0)
market_T3[tipo_float] = market_T3[tipo_float].fillna(0)
market_T3[tipo_bool] = market_T3[tipo_bool].fillna(market_T3[tipo_bool].mode(dropna=True))
market_T3[tipo_object] = market_T3[tipo_object].fillna(market_T3[tipo_object].mode(dropna=True))
market_T3[tipo_object] = market_T3[tipo_object].fillna('INDETERMINADA')

In [None]:
# Visualização do dataframe após o tratamento:
market_T3.head(3)

***
## T4 - Redução de escopo:

In [None]:
# DataFrame etapa de Tratamento 4:
market_T4 = market_T3.copy()

# Geração de portfolio completo:
portfolio_T4 = pd.DataFrame(portfolio['id'])
portfolio_T4['Tr_exc'] = portfolio_T4['id'].isin(market_T3['id'])
portfolio_T4 = portfolio_T4[portfolio_T4['Tr_exc'] == True]
portfolio_T4 = portfolio_T4.drop(['Tr_exc'], axis = 1)
portfolio_T4 = pd.merge(portfolio_T4, market_T3, on='id', how='left')

#### Dimensões market:

In [None]:
market_T4.shape

> #### Remoção de valores não semelhantes:

In [None]:
# Valores semelhantes nas colunas de tipo object:
#market_reduzido = pd.DataFrame()
#for col in tipo_object:
#    market_reduzido = market_T4[market_T4[col].isin(portfolio_T4[col].unique()) == True]

market_reduzido = pd.DataFrame()
market_reduzido = market_T4[market_T4['de_natureza_juridica'].isin(portfolio_T4['de_natureza_juridica'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['sg_uf'].isin(portfolio_T4['sg_uf'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['natureza_juridica_macro'].isin(portfolio_T4['natureza_juridica_macro'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['de_ramo'].isin(portfolio_T4['de_ramo'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['setor'].isin(portfolio_T4['setor'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['idade_emp_cat'].isin(portfolio_T4['idade_emp_cat'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_divisao'].isin(portfolio_T4['nm_divisao'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_segmento'].isin(portfolio_T4['nm_segmento'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_meso_regiao'].isin(portfolio_T4['nm_meso_regiao'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['nm_micro_regiao'].isin(portfolio_T4['nm_micro_regiao'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['de_faixa_faturamento_estimado'].isin(portfolio_T4['de_faixa_faturamento_estimado'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['de_faixa_faturamento_estimado_grupo'].isin(portfolio_T4['de_faixa_faturamento_estimado_grupo'].unique()) == True]

In [None]:
market_reduzido.shape

In [None]:
# Valores semelhantes nas colunas de tipo bool:
#for col in tipo_bool:
#    market_reduzido = market_reduzido[market_reduzido[col].isin(portfolio_T4[col].unique()) == True]

market_reduzido = market_reduzido[market_reduzido['fl_matriz'].isin(portfolio_T4['fl_matriz'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_me'].isin(portfolio_T4['fl_me'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_sa'].isin(portfolio_T4['fl_sa'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_mei'].isin(portfolio_T4['fl_mei'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_ltda'].isin(portfolio_T4['fl_ltda'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_st_especial'].isin(portfolio_T4['fl_st_especial'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_email'].isin(portfolio_T4['fl_email'].unique()) == True]
market_reduzido = market_reduzido[market_reduzido['fl_telefone'].isin(portfolio_T4['fl_telefone'].unique()) == True]


In [None]:
market_reduzido.shape

In [None]:
# Valores semelhantes nas colunas de tipo int:
#for col in tipo_int:
#    market_reduzido = market_reduzido[market_reduzido[col].between(portfolio_T4[col].min(), portfolio_T4[col].max(), inclusive=True) == True]

market_reduzido = market_reduzido[market_reduzido['qt_filiais'].between(portfolio_T4['qt_filiais'].min(), portfolio_T4['qt_filiais'].max(), inclusive=True) == True]


In [None]:
market_reduzido.shape

In [None]:
# Valores semelhantes nas colunas de tipo float:
#for col in tipo_float:
#    market_reduzido = market_reduzido[market_reduzido[col].between(portfolio_T4[col].min(), portfolio_T4[col].max(), inclusive=True) == True]

market_reduzido = market_reduzido[market_reduzido['idade_empresa_anos'].between(portfolio_T4['idade_empresa_anos'].min(), portfolio_T4['idade_empresa_anos'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['percent_func_genero_masc'].between(portfolio_T4['percent_func_genero_masc'].min(), portfolio_T4['percent_func_genero_masc'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['percent_func_genero_fem'].between(portfolio_T4['percent_func_genero_fem'].min(), portfolio_T4['percent_func_genero_fem'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['qt_ex_funcionarios'].between(portfolio_T4['qt_ex_funcionarios'].min(), portfolio_T4['qt_ex_funcionarios'].max(), inclusive=True) == True]
market_reduzido = market_reduzido[market_reduzido['qt_funcionarios'].between(portfolio_T4['qt_funcionarios'].min(), portfolio_T4['qt_funcionarios'].max(), inclusive=True) == True]

In [None]:
market_reduzido.shape

> ***

In [None]:
# Visualização do market após o tratamento:
market_reduzido.head(3)

***

In [None]:
# Geração de portfolio completo:
portfolio_T4 = pd.DataFrame(portfolio['id'])
portfolio_T4['Tr_exc'] = portfolio_T4['id'].isin(market_T3['id'])
portfolio_T4 = portfolio_T4[portfolio_T4['Tr_exc'] == True]
portfolio_T4 = portfolio_T4.drop(['Tr_exc'], axis = 1)
portfolio_T4 = pd.merge(portfolio_T4, market_T3, on='id', how='left')

In [None]:
# market reduzido sem os atuais clientes:
market_reduzido_sem_clientes = pd.DataFrame(market_reduzido['id'])
market_reduzido_sem_clientes['Tr_exc'] = market_reduzido_sem_clientes['id'].isin(portfolio_T4['id'])
market_reduzido_sem_clientes = market_reduzido_sem_clientes[market_reduzido_sem_clientes['Tr_exc'] != True]
market_reduzido_sem_clientes = market_reduzido_sem_clientes.drop(['Tr_exc'], axis = 1)
market_reduzido_sem_clientes = pd.merge(market_reduzido_sem_clientes, market_T4, on='id', how='left')

In [None]:
market_reduzido_sem_clientes.shape

> ***

In [None]:
# Visualização do market após o tratamento:
market_reduzido_sem_clientes.head(3)

> ***
#### Market após T4:

In [None]:
# Comparativo:
print('Market inicial:', market_T1.shape)
print('Market após tratamento:', market_reduzido_sem_clientes.shape)
print('Empresas inadequadas eliminadas do market:', market_T1.shape[0] - market_reduzido_sem_clientes.shape[0])

***
## T5 - Codificação de variavéis:

In [None]:
# DataFrame etapa de Tratamento 5:
market_T5_a = market_reduzido.copy()

In [None]:
# Exclusão de variavéis de identificação:
market_T5_b = market_T5_a.drop(['id', 'id_num'], axis = 1)
# Visualização do mercado:
market_T5_b.head(3)

In [None]:
#Conversões
market_T5_b[tipo_float] = market_T5_b[tipo_float].astype('int')
market_T5_b[tipo_bool] = market_T5_b[tipo_bool].astype('category')
market_T5_b[tipo_bool] = market_T5_b[tipo_bool].apply(lambda x: x.cat.codes)
market_T5_b[tipo_object] = market_T5_b[tipo_object].astype('category')
market_T5_b[tipo_object] = market_T5_b[tipo_object].apply(lambda x: x.cat.codes)

> ***
#### Mercado após T5:

In [None]:
market_T5 = market_T5_a[['id','id_num']]
market_T5 = pd.concat([market_T5, market_T5_b], axis=1)
# Visualização do mercado completo:
market_T5.head(3)

> ***
#### Portfólio após T5

In [None]:
portfolio_T5 = pd.DataFrame(portfolio['id'])
portfolio_T5['Tr_exc'] = portfolio_T5['id'].isin(market_T5['id'])
portfolio_T5 = portfolio_T5[portfolio_T5['Tr_exc'] == True]
portfolio_T5 = portfolio_T5.drop(['Tr_exc'], axis = 1)
portfolio_T5 = pd.merge(portfolio_T5, market_T5, on='id', how='left')

In [None]:
# Visualização do portfólio completo:
portfolio_T5.head(3)

***
## Datasets para o treinamento:

> #### Mercado tratado:

In [None]:
# Market completo:
mercado_completo = market_T5.copy()

In [None]:
# Market sem id:
mercado_completo_sid = market_T5_b.copy()

> #### Mercado tratado sem os atuais clientes:

In [None]:
# Market sem os atuais clientes: 
mercado_alvo = pd.DataFrame(mercado_completo['id'])
mercado_alvo['Tr_exc'] = mercado_alvo['id'].isin(portfolio_T5['id'])
mercado_alvo = mercado_alvo[mercado_alvo['Tr_exc'] != True]
mercado_alvo = mercado_alvo.drop(['Tr_exc'], axis = 1)
mercado_alvo = pd.merge(mercado_alvo, mercado_completo, on='id', how='left')

In [None]:
# Market sem os atuais clientes e sem id:
mercado_alvo_sid = mercado_alvo.drop(['id', 'id_num'], axis = 1)

> #### Portfólio tratado:

In [None]:
# portfólio completo:
portfolio_completo = portfolio_T5.copy()

In [None]:
# portfólio sem id:
portfolio_completo_sid = portfolio_completo.drop(['id', 'id_num'], axis = 1)

> ***
- market original : market
- market original com 'id_num' : market_T1
- portfolio original : portfolio
>***
- market tratado : mercado_completo
- market tratado sem id's : mercado_sid
>***
- market tratado sem os atuais clientes : mercado_alvo
- market tratado sem os atuais clientes e sem id's : mercado_alvo_sid
>***
- portfolio tratado : portfolio_completo
- portfolio tratado sem id's : portfolio_completo_sid
> ***

***
## Modelo de recomendação KNN:

> ### Pacotes:

In [None]:
import sklearn
from sklearn.neighbors import NearestNeighbors

> ### Treino:

In [None]:
%%time
nbrs = NearestNeighbors(n_neighbors=20).fit(mercado_alvo_sid)

> ### Referência / Alvo:

In [None]:
# Criação de cliente alvo:
cliente_ideal = portfolio_completo_sid.mode()
cliente_ideal = pd.DataFrame(cliente_ideal.iloc[0]).reset_index()
cliente_ideal.columns = ['Colunas', 'Amostra_valores']
cliente_ideal_geral = list(cliente_ideal['Amostra_valores'])

In [None]:
# valores cliente alvo:
print(cliente_ideal_geral)

> ### Recomendação:

In [None]:
%%time
# Recomendação:
print(nbrs.kneighbors([cliente_ideal_geral]))

In [None]:
# Coleta de indices recomendados:
distances, indices= nbrs.kneighbors([cliente_ideal_geral])
indices = indices[0].tolist()
print(indices) # Esses indices sao do dataset de usado no treino (mercado_alvo_sid)

> ### Visualização da recomendação:

In [None]:
# coletando o 'id_num'
rec = mercado_alvo.iloc[indices]
# Dataset com recomendações: 
recomendacao = pd.DataFrame()
recomendacao = rec['id_num']
recomendacao = pd.merge(recomendacao, market_T1, on='id_num', how='left')
recomendacao

***


## clusters