# ***Sobre o projeto***

O projeto prático é uma etapa individual e opcional do AceleraDev. Ele deve ser desenvolvido de acordo com os requisitos e orientações descritos no módulo “Projeto Prático”.

O versionamento do código do projeto deverá ser feito em uma repositório no GitHub ou GitLab e a apresentação deverá ser publicada como um vídeo no YouTube. O vídeo de apresentação é opcional, porém é muito interessante fazê-lo para explicar o processo de desenvolvimento do seu projeto.

Você tem até o dia 25/08/2020 para submeter seu projeto! Abaixo, trazemos mais informações e dicas para te ajudar :)

***Sobre o vídeo***

Objetividade é muito importante - fale naturalmente e sem ler, por favor! :) Recomendamos que você faça um video-call e grave este call. Assim, você poderá ficar à vontade para compartilhar a tela e mostrar o código ou outra parte importante do seu projeto. O vídeo deve ter no máximo 10 minutos.

Abaixo, adicionamos uma sugestão de roteiro:

    1 - Apresentação pessoal
“Oi, pessoal…, eu me chamo _____ e vou apresentar para vocês o projeto prático que fiz da Aceleração _______ da Codenation.”

    2 - Apresentação do projeto
Descrição do projeto e desenvolvimento do processo que você utilizou para resolver o problema;
Como você definiu as etapas e atividades e como se organizou para desenvolver o projeto;
Tecnologias utilizadas e eficácia;
Aprendizados destacados durante o processo e ao final do projeto;
Duas principais dificuldades, e como foram contornadas;
Dois principais acertos ou escolhas acertadas que fizeram diferença no projeto e por quê;
Demonstração prática da aplicação.


# ***Objetivo***

O objetivo deste produto é fornecer um serviço automatizado que recomenda leads para um usuário dado sua atual lista de clientes (Portfólio).

***Contextualização***

Algumas empresas gostariam de saber quem são as demais empresas em um determinado mercado (população) que tem maior probabilidade se tornarem seus próximos clientes. Ou seja, a sua solução deve encontrar no mercado quem são os leads mais aderentes dado as características dos clientes presentes no portfólio do usuário.

Além disso, sua solução deve ser agnóstica ao usuário. Qualquer usuário com uma lista de clientes que queira explorar esse mercado pode extrair valor do serviço.

Para o desafio, deverão ser consideradas as seguintes bases:

Mercado: Base com informações sobre as empresas do Mercado a ser considerado. Portfolio 1: Ids dos clientes da empresa 1 Portfolio 2: Ids dos clientes da empresa 2 Portfolio 3: Ids dos clientes da empresa 3

Obs: todas as empresas(ids) dos portfolios estão contidos no Mercado(base de população).

# Requisitos técnicos obrigatórios

    - Utilizar técnicas de data science e machine learning para desenvolver o projeto;
    
    - Apresentar o desenvolvimento e outputs do modelo em um Jupyter Notebook ou outra tecnologia de apresentação de Output de modelos de Machine Learning;
    
    - A análise deve considerar os seguintes pontos: análise exploratória dos dados, tratamento dos dados, avaliação de               algoritmos, treinamento do modelo, avaliação de performance do modelo e visualização dos resultados;
    
    - Para a apresentação do projeto, o tempo entre o treinamento do modelo e o output deve ser menor que 20 min.

<h2>Início da EDA</h2>

In [1]:
import pandas as pd

In [2]:
#import de dados
market_data = pd.read_csv('estaticos_market.csv', index_col = 0)
port_1 = pd.read_csv('estaticos_portfolio1.csv', index_col = 0)
portifolio2 = pd.read_csv('estaticos_portfolio2.csv', index_col = 0)
portifolio3 = pd.read_csv('estaticos_portfolio3.csv', index_col = 0)

In [3]:
market_data.shape

(462298, 181)

In [4]:
#Verificando dimensões
port_1.shape

(555, 181)

In [5]:
#merge para encontrar os dados correspondentes ao ID para portifolio 2
port_2 = pd.merge(portifolio2, market_data, on = 'id', how = 'left')
print(f" Shape Port_2 antes de merge: {portifolio2.shape}   Shape Port_2 depois do merge: {port_2.shape}")

 Shape Port_2 antes de merge: (566, 1)   Shape Port_2 depois do merge: (566, 181)


In [6]:
#merge para encontrar os dados correspondentes ao ID para portifolio 3
port_3 = pd.merge(portifolio3, market_data, on = 'id', how = 'left')
print(f" Shape Port_3 antes de merge: {portifolio3.shape}   Shape Port_3 depois do merge: {port_3.shape}")

 Shape Port_3 antes de merge: (265, 1)   Shape Port_3 depois do merge: (265, 181)


***Verificando dados faltantes e dropando Colunas  para  as 4 bases onde contenha mais de 30% de valores nulos***

In [7]:
#criando nomes para os dataframes
market_data.name = 'market_data'
port_1.name = 'port_1'
port_2.name = 'port_2'
port_3.name = 'port_3'

#realizando o drop das colunas
dados = [market_data, port_1, port_2, port_3]
threeshold = .5 #porcentagem de corte para dados faltantes
for x in dados:
    faltantes = pd.DataFrame({'colunas': x.columns,
                              'tipos': x.dtypes,
                              'percentual_faltante': x.isna().sum() / x.shape[0]}
                            )
    cols = faltantes[faltantes['percentual_faltante'] > threeshold]['colunas'].values
    x.drop(columns= cols, inplace= True)

In [None]:
#verificando se os datasets possuem as mesmas classes de entrada
comparador = train
comparador = comparador.drop('NU_NOTA_MT',axis=1) #o dataset answer por definição não tem essa coluna, por isso ela é removida
verifica = set(comparador.columns).issubset(set(answer.columns))
if verifica:
    print('Datasets possuem as mesmas colunas - Saida:', verifica)
else:
    print('Datasets não possuem as mesmas colunas - Saida:', verifica)

In [None]:
#Uma vez constatado que o Dataset answer não possue as mesmas classes do dataset de treinamento
#faz-se a verificação de quais classes ele possue.

print('CLASSES DO DATASET (answer):')
colunas = answer.columns
leng,step = len(colunas)-3,3
for i in range(0,leng,step):  
    print(colunas[i],'--',colunas[i+1],'--',colunas[i+2])

***Verificando dimensão de dados após o drop***

In [8]:
# Função para printar os shapes dos dataframes
def dfshape(data):
    print(f"O shape do dataframe {str(data.name)} é : {str(data.shape)}")
    
for x in dados:
    dfshape(x)

O shape do dataframe market_data é : (462298, 50)
O shape do dataframe port_1 é : (555, 50)
O shape do dataframe port_2 é : (566, 137)
O shape do dataframe port_3 é : (265, 81)


In [157]:
market_data.isna().sum()

id                                            0
fl_matriz                                     0
de_natureza_juridica                          0
sg_uf                                         0
natureza_juridica_macro                       0
de_ramo                                       0
setor                                      1927
idade_empresa_anos                            0
idade_emp_cat                                 0
fl_me                                         0
fl_sa                                         0
fl_epp                                        0
fl_mei                                        0
fl_ltda                                       0
dt_situacao                                   6
fl_st_especial                                0
fl_email                                      0
fl_telefone                                   0
fl_rm                                         0
nm_divisao                                 1927
nm_segmento                             

In [121]:
port_1.isna().sum()

id                                         0
fl_matriz                                  0
de_natureza_juridica                       0
sg_uf                                      0
natureza_juridica_macro                    0
de_ramo                                    0
setor                                      0
idade_empresa_anos                         0
idade_emp_cat                              0
fl_me                                      0
fl_sa                                      0
fl_epp                                     0
fl_mei                                     0
fl_ltda                                    0
dt_situacao                                0
fl_st_especial                             0
fl_email                                   0
fl_telefone                                0
fl_rm                                      0
nm_divisao                                 0
nm_segmento                                0
fl_spa                                     0
fl_antt   