## Objetivo

O objetivo deste produto é fornecer um serviço automatizado que recomenda leads para um usuário dado sua atual lista de clientes (Portfólio).

## Contextualização

Algumas empresas gostariam de saber quem são as demais empresas em um determinado mercado (população) que tem maior probabilidade se tornarem seus próximos clientes. Ou seja, a sua solução deve encontrar no mercado quem são os leads mais aderentes dado as características dos clientes presentes no portfólio do usuário.

Além disso, sua solução deve ser agnóstica ao usuário. Qualquer usuário com uma lista de clientes que queira explorar esse mercado pode extrair valor do serviço.

Para o desafio, deverão ser consideradas as seguintes bases:

Mercado: Base com informações sobre as empresas do Mercado a ser considerado. Portfolio 1: Ids dos clientes da empresa 1 Portfolio 2: Ids dos clientes da empresa 2 Portfolio 3: Ids dos clientes da empresa 3

Obs: todas as empresas(ids) dos portfolios estão contidos no Mercado(base de população).

### Importando bibliotecas

In [34]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelBinarizer, StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from datetime import datetime
from math import sqrt
import category_encoders as ce

In [2]:
import warnings 
warnings.filterwarnings("ignore")

#### Carregando os dados

In [3]:
market = pd.read_csv('data/estaticos_market.csv',delimiter=',',index_col=0)
portfolio1 = pd.read_csv('data/estaticos_portfolio1.csv',delimiter=',',index_col=0)
portfolio2 = pd.read_csv('data/estaticos_portfolio2.csv',delimiter=',',index_col=0)
portfolio3 = pd.read_csv('data/estaticos_portfolio3.csv',delimiter=',',index_col=0)

## Analise exploratória

Uma boa prática recomendada por alguns autores é utilizar colunas com pelo menos 90% de dados prenchidos para uso no processo de aprendizado do modelo.

In [4]:
colunas = market.dropna(thresh=int(market.shape[0] * .9), axis=1).columns

In [5]:
mercado = market[colunas]

In [6]:
mercado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 462298 entries, 0 to 462297
Data columns (total 38 columns):
id                                     462298 non-null object
fl_matriz                              462298 non-null bool
de_natureza_juridica                   462298 non-null object
sg_uf                                  462298 non-null object
natureza_juridica_macro                462298 non-null object
de_ramo                                462298 non-null object
setor                                  460371 non-null object
idade_empresa_anos                     462298 non-null float64
idade_emp_cat                          462298 non-null object
fl_me                                  462298 non-null bool
fl_sa                                  462298 non-null bool
fl_epp                                 462298 non-null bool
fl_mei                                 462298 non-null bool
fl_ltda                                462298 non-null bool
dt_situacao                     

## Tratamento dos Dados

A data de situação foi removida por entender que ela não contribuirá no processo de identificação dos novos clientes.

In [9]:
mercado.drop(['dt_situacao'], axis=1, inplace=True)

Tratando os valores NaN.

In [10]:
mercado['fl_spa'] = mercado['fl_spa'].map({False:False,np.NaN:False,True:True})

In [11]:
mercado['fl_antt'] = mercado['fl_antt'].map({False:False,'NaN':False,True:True})

In [12]:
mercado['fl_veiculo'] = mercado['fl_veiculo'].map({False:False,'NaN':False,np.NaN:False,True:True})

In [13]:
mercado['fl_simples_irregular'] = mercado['fl_simples_irregular'].map({False:False,'NaN':False,np.NaN:False,True:True})

In [14]:
mercado['fl_passivel_iss'] = mercado['fl_passivel_iss'].map({False:False,'NaN':False,np.NaN:False,True:True})

In [15]:
mercado['fl_antt'] = mercado['fl_antt'].map({False:False,'NaN':False,np.NaN:False,True:True})

In [16]:
mercado['setor'] = mercado['setor'].fillna('NÃO INFORMADO')

In [17]:
mercado['nm_divisao'] = mercado['nm_divisao'].fillna('NÃO INFORMADO')

In [18]:
mercado['nm_segmento'] = mercado['nm_segmento'].fillna('NÃO INFORMADO')

In [19]:
mercado['sg_uf_matriz'] = mercado['sg_uf_matriz'].fillna('NÃO INFORMADO')

In [20]:
mercado['de_saude_tributaria'] = mercado['de_saude_tributaria'].fillna('NÃO INFORMADO')

In [21]:
mercado['de_saude_rescencia'] = mercado['de_saude_rescencia'].fillna('SEM INFORMACAO')

In [22]:
mercado['de_nivel_atividade'] = mercado['de_nivel_atividade'].fillna('SEM INFORMACAO')

In [23]:
mercado['de_faixa_faturamento_estimado'] = mercado['de_faixa_faturamento_estimado'].fillna('SEM INFORMACAO')

In [24]:
mercado['de_faixa_faturamento_estimado_grupo'] = mercado['de_faixa_faturamento_estimado_grupo'].fillna('SEM INFORMACAO')

Colunas do tipo int e float com NaN serão preenchidas com 0

In [25]:
for coluna in mercado:
    if mercado[coluna].dtype in ['int64','float64']:
        mercado[coluna] = mercado[coluna].fillna(0)

Colunas do tipo object serão codificadas. Exceto o ID

In [26]:
codificador = LabelBinarizer()
for coluna in mercado.select_dtypes(include=['object']):
    if coluna == 'id':
        continue
    
    mercado[coluna] = codificador.fit_transform(mercado[coluna])

Colunas do tipo bool transformada para 0 ou 1

In [27]:
for coluna in mercado.select_dtypes(include=['bool']):
    mercado[coluna] = mercado[coluna].astype(int)

Dados de mercado dos clientes presentes nos portfolios 1, 2 e 3

In [28]:
mercado_p1 = mercado[mercado['id'].isin(list(portfolio1['id']))]
mercado_p2 = mercado[mercado['id'].isin(list(portfolio2['id']))]
mercado_p3 = mercado[mercado['id'].isin(list(portfolio3['id']))]

Adiciona nova coluna com ID do portfólio para uso futuro

In [29]:
mercado_p1['portfolio'] = np.int(1)
mercado_p2['portfolio'] = np.int(2)
mercado_p3['portfolio'] = np.int(3)

Monta um unico DataFrame com os dados do portfólios 1, 2 e 3

In [30]:
frame = [mercado_p1,mercado_p2,mercado_p3]
mercado_p123 = pd.concat(frame)
mercado_sem_portifolio = mercado[~mercado['id'].isin(list(mercado_p123['id']))]

Tornando o ID do cliente o indice

In [31]:
mercado_p123 = mercado_p123.set_index(['id'])
mercado_sem_portifolio = mercado_sem_portifolio.set_index(['id'])
mercado_p1 = mercado_p1.set_index(['id'])
mercado_p2 = mercado_p2.set_index(['id'])
mercado_p3 = mercado_p3.set_index(['id'])

## Avaliação de Algoritmos

### Abordagem 1: uso de Algoritmo de Recomendação juntamente com a distância Euclideana.

Para um dado novo cliente, a função a seguir identifica o mais similar a partir dos clientes presentes nos portifolios (1, 2 e 3).

In [32]:
def euclidiana(novo_cliente):
    similar = {'id': np.NaN, 'distancia': np.NaN}
    menor_distancia = np.NaN
    indice_menor_distancia = np.NaN
    
    # Itera o DataFrame com os clientes dos portifolios (1, 2 e 3)
    # para identificar o mais similar.
    for indice, cliente in mercado_p123.iterrows():
        parcial = 0
        
        # Itera todas as colunas do cliente e calcula a distancia Euclideana.
        for item, valor in cliente.items():
            if item != 'portfolio':
                ponto_a = novo_cliente[item]
                ponto_b = valor
                parcial += pow((ponto_a - ponto_b), 2)
        
        # Distancia Euclideana.
        distancia = round(sqrt(parcial),2)
        
        # Verifica se a distancia calculada é a menor até o momento.
        if math.isnan(menor_distancia) or menor_distancia > distancia:
            menor_distancia = distancia
            indice_menor_distancia = indice
    
    similar['id'] = indice_menor_distancia
    similar['distancia'] = menor_distancia
    
    return similar

Analisando uma amostra de 1.000 possiveis novos clientes. Esta abordagem não apresentou performance satisfatória. Este é o motivo do uso da amostra reduzida.

In [35]:
novos_clientes_p1 = []
novos_clientes_p2 = []
novos_clientes_p3 = []
port = 0

for indice, cliente in mercado_sem_portifolio.head(1000).iterrows():
    # Identifica o similar
    similar = euclidiana(cliente)
    id = similar['id']
    distancia = similar['distancia']
    
    # Localiza os dados do similar nos Portfolios atuais
    retorno = mercado_p123.loc[id]
    
    # Extrai dos dados o portfolio do similar
    port = retorno['portfolio']
    
    # Foi preciso tratar o retorno pois existem IDs duplicados 
    # que aparecem em mais de um portfolio. Neste caso, pego o
    # primeiro retorno.
    if isinstance(port, pd.Series):
        port = port[:1].values[0]
    
    # Monta as listas dos novos clientes individualizadas por portfolio
    if port == 1:
        novos_clientes_p1.append(indice)
    elif port == 2:
        novos_clientes_p2.append(indice)
    elif port == 3:
        novos_clientes_p3.append(indice)

print('Quantidade de novos clientes para o Portfolio 1: ', len(novos_clientes_p1))
print('Quantidade de novos clientes para o Portfolio 2: ', len(novos_clientes_p2))
print('Quantidade de novos clientes para o Portfolio 3: ', len(novos_clientes_p3))

Quantidade de novos clientes para o Portfolio 1:  981
Quantidade de novos clientes para o Portfolio 2:  17
Quantidade de novos clientes para o Portfolio 3:  2


### Abordagem 2: avaliação de algoritmos

#### Preparando os dados de treino e teste.

In [36]:
y_train = mercado_p123['portfolio']
x_train = mercado_p123.copy()
x_train.drop(['portfolio'],axis=1, inplace=True)
x_train, x_test, y_train, y_test = train_test_split(x_train,y_train,test_size = 0.2,random_state=1)

## Treinando os modelos

#### LogisticRegression

In [37]:
lr = LogisticRegression()
lr.fit(x_train,y_train)#fit or train data
print('Logistic Regression Score : ',lr.score(x_test,y_test))

Logistic Regression Score :  0.4064748201438849


#### KNeighborsClassifier

In [38]:
knn = KNeighborsClassifier(n_neighbors = 220)
knn.fit(x_train,y_train)
print('K-Nearest Neighbors Score : ',knn.score(x_test,y_test))

K-Nearest Neighbors Score :  0.802158273381295


#### SVC

In [39]:
svm = SVC(random_state = 1)
svm.fit(x_train,y_train)
print('Super Vector Machine Score : ',svm.score(x_test,y_test))

Super Vector Machine Score :  0.6906474820143885


#### GaussianNB

In [40]:
nb = GaussianNB()
nb.fit(x_train,y_train)
print('Naive Bayes Score : ',nb.score(x_test,y_test))

Naive Bayes Score :  0.6007194244604317


#### DecisionTreeClassifier

In [41]:
dt = DecisionTreeClassifier()
dt.fit(x_train,y_train)
print('Decision Tree Score : ',dt.score(x_test,y_test))

Decision Tree Score :  0.7482014388489209


#### RandomForestClassifier

In [42]:
rf = RandomForestClassifier(n_estimators = 2,random_state = 10)
rf.fit(x_train,y_train)
print('Random Forest Score : ',rf.score(x_test,y_test))

Random Forest Score :  0.8273381294964028


## Avaliação de Performance

Após analise, o modelo que apresentou melhor performance é o RandomForestClassifier que atingiu score de 0.8273. O Sistema de Recomendações também é indicado para este tipo de serviço. Porém, ele não apresentou performance satisfatória. De qualquer forma, o seu resultado também será apresentado para fins de comparação com o RandomForestClassifier.

#### Predição com RandomForestClassifier

In [49]:
rf_prediction = rf.predict(mercado_sem_portifolio.head(1000))

#### Resultados obtidos para uma amostra de 1.000

In [59]:
print('>>> RandomForestClassifier')
unique, counts = np.unique(rf_prediction, return_counts=True)
for x in range(len(unique)):
    print('Novos clientes para o Portfolio',unique[x], ':', counts[x])

print('\n>>> Algoritmo de Recomendação')
print('Novos clientes para o Portfolio 1 :', len(novos_clientes_p1))
print('Novos clientes para o Portfolio 2 :', len(novos_clientes_p2))
print('Novos clientes para o Portfolio 3 :', len(novos_clientes_p3))

>>> RandomForestClassifier
Novos clientes para o Portfolio 1 : 995
Novos clientes para o Portfolio 2 : 4
Novos clientes para o Portfolio 3 : 1

>>> Algoritmo de Recomendação
Novos clientes para o Portfolio 1 : 981
Novos clientes para o Portfolio 2 : 17
Novos clientes para o Portfolio 3 : 2
