## Desafio Final - AceleraDev Data Science Codenation

### Validação dos algoritmos propostos

Autora: Jéssica Ramos

Junho/2020

Nesse notebook serão feitas simulações para calcular o *Recall@N* nas 3 versões de algoritmos de recomendação construídas.

In [1]:
import pandas as pd
from scipy.spatial import distance
from sklearn.cluster import KMeans
import statistics as s

A versão 1 será avaliada primeiro. Para calcular o *Recall@N* vou utilizar os portfólios disponibilizados. Para cada empresa, vou remover 10% dos clientes da base em que será calculado o perfil.

Em seguida, vou misturar esses 10% com possíveis clientes que não fazem parte do portfólio. O número de possíveis clientes adicionados vai ser definido de forma que os clientes reais sejam 10% da base. Depois, vou aplicar o algoritmo e verificar quantos clientes reais estão entre os Top N clientes.

Isso será repetido diversas vezes selecionando tanto os 10% de clientes reais quanto os possíveis clientes aleatoriamente para formar uma distibuição de *Recall@N*.

In [2]:
# leitura da base do mercado
mercado_todas = pd.read_csv('./data/dados_mercado_final.csv')
mercado_todas.head(5)

Unnamed: 0.1,Unnamed: 0,id,sg_uf_AC,sg_uf_AM,sg_uf_MA,sg_uf_PI,sg_uf_RN,sg_uf_RO,natureza_juridica_macro_ADMINISTRACAO PUBLICA,natureza_juridica_macro_CARGO POLITICO,...,fl_st_especial,fl_email,fl_telefone,fl_spa,fl_antt,fl_veiculo,fl_simples_irregular,fl_passivel_iss,uf_mesma_matriz,filiais
0,0,a6984c3ae395090e3bee8ad63c3758b110de096d5d8195...,0,0,0,0,1,0,0,0,...,0,1,1,0,0,0,0,1,1,0
1,1,6178f41ade1365e44bc2c46654c2c8c0eaae27dcb476c4...,0,0,0,1,0,0,0,0,...,0,1,1,0,0,0,0,1,1,0
2,2,4a7e5069a397f12fdd7fd57111d6dc5d3ba558958efc02...,0,1,0,0,0,0,0,0,...,0,0,1,0,0,0,0,1,1,0
3,3,3348900fe63216a439d2e5238c79ddd46ede454df7b9d8...,0,1,0,0,0,0,0,0,...,0,1,1,0,0,0,0,1,1,0
4,4,1f9bcabc9d3173c1fe769899e4fac14b053037b953a1e4...,0,0,0,0,1,0,0,0,...,0,1,1,0,0,0,0,1,1,0


In [3]:
# remove a primeira coluna
mercado_todas = mercado_todas.iloc[:, 1:]

In [4]:
def euclidian(d, p):
    return d.apply(lambda row: distance.euclidean(p, row), axis=1)

def valida_algoritmo_simples(portfolio, mercado, n):
    
    ## seleciona 10% do portfolio
    tam = round(0.1*len(portfolio))
    teste = list(portfolio.sample(tam))
    portfolio = list(portfolio)
    treino = list(set(portfolio) - set(teste))
    
    ## aplica o algoritmo usando a base de treino
    # calcula o perfil
    atr_clientes = mercado.loc[mercado['id'].isin(treino), :]
    perfil = atr_clientes.iloc[:, 1:].mean() # a primeira coluna é o ID
    
    # separa possíveis clientes
    tam_resto = round(tam/0.1) - tam
    nao_clientes = mercado.loc[~mercado['id'].isin(treino), :]
    resto = list(nao_clientes['id'].sample(tam_resto))
    ids_possivel = teste + resto
    mercado_possivel = mercado.loc[mercado['id'].isin(ids_possivel), :]
    
    # calcula a similaridade
    distancia = pd.DataFrame({'id': mercado_possivel['id']})
    distancia['dist'] = euclidian(mercado_possivel.iloc[:, 1:], perfil)
    
    # ordena o dataset pelas distâncias
    distancia.sort_values(by='dist', inplace=True)
    
    # separa o top N
    top_n = distancia.iloc[0:n, 0].reset_index(drop=True)
    
    # verifica quantos do top N são verdadeiros clientes
    clientes_reais = len(top_n[top_n.isin(teste)])
    
    # calcula o recall
    recall = clientes_reais/n
    
    return recall

In [5]:
# leitura do portfolio da empresa 1
empresa1 = pd.read_csv('./data/estaticos_portfolio1.csv')
empresa1.head()

Unnamed: 0.1,Unnamed: 0,id,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,...,media_meses_servicos,max_meses_servicos,min_meses_servicos,qt_funcionarios,qt_funcionarios_12meses,qt_funcionarios_24meses,tx_crescimento_12meses,tx_crescimento_24meses,tx_rotatividade,qt_filiais
0,0,dabe79bec87c88ae04e869bf6bd321ee5e1893cecf6625...,True,EMPRESARIO INDIVIDUAL,PI,OUTROS,COMERCIO VAREJISTA,COMERCIO,0.646575,<= 1,...,,,,,,,,,,0
1,1,32e5f4e10932153a7ba869cb0386e7e02d49d2461046b8...,False,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,6.586301,5 a 10,...,,,,0.0,0.0,2.0,,-100.0,0.0,4
2,2,a95d6f30bba445bd3d6b0c5b36f865b38ec01d17336090...,True,EMPRESARIO INDIVIDUAL,MA,OUTROS,COMERCIO VAREJISTA,COMERCIO,8.010959,5 a 10,...,,,,,,,,,,0
3,3,6cb309685cea0b6d2988818792ec2e6fcb2bd02e0afa9e...,True,EMPRESARIO INDIVIDUAL,RN,OUTROS,COMERCIO VAREJISTA,COMERCIO,20.863014,> 20,...,,,,,,,,,,0
4,4,f72aa7fa6787b0a5a1c88885b6120850df8ee0f71adc25...,True,SOCIEDADE EMPRESARIA LIMITADA,RN,ENTIDADES EMPRESARIAIS,COMERCIO VAREJISTA,COMERCIO,18.726027,15 a 20,...,39.454762,91.2,19.333333,14.0,15.0,25.0,-6.666667,-44.0,0.0,3


In [7]:
# cria a repetição da validação no top 10
empresa1_t1 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa1['id'], mercado_todas, 10)
    empresa1_t1.append(recall)

In [8]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa1_t1))

O valor estimado do Recall@10 é  0.1971


In [9]:
# cria a repetição da validação no top 20
empresa1_t2 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa1['id'], mercado_todas, 20)
    empresa1_t2.append(recall)

In [10]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa1_t2))

O valor estimado do Recall@20 é  0.18195


Agora vou repetir a mesma análise pra empresa 2.

In [11]:
# leitura do portfolio da empresa 2
empresa2 = pd.read_csv('./data/estaticos_portfolio2.csv')
empresa2.head()

Unnamed: 0.1,Unnamed: 0,id
0,0,09e95c1a84049001d086470a8f320a19b076f955a89122...
1,1,dc9d155f5bcd3172031e2ec9431786e8871ff4b0ff4728...
2,2,16843c9ffb920170477118933798510d8d5f00f5c56c12...
3,3,ff045934d90aab184dd15e66daf3b3c97193bda5449298...
4,4,a0ce528caab2c62497a548d0ebd9e935143ef81ed7dbf0...


In [12]:
# cria a repetição da validação no top 10
empresa2_t1 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa2['id'], mercado_todas, 10)
    empresa2_t1.append(recall)

In [13]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa2_t1))

O valor estimado do Recall@10 é  0.737


In [14]:
# cria a repetição da validação no top 20
empresa2_t2 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa2['id'], mercado_todas, 20)
    empresa2_t2.append(recall)

In [15]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa2_t2))

O valor estimado do Recall@20 é  0.7187


Por fim, vou repetir a mesma análise pra empresa 3.

In [16]:
# leitura do portfolio da empresa 3
empresa3 = pd.read_csv('./data/estaticos_portfolio3.csv')
empresa3.head()

Unnamed: 0.1,Unnamed: 0,id
0,0,bb61c09449a1c1f8b78955d8b7a7f73599e78358993fe2...
1,1,16843c9ffb920170477118933798510d8d5f00f5c56c12...
2,2,1b8d092daff12bed8b3c2ab93bf5df2921865a68aca185...
3,3,3aafa3a1f12f483740a52956af100223333d0e3c79bf2c...
4,4,c60431fbca90067f105570e1e8a684bcd7048205bbf6c4...


In [17]:
# cria a repetição da validação no top 10
empresa3_t1 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa3['id'], mercado_todas, 10)
    empresa3_t1.append(recall)

In [18]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa3_t1))

O valor estimado do Recall@10 é  0.9143


In [19]:
# cria a repetição da validação no top 20
empresa3_t2 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa3['id'], mercado_todas, 20)
    empresa3_t2.append(recall)

In [20]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa3_t2))

O valor estimado do Recall@20 é  0.81165


Apenas a empresa 1 teve um *recall* baixo, tanto no top 10 quanto no top 20.

Em seguida será testada a versão 2 do algoritmo.

In [21]:
# lista de variáveis
variaveis = ['id','sg_uf_AC', 'sg_uf_AM', 'sg_uf_MA', 'sg_uf_PI', 'sg_uf_RN', 'sg_uf_RO',
             'natureza_juridica_macro_ADMINISTRACAO PUBLICA', 'natureza_juridica_macro_CARGO POLITICO',
             'natureza_juridica_macro_ENTIDADES EMPRESARIAIS','natureza_juridica_macro_ENTIDADES SEM FINS LUCRATIVOS',
             'natureza_juridica_macro_INSTITUICOES EXTRATERRITORIAIS', 'natureza_juridica_macro_PESSOAS FISICAS',
             'setor_AGROPECUARIA', 'setor_COMERCIO', 'setor_CONSTRUÇÃO CIVIL', 'setor_INDUSTRIA',
             'setor_SEM INFORMACAO','setor_SERVIÇO', 'fl_rm_SIM', 'idade_empresa_anos',
             'log_faturamento_estimado_aux','log_faturamento_estimado_grupo_aux', 'filiais', 'uf_mesma_matriz']

Empresa 1:

In [22]:
# cria a repetição da validação no top 10
empresa1_t3 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa1['id'], mercado_todas.loc[:, variaveis], 10)
    empresa1_t3.append(recall)

In [23]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa1_t3))

O valor estimado do Recall@10 é  0.2039


In [24]:
# cria a repetição da validação no top 20
empresa1_t4 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa1['id'], mercado_todas.loc[:, variaveis], 20)
    empresa1_t4.append(recall)

In [25]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa1_t4))

O valor estimado do Recall@20 é  0.2048


Empresa 2:

In [26]:
# cria a repetição da validação no top 10
empresa2_t3 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa2['id'], mercado_todas.loc[:, variaveis], 10)
    empresa2_t3.append(recall)

In [27]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa2_t3))

O valor estimado do Recall@10 é  0.7219


In [28]:
# cria a repetição da validação no top 20
empresa2_t4 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa2['id'], mercado_todas.loc[:, variaveis], 20)
    empresa2_t4.append(recall)

In [29]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa2_t4))

O valor estimado do Recall@20 é  0.50425


Empresa 3:

In [30]:
# cria a repetição da validação no top 10
empresa3_t3 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa3['id'], mercado_todas.loc[:, variaveis], 10)
    empresa3_t3.append(recall)

In [31]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa3_t3))

O valor estimado do Recall@10 é  0.6471


In [32]:
# cria a repetição da validação no top 20
empresa3_t4 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_simples(empresa3['id'], mercado_todas.loc[:, variaveis], 20)
    empresa3_t4.append(recall)

In [33]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa3_t4))

O valor estimado do Recall@20 é  0.46140000000000003


Para a empresa 1 o resultado foi levemente maior. Para as outras duas empresas o resultado foi pior.

Por fim, vou fazer a validação para a versão 3 do algoritmo que utiliza clusters.

In [37]:
def cluster(data, n_clusters):
    clstr = KMeans(n_clusters=n_clusters)
    resultado = clstr.fit(data)
    return resultado

def valida_algoritmo_clusters(portfolio, mercado, n):
    
    ## seleciona 10% do portfolio
    tam = round(0.1*len(portfolio))
    teste = list(portfolio.sample(tam))
    portfolio = list(portfolio)
    treino = list(set(portfolio) - set(teste))
    
    ## aplica o algoritmo usando a base de treino
    # calcula os centroides dos clusters de clientes
    atr_clientes = mercado.loc[mercado['id'].isin(treino), :]
    ajuste_clusters = cluster(atr_clientes.iloc[:, 1:], 25) # a primeira linha é o ID
    centro_clusters = ajuste_clusters.cluster_centers_
    
    # separa possíveis clientes
    tam_resto = round(tam/0.1) - tam
    nao_clientes = mercado.loc[~mercado['id'].isin(treino), :]
    resto = list(nao_clientes['id'].sample(tam_resto))
    ids_possivel = teste + resto
    mercado_possivel = mercado.loc[mercado['id'].isin(ids_possivel), :]
    
    # calcula a similaridade com cada centroide de cluster
    distancia = pd.DataFrame({'id': mercado_possivel['id']})

    for i in range(0, 25):
        distancia[i + 1] = euclidian(mercado_possivel.iloc[:, 1:], centro_clusters[i, :])
        
    # calcula o tamanho de cada cluster
    clusters_clientes = ajuste_clusters.predict(atr_clientes.iloc[:, 1:])
    tam_clusters = pd.Series(clusters_clientes).value_counts()

    # calcula o fator multiplicador para cada cluster
    p = len(treino) / 25
    fator_clusters = p / tam_clusters
    
    # multiplica as distâncias pelo fator
    for i in range(0, 25):
        distancia[i + 1] = distancia[i + 1] * fator_clusters[i]
    
    # calcula a distância final
    distancia['dist'] = distancia.iloc[:, 1:].apply(lambda row: min(row), axis=1)

    # ordena o dataset pelas distâncias
    distancia.sort_values(by='dist', inplace=True)
    
    # separa o top N
    top_n = distancia.iloc[0:n, 0].reset_index(drop=True)
    
    # verifica quantos do top N são verdadeiros clientes
    clientes_reais = len(top_n[top_n.isin(teste)])
    
    # calcula o recall
    recall = clientes_reais/n
    
    return recall

Empresa 1:

In [38]:
# cria a repetição da validação no top 10
empresa1_t5 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_clusters(empresa1['id'], mercado_todas.loc[:, variaveis], 10)
    empresa1_t5.append(recall)

In [39]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa1_t5))

O valor estimado do Recall@10 é  0.1837


In [40]:
# cria a repetição da validação no top 20
empresa1_t6 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_clusters(empresa1['id'], mercado_todas.loc[:, variaveis], 20)
    empresa1_t6.append(recall)

In [42]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa1_t6))

O valor estimado do Recall@20 é  0.1798


Empresa 2:

In [43]:
# cria a repetição da validação no top 10
empresa2_t5 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_clusters(empresa2['id'], mercado_todas.loc[:, variaveis], 10)
    empresa2_t5.append(recall)

In [44]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa2_t5))

O valor estimado do Recall@10 é  0.8140000000000001


In [45]:
# cria a repetição da validação no top 20
empresa2_t6 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_clusters(empresa2['id'], mercado_todas.loc[:, variaveis], 20)
    empresa2_t6.append(recall)

In [46]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa2_t6))

O valor estimado do Recall@20 é  0.61635


Empresa 3:

In [47]:
# cria a repetição da validação no top 10
empresa3_t5 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_clusters(empresa3['id'], mercado_todas.loc[:, variaveis], 10)
    empresa3_t5.append(recall)

In [48]:
# média
print('O valor estimado do Recall@10 é ', s.mean(empresa3_t5))

O valor estimado do Recall@10 é  0.9502


In [49]:
# cria a repetição da validação no top 20
empresa3_t6 = list()

for i in range(1, 1001):
    recall = valida_algoritmo_clusters(empresa3['id'], mercado_todas.loc[:, variaveis], 20)
    empresa3_t6.append(recall)

In [50]:
# média
print('O valor estimado do Recall@20 é ', s.mean(empresa3_t6))

O valor estimado do Recall@20 é  0.6824


A versão 3 do algoritmo teve resultados bons, principalmente no Top 10.