In [68]:
import re
import pickle 
import sqlite3 as sl
from unicodedata import normalize
import pandas as pd
from pathlib import Path
from sklearn.naive_bayes import BernoulliNB
from scipy import sparse
import numpy as np

In [69]:
## Carregando o modelo

In [70]:
with open('./BernoulliNB_model.pkl', 'rb') as file:
    clf = pickle.load(file)

with open('./BernoulliNB_model_adds.pkl', 'rb') as file:
    model_add_data = pickle.load(file)   

lista_todas_palavras = model_add_data['lista_todas_palavras'] 
lista_precos = model_add_data['lista_precos'] 
lista_todas_categorias = model_add_data['lista_todas_categorias']    

In [71]:
## Usando o Modelo

In [72]:
def normaliza_texto_vetorizado(text:str)->str: 
    """
    função criada para transformar os títulos dos anuncios em um formato padronizado, sem caracteres especiais e sem números
    """
    frase_minuscula = normalize('NFKD', text).encode('ASCII', 'ignore').decode('ASCII').lower() #normaliza para retirar acentos e transforma para minuscula
    somente_palavras_validas = re.sub("([^\w]+)|((\w|d)*[\d](\w|d)*)"," ",frase_minuscula) #substitui a string acima por uma string sem numeros e sem caracteres especiais
    texto_normalizado = re.sub("\s+"," ",somente_palavras_validas).strip() #substitui um ou mais espaços da string acima por um único espaço
    return texto_normalizado.split(" ") #retorna uma lista com as palavras válidas 

def categoria_para_indice(categoria,lista_todas_categorias):
    """verifica qual o índice da categoria informada conforme a lista_todas_categorias"""
    if lista_todas_categorias.count(categoria): #se existir a categoria na lista,
        return lista_todas_categorias.index(categoria) #retorna o indice da categoria na lista_todas_categorias
    else:
        return -1 #caso contrário, retorna -1
        
def titulo_para_indices(titulo,lista_todas_palavras): 
    """verifica qual o indice """
    lista_palavras_titulo = normaliza_texto_vetorizado(titulo) #normaliza o título informado
    indices_titulo =[] #lista de indices (conforme lista_todas_palavras) referentes as palavras do título
    for palavra_titulo in lista_palavras_titulo: #para cada palavra na lista_palavras_titulo,
        if lista_todas_palavras.count(palavra_titulo): #se existir a palavra do título na lista lista_todas_palavras, 
            indices_titulo.append(lista_todas_palavras.index(palavra_titulo)) #adiciona o indice da palavra(indice referente a lista_todas_palavras) na indices_titulo
    return indices_titulo   #retorna uma lista com os indices do titulo

def preco_para_indice(preco,indice_start=0):
    """
    Atribui um índice para um range de preços na escala log
    """
    if isinstance(preco,float) or isinstance(preco,int): #se o preço for int ou float retorna true e segue
        if preco>1:
            index = np.ceil(np.log10(preco)) #arredonda o valor de Log(preço) na base 10 para servir como um índice
            index = int(index) if index>=0 and index<len(lista_precos) else 0 #passa o indice para inteiro se indice for >= 0 e for menor do que o tamaho da lista_preços
            return index+indice_start #indice_start -> começa depois do termino da matriz de palavras
    return 0              

In [73]:
def procura_categoria(titulo,preco=None,qt_impr=5):
    """ 
    Função para testar as entradas com base no título e no preço do produto a ser cadastrado
    """
    qt_colunas = len(lista_todas_palavras)+len(lista_precos) #qt de colunas da matriz
    XN = sparse.dok_matrix((1, qt_colunas), dtype=np.int8) #constrói matriz esparsa XN de forma incremental
    if preco:
        XN[0,preco_para_indice(preco,len(lista_todas_palavras))] = 1 #popula 1 na coluna referente ao preço

    indices_palavras_titulo = titulo_para_indices(titulo,lista_todas_palavras) #lista com os indices das palavras do titulo
    for indice_palavra in indices_palavras_titulo: 
        XN[0,indice_palavra] = 1 #popula 1 nas colunas referentes às palavras do título com base nos índices de indices_palavras_titulo

    categorias_prob = clf.predict_proba(XN[0]) # retorna a probabilidade referente a cada categoria
    indice_categorias_ordenado = np.flip(np.argsort(categorias_prob)) #ordena os indices de acordo com a probabilidade decrescente
    limite_impressoes = qt_impr #variável que define a quantidade de categorias a serem impressas
    for indice_categoria in indice_categorias_ordenado.tolist()[0]:
        print(f'{lista_todas_categorias[indice_categoria]}:{categorias_prob[0][indice_categoria]*100:.2f}%') #imprime uma categoria e o percentual referente a ela (ordem decrescente)
        if limite_impressoes<=1:
            break
        limite_impressoes -=1

In [74]:
def probabilidade_categoria(titulo,preco,categoria_buscada):
    """ 
    Função para testar as entradas com base no título e no preço do produto a ser cadastrado
    """
    qt_colunas = len(lista_todas_palavras)+len(lista_precos) #qt de colunas da matriz
    XN = sparse.dok_matrix((1, qt_colunas), dtype=np.int8) #constrói matriz esparsa XN de forma incremental
    if preco:
        XN[0,preco_para_indice(preco,len(lista_todas_palavras))] = 1 #popula 1 na coluna referente ao preço

    indices_palavras_titulo = titulo_para_indices(titulo,lista_todas_palavras) #lista com os indices das palavras do titulo
    for indice_palavra in indices_palavras_titulo: 
        XN[0,indice_palavra] = 1 #popula 1 nas colunas referentes às palavras do título com base nos índices de indices_palavras_titulo

    categorias_prob = clf.predict_proba(XN[0]) # retorna a probabilidade referente a cada categoria
    indice_categoria_buscada = categoria_para_indice(categoria_buscada,lista_todas_categorias) #retorna o indice da categoria buscada
    
    resultado = {
                    'probabilidade':categorias_prob[0][indice_categoria_buscada],
                    'rank_categoria': np.flip(np.argsort(categorias_prob))[0].tolist().index(indice_categoria_buscada)
                }
    return resultado #retorna a probabilidade da categoria buscada

In [75]:
probabilidade_categoria('casa 3 andares',None,'Aluguel - casas e apartamentos')

{'probabilidade': 0.16686594739396512, 'rank_categoria': 1}

In [76]:
procura_categoria('maquina de sorvete',5000)

Máquinas para produção industrial:41.31%
Equipamentos e mobiliário:20.94%
Outros itens para comércio e escritório:17.62%
Eletrodomésticos:9.01%
Trailers e carrinhos comerciais:7.39%


## validando modelo com base de teste

In [77]:
#base para teste = 
con = sl.connect('../coleta_de_dados/banco_scraping_olx_221216.db')

In [78]:
def monta_sql_por_categoria(categoria,limit=5000):
    return f"""SELECT DISTINCT 
                    url_anuncio,
                    titulo_anuncio,
                    categoria_atual,
                    preco_anuncio
                FROM
                    anuncios_resumo
                WHERE categoria_atual = '{categoria}'
                ORDER BY random()
                LIMIT {limit} -- Colocar um limit para testar
                """

In [None]:
# teste error from model
prob_avg_categorias = {}
rank_avg_categorias = {}
limit = 2000
for categoria in lista_todas_categorias:
    df = pd.read_sql(monta_sql_por_categoria(categoria),con)
    print(f'Categoria: {categoria}')
    df['probabilidade'] = df.apply(lambda x: probabilidade_categoria(x['titulo_anuncio'],x['preco_anuncio'],categoria)['probabilidade'],axis=1)
    df['rank_categoria'] = df.apply(lambda x: probabilidade_categoria(x['titulo_anuncio'],x['preco_anuncio'],categoria)['rank_categoria'],axis=1)
    prob_avg_categorias[categoria] = df['probabilidade'].mean()
    rank_avg_categorias[categoria] = df['rank_categoria'].mean()
    print(f'Probabilidade média: {prob_avg_categorias[categoria]}')
    print(f'Rank médio: {rank_avg_categorias[categoria]}')
    limit = limit - 1
    if limit == 0:
        break

In [None]:
rank_avg_categorias

In [None]:
prob_avg_categorias