## Imports

In [85]:
from spellchecker import SpellChecker
from re import sub
from nltk import word_tokenize
from nltk.util import ngrams
from spacy.lang.pt.stop_words import STOP_WORDS
from nltk.stem.snowball import SnowballStemmer
from services.database import *
import language_tool_python
import spacy
import re

### treinar o modelo de classificação para realizar a correção ortografica de palavras especificas
#### . usar api openai para rotular lista de palavras para treinar o modelo
### usar o modelo treinado para corrigir o texto ante do spellchecker
#### - excluir as palavras corrigidas antes do spellchecker e adiciona-lo posteriormente

## Pre-processamento

In [86]:
spell_pt = SpellChecker(language='pt')
spell_en = SpellChecker(language='en')
def preprocess_correcao(text):
    list_input = word_tokenize(text)
    list_text = []
    for i in list_input:
        correcao = spell_pt.correction(i)
        if correcao == None:
            correcao = spell_en.correction(i)
        list_text.append(correcao)
    text = ' '.join(list_text)
    return text


def preprocess_semantic(frase):
    tool = language_tool_python.LanguageTool('pt')
    matches = tool.check(frase)
    for i in matches:
        frase = frase[:i.offset] + i.replacements[0] + frase[i.offset+i.errorLength:]
    tool.close()
    return frase


def preprocess_stem(text):
    stemmer = SnowballStemmer("portuguese")
    tokens = word_tokenize(text)
    stems = [stemmer.stem(token) for token in tokens]
    text = ' '.join([str(element) for element in stems])
    return text


nlp = spacy.load('pt_core_news_sm')
def key_words(text):
    doc = nlp(text)
    lista = ['VERB','NOUN','ADJ','PROPN']
    key_tokens = [(token.text, token.pos_) for token in doc if token.pos_ in lista]
    text = ' '.join([str(element[0]) for element in key_tokens])
    return text


def preprocess_input(text):
    text = preprocess_correcao(text)
    text = preprocess_semantic(text)
    print(text)
    text = key_words(text)
    text = preprocess_stem(text)
    text = sub(r"[#&+-./↔>?@[^_`’|}~]+", ' ',text)
    text = sub(r"]", ' ',text)
    text = text.lower().strip()
    # tirar pontuações, acentos e espaços extras
    text = sub('[áàãâä]', 'a', sub('[éèêë]', 'e', sub('[íìîï]', 'i', sub('[óòõôö]', 'o', sub('[úùûü]', 'u', text)))))
    # tirar espaços em branco
    text = sub(r'\s+', ' ',text)
    return text

In [92]:
preprocess_correcao('verificacoens')

TypeError: sequence item 0: expected str instance, NoneType found

## testes do pre-processamento

In [6]:
def teste(texto):
    b = key_words(texto)
    print(b)
    print()

lista = [
    # "O coletor não liga, eu tenti pressionar o butão de ligar, mas nada acontece.",
    # "O touch do coletor está travadu, não responde as meus comandos.",
    "overload",
    "Há um alerta de overloaad no mte, o equipamentu está enfrentado uma sobrecarga de dados."
]

for i in lista:
    teste(i)

[('overload', 'NOUN')]

[('Há', 'VERB'), ('alerta', 'NOUN'), ('overloaad', 'NOUN'), ('mte', 'NOUN'), ('equipamentu', 'NOUN'), ('enfrentado', 'VERB'), ('sobrecarga', 'NOUN'), ('dados', 'NOUN')]



# rotulando os dados

### Api openAI

In [1]:
import openai
openai.api_key = "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"

def rotulo(txt):
  req = f"Preciso criar um modelo que classifica uma palavra errada para a certa, exemplo 'mtee' seria corrigido para 'mte'. para isso irei te dar uma lista de palavras certas e preciso que vc me retorne uma lista python de pelo menos 7 palavras com a ortografia errada para cada uma delas. me retorne a resposta no seguinte formato: em um dicionário python onde a chave seria a palavra certa e o valor seria uma lista python com as palavras erradas. aqui esão as palavras: {txt}"

  completion = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
      {"role": "user", "content": req}
    ]
  )
  res = completion.choices[0].message.content
  return res

### Criando o df

In [2]:
import pandas as pd

df = pd.read_excel(r'database\troubleshooting.xlsx')
lista = []
for idx in df['description']:
    lista.append(idx)

In [5]:
import time
import json

for i in lista:
    try:
        response = rotulo(i)
    except:
        time.sleep(60)
        response = rotulo(i)
        continue
    with open('response.json','r+',encoding='utf-8') as f:
        log = json.load(f)
        log.append(response)
        f.seek(0)
        json.dump(log, f, indent=4)


In [1]:
from random import shuffle
from pickle import dump, load
from numpy import array
from keras.models import Sequential, load_model
from keras.layers import Dense, Dropout
from keras.optimizers import SGD
from re import sub

In [2]:
def remover_numeros(text):
    text = sub(r'\d+', '', text)
    text = sub(r'\s+', ' ',text)
    return text

def preprocess_model(dict):
    words = []
    documents = []
    for chave, valor in dict.items():
        for i in valor:
            words.append(i)
            documents.append((i, chave))
    return words, documents

In [3]:
def train_model(dict):
    classes = []
    classes.extend(list(dict.keys()))
    words,documents = preprocess_model(dict)

    words = sorted(list(set(words)))
    classes = sorted(list(set(classes)))

    words_path = ("words.pkl")
    classes_path = ("classes.pkl")

    dump(words,open(words_path, 'wb'))
    dump(classes,open(classes_path, 'wb'))

    training = []
    output_empty = [0] * len(classes)
    for document in documents:
        bag = []
        pattern_words = document[0]
        for word in words:
            bag.append(1) if word in pattern_words else bag.append(0)
        while len(bag) < len(words):
            bag.append(0)
        output_row = list(output_empty)
        output_row[classes.index(document[1])] = 1
        training.append([bag, output_row])
    shuffle(training)
    training = array(training, dtype=object)

    x = list(training[:, 0])
    y = list(training[:, 1])

    model = Sequential()
    model.add(Dense(128, input_shape=(len(x[0]),), activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(len(y[0]), activation='softmax'))

    sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True)
    model.compile(loss='categorical_crossentropy',optimizer=sgd, metrics=['accuracy'])

    m = model.fit(array(x), array(y), epochs=200, batch_size=5, verbose=1)

    model_path = ("model.h5")
    model.save(model_path, m)

In [31]:
import pandas as pd
df_erradas = pd.read_excel('palavras_erradas.xlsx')

In [9]:
dict = {}
for indice, linha in df_erradas[['palavras', 'erradas']].iterrows():
    dict[linha['palavras']] = linha['erradas'].split(',')

In [10]:
train_model(dict)

  super().__init__(name, **kwargs)


Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

In [2]:
# retorna 0 ou 1 para cada palavra da bolsa de palavras
def bag_of_words(writing, words):
    sentence_words = writing.split()
    # cria uma matriz de N palavras
    bag = [0]*len(words)
    for setence in sentence_words:
        for i, word in enumerate(words):
            if word == setence:
                # atribui 1 no pacote de palavra se a palavra atual estiver na posição da frase
                bag[i] = 1
    return(array(bag))

def class_prediction(input_user):
    model = load_model('model.h5')
    words = load(open('words.pkl', 'rb'))
    classes = load(open('classes.pkl', 'rb'))
    # filtra as previsões abaixo de um limite 0.25
    prevision = bag_of_words(input_user, words)
    response_prediction = model.predict(array([prevision]))[0]
    results = [[index, response] for index, response in enumerate(response_prediction)]

    results.sort(key=lambda x: x[1], reverse=True)
    return [{"suggestion": classes[r[0]], "probability": str(r[1])} for r in results]

In [78]:
import pandas as pd
from fuzzywuzzy import fuzz

def encontrar_classe(palavra, dataframe):
    similaridade_maxima = -1
    classe_maxima = None

    max_media = {'classe': None, 'media':0}
    for _, row in dataframe.iterrows():
        classe = row[0]
        lista_palavras = row[1].split(',')

        media = 0
        for palavra_ref in lista_palavras:
            similaridade = fuzz.ratio(palavra.lower(), palavra_ref.lower())
            media += similaridade

            if similaridade > similaridade_maxima:
                similaridade_maxima = similaridade
                classe_maxima = classe
        
        if media > max_media['media']:
            max_media = {'classe': classe, 'media': media}

    return {'classe': classe_maxima, 'probabilidade': similaridade_maxima}, max_media

In [34]:
df = df_erradas.drop('Unnamed: 0', axis=1)
df

Unnamed: 0,palavras,erradas
0,mecânico,"mkcânico, dmecânico, mcânico, emcânico, mecâni..."
1,elétrica,"elérrica, elétrcica, elétric, elétirca, eléari..."
2,bombas,"combas, bombfas, bomba, obmbas, bombas, bomsas..."
3,rolamentos,"jolamentos, rmolamentos, rolamntos, rolamnetos..."
4,válvulas,"válvulds, válvualas, vlvulas, vávlulas, vásvul..."
...,...,...
594,entra,"entrl, eyntra, entr, enrta, yntra, eptra, yent..."
595,cliente,"dliente, clientie, clente, lciente, elientc, c..."
596,online,"online, onlinte, onlne, onlnie, inlone, onlize..."
597,data,"dhta, rdata, dta, dtaa, datr, dazta, ata, adta..."


In [82]:
a,b = encontrar_classe('mder',df)
print(a,b)

{'classe': 'ordem', 'probabilidade': 80} {'classe': 'driver', 'media': 4878}


In [22]:
response = class_prediction('mkcanico')
classe = []
for i in response:
    if i['suggestion'] == 'mecânico':
        print(i)
    if float(i['probability']) > 0.5:
        classe.append(i)
    else:
        pass
if len(classe) > 0: 
    print(classe)
else:
    print(response)


{'suggestion': 'mecânico', 'probability': '0.00023929721'}
[{'suggestion': 'incrustado', 'probability': '0.26262116'}, {'suggestion': 'contrapressão', 'probability': '0.12511444'}, {'suggestion': 'equipamento', 'probability': '0.050490003'}, {'suggestion': 'insuficiente', 'probability': '0.048535045'}, {'suggestion': 'intermitente', 'probability': '0.042830676'}, {'suggestion': 'frequentes', 'probability': '0.04246032'}, {'suggestion': 'desatualzidos', 'probability': '0.031296797'}, {'suggestion': 'historiador', 'probability': '0.030575845'}, {'suggestion': 'direções', 'probability': '0.026958462'}, {'suggestion': 'interface', 'probability': '0.024548277'}, {'suggestion': 'transportados', 'probability': '0.016543813'}, {'suggestion': 'armazenamento', 'probability': '0.016365353'}, {'suggestion': 'informações', 'probability': '0.01520577'}, {'suggestion': 'interrompida', 'probability': '0.013530077'}, {'suggestion': 'intermitências', 'probability': '0.011478968'}, {'suggestion': 'serviç