## Imports

In [None]:
from spellchecker import SpellChecker
from re import sub
from nltk import word_tokenize
from nltk.util import ngrams
from spacy.lang.pt.stop_words import STOP_WORDS
from nltk.stem.snowball import SnowballStemmer
from services.database import *
import language_tool_python
import spacy
import re

### treinar o modelo de classificação para realizar a correção ortografica de palavras especificas
#### . usar api openai para rotular lista de palavras para treinar o modelo
### usar o modelo treinado para corrigir o texto ante do spellchecker
#### - excluir as palavras corrigidas antes do spellchecker e adiciona-lo posteriormente

## Pre-processamento

In [None]:
spell_pt = SpellChecker(language='pt')
spell_en = SpellChecker(language='en')
def preprocess_correcao(text):
    list_input = word_tokenize(text)
    list_text = []
    for i in list_input:
        correcao = spell_pt.correction(i)
        if correcao == None:
            correcao = spell_en.correction(i)
        list_text.append(correcao)
    text = ' '.join(list_text)
    return text


def preprocess_semantic(frase):
    tool = language_tool_python.LanguageTool('pt')
    matches = tool.check(frase)
    for i in matches:
        frase = frase[:i.offset] + i.replacements[0] + frase[i.offset+i.errorLength:]
    tool.close()
    return frase


def preprocess_stem(text):
    stemmer = SnowballStemmer("portuguese")
    tokens = word_tokenize(text)
    stems = [stemmer.stem(token) for token in tokens]
    text = ' '.join([str(element) for element in stems])
    return text


nlp = spacy.load('pt_core_news_sm')
def key_words(text):
    doc = nlp(text)
    lista = ['VERB','NOUN','ADJ','PROPN']
    key_tokens = [(token.text, token.pos_) for token in doc if token.pos_ in lista]
    text = ' '.join([str(element[0]) for element in key_tokens])
    return text


def preprocess_input(text):
    text = preprocess_correcao(text)
    text = preprocess_semantic(text)
    print(text)
    text = key_words(text)
    text = preprocess_stem(text)
    text = sub(r"[#&+-./↔>?@[^_`’|}~]+", ' ',text)
    text = sub(r"]", ' ',text)
    text = text.lower().strip()
    # tirar pontuações, acentos e espaços extras
    text = sub('[áàãâä]', 'a', sub('[éèêë]', 'e', sub('[íìîï]', 'i', sub('[óòõôö]', 'o', sub('[úùûü]', 'u', text)))))
    # tirar espaços em branco
    text = sub(r'\s+', ' ',text)
    return text

In [None]:
preprocess_correcao('verificacoens')

## testes do pre-processamento

In [None]:
def teste(texto):
    b = key_words(texto)
    print(b)
    print()

lista = [
    # "O coletor não liga, eu tenti pressionar o butão de ligar, mas nada acontece.",
    # "O touch do coletor está travadu, não responde as meus comandos.",
    "overload",
    "Há um alerta de overloaad no mte, o equipamentu está enfrentado uma sobrecarga de dados."
]

for i in lista:
    teste(i)

# rotulando os dados

### Api openAI

In [None]:
import openai
openai.api_key = "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"

def rotulo(txt):
  req = f"Preciso criar um modelo que classifica uma palavra errada para a certa, exemplo 'mtee' seria corrigido para 'mte'. para isso irei te dar uma lista de palavras certas e preciso que vc me retorne uma lista python de pelo menos 7 palavras com a ortografia errada para cada uma delas. me retorne a resposta no seguinte formato: em um dicionário python onde a chave seria a palavra certa e o valor seria uma lista python com as palavras erradas. aqui esão as palavras: {txt}"

  completion = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
      {"role": "user", "content": req}
    ]
  )
  res = completion.choices[0].message.content
  return res

### Criando o df

In [None]:
import pandas as pd

df = pd.read_excel(r'database\troubleshooting.xlsx')
lista = []
for idx in df['description']:
    lista.append(idx)

In [None]:
import time
import json

for i in lista:
    try:
        response = rotulo(i)
    except:
        time.sleep(60)
        response = rotulo(i)
        continue
    with open('response.json','r+',encoding='utf-8') as f:
        log = json.load(f)
        log.append(response)
        f.seek(0)
        json.dump(log, f, indent=4)


In [None]:
from random import shuffle
from pickle import dump, load
from numpy import array
from keras.models import Sequential, load_model
from keras.layers import Dense, Dropout
from keras.optimizers import SGD
from re import sub

In [None]:
def remover_numeros(text):
    text = sub(r'\d+', '', text)
    text = sub(r'\s+', ' ',text)
    return text

def preprocess_model(dict):
    words = []
    documents = []
    for chave, valor in dict.items():
        for i in valor:
            words.append(i)
            documents.append((i, chave))
    return words, documents

In [None]:
def train_model(dict):
    classes = []
    classes.extend(list(dict.keys()))
    words,documents = preprocess_model(dict)

    words = sorted(list(set(words)))
    classes = sorted(list(set(classes)))

    words_path = ("words.pkl")
    classes_path = ("classes.pkl")

    dump(words,open(words_path, 'wb'))
    dump(classes,open(classes_path, 'wb'))

    training = []
    output_empty = [0] * len(classes)
    for document in documents:
        bag = []
        pattern_words = document[0]
        for word in words:
            bag.append(1) if word in pattern_words else bag.append(0)
        while len(bag) < len(words):
            bag.append(0)
        output_row = list(output_empty)
        output_row[classes.index(document[1])] = 1
        training.append([bag, output_row])
    shuffle(training)
    training = array(training, dtype=object)

    x = list(training[:, 0])
    y = list(training[:, 1])

    model = Sequential()
    model.add(Dense(128, input_shape=(len(x[0]),), activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(len(y[0]), activation='softmax'))

    sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True)
    model.compile(loss='categorical_crossentropy',optimizer=sgd, metrics=['accuracy'])

    m = model.fit(array(x), array(y), epochs=200, batch_size=5, verbose=1)

    model_path = ("model.h5")
    model.save(model_path, m)

In [None]:
import pandas as pd
df_erradas = pd.read_excel('palavras_erradas.xlsx')

In [None]:
dict = {}
for indice, linha in df_erradas[['palavras', 'erradas']].iterrows():
    dict[linha['palavras']] = linha['erradas'].split(',')

In [None]:
train_model(dict)

In [None]:
# retorna 0 ou 1 para cada palavra da bolsa de palavras
def bag_of_words(writing, words):
    sentence_words = writing.split()
    # cria uma matriz de N palavras
    bag = [0]*len(words)
    for setence in sentence_words:
        for i, word in enumerate(words):
            if word == setence:
                # atribui 1 no pacote de palavra se a palavra atual estiver na posição da frase
                bag[i] = 1
    return(array(bag))

def class_prediction(input_user):
    model = load_model('model.h5')
    words = load(open('words.pkl', 'rb'))
    classes = load(open('classes.pkl', 'rb'))
    # filtra as previsões abaixo de um limite 0.25
    prevision = bag_of_words(input_user, words)
    response_prediction = model.predict(array([prevision]))[0]
    results = [[index, response] for index, response in enumerate(response_prediction)]

    results.sort(key=lambda x: x[1], reverse=True)
    return [{"suggestion": classes[r[0]], "probability": str(r[1])} for r in results]

In [None]:
import pandas as pd
from fuzzywuzzy import fuzz

def encontrar_classe(palavra, dataframe):
    similaridade_maxima = -1
    classe_maxima = None

    max_media = {'classe': None, 'media':0}
    for _, row in dataframe.iterrows():
        classe = row[0]
        lista_palavras = row[1].split(',')

        media = 0
        for palavra_ref in lista_palavras:
            similaridade = fuzz.ratio(palavra.lower(), palavra_ref.lower())
            media += similaridade

            if similaridade > similaridade_maxima:
                similaridade_maxima = similaridade
                classe_maxima = classe
        
        if media > max_media['media']:
            max_media = {'classe': classe, 'media': media}

    return {'classe': classe_maxima, 'probabilidade': similaridade_maxima}, max_media

In [None]:
df = df_erradas.drop('Unnamed: 0', axis=1)
df

In [None]:
a,b = encontrar_classe('mder',df)
print(a,b)

In [None]:
response = class_prediction('mkcanico')
classe = []
for i in response:
    if i['suggestion'] == 'mecânico':
        print(i)
    if float(i['probability']) > 0.5:
        classe.append(i)
    else:
        pass
# if len(classe) > 0: 
#     print(classe)
# else:
#     print(response)


In [3]:
a = ["aidético", "aidética", "aleijado", "aleijada", "analfabeto", "analfabeta", "anus", "anão", "anã", "arrombado", "apenado", "apenada", "baba-ovo", "babaca", "babaovo", "bacura", "bagos", "baianada", "baitola", "barbeiro", "barraco", "beata", "bebum", "besta", "bicha", "bisca", "bixa", "boazuda", "boceta", "boco", "boiola", "bokete", "bolagato", "bolcat", "boquete", "bosseta", "bosta", "bostana", "boçal", "branquelo", "brecha", "brexa", "brioco", "bronha", "buca", "buceta", "bugre", "bunda", "bunduda", "burra", "burro", "busseta", "bárbaro", "bêbado", "bêbedo", "caceta", "cacete", "cachorra", "cachorro", "cadela", "caga", "cagado", "cagao", "cagão", "cagona", "caipira", "canalha", "canceroso", "caralho", "casseta", "cassete", "ceguinho", "checheca", "chereca", "chibumba", "chibumbo", "chifruda", "chifrudo", "chochota", "chota", "chupada", "chupado", "ciganos", "clitoris", "clitóris", "cocaina", "cocaína", "coco", "cocô", "comunista", "corna", "cornagem", "cornisse", "corno", "cornuda", "cornudo", "cornão", "corrupta", "corrupto", "coxo", "cretina", "cretino", "criolo", "crioulo", "cruz-credo", "cu", "cú", "culhao", "culhão", "curalho", "cuzao", "cuzão", "cuzuda", "cuzudo", "debil", "débil", "debiloide", "debilóide", "deficiente", "defunto", "demonio", "demônio", "denegrir", "denigrir", "detento", "difunto", "doida", "doido", "egua", "égua", "elemento", "encostado", "esclerosado", "escrota", "escroto", "esporrada", "esporrado", "esporro", "estupida", "estúpida", "estupidez", "estupido", "estúpido", "facista", "fanatico", "fanático", "fascista", "fedida", "fedido", "fedor", "fedorenta", "feia", "feio", "feiosa", "feioso", "feioza", "feiozo", "felacao", "felação", "fenda","feia", "boba", "chata", "vai pro inferno", "puta", "quer casar comigo?", "sua gostosa","gostoso","seu gostoso","feio","bobo","babaca","filha da puta","desgraçado","filha da mãe","otário","arrombado","lazarento","vagabundo","merda","foda", "fodao", "fodão", "fode", "fodi", "fodida", "fodido", "fornica", "fornição", "fudendo", "fudeção", "fudida", "fudido", "furada", "furado", "furnica", "furnicar", "furo", "furona", "furão", "gai", "gaiata", "gaiato", "gay", "gilete", "goianada", "gonorrea", "gonorreia", "gonorréia", "gosmenta", "gosmento", "grelinho", "grelo", "gringo", "homo-sexual", "homosexual", "homosexualismo", "homossexual", "homossexualismo", "idiota", "idiotice", "imbecil", "inculto", "iscrota", "iscroto", "japa", "judiar", "ladra", "ladrao", "ladroeira", "ladrona", "ladrão", "lalau", "lazarento", "leprosa", "leproso", "lesbica", "lésbica", "louco", "macaca", "macaco", "machona", "macumbeiro", "malandro", "maluco", "maneta", "marginal", "masturba", "meleca", "meliante", "merda", "mija", "mijada", "mijado", "mijo", "minorias", "mocrea", "mocreia", "mocréia", "moleca", "moleque", "mondronga", "mondrongo", "mongol", "mongoloide", "mongolóide", "mulata", "mulato", "naba", "nadega", "nádega", "nazista", "negro", "nhaca", "nojeira", "nojenta", "nojento", "nojo", "olhota", "otaria", "otario", "otária", "otário", "paca", "palhaco", "palhaço", "paspalha", "paspalhao", "paspalho", "pau", "peia", "peido", "pemba", "pentelha", "pentelho", "perereca", "perneta", "peru", "peão", "pica", "picao", "picão", "pilantra", "pinel", "pinto", "pintudo", "pintão", "piranha", "piroca", "piroco", "piru", "pivete", "porra", "prega", "preso", "prequito", "priquito", "prostibulo", "prostituta", "prostituto", "punheta", "punhetao", "punhetão", "pus", "pustula", "puta", "puto", "puxa-saco", "puxasaco", "penis", "pênis", "rabao", "rabão", "rabo", "rabuda", "rabudao", "rabudão", "rabudo", "rabudona", "racha", "rachada", "rachadao", "rachadinha","rachadinho","rachado","ramela","remela","retardada","retardado","ridícula","roceiro","rola","rolinha","rosca","sacana","safada","safado","sapatao","sapatão","sifilis","sífilis","siririca","tarada","tarado","testuda","tesuda","tesudo","tezao","tezuda","tezudo","traveco","trocha","trolha","troucha","trouxa","troxa","tuberculoso","tupiniquim","turco","vaca","vadia","vagal","vagabunda","vagabundo","vagina","veada","veadao","veado","viada","viadagem","viadao","viadão","viado","viadão","víado","xana","xaninha","xavasca","xerereca","xexeca","xibiu","xibumba","xiíta","xochota","xota","xoxota","vacilao","vacilão","ferrar","vai se fuder","vai se ferrar","vai tomar no cu"]

for i in a:
    print(i)

aidético
aidética
aleijado
aleijada
analfabeto
analfabeta
anus
anão
anã
arrombado
apenado
apenada
baba-ovo
babaca
babaovo
bacura
bagos
baianada
baitola
barbeiro
barraco
beata
bebum
besta
bicha
bisca
bixa
boazuda
boceta
boco
boiola
bokete
bolagato
bolcat
boquete
bosseta
bosta
bostana
boçal
branquelo
brecha
brexa
brioco
bronha
buca
buceta
bugre
bunda
bunduda
burra
burro
busseta
bárbaro
bêbado
bêbedo
caceta
cacete
cachorra
cachorro
cadela
caga
cagado
cagao
cagão
cagona
caipira
canalha
canceroso
caralho
casseta
cassete
ceguinho
checheca
chereca
chibumba
chibumbo
chifruda
chifrudo
chochota
chota
chupada
chupado
ciganos
clitoris
clitóris
cocaina
cocaína
coco
cocô
comunista
corna
cornagem
cornisse
corno
cornuda
cornudo
cornão
corrupta
corrupto
coxo
cretina
cretino
criolo
crioulo
cruz-credo
cu
cú
culhao
culhão
curalho
cuzao
cuzão
cuzuda
cuzudo
debil
débil
debiloide
debilóide
deficiente
defunto
demonio
demônio
denegrir
denigrir
detento
difunto
doida
doido
egua
égua
elemento
encostado
esclerosad