## Imports

In [None]:
from spellchecker import SpellChecker
from re import sub
from nltk import word_tokenize
from nltk.util import ngrams
from spacy.lang.pt.stop_words import STOP_WORDS
from nltk.stem.snowball import SnowballStemmer
from services.database import *
import language_tool_python
import spacy
import re

### treinar o modelo de classificação para realizar a correção ortografica de palavras especificas
#### . usar api openai para rotular lista de palavras para treinar o modelo
### usar o modelo treinado para corrigir o texto ante do spellchecker
#### - excluir as palavras corrigidas antes do spellchecker e adiciona-lo posteriormente

## Pre-processamento

In [None]:
spell_pt = SpellChecker(language='pt')
spell_en = SpellChecker(language='en')
def preprocess_correcao(text):
    list_input = word_tokenize(text)
    list_text = []
    for i in list_input:
        correcao = spell_pt.correction(i)
        if correcao == None:
            correcao = spell_en.correction(i)
        list_text.append(correcao)
    text = ' '.join(list_text)
    return text


def preprocess_semantic(frase):
    tool = language_tool_python.LanguageTool('pt')
    matches = tool.check(frase)
    for i in matches:
        frase = frase[:i.offset] + i.replacements[0] + frase[i.offset+i.errorLength:]
    tool.close()
    return frase


def preprocess_stem(text):
    stemmer = SnowballStemmer("portuguese")
    tokens = word_tokenize(text)
    stems = [stemmer.stem(token) for token in tokens]
    text = ' '.join([str(element) for element in stems])
    return text


nlp = spacy.load('pt_core_news_sm')
def key_words(text):
    doc = nlp(text)
    lista = ['VERB','NOUN','ADJ','PROPN']
    key_tokens = [(token.text, token.pos_) for token in doc if token.pos_ in lista]
    text = ' '.join([str(element[0]) for element in key_tokens])
    return text


def preprocess_input(text):
    text = preprocess_correcao(text)
    text = preprocess_semantic(text)
    print(text)
    text = key_words(text)
    text = preprocess_stem(text)
    text = sub(r"[#&+-./↔>?@[^_`’|}~]+", ' ',text)
    text = sub(r"]", ' ',text)
    text = text.lower().strip()
    # tirar pontuações, acentos e espaços extras
    text = sub('[áàãâä]', 'a', sub('[éèêë]', 'e', sub('[íìîï]', 'i', sub('[óòõôö]', 'o', sub('[úùûü]', 'u', text)))))
    # tirar espaços em branco
    text = sub(r'\s+', ' ',text)
    return text

## testes do pre-processamento

In [None]:
def teste(texto):
    b = preprocess_input(texto)
    print(b)
    print()

lista = [
    # "O coletor não liga, eu tenti pressionar o butão de ligar, mas nada acontece.",
    # "O touch do coletor está travadu, não responde as meus comandos.",
    # "Recebi um alerta de ruido ou ausencia de sinal, isso afeta a colleta de dados.",
    "Há um alerta de overloaad no mte, o equipamentu está enfrentado uma sobrecarga de dados."
]

for i in lista:
    teste(i)

# rotulando os dados

### Api openAI

In [1]:
import openai
openai.api_key = "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"

def rotulo(txt):
  req = f"Preciso criar um modelo que classifica uma palavra errada para a certa, exemplo 'mtee' seria corrigido para 'mte'. para isso irei te dar uma lista de palavras certas e preciso que vc me retorne uma lista python de pelo menos 7 palavras com a ortografia errada para cada uma delas. me retorne a resposta no seguinte formato: em um dicionário python onde a chave seria a palavra certa e o valor seria uma lista python com as palavras erradas. aqui esão as palavras: {txt}"

  completion = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
      {"role": "user", "content": req}
    ]
  )
  res = completion.choices[0].message.content
  return res

### Criando o df

In [2]:
import pandas as pd

df = pd.read_excel(r'database\troubleshooting.xlsx')
lista = []
for idx in df['description']:
    lista.append(idx)

In [5]:
import time
import json

for i in lista:
    try:
        response = rotulo(i)
    except:
        time.sleep(60)
        response = rotulo(i)
        continue
    with open('response.json','r+',encoding='utf-8') as f:
        log = json.load(f)
        log.append(response)
        f.seek(0)
        json.dump(log, f, indent=4)
