In [67]:
import random
import nltk
import spacy
from nltk.corpus import wordnet
import re
from googletrans import Translator

# Initialize spaCy Portuguese model
nlp = spacy.load('pt_core_news_sm')

# Download NLTK data files (if not already downloaded)
nltk.download('omw-1.4')
nltk.download('wordnet')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/vanderson/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/vanderson/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

#### getting synonym



In [46]:
def get_synonyms(word):
    """
    Retrieves synonyms for a Portuguese word using WordNet.
    """
    synsets = wordnet.synsets(word, lang='por')
    synonyms = set()
    for syn in synsets:
        for lemma in syn.lemma_names('por'):
            synonyms.add(lemma.replace('_', ' '))
    synonyms.discard(word)
    return list(synonyms)

In [47]:
def sinonimo(phrase):
    """
    Replaces words with their synonyms.
    """
    words = phrase.split()
    new_words = []
    for word in words:
        synonyms = get_synonyms(word)
        if synonyms:
            new_word = random.choice(synonyms)
            new_words.append(new_word)
        else:
            new_words.append(word)
    return ' '.join(new_words)

In [48]:
def word_replacement_thesaurus(phrase):
    """
    Replaces words using a thesaurus (similar to synonyms).
    """
    return sinonimo(phrase)

In [62]:
def insercao_noise(phrase):
    """
    Introduces insertion noise by randomly adding a word into the phrase.
    """
    words = phrase.split()
    insert_idx = random.randint(0, len(words))
    random_word = random.choice([ 'Casa', 'Carro', 'Computador', 'Livro', 'Árvore', 'Café', 'Amigo', 'Cidade', 'Escola', 'Relógio',
    'Telefone', 'Janela', 'Cadeira', 'Mesa', 'Bicicleta', 'Praia', 'Montanha', 'Rio', 'Cachorro', 'Gato',
    'Céu', 'Estrela', 'Flor', 'Pássaro', 'Noite', 'Dia', 'Sol', 'Lua', 'Chave', 'Porta',
    'Sapato', 'Roupa', 'Caneta', 'Lápis', 'Papel', 'Foto', 'Brinquedo', 'Jogo', 'Chuva', 'Neve',
    'Vento', 'Fogo', 'Terra', 'Mar', 'Avião', 'Navio', 'Trem', 'Ônibus', 'Mercado',

    # Verbos
    'Correr', 'Andar', 'Comer', 'Beber', 'Ler', 'Escrever', 'Dormir', 'Acordar', 'Falar', 'Ouvir',
    'Ver', 'Assistir', 'Pensar', 'Sorrir', 'Rir', 'Chorar', 'Jogar', 'Brincar', 'Estudar', 'Trabalhar',
    'Cantar', 'Dançar', 'Nadar', 'Viajar', 'Cozinhar', 'Limpar', 'Consertar', 'Construir', 'Destruir',
    'Comprar', 'Vender', 'Pagar', 'Ganhar', 'Perder', 'Encontrar', 'Procurar', 'Esperar', 'Ajudar',
    'Ensinar', 'Aprender',

    # Adjetivos
    'Bonito', 'Feio', 'Grande', 'Pequeno', 'Alto', 'Baixo', 'Rápido', 'Lento', 'Feliz', 'Triste',
    'Calmo', 'Agitado', 'Doce', 'Amargo', 'Quente', 'Frio', 'Claro', 'Escuro', 'Novo', 'Velho',
    'Forte', 'Fraco', 'Inteligente', 'Bobo', 'Gentil', 'Cruel', 'Simpático', 'Antipático',
    'Interessante', 'Entediante',

    # Advérbios
    'Rapidamente', 'Devagar', 'Hoje', 'Amanhã', 'Ontem', 'Sempre', 'Nunca', 'Às vezes', 'Frequentemente',
    'Raramente', 'Aqui', 'Lá', 'Dentro', 'Fora', 'Longe', 'Perto', 'Acima', 'Abaixo', 'Juntos',
    'Separadamente', 'Certamente', 'Provavelmente', 'Possivelmente', 'Claramente', 'Obviamente',
    'Sutileza', 'Sem dúvida', 'Sem querer', 'De repente', 'Gradualmente'])
    words.insert(insert_idx, random_word)
    return ' '.join(words)

In [50]:
def parse_input(data):
    """
    Parses input data and returns a list of phrases.
    """
    phrases = []
    for line in data.strip().split('\n'):
        line = line.strip()
        if line.startswith('-'):
            phrase = line[1:].strip()
            phrases.append(phrase)
    return phrases

In [51]:
def spelling_errors(phrase):
    """
    Introduces spelling errors by altering characters in random words.
    """
    words = phrase.split()
    if words:
        word_idx = random.randint(0, len(words)-1)
        word = words[word_idx]
        if len(word) > 1:
            char_idx = random.randint(0, len(word)-1)
            random_char = random.choice('abcdefghijklmnopqrstuvwxyz')
            word = word[:char_idx] + random_char + word[char_idx+1:]
            words[word_idx] = word
    return ' '.join(words)

In [52]:

def remocao_noise(phrase):
    """
    Introduces removal noise by randomly deleting a word from the phrase.
    """
    words = phrase.split()
    if words:
        remove_idx = random.randint(0, len(words)-1)
        del words[remove_idx]
    return ' '.join(words)

In [53]:

def paraphrase_generation(phrase):
    """
    Generates paraphrases using simple transformation rules.
    """
    # Example: Transforming phrases like "cartão de crédito" to "crédito com cartão"
    if 'de' in phrase:
        parts = phrase.split(' de ')
        if len(parts) == 2:
            return f"{parts[1]} com {parts[0]}"
    return phrase

In [54]:
def paraphrase_regex(phrase):
    """
    Generates paraphrases using regular expressions.
    """
    # Example: Replace "não é" with "não está"
    phrase = re.sub(r'\bnão é\b', 'não está', phrase)
    return phrase

In [55]:
def paraphrase_syntax_tree(phrase):
    """
    Generates paraphrases by transforming syntax trees.
    """
    doc = nlp(phrase)
    # Simple example: Swap subject and object if possible
    tokens = [token.text for token in doc]
    if len(tokens) >= 3:
        tokens[0], tokens[2] = tokens[2], tokens[0]
        return ' '.join(tokens)
    return phrase

In [68]:

def back_translation_api(phrase, src_lang='pt', intermediate_lang='en'):
    """
    Gera uma paráfrase através da retrotradução usando o Google Translate.

    Args:
        phrase (str): A frase em português a ser traduzida.
        src_lang (str): Código do idioma de origem (padrão 'pt' para português).
        intermediate_lang (str): Código do idioma intermediário (padrão 'en' para inglês).

    Returns:
        str: A frase retrotraduzida para o português.
    """
    translator = Translator()
    
    try:
        # Traduzir do idioma de origem para o idioma intermediário
        translated = translator.translate(phrase, src=src_lang, dest=intermediate_lang)
        intermediate_text = translated.text
        print(f"Traduzido para {intermediate_lang}: {intermediate_text}")
        
        # Traduzir de volta para o idioma de origem
        back_translated = translator.translate(intermediate_text, src=intermediate_lang, dest=src_lang)
        final_text = back_translated.text
        print(f"Retrotraduzido para {src_lang}: {final_text}")
        
        return final_text
    
    except Exception as e:
        print("Ocorreu um erro durante a retrotradução:", e)
        return phrase  # Retorna a frase original em caso de erro

In [63]:
data = '''
    - Quais são os métodos de pagamento aceitos?
      - Quais são as formas de pagamento aceitas pela clínica?
      - tipos de pagamento são aceitos?
      - tipos de pagamento estão disponíveis?
      - Voces aceitam cartão de crédito?
      - Voces aceitam cartão de débito?
      - Aceitam cartão de crédito?
      - Aceitam cartão de débito?
      - Voces aceitam Pix?
      - Voces parcelam a consulta?
      - Voces parcelam?
      - Aceitam Pix?
      - Voces aceitam pagamento em dinheiro?
      - pagamento em dinheiro?
'''

phrases = parse_input(data)

In [64]:
for phrase in phrases:
    print("Original:", phrase)
    print("Inserção (Noise):", insercao_noise(phrase))
    print("Remoção (Noise):", remocao_noise(phrase))
    print("Erros de Ortografia:", spelling_errors(phrase))
    print("Sinônimo:", sinonimo(phrase))
    print("Substituição com Tesauro:", word_replacement_thesaurus(phrase))
    print("Geração de Parágrafo:", paraphrase_generation(phrase))
    print("Paráfrase com Regex:", paraphrase_regex(phrase))
    print("Paráfrase com Árvore Sintática:", paraphrase_syntax_tree(phrase))
    print("Back Translation:", back_translation_api(phrase))
    print("-" * 50)

Original: Quais são os métodos de pagamento aceitos?
Inserção (Noise): Quais são Rápido os métodos de pagamento aceitos?
Remoção (Noise): Quais são os de pagamento aceitos?
Erros de Ortografia: Quais são ok métodos de pagamento aceitos?
Sinônimo: Quais saudável os método faminto recompensa aceitos?
Substituição com Tesauro: Quais salubre os método faminto recompensa aceitos?
Geração de Parágrafo: pagamento aceitos? com Quais são os métodos
Paráfrase com Regex: Quais são os métodos de pagamento aceitos?
Paráfrase com Árvore Sintática: os são Quais métodos de pagamento aceitos ?
Back Translation: aceitos? pagamento de métodos os são Quais
--------------------------------------------------
Original: Quais são as formas de pagamento aceitas pela clínica?
Inserção (Noise): Quais são Noite as formas de pagamento aceitas pela clínica?
Remoção (Noise): Quais são as formas de pagamento pela clínica?
Erros de Ortografia: Quais são as formas de pazamento aceitas pela clínica?
Sinônimo: Quais sã a