
# Instalações e imports



In [None]:
!git clone https://github.com/makcedward/nlpaug.git

In [None]:
!pip install numpy requests nlpaug nltk pysinonimos

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
nltk.download('omw')

In [5]:
%load_ext autoreload
%autoreload 2
import importlib

In [6]:
import os
os.environ["MODEL_DIR"] = '../model'

In [7]:
import nlpaug.augmenter.char as nac
import nlpaug.augmenter.word as naw
import nlpaug.augmenter.sentence as nas
import nlpaug.flow as nafc
import random as rd
from random import choice
import pandas as pd
from nlpaug.util import Action
from pysinonimos.sinonimos import Search, historic

# Augmentation text with nltk

In [9]:
def augmentation_text_nltk(field, num_augm):
  words = [word for word in field.split(" ") if len(word) > 3]
  result = []

  while len(result) != num_augm:
    num_rand = rd.sample(range(0, len(words)), 2)[0]

    before_word = words[num_rand]

    aug = naw.SynonymAug(aug_src='wordnet', lang='por')
    augmentation_word = aug.augment(words[num_rand])

    new_text = field.replace(before_word, augmentation_word)

    if new_text not in result:
      result.append(new_text)
      
  return result

In [10]:
field = 'Empresa responsável por instalação de energia elétrica e projetos de manutenção'

augmentation_text_nltk(field,10)

['Empresas responsável por instalação de energia elétrica e projetos de manutenção',
 'Empresa responsável por serviço de energia elétrica e projetos de manutenção',
 'Empresa responsável por instalação de vigor elétrica e projetos de manutenção',
 'Empresa responsável por instalação de energia elétrica e projetos de manutenção',
 'Empresa responsável por instalação de energia elétrica e projetos de pão',
 'Negócios responsável por instalação de energia elétrica e projetos de manutenção',
 'Empresa responsável por instalação de vitalidade elétrica e projetos de manutenção',
 'Empresa responsável por instalação de energia elétrica e projetos de manutenção do ambiente',
 'Empresa responsável por infra estrutura de energia elétrica e projetos de manutenção',
 'Empresa réu por instalação de energia elétrica e projetos de manutenção']

# Augmentation text with synonyms

In [11]:
def augmentation_synonyms(field, num_aug):
  words = [word for word in field.split(" ") if len(word) > 3]
  result = []

  while len(result) != num_aug:

    num_rand = rd.sample(range(0, len(words)), 2)[0]
    before_word = words[num_rand]
    synonyms_word = Search(words[num_rand]).synonyms()
    
    num_rand_synonyms = rd.sample(range(0, (len(synonyms_word))), 1)[0]

    new_text = field.replace(before_word, synonyms_word[num_rand_synonyms])

    if new_text not in result:
      result.append(new_text)

  return result

In [12]:
field = 'Empresa responsável por instalação de energia elétrica e projetos de manutenção'
augmentation_synonyms(field, 10)

['Empresa responsável por instalação de energia elétrica e projetos de direção',
 'tentativa responsável por instalação de energia elétrica e projetos de manutenção',
 'Empresa responsável por instalação de energia elétrica e concepções de manutenção',
 'Empresa responsável por instalação de energia elétrica e empresas de manutenção',
 'Empresa responsável por instalação de energia elétrica e projetos de esteio',
 'Empresa responsável por instalação de esforço elétrica e projetos de manutenção',
 'entidade responsável por instalação de energia elétrica e projetos de manutenção',
 'Empresa delegado por instalação de energia elétrica e projetos de manutenção',
 'Empresa responsável por instalação de vivacidade elétrica e projetos de manutenção',
 'Empresa responsável por instalação de energia elétrica e propostas de manutenção']

# Create phrases with sheet

In [13]:
def create_text(plan_name, num_aug):
  result = []
  plan = pd.read_excel(plan_name)
  plan = plan.fillna('projeto')
  
  while len(result) != num_aug:

    inicio_verbo = plan['inicio_verbo']
    artigo_indefinido = plan['artigo_indefinido']
    tipo_de_proj = plan['tipo_de']
    depois_tipo = plan['depois_tipo']
    tipo_servico_eletrica = plan['tipo_servico_eletrica']
    finalizacao = plan['finalizacao']

    new_text = (f'{choice(inicio_verbo)} {choice(artigo_indefinido)} {choice(tipo_de_proj)} {choice(depois_tipo)} {choice(tipo_servico_eletrica)} {choice(finalizacao)}').capitalize()

    if new_text not in result:
      result.append(new_text)

  return result

In [15]:
plan_name = '/content/texto_artigo_masculino.xlsx'
create_text(plan_name, 10)

['Projetar um projeto de implementação de rede eletrica comercial após a conclusão das atividades técnicas o profissional deverá proceder a baixa desta art 4',
 'Desenvolver um projeto de inovação de rede eletrica residencial após a conclusão das atividades técnicas o profissional deverá proceder a baixa desta art 4',
 'Criar um escopo de implantação de baixa tensão após a conclusão das atividades técnicas o profissional deverá proceder a baixa desta art 9',
 'Forjar um esboço de inovação de rede eletrica após a conclusão das atividades técnicas o profissional deverá proceder a baixa desta art 7',
 'Forjar um escopo de instalação de alta tensão após a conclusão das atividades técnicas o profissional deverá proceder a baixa desta art 3',
 'Elaborar um objetivo de geração de alta tensão após a conclusão das atividades técnicas o profissional deverá proceder a baixa desta art 7',
 'Criar um meio de produção de baixa tensão após a conclusão das atividades técnicas o profissional deverá pro