Comando abaixo apenas para que seja possível importar os modulos corretamente

In [1]:
import sys
sys.path.append("../") 

# Criação de Features Textuais

Nessa seção explicaremos como implementar as diferentes features textuais.

## Como criar uma SentenceBasedFeature

Uma SentenceBasedFeature é uma classe de features textuais que calcula o resultado das métricas utilizando as frases do texto como parâmetro. Para criar uma feature sentencebased, fazemos:

1. Importamos os módulos necessários:

In [2]:
from feature.features import SentenceBasedFeature

2. Criamos a classe responsável pela feature:

In [3]:
class SentenceOccurenceCount(SentenceBasedFeature):
    
    '''classe que contabiliza quantas vezes uma frase aparece no texto'''
    
    def __init__(self,name,description,reference,visibility,text_format,feature_time_per_document,sentence_occur):
        super(SentenceBasedFeature,self).__init__(name,description,reference,visibility,text_format,feature_time_per_document)    
        self.int_sentences_counter = 0
        self.sentence_occur = sentence_occur

A classe de exemplo acima herda de SentenceBasedFeature. Seus atributo é:

* sentence_occur: a frase que queremos contabilizar.

Outro exemplo seria utilizar um conjunto de frases.

3. Implementamos os métodos abstratos

Observemos a classe SentenceBasedFeature. A classe contém métodos abstratos que devem ser implementados nas classes filhas.

In [4]:
from feature.features import FeatureCalculator
from abc import abstractmethod

class SentenceBasedFeature(FeatureCalculator):

    @abstractmethod
    def checkSentence(self,document,sentence):
        raise NotImplementedError

Como observado, a classe SentenceBasedFeature herda de FeatureCalculator. A classe FeatureCalculator também possui métodos abstratos que devem ser implementados. Abaixo o diagrama de classes que representa a estrutura de hierarquia.

![title](sbf.jpeg)

Em resumo, os métodos a serem implementados são checkSentence, compute_feature e finish_document. O método checkSentence é responsável por verificar cada frase do texto. O método compute_feature é responsável por calcular o resultado da feature desejada, e o finish_document responsável por resetar as variáveis utilizadas no cálculo da feature.

Vamos implementar esses métodos na subclasse SentenceBasedFeature de exemplo.

In [5]:
class SentenceOccurenceCount(SentenceBasedFeature):
    
    '''classe que contabiliza quantas vezes uma frase aparece no texto'''
    
    def __init__(self,name,description,reference,visibility,text_format,feature_time_per_document,sentence_occur):
        super(SentenceBasedFeature,self).__init__(name,description,reference,visibility,text_format,feature_time_per_document)    
        self.int_sentences_counter = 0
        self.sentence_occur = sentence_occur
    
    def checkSentence(self,document,sentence):
        if sentence is self.sentence_occur:
            self.int_sentences_counter = self.int_sentences_counter + 1
        return True
    
    def compute_feature(self, document):
        return self.int_sentences_counter
    
    def finish_document(self,document):
        self.int_sentences_counter = 0

Seguindo esses passos, é possível implementar uma feature SentenceBasedFeature.

### Testando a feature implementada

Para fazer o teste manual da classe implementada, executamos seus métodos nas suas respectivas funções. Abaixo um código de teste para a execução da feature, em teste unitário.

In [6]:
import unittest
from feature.features import FeatureVisibilityEnum, Document, FeatureCalculator
from utils.basic_entities import FormatEnum, FeatureTimePerDocumentEnum

class TestFeatureCalculator(unittest.TestCase):
    
    def testSentenceCountTest(self):

            scount = SentenceOccurenceCount("SentenceOccurenceCount", "Conta o número de frases pré-definidas no texto", 
                                             "Jupyter Notebook documentation", 
                                             FeatureVisibilityEnum.public, 
                                             FormatEnum.text_plain, 
                                             FeatureTimePerDocumentEnum.MILLISECONDS,"Eu te amo.")

            document = Document(1,"doc1","O texto nao precisa -necessariamente - ser o texto que sera testado")

            scount.checkSentence(document, "É a vovó.")
            scount.checkSentence(document, "Vovó te ama.")
            scount.checkSentence(document, "Sempre se lembre.")
            scount.checkSentence(document, "Eu te amo.")
            scount.checkSentence(document, "Durma bem.")
            scount.checkSentence(document, "Eu te amo.")
            int_result = scount.compute_feature(document)
            print("O texto tem " + str(int_result) + ' "Eu te amo".')
            scount.finish_document(document)
            self.assertEqual(int_result, 2, "Nao foi contabilizado o numero de frases correto no teste do primeiro documento")

sys.argv = ['', 'TestFeatureCalculator.testSentenceCountTest']
unittest.main()

.

O texto tem 2 "Eu te amo".



----------------------------------------------------------------------
Ran 1 test in 0.001s

OK


SystemExit: False

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


O resultado do compute_feature deve ser 2, assim como o teste unitário.