Comando abaixo apenas para que seja possível importar os modulos corretamente

In [1]:
import sys
sys.path.append("../../") 

# Criação de Features Textuais

Nessa seção explicaremos como implementar as diferentes features textuais.

## Como criar uma WordBasedFeature

Uma WordBasedFeature é uma classe de features textuais que calcula o resultado das métricas utilizando as palavras do texto como parâmetro. Para criar uma feature wordbased, fazemos:

###### Importamos os módulos necessários:

In [2]:
from feature.features import WordBasedFeature

Caso o cálculo da feature levar em consideração a separação silábica das palavras, também importamos o hifenador de terceiros.

In [3]:
from feature.hyphenate import *

###### Criamos a classe responsável pela feature:

In [4]:
class FirstLetterWordCount(WordBasedFeature):
    
    '''classe que contabiliza quantas palavras no texto iniciam com determinadas letras'''
    
    def __init__(self,name,description,reference,visibility,text_format,feature_time_per_document,setInicialLetter=None,case_sensitive=False,ignore_punctuation=False):
        super(WordBasedFeature,self).__init__(name,description,reference,visibility,text_format,feature_time_per_document)
        
        if(setInicialLetter==None):
            setInicialLetter = []
        if(not case_sensitive):
            setInicialLetter = [letter.lower() for letter in setInicialLetter]
        
        self.case_sensitive = case_sensitive
        self.setInicialLetter = set(setInicialLetter)
        self.int_word_counter = 0
        self.ignore_punctuation = ignore_punctuation

A classe de exemplo acima herda de WordBasedFeature. Seus atributos são:

* setInicialLetter: conjunto de cada letra inicial que as palavras contabilizadas deverão ter;
* case_sensitive: booleano que confirma se maiúsculas e minúsculas devem ser consideradas;
* ignore_punctuation: booleano que confirma se as pontuações do texto serão consideradas ou não.

###### Implementamos os métodos abstratos

Observemos a classe WordBasedFeature. A classe contém métodos abstratos que devem ser implementados nas classes filhas.

In [5]:
from feature.features import FeatureCalculator
from abc import abstractmethod

class WordBasedFeature(FeatureCalculator):

    @abstractmethod
    def checkWord(self,document,word):
        raise NotImplementedError

Como observado, a classe WordBasedFeature herda de FeatureCalculator. A classe FeatureCalculator também possui métodos abstratos que devem ser implementados. Abaixo o diagrama de classes que representa a estrutura de hierarquia.

![title](wbf.jpeg)

Em resumo, os métodos a serem implementados são checkWord, compute_feature e finish_document. O método checkWord é responsável por verificar cada palavra do texto. O método compute_feature é responsável por calcular o resultado da feature desejada, e o finish_document responsável por resetar as variáveis utilizadas no cálculo da feature.

Vamos implementar esses métodos na subclasse WordBasedFeature de exemplo.

In [6]:
class FirstLetterWordCount(WordBasedFeature):
    
    '''classe que contabiliza quantas palavras no texto iniciam com determinadas letras'''
    
    def __init__(self,name,description,reference,visibility,text_format,feature_time_per_document,setInicialLetter=None,case_sensitive=False,ignore_punctuation=False):
        super(WordBasedFeature,self).__init__(name,description,reference,visibility,text_format,feature_time_per_document)
        
        if(setInicialLetter==None):
            setInicialLetter = []
        if(not case_sensitive):
            setInicialLetter = [letter.lower() for letter in setInicialLetter]
        
        self.case_sensitive = case_sensitive
        self.setInicialLetter = set(setInicialLetter)
        self.int_word_counter = 0
        self.ignore_punctuation = ignore_punctuation
    
    def checkWord(self,document,word):
        '''caso a palavra for uma pontuação, ignorar'''
        if(self.ignore_punctuation and word in FeatureCalculator.word_divisors):
            return True
        
        if len(self.setInicialLetter) == 0 or word[0:1] in self.setInicialLetter or (not self.case_sensitive and word[0:1].lower() in self.setInicialLetter):
            self.int_word_counter = self.int_word_counter + 1
        return True
    
    def compute_feature(self,document):
        return self.int_word_counter

        
    def finish_document(self,document):
        self.int_word_counter = 0

Seguindo esses passos, é possível implementar uma feature WordBasedFeature.

### Testando a feature implementada

Para fazer o teste manual da classe implementada, executamos seus métodos nas suas respectivas funções. Abaixo um código de teste para a execução da feature, em teste unitário.

In [7]:
import unittest
from feature.features import FeatureVisibilityEnum, Document, FeatureCalculator
from utils.basic_entities import FormatEnum, FeatureTimePerDocumentEnum

class TestFeatureCalculator(unittest.TestCase):
    
    def testWordCountTest(self):

            wcount = FirstLetterWordCount("FirstLetterWordCount", "Conta o número de palavras do texto que se inicia com determinadas letras", 
                                             "Jupyter Notebook documentation", 
                                             FeatureVisibilityEnum.public, 
                                             FormatEnum.text_plain, 
                                             FeatureTimePerDocumentEnum.MILLISECONDS,["a","B"],
                                             case_sensitive=True)

            document = Document(1,"doc1","O texto nao precisa -necessariamente - ser o texto que sera testado")

            wcount.checkWord(document, "Oi")
            wcount.checkWord(document, ",")
            wcount.checkWord(document, "eu")
            wcount.checkWord(document, "sou")
            wcount.checkWord(document, "a")
            wcount.checkWord(document, "Bia")
            wcount.checkWord(document, "e")
            wcount.checkWord(document, "adoro")
            wcount.checkWord(document, "todos")
            wcount.checkWord(document, "bebês")
            int_result = wcount.compute_feature(document)
            print("Resultado: " + str(int_result) + " palavras")
            wcount.finish_document(document)
            self.assertEqual(int_result, 3, "Nao foi contabilizado o numero de palavras correto no teste do primeiro documento")

sys.argv = ['', 'TestFeatureCalculator.testWordCountTest']
unittest.main()

.

Resultado: 3 palavras



----------------------------------------------------------------------
Ran 1 test in 0.001s

OK


SystemExit: False

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


O resultado do compute_feature deve ser 3, assim como o teste unitário.