Comando abaixo apenas para que seja possível importar os modulos corretamente

In [1]:
import sys
sys.path.append("../../")

# Criação de Features de Estilo

Nessa seção explicaremos como implementar as diferentes features de estilo.

## Como criar uma TextBasedFeature

Uma TextBasedFeature é uma classe de features textuais que calcula o resultado das métricas utilizando os caracteres do texto como parâmetro. Para criar uma feature textbased, fazemos:

###### Importamos os módulos necessários:

In [2]:
from feature.features import TextBasedFeature
import nltk
import nltk.data
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

###### Criamos a classe responsável pela feature:

In [3]:
class NoisyTextIndex(TextBasedFeature):
    '''Calcula o índice de noisy text de um documento'''
    
    def __init__(self,name,description,reference,visibility,text_format,feature_time_per_document):
        super(TextBasedFeature,self).__init__(name,description,reference,visibility,text_format,feature_time_per_document)
        self.str_stopword = set(stopwords.words("english"))
        self.int_stop_word = 0
        self.int_first_text = 0
        
    def remove(self,text):
        list_tokened_words = word_tokenize(text)
        list_filtered_text = [word for word in list_tokened_words if not word in self.str_stopword]
        return list_filtered_text

A classe de exemplo acima herda de TextBasedFeature. Seus atributo são:

* str_stopword: uma lista de stop words da língua inglesa;
* int_stop_word: número de palavras no texto sem stop words;
* int_first_text: número de palavras no texto inicial.

###### Implementamos os métodos abstratos

A classe TextBasedFeature não possui métodos abstratos a serem implementados, porém herda métodos da classe pai FeatureCalculator. Vejamos o diagrama de classes da estrutura de hierarquia.

![title](tbf.jpeg)

Em resumo, os métodos a serem implementados são compute_feature e finish_document. O método compute_feature é responsável por calcular o resultado da feature desejada, e o finish_document responsável por resetar as variáveis utilizadas no cálculo da feature.

Diferente das outras features de estilo, uma TextBasedFeature não tem o método "check" padrão. Isso pode ser explicado pela forma de referenciação do texto. Nas outras FeatureBased do projeto, os métodos eram executados várias vezes (por exemplo o checkWord, já que um texto possui várias palavras). Nesse caso, o texto é lido de uma só vez, podendo ser referenciado no método compute_feature de forma direta.

Vamos implementar esses métodos na subclasse TextBasedFeature de exemplo.

In [4]:
class NoisyTextIndex(TextBasedFeature):
    '''Calcula o índice de noisy text de um documento'''
    
    def __init__(self,name,description,reference,visibility,text_format,feature_time_per_document):
        super(TextBasedFeature,self).__init__(name,description,reference,visibility,text_format,feature_time_per_document)
        self.str_stopword = set(stopwords.words("english"))
        self.int_stop_word = 0
        self.int_first_text = 0
        
    def remove(self,text):
        list_tokened_words = word_tokenize(text)
        list_filtered_text = [word for word in list_tokened_words if not word in self.str_stopword]
        return list_filtered_text

    def compute_feature(self,document):
        first_text = word_tokenize(document.str_text)
        self.int_first_text = len(first_text)
        text_final = self.remove(document.str_text)
        self.int_stop_word = len(text_final)
        return self.int_stop_word/self.int_first_text

    def finish_document(self,document):
        self.int_stop_word = 0
        self.int_first_text = 0

Seguindo esses passos, é possível implementar uma feature TextBasedFeature.

### Testando a feature implementada

Para fazer o teste manual da classe implementada, executamos seus métodos nas suas respectivas funções. Abaixo um código de teste para a execução da feature, em teste unitário.

In [5]:
import unittest
from feature.features import FeatureVisibilityEnum, Document, FeatureCalculator
from utils.basic_entities import FormatEnum, FeatureTimePerDocumentEnum

class TestFeatureCalculator(unittest.TestCase):
    
    def testTextTest(self):

            textfeat = NoisyTextIndex("NoisyTextIndex", "Calcula o índice de noisy text de um documento", 
                                             "Jupyter Notebook documentation", 
                                             FeatureVisibilityEnum.public, 
                                             FormatEnum.text_plain, 
                                             FeatureTimePerDocumentEnum.MILLISECONDS)

            document = Document(1,"doc1","Hello, I am a friend.")
            
            int_result = textfeat.compute_feature(document)
            print("O índice de noisy text é " + str(int_result))
            textfeat.finish_document(document)
            self.assertAlmostEqual(int_result, 0.714, places=3, msg="O índice não foi calculado corretamente")
    
sys.argv = ['', 'TestFeatureCalculator.testTextTest']
unittest.main()


.

O índice de noisy text é 0.7142857142857143



----------------------------------------------------------------------
Ran 1 test in 0.012s

OK


SystemExit: False

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


O resultado do compute_feature deve aproximadamente 0.714, assim como o teste unitário.