# Extração de Características

A biblioteca `aibox-nlp` disponibiliza uma gama de características textuais para o Português em seu pacote `aibox.nlp.features`. Para utilizar completamente as características, é necessário instalar as dependências opcionais:

```bash
# Configuração do ambiente virtual...
$ python -m venv .venv
$ source .venv/bin/activate

# Instalando as dependências opcionais com o pip
$ pip install .[BR]
```

Para realizar obter os extratores, é possível instanciá-los diretamente ou utilizar o pacote `aibox.nlp.factory`, que possui facilidades para obter as diversas classes da biblioteca.

In [1]:
import json

from aibox.nlp.factory import get_extractor

In [2]:
# === Obtendo um único extrator ===
readability_extractor = get_extractor(['readabilityBR'])
extraction = readability_extractor.extract("O poeta modernista Oswald de Andrade relata, em \"Erro de Português\", que, sob um dia de chuva, o índio foi vestido pelo português - uma denúncia à aculturação sofrida pelos povos indígenas com a chegada dos europeus ao território brasileiro. Paralelamente, no Brasil atual, há a manutenção de práticas prejudiciais não só aos silvícolas, mas também aos demais povos e comunidades tradicionais, como os pescadores. Com efeito, atuam como desafios para a valorização desses grupos a educação deficiente acerca do tema e a ausência do desenvolvimento sustentável.")

print(json.dumps(extraction.as_dict(), indent=2, ensure_ascii=False))

{
  "adapted_dalechall": 5.104267829457364,
  "brunet_indice": 9.066469756208491,
  "flesch_indice": 30.863914728682204,
  "gunning_fox_indice": 11.606201550387597,
  "honore_statistics": 1373.4939003829327,
  "readibility_indice": 18.04158914728682,
  "token_var_idx": 105.73048512895602
}


In [3]:
# Também podemos obter os resultados da extração
#   como NumPy arrays e Tensores do Torch.
# Em ambos os casos, as características seguem a ordem
#   lexicográfica.
extraction.as_numpy()

array([   5.1042676,    9.06647  ,   30.863914 ,   11.606201 ,
       1373.4939   ,   18.04159  ,  105.730484 ], dtype=float32)

In [4]:
extraction.as_tensor()

tensor([   5.1043,    9.0665,   30.8639,   11.6062, 1373.4939,   18.0416,
         105.7305])

In [5]:
# === Extraindo múltiplas características de uma vez ===
readability_extractor = get_extractor(['readabilityBR', 
                                       'regencyBR', 
                                       'syntacticComplexityBR',
                                       'textualSimplicityBR'])
extraction = readability_extractor.extract("O poeta modernista Oswald de Andrade relata, em \"Erro de Português\", que, sob um dia de chuva, o índio foi vestido pelo português - uma denúncia à aculturação sofrida pelos povos indígenas com a chegada dos europeus ao território brasileiro. Paralelamente, no Brasil atual, há a manutenção de práticas prejudiciais não só aos silvícolas, mas também aos demais povos e comunidades tradicionais, como os pescadores. Com efeito, atuam como desafios para a valorização desses grupos a educação deficiente acerca do tema e a ausência do desenvolvimento sustentável.")

print(json.dumps(extraction.as_dict(), indent=2, ensure_ascii=False))

{
  "adapted_dalechall": 5.104267829457364,
  "adverbs_before_main_verb_ratio": 0.25,
  "brunet_indice": 9.066469756208491,
  "clauses_per_sentence": 1.3333333333333333,
  "coord_conj_ratio": 1.0,
  "coordinate_conjunctions_per_clauses": 0.75,
  "dialog_pron_ratio": 0,
  "easy_conj_ratio": 0.12790697674418605,
  "flesch_indice": 30.863914728682204,
  "gunning_fox_indice": 11.606201550387597,
  "hard_conj_ratio": 0.023255813953488372,
  "honore_statistics": 1373.4939003829327,
  "infinite_subordinate_clauses": 0.3333333333333333,
  "long_sentence_ratio": 1.0,
  "medium_long_sentence_ratio": 0.0,
  "medium_short_sentence_ratio": 0.0,
  "nominal_regency_score": 1.0,
  "passive_ratio": 0.5,
  "readibility_indice": 18.04158914728682,
  "sentences_with_1_clauses": 2,
  "sentences_with_2_clauses": 1,
  "sentences_with_3_clauses": 0,
  "sentences_with_4_clauses": 0,
  "sentences_with_5_clauses": 0,
  "sentences_with_6_clauses": 0,
  "sentences_with_7_clauses": 0,
  "short_sentence_ratio": 0.0,

In [6]:
extraction.as_numpy()

array([5.10426760e+00, 2.50000000e-01, 9.06647015e+00, 1.33333337e+00,
       1.00000000e+00, 7.50000000e-01, 0.00000000e+00, 1.27906978e-01,
       3.08639145e+01, 1.16062012e+01, 2.32558139e-02, 1.37349390e+03,
       3.33333343e-01, 1.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       1.00000000e+00, 5.00000000e-01, 1.80415897e+01, 2.00000000e+00,
       1.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       1.19303536e+00, 0.00000000e+00, 1.05730484e+02, 1.00000000e+00,
       6.00000000e+00], dtype=float32)

In [7]:
extraction.as_tensor()

tensor([5.1043e+00, 2.5000e-01, 9.0665e+00, 1.3333e+00, 1.0000e+00, 7.5000e-01,
        0.0000e+00, 1.2791e-01, 3.0864e+01, 1.1606e+01, 2.3256e-02, 1.3735e+03,
        3.3333e-01, 1.0000e+00, 0.0000e+00, 0.0000e+00, 1.0000e+00, 5.0000e-01,
        1.8042e+01, 2.0000e+00, 1.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 1.1930e+00, 0.0000e+00,
        1.0573e+02, 1.0000e+00, 6.0000e+00])