# Extração de Características

A biblioteca `aibox-nlp` disponibiliza uma gama de características textuais para o Português em seu pacote `aibox.nlp.features`. Para utilizar completamente as características, é necessário instalar as dependências opcionais:

```bash
# Configuração do ambiente virtual...
$ python -m venv .venv
$ source .venv/bin/activate

# Instalando as dependências opcionais com o pip
$ pip install .[BR]
```

Para realizar obter os extratores, é possível instanciá-los diretamente ou utilizar o pacote `aibox.nlp.factory`, que possui facilidades para obter as diversas classes da biblioteca.

In [None]:
import json

from aibox.nlp.factory import get_extractor

In [None]:
# === Obtendo um único extrator ===
readability_extractor = get_extractor(['readabilityBR'])
extraction = readability_extractor.extract("O poeta modernista Oswald de Andrade relata, em \"Erro de Português\", que, sob um dia de chuva, o índio foi vestido pelo português - uma denúncia à aculturação sofrida pelos povos indígenas com a chegada dos europeus ao território brasileiro. Paralelamente, no Brasil atual, há a manutenção de práticas prejudiciais não só aos silvícolas, mas também aos demais povos e comunidades tradicionais, como os pescadores. Com efeito, atuam como desafios para a valorização desses grupos a educação deficiente acerca do tema e a ausência do desenvolvimento sustentável.")

print(json.dumps(extraction.as_dict(), indent=2, ensure_ascii=False))

In [None]:
# Também podemos obter os resultados da extração
#   como NumPy arrays e Tensores do Torch.
# Em ambos os casos, as características seguem a ordem
#   lexicográfica.
extraction.as_numpy()

In [None]:
extraction.as_tensor()

In [None]:
# === Extraindo múltiplas características de uma vez ===
readability_extractor = get_extractor(['readabilityBR', 
                                       'regencyBR', 
                                       'syntacticComplexityBR',
                                       'textualSimplicityBR'])
extraction = readability_extractor.extract("O poeta modernista Oswald de Andrade relata, em \"Erro de Português\", que, sob um dia de chuva, o índio foi vestido pelo português - uma denúncia à aculturação sofrida pelos povos indígenas com a chegada dos europeus ao território brasileiro. Paralelamente, no Brasil atual, há a manutenção de práticas prejudiciais não só aos silvícolas, mas também aos demais povos e comunidades tradicionais, como os pescadores. Com efeito, atuam como desafios para a valorização desses grupos a educação deficiente acerca do tema e a ausência do desenvolvimento sustentável.")

print(json.dumps(extraction.as_dict(), indent=2, ensure_ascii=False))

In [None]:
extraction.as_numpy()

In [None]:
extraction.as_tensor()