# Compilar Anotações para a Criação do Dataset de PLN

Formato de entrada:

```
dataset/
  - Semana{n}/{Anotações,Classes}/anotador{1,2}.jsonl
```

Formato de saída:
```
dataset/
  - docbin.spacy
```

In [1]:
%%capture
%pip install spacy~=3.4.1

In [2]:
from util import dataset

In [3]:
docs = dataset.create(
    path='./data',
    token_alignment='expand'
)

In [4]:
print(*docs[0].spans)

all narrative punctuation orthography plagiarism storyline semantic syntax stylistics morphology


## Salvando

In [5]:
dataset.save(docs, 'data/docbin.spacy')

# Limpando Dataset

(opcional) Dicionário do spellchecker em `data/usp-spell-wordfreq.gz` disponível no minio da biblioteca em utils/dictionary/

Regras usadas para seleção
- (anulado) O texto deve ter `menos de 20% de rasuras` (num_rasuras/num_palavras)
- (não alfabético) O texto deve ter `menos de 20%` de palavras `desconhecidas`
- (insulficiente) Textos devem ter `mais de 80 palavras` (sem considerar pontuações, este caso foi adicionado por causa de textos pequenos com muitas quebras de linha)
- (insulficiente) Textos devem ter `5 ou mais linhas`

In [6]:
from util import quality

In [7]:
good = quality.docs_viability(docs, 
    mispells = 0.20,
    erasures = 0.20,
    min_words = 80,
    min_lines = 5
)

In [8]:
print('docs:', len(docs))
print('good:', len(good))
print('ratio: {:.1%}'.format(len(good)/len(docs)))

docs: 307
good: 230
ratio: 74.9%


## Saving Cleaned DocBin

In [9]:
dataset.save(good, 'data/docbin-cleaned.spacy')