# Charger un corpus de mots étiquetés

## Corpus pré-installés

NLTK est livré avec des corpus étiquetés (*Brown*, *Penn Treebank*…) et des outils pour les interroger efficacement. Si un corpus n’est pas installé, utiliser la routine `nltk.download()` pour le télécharger.

In [None]:
from nltk.corpus import brown

Les corpus héritent tous d’une classe `CorpusReader` livrées avec des méthodes pour lister les mots, les phrases ou encore une liste des mots étiquetés :
- `.words() `: liste de mots
- `.sents() `: liste des phrases
- `.paras() `: liste des paragraphes
- `.tagged_words() `: liste des mots étiquetés
- `.tagged_sents() `: liste de phrases avec la liste de leurs mots étiquetés
- `.tagged_paras() `: liste de paragraphes avec la liste de leurs phrases et de leurs mots étiquetés
- `.raw() `: contenu brut

Pour les utiliser, il suffit de leur transmettre un identifiant de fichier que l’on peut obtenir avec `.fileids()` :

In [None]:
# all ids
file_ids = brown.fileids()
# get a file
file_id = file_ids[0]
# print the tagged sents
brown.tagged_sents(file_id)

## Corpus personnalisés

NLTK propose également une classe (`TaggedCorpusReader`) pour charger un corpus étiqueté personnalisé afin de le manipuler directement avec les mêmes outils.

### French Treebank

Dans le dossier *ftb* se trouvent quatre fichiers qui forment un extrait dans une version appauvrie au format *word/tag* du [*French Treebank*](http://ftb.linguist.univ-paris-diderot.fr/) (FTB).

In [None]:
from nltk.corpus.reader import TaggedCorpusReader

# import ftb as a TaggedCorpusReader
reader = TaggedCorpusReader('./data/ftb', r'.*\.pos')

# all ids
file_ids = reader.fileids()
# get a file
file_id = file_ids[0]
# print first tagged sent
reader.tagged_sents()[0]

**Remarque :** le jeu d’étiquettes est différent de celui employé pour le corpus *Brown*. La [documentation officielle du FTB](http://ftb.linguist.univ-paris-diderot.fr/treebank.php?fichier=documentation) permet de saisir la nomenclature.

### Configuration manuelle

La classe `TaggedCorpusReader` vient avec des options de personnalisation pour :
- la segmentation en mots (défaut : espace)
- la segmentation en phrases (défaut : `\n`)
- le séparateur entre le token et son étiquette (défaut : */*)
- le séparateur entre les paragraphes (défaut : ligne vierge)

Par exemple, pour indiquer formellement que dans le corpus FTB chaque phrase est sur une ligne différente :

In [None]:
from nltk.tokenize import LineTokenizer

reader = TaggedCorpusReader('./data/ftb', r'.*\.pos', sent_tokenizer=LineTokenizer())

reader.sents()[0]