# NLTK : présentation

**NLTK :** *Natural Language ToolKit*

Librairie Python pour le traitement et l’analyse automatique du texte

**Documentation :** [http://www.nltk.org/](http://www.nltk.org/)

Une fois la librairie installée, il faut l’importer :

In [None]:
import nltk

Puis installer les outils nécessaires (corpus, grammaires…) avec la méthode `.download()` :

In [None]:
# nltk.download()

Exemple d’accès au corpus de textes [Gutenberg](http://www.gutenberg.org/) :

In [None]:
from nltk.corpus import gutenberg

Quels sont les textes disponibles ? Une exception `LookupError` est levée si la ressource est manquante. Dans le message d’erreur, la syntaxe à invoquer est proposée :

```python
import nltk
nltk.download('gutenberg')
```

In [None]:
gutenberg.fileids()

Combien de mots compte chaque texte ?

In [None]:
words = [
    len(gutenberg.words(text))
    for text in gutenberg.fileids()
]

print(words)

Accéder au texte brut :

In [None]:
raw = gutenberg.raw('austen-emma.txt')

À la liste des mots :

In [None]:
words = gutenberg.words('austen-emma.txt')

À la liste des phrases, découpées en liste de mots :

In [None]:
sents_words = gutenberg.sents('austen-emma.txt')

## Importer un corpus textuel

Les textes précédemment chargés sont des instances d’une classe `PlaintextCorpusReader` qui fournit les méthodes `.raw()`, `.words()` et `.sents()` sur chacun des textes du corpus.

Pour bénéficier de ces méthodes, il convient au préalable de créer une instance de cette classe :

In [None]:
from nltk.corpus import PlaintextCorpusReader

corpus = PlaintextCorpusReader('./data', '.*', encoding='utf8')

Accéder aux identifiants, au texte brut… :

In [None]:
corpus.fileids()

In [None]:
len(corpus.words('salammbo.txt'))

In [None]:
corpus.raw('dormeur-du-val.txt')

Et pour exclure par exemple le sous-dossier *allocine* :

In [None]:
# a filename with a "/" in it will be ignored
corpus = PlaintextCorpusReader('./data', '[^\/]*', encoding='utf8')

## Importer un corpus catégorisé

Si un corpus est organisé en sous-dossiers, peu importe le système de classement (par thème, par année…), la classe `CategorizedPlaintextCorpusReader` permet d’effectuer une importation de tout le corpus :

In [None]:
from nltk.corpus import CategorizedPlaintextCorpusReader

corpus = CategorizedPlaintextCorpusReader('./data/allocine', '.*', encoding='utf8', cat_pattern = r'(.*)[/]')

En plus des méthodes héritées de `PlaintextCorpusReader`, une méthode `.categories()` permet de refléter l’organisation du corpus :

In [None]:
[cat for cat in corpus.categories()]