# 1 - Comprendre l'outil Google Colab

Google Colab permet à n'importe qui d'écrire et d'exécuter du code Python dans le navigateur.

Un document s'appelle un notebook ; derrière eux se trouvent des serveurs Linux.

Les notebooks peuvent être vus comme une succession de cellules.

Et ces cellules peuvent contenir trois types de contenu :

- Du code Python
- Du code Bash : https://en.wikipedia.org/wiki/Bash_(Unix_shell)
- Du texte, mis en forme avec du Markdown : https://www.markdownguide.org/cheat-sheet/


# 2 - Installation

Pour ce TP, vous aurez besoin de Python 3. Vous pouvez vérifier la version de Python du serveur Linux derrière votre notebook en exécutant cette ligne de commande Bash : `!python --version`.


*Note : pour que Colab sache qu'il doit exécuter du Bash, ces commandes doivent toujours être précédées d'un point d'exclamation.*

In [None]:
!python --version

Installez ensuite ces 3 paquets :

1. the Natural Language ToolKit (NLTK) : `pip install nltk`
2. Numpy : `pip install numpy`
3. Matplotlib : `pip install matplotlib`

In [None]:
!pip install nltk numpy matplotlib

# 3 - Familiarisation avec l’outil

## 3.1 - Python

Lorsque vous créez une cellule Python, le notebook attend que vous rédigiez du code et l'exécutiez.

Commençons par utiliser Python comme calculette.

Pour exécuter une cellule de code, vous devez cliquer sur le bouton Play à gauche de votre cellule.

Essayez ci-dessous :

In [None]:
4 * 10 + 2

Essayez quelques autres calculs avec les opérateurs `+ - *` et `/` par exemple.

In [None]:
86 / 2 - 1

Voyons à présent ce qui se passe si l’on tape une expression illogique comme `1 +`:

In [None]:
1 +

Python renvoie une **erreur de syntaxe** issue du *standard input* (stdin).

## 3.2 - NLTK

Commençons par importer le module NLTK et par télécharger quelques données de test.



In [None]:
import nltk

nltk.download('book')

Tapez ensuite la commande suivante pour charger
les textes (cela prend quelques secondes) :

In [None]:
from nltk.book import *

Chaque texte porte un nom qui permet de l’invoquer :

In [None]:
text1

In [None]:
text2

Nous pouvons à présent explorer ce corpus, par exemple pour chercher toutes les occurrence de
l’adjectif monstrous (monstrueux) en contexte dans Moby Dick :

In [None]:
text1.concordance("monstrous")

## 3.4 - Construire et tester la grammaire


*Note importante*: Vous ne devez pas comprendre le code ci-dessous. L'idée est de montrer comment nous pouvons parser un texte avec une grammaire. Si vous êtes familiers avec Python, n'hésitez pas à utiliser ce code pour tester votre grammaire.

In [None]:
from nltk import CFG, ChartParser, wordpunct_tokenize


def test_grammar(grammar, sentence):
    tokens = wordpunct_tokenize(sentence)
    cfg_grammar = CFG.fromstring(grammar)
    parser = ChartParser(cfg_grammar)
    try:
        parser_generator = parser.parse(tokens)
        tree_list = [t for t in parser_generator]
        print(f'{len(tree_list)} parsing found!\n'.upper())
        for i, tree in enumerate(tree_list):
            print(f'---- PARSING {i+1} ----')
            tree.pprint()
            print()
    except ValueError as ve:
        print(f'no parsing found!\n'.upper())
        print('>', ve)

In [None]:
grammar = """
S -> NP VP PP | NP VP
NP -> Det N | N
VP -> V NP PP | V NP
PP -> P NP
N -> 'John' | 'cake' | 'table'
V -> 'ate'
Det -> 'the'
P -> 'on' 
"""

In [None]:
test_grammar(grammar, 'John ate the cake on the table')

## 3.3 - Chart parser

In [None]:
# Ne fonctionne qu'en local (hors de Colab)

nltk.app.chartparser()