# 1 - Comprendre l'outil Google Colab

Google Colab permet à n'importe qui d'écrire et d'exécuter du code Python dans le navigateur.

Un document s'appelle un notebook ; derrière eux se trouvent des serveurs Linux.

Les notebooks peuvent être vus comme une succession de cellules.

Et ces cellules peuvent contenir trois types de contenu :

- Du code Python
- Du code Bash : https://en.wikipedia.org/wiki/Bash_(Unix_shell)
- Du texte, mis en forme avec du Markdown : https://www.markdownguide.org/cheat-sheet/


# 2 - Installation

Pour ce TP, vous aurez besoin de Python 3. Vous pouvez vérifier la version de Python du serveur Linux derrière votre notebook en exécutant cette ligne de commande Bash : `!python --version`.


*Note : pour que Colab sache qu'il doit exécuter du Bash, ces commandes doivent toujours être précédées d'un point d'exclamation.*

In [1]:
!python --version

Python 3.7.10


Installez ensuite ces 3 paquets :

1. the Natural Language ToolKit (NLTK) : `pip install nltk`
2. Numpy : `pip install numpy`
3. Matplotlib : `pip install matplotlib`

In [2]:
!pip install nltk numpy matplotlib



# 3 - Familiarisation avec l’outil

## 3.1 - Python

Lorsque vous créez une cellule Python, le notebook attend que vous rédigiez du code et l'exécutiez.

Commençons par utiliser Python comme calculette.

Pour exécuter une cellule de code, vous devez cliquer sur le bouton Play à gauche de votre cellule.

Essayez ci-dessous :

In [5]:
4 * 10 + 2

42

Essayez quelques autres calculs avec les opérateurs `+ - *` et `/` par exemple.

In [6]:
86 / 2 - 1

42.0

Voyons à présent ce qui se passe si l’on tape une expression illogique comme `1 +`:

In [7]:
1 +

SyntaxError: ignored

Python renvoie une **erreur de syntaxe** issue du *standard input* (stdin).

## 3.2 - NLTK

Commençons par importer le module NLTK et par télécharger quelques données de test.



In [8]:
import nltk

nltk.download('book')

[nltk_data] Downloading collection 'book'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package brown to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown.zip.
[nltk_data]    | Downloading package chat80 to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/chat80.zip.
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cmudict.zip.
[nltk_data]    | Downloading package conll2000 to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/conll2000.zip.
[nltk_data]    | Downloading package conll2002 to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/conll2002.zip.
[nltk_data]    | Downloading package dependency_treebank to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/dependency_treebank.zip.
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    

True

Tapez ensuite la commande suivante pour charger
les textes (cela prend quelques secondes) :

In [9]:
from nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


Chaque texte porte un nom qui permet de l’invoquer :

In [10]:
text1

<Text: Moby Dick by Herman Melville 1851>

In [11]:
text2

<Text: Sense and Sensibility by Jane Austen 1811>

Nous pouvons à présent explorer ce corpus, par exemple pour chercher toutes les occurrence de
l’adjectif monstrous (monstrueux) en contexte dans Moby Dick :

In [12]:
text1.concordance("monstrous")

Displaying 11 of 11 matches:
ong the former , one was of a most monstrous size . ... This came towards us , 
ON OF THE PSALMS . " Touching that monstrous bulk of the whale or ork we have r
ll over with a heathenish array of monstrous clubs and spears . Some were thick
d as you gazed , and wondered what monstrous cannibal and savage could ever hav
that has survived the flood ; most monstrous and most mountainous ! That Himmal
they might scout at Moby Dick as a monstrous fable , or still worse and more de
th of Radney .'" CHAPTER 55 Of the Monstrous Pictures of Whales . I shall ere l
ing Scenes . In connexion with the monstrous pictures of whales , I am strongly
ere to enter upon those still more monstrous stories of them which are to be fo
ght have been rummaged out of this monstrous cabinet there is no telling . But 
of Whale - Bones ; for Whales of a monstrous size are oftentimes cast up dead u


## 3.3 - Chart parser

In [13]:
from nltk import CFG

In [14]:
# Ne fonctionne qu'en local (hors de Colab)

nltk.app.rdparser()

TclError: ignored

In [15]:
# Ne fonctionne qu'en local (hors de Colab)

nltk.app.chartparser()

grammar= (
('    ', 'S -> NP VP,')
('    ', 'VP -> VP PP,')
('    ', 'VP -> V NP,')
('    ', 'VP -> V,')
('    ', 'NP -> Det N,')
('    ', 'NP -> NP PP,')
('    ', 'PP -> P NP,')
('    ', "NP -> 'John',")
('    ', "NP -> 'I',")
('    ', "Det -> 'the',")
('    ', "Det -> 'my',")
('    ', "Det -> 'a',")
('    ', "N -> 'dog',")
('    ', "N -> 'cookie',")
('    ', "N -> 'table',")
('    ', "N -> 'cake',")
('    ', "N -> 'fork',")
('    ', "V -> 'ate',")
('    ', "V -> 'saw',")
('    ', "P -> 'on',")
('    ', "P -> 'under',")
('    ', "P -> 'with',")
)
tokens = ['John', 'ate', 'the', 'cake', 'on', 'the', 'table']
Calling "ChartParserApp(grammar, tokens)"...
Error creating Tree View


TclError: ignored

In [16]:
sentence = "John ate the cake on the table".split()

In [17]:
grammar_str = """
S -> NP VP PP | NP VP
NP -> Det N | N
VP -> V NP PP | V NP
PP -> P NP
N -> 'John' | 'cake' | 'table'
V -> 'ate'
Det -> 'the'
P -> 'on' 
"""

In [18]:
grammar = CFG.fromstring(grammar_str)

In [19]:
parser = nltk.ChartParser(grammar)

In [20]:
gen = parser.parse(sentence)

In [21]:
results = [g for g in gen]

In [22]:
len(results)

2

In [26]:
results[0].pprint()

(S
  (NP (N John))
  (VP (V ate) (NP (Det the) (N cake)))
  (PP (P on) (NP (Det the) (N table))))


In [25]:
results[1].pprint()

(S
  (NP (N John))
  (VP
    (V ate)
    (NP (Det the) (N cake))
    (PP (P on) (NP (Det the) (N table)))))


- https://www.nltk.org/book/ch08.html
- https://stackoverflow.com/questions/52107352/how-can-i-pretty-print-a-nltk-tree-object