N-grams 
----------------------

## French Part

Les n grams sont utilisés dans le but de connaître le contexte d'un mot ou d'un groupe de mots dans un texte. Autrement dit, considérons une intelligence artificielle (ab. IA) qui souhaite connaître le sens de chaque mot dans un texte dans le but de prédire le sentiment que l'auteur a voulu exprimer. l'IA ne sera pas capable d'effectuer cette tâche sans une certaine connaîssance de la grammaire formelle. Cela est impossible à cause du nombre important de règles à adopter. C'est là que les n-grams vont entrer en jeu. Aulieu d'apprendre les règles de la grammaire francaise, l'IA va devoir essayer de reconnaitre des parties du texte qu'on lui fourni et non la globalité de ce dernier.

**Définition du n-gram d'un texte**: Le n-gram est un ensemble quelconque de n éléments contigues d'un texte. Cet élément peut-être :
- Un mot : On divise le texte en un ensemble de parties constituées de n mots par pas de 1 mot.
- Un caractère: On divise le texte en un ensemble de parties constituées de n caractères par pas de 1 caractère. 

Les éléments récupérés peuvent contenir ou pas de ponctuation(s) suivant la tâche que l'on souhaite accomplir.

**Définition de la tokénisation**: La tokénisation est la séparation d'un texte en un ensemble d'éléments unitaires. Il peut s'agîr :
- De la séparation du texte en mots,
- Ou en phrases séparées par des points. On peut effectuer la séparation par phrase pour ensuite effectuer la séparation par mot pour éviter les ponctuations ou pour analyser chaque phrase séparément.

Les éléments récupérés après tokénisation d'un texte (*tokens*) peuvent servir pour la constitution des n-grams.

**Les étiquettes**: Les étiquettes, en anglais pos-tag, représentent la grammaire hors contexte d'un texte à partir de ces tokens. Elle nous permettront notamment de choisir les n-grams ne contenant pas de ponctuation.

**Exemple simple**: Effectuons un exemple simple avec `nltk`.

Importons la librairie

In [1]:
import nltk

Initialisons un texte constituées de deux phrases

In [2]:
texte = "Les papiers sont stériles; L'audace et la romance semblent être passées à jamais dans le monde criminel. Pouvez-vous alors me demander si je suis prêt à examiner un problème nouveau, aussi insignifiant soit-il?"

Passons à la tokénisation du texte (en phrases puis en mots) sans considérer la ponctuation

Vu que nous utilisons un texte en francais, nous allons donc ajouter l'argument `language = "french"`

In [3]:
# phrases
phrases = nltk.sent_tokenize(texte, language="french") 

In [23]:
# mots
mots = []
ponctuations = ".,?!;"

# utilisation de tokéniseur utilisant des expressions régulières
tokenizer = nltk.RegexpTokenizer(r"[\w']+") # récupère uniquement les mots

for i, phrase in enumerate(phrases):
    mots.append(tokenizer.tokenize(phrase))

In [24]:
mots

[['Les',
  'papiers',
  'sont',
  'stériles',
  "L'audace",
  'et',
  'la',
  'romance',
  'semblent',
  'être',
  'passées',
  'à',
  'jamais',
  'dans',
  'le',
  'monde',
  'criminel'],
 ['Pouvez',
  'vous',
  'alors',
  'me',
  'demander',
  'si',
  'je',
  'suis',
  'prêt',
  'à',
  'examiner',
  'un',
  'problème',
  'nouveau',
  'aussi',
  'insignifiant',
  'soit',
  'il']]

Nous obtenons ci-dessus une liste de liste de mots pour une phrase du texte donné.

Voici une fonction qui récupère les n-grams

In [32]:
def get_n_grams(tokens: list, n: int = 2):
    n_grams = []
    for i in range(len(tokens) - n):
        n_grams.append(" ".join(tokens[i: i+n])) 
    return n_grams       

Nous allons pouvoir passer à l'affichage des n-grams:

- D'abord pour la première phrase par pas de 2

In [34]:
get_n_grams(mots[0], 2)

['Les papiers',
 'papiers sont',
 'sont stériles',
 "stériles L'audace",
 "L'audace et",
 'et la',
 'la romance',
 'romance semblent',
 'semblent être',
 'être passées',
 'passées à',
 'à jamais',
 'jamais dans',
 'dans le',
 'le monde']

- Ensuite pour la deuxième phrase par pas de 3

In [35]:
get_n_grams(mots[1], 3)


['Pouvez vous alors',
 'vous alors me',
 'alors me demander',
 'me demander si',
 'demander si je',
 'si je suis',
 'je suis prêt',
 'suis prêt à',
 'prêt à examiner',
 'à examiner un',
 'examiner un problème',
 'un problème nouveau',
 'problème nouveau aussi',
 'nouveau aussi insignifiant',
 'aussi insignifiant soit']