# Eliza Chatbot

## Les regex dans le NLP

In [4]:
import re
texte = """
Paul est né le 12-05-1982 et Marie le 03/04/1990. Ils se sont rencontrés le 23 Septembre 2010.
"""

# Regex pour identifier les dates
pattern = r'\b(?:\d{2}/\d{2}/\d{4}|\d{2}-\d{2}-\d{4}|\d{1,2} [a-zA-Z]+ \d{4})\b'

# Recherche des dates dans le texte
dates = re.findall(pattern, texte)

print("Dates trouvées :", dates)

# Résultat à obtenir: Dates trouvées : ['12-05-1982', '03/04/1990', '23 Septembre 2010']

Dates trouvées : ['12-05-1982', '03/04/1990', '23 Septembre 2010']


## Limites des Regex en NLP

In [5]:
texte = """
Ce dimanche 19 novembre 2023 (19-11-23) marque une date historique pour T1, qui s'impose majestueusement avec un score de 3-0 contre Weibo Gaming.
Faker était en 06-01-09.
"""

# Regex pour identifier les dates
pattern = r'\b(?:\d{2}/\d{2}/\d{4}|\d{2}-\d{2}-\d{4}|\d{1,2} [a-zA-Z]+ \d{4})\b'

# Recherche des dates dans le texte
dates = re.findall(pattern, texte)

print("Dates trouvées :", dates)

Dates trouvées : ['19 novembre 2023']


## ELIZA Chatbot

Pour créer un chatbot simple similaire à ELIZA basé sur les regex et les exemples fournis, nous allons écrire un script Python qui utilise des expressions régulières pour reconnaître des motifs spécifiques dans les entrées de l'utilisateur et y répondre de manière appropriée. Nous allons utiliser les patrons de réponse que vous avez fournis pour définir les règles du chatbot

In [12]:
import re

def eliza_chatbot(user_input):
    # TODO: Implementez vos règles pour identifier les patterns
    # Exemple si "always" est detecté, vous pouvez retourner: "CAN YOU THINK OF A SPECIFIC EXAMPLE"
    patterns_responses = [
        (r"I am (.*)", ["Why do you think you are {}?", "Can you tell me more about being {}?"]),
        (r"It feels like everyone is (.*)", ["Tell me more about why you feel everyone is {}."]),
        (r"My (.*) is always (.*)", ["Why do you think your {} is always {}?"]),
        (r"I think my (.*) doesn't (.*)", ["Why do you think your {} doesn't {}?"]),
        (r"I need (.*)", ["Why do you need {}?", "Can you elaborate on why you need {}?"]),
        (r"My (.*) never (.*)", ["Why do you think your {} never {}?"])
    ]
    # Parcourez les motifs et vérifiez s'il y a une correspondance
    for pattern, responses in patterns_responses:
        match = re.match(pattern, user_input, re.IGNORECASE)
        if match:
            response = responses[0]  # Choisissez la première réponse pour la simplicité
            return response.format(*match.groups())

    return "Tell me more about that."

# Exemple d'utilisation
user_input = input("You: ")
print("ELIZA: " + eliza_chatbot(user_input))

# Testez:
# I am sad today.
# It feels like everyone is always ignoring me.
# My boyfriend is always late.
# I think my father doesn't understand me.
# I need more help.
# My sister nerver supports me.

You: It feels like everyone is ignoring me
ELIZA: Tell me more about why you feel everyone is ignoring me.


# Concepts Clés en Traitement Automatique du Langage Naturel

## Tokenisation

La tokenisation est le processus de découpage d'un texte en morceaux, appelés tokens. Ces tokens sont souvent des mots, mais peuvent aussi inclure des ponctuations et d'autres éléments. La tokenisation est une étape fondamentale en TALN car elle permet de préparer le texte pour des analyses plus approfondies.

In [13]:
!pip install -q nltk

In [14]:
%%capture
import nltk
# Données pour la Tokenisation
nltk.download('punkt')
# Données pour le pos_tagging
nltk.download('averaged_perceptron_tagger')

### Essayer de tokeniser une phrase.

In [15]:
import nltk
from nltk.tokenize import word_tokenize

texte = "The quick brown foxes were jumping over the lazy dogs. #animals"

# Tokenisation du texte
tokens = word_tokenize(texte)

# Affichage des tokens
print(tokens)

['The', 'quick', 'brown', 'foxes', 'were', 'jumping', 'over', 'the', 'lazy', 'dogs', '.', '#', 'animals']


### Utilisez le TweetTokenizer de nltk pour voir la différence.

In [17]:
from nltk.tokenize import TweetTokenizer

texte = "The quick brown foxes were jumping over the lazy dogs. #animals"

# Créer une instance de TweetTokenizer
tweet_tokenizer = TweetTokenizer()

# Tokenisation du texte
tweet_tokens = tweet_tokenizer.tokenize(texte)

print(tweet_tokens)

['The', 'quick', 'brown', 'foxes', 'were', 'jumping', 'over', 'the', 'lazy', 'dogs', '.', '#animals']


## POS-tagging (Part-of-Speech Tagging)

Le POS-tagging est le processus d'assignation de tags de parties du discours (comme nom, verbe, adjectif, etc.) à chaque token d'un texte. Cela est utile pour comprendre la structure grammaticale d'une phrase et pour d'autres analyses syntaxiques.

In [19]:
from nltk import pos_tag
from nltk.tokenize import word_tokenize

texte = "The quick brown foxes were jumping over the lazy dogs."

# Tokenisation du texte
tokens = word_tokenize(texte)

# POS-tagging des tokens
pos_tags = pos_tag(tokens)

# Affichage des résultats
print(pos_tags)

[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('foxes', 'NNS'), ('were', 'VBD'), ('jumping', 'VBG'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dogs', 'NNS'), ('.', '.')]


## Stemming

Explorez la racinisation (Porter).

In [20]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

texte = "The quick brown foxes were jumping over the lazy dogs."

# Tokenisation du texte
tokens = word_tokenize(texte)

# Initialisation du PorterStemmer
porter_stemmer = PorterStemmer()

# Application de la racinisation sur chaque token
stems = [porter_stemmer.stem(token) for token in tokens]

# Affichage des résultats
print(stems)


['the', 'quick', 'brown', 'fox', 'were', 'jump', 'over', 'the', 'lazi', 'dog', '.']


## Lemmatisation

In [21]:
%%capture
nltk.download('wordnet')

Explorez la Lemmatisation et la différence avec le Stemming

In [22]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

texte = "The quick brown foxes were jumping over the lazy dogs."

# Tokenisation du texte
tokens = word_tokenize(texte)

# Initialisation du WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

# Application de la lemmatisation sur chaque token
lemmas = [lemmatizer.lemmatize(token) for token in tokens]

# Affichage des résultats
print(lemmas)


['The', 'quick', 'brown', 'fox', 'were', 'jumping', 'over', 'the', 'lazy', 'dog', '.']


Améliorez la Lemmatisation avec les POS-tags

In [23]:
from nltk import pos_tag
from nltk.tokenize import word_tokenize
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    return tag_dict.get(tag, wordnet.NOUN)

texte = "The quick brown foxes were jumping over the lazy dogs."

# Tokenisation du texte
tokens = word_tokenize(texte)

# Initialisation du WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

# Lemmatisation en tenant compte du POS-tagging
lemmatized = [lemmatizer.lemmatize(token, get_wordnet_pos(token)) for token in tokens]

# Affichage des résultats
print(lemmatized)

['The', 'quick', 'brown', 'fox', 'be', 'jumping', 'over', 'the', 'lazy', 'dog', '.']
