# Projet ChatBot

## Sommaire

- Rappel
- Problématique
- Sujet
- Outils
- Modalités
- Ressources

## Rappel

<p>
    Lors des 5 travaux précédents, vous avez-vu les bases de la NLP, <br/>
    vous avez exploré les différentes manières de traiter du texte et <br/>
    vous avez mis en place votre premier chatbot simpliste. 
</p>

## Problématique

<p>Le but de ce projet et de mettre en place un chatbot de type OK Google, Siri, Alexa,..</p>
<p>Dans ce projet vous aller créer un certain nombre de fonctions qui seront appliquées par un algorithme de reconnaissance vocale.<br>
Le programme prend en entrée un texte enregistré à l'aide d'un microphone et en sortie exécute une fonction adéquate à la demande énoncée</p>

<i><u>Exemple :</u><br>
Moi: "Montre moi un chat"<br>
ChatBot: "Ok je vous montre un chat" => Ouvre un navigateur avec une photo de chat.
</i>

## Sujet
En vous appuyant sur les TP précédemment vu en cours et les outils fournis votre chatbot devra être capable de :
- Prendre une entrée microphone
- Adapter la langue du chatbot en fonction de la demande en français ou en anglais
- Exécuter des fonctions macros à l'aide du fichier de configuration fourni
- Pouvoir exécuter au moins 4 fonctions distinctes
- Si la demande ne figure pas dans le fichier de configuration: Utiliser un chatbot extérieur afin de tenter de répondre à la demande

Fonctionnalités : 
- Ouvrir un navigateur pour la recherche en général (musique, etc...)
- Donner la météo, ou autre chose (API)
- Répondre à l'oral
- Répondre à une problématique médicale

<b>Un soin tout particulié sera donné à la conception</b>

> Soigner l'ergonomie

> Soigner la qualité du code

## Outils
Afin de vous aider à réaliser ce projet, je vous invite à regarder les librairies suivantes:
- SpeechRecognition<br>
https://pypi.org/project/SpeechRecognition/
- transformers<br>
https://pypi.org/project/transformers/2.1.0/
- gTTS<br>
https://pypi.org/project/gTTS/

## Modalités
- Travail en groupe de 2 ou 3
- Soutenance <b>technique</b> de fin de projet de 15 minutes avec rapport de 10 pages minimum
- A rendre avant le 03.04.2023 23:59
- Rapport à rendre avant le 10.04.2023 23:59
- Sous le nom: nGroupe_nom1_nom2_nom3_chatbot.ipynb

## Ressources

In [45]:
intent_browse = [
    "open the browser", "open the browser"
]

intent_news = [
    "to be informed", "be up-to-date", "be well-informed", "be knowledgeable", "be briefed", "be apprised", "be in the loop", "be in the know", "be versed", "be cognizant", "be acquainted with"
]

intent_medical =  [
    "relieve", "alleviate", "lessen", "ease", "mitigate", "reduce", "diminish", "assuage", "pacify", "soothe", "quell"
]


## Rendu

### FUNCTIONS

#### Initialisations

In [None]:
def initChatbot():
    # DO SOMETHING
    print("[+] - ChatBot initialized")
def initSpeechRecognition():
    # DO SOMETHING
    print("[+] - Speech Recognition initialized")

Interactions

### MAIN

In [None]:
if __name__ == "__main__":
    # Initialize
    print("######### INITIALIZATION #########")
    ## Speech Recognition
    print("[o] - Initializing Speech Recognition")
    sr = initSpeechRecognition()
    ## ChatBot
    print("[o] - Initializing ChatBot")
    chatbot = initChatbot()

In [18]:
working = False
print("######### START #########")

while(working):
    print("> Say something")

    # DO SOMETHING

    if("""SOMETHING"""):
        print("[+] - Speech Recognition success")
        print(">  You said: #SOMETHING")
        # DO SOMEWHAT
        
    else:
        print("[-] - Speech Recognition failed")
        print("> I didn't catch that.")
        working = False

print("######## EXIT #########")
print("[o] - Thanks for using me")
print("######### END #########")

######### START #########
######## EXIT #########
[o] - Thanks for using me
######### END #########


NORMAN

HOSS

JULIEN

In [41]:
import requests
import json
from bs4 import BeautifulSoup
import re
import re
import spacy
import nltk
nltk.download('stopwords')
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

from nltk.corpus import stopwords

stop_words = stopwords.words('english')
# Charger le modèle 'en' pour la langue anglaise
nlp = spacy.load('en_core_web_sm')

def preprocess(text, strip=True, lowercase=True, cleaning_digit_url=True, remove_stopwords=True, tokenization=True):

    if strip:
        # strip
        text = text.strip()

    if lowercase:
        # minuscule
        text = text.lower()

    if cleaning_digit_url:
        # Expression régulière pour identifier les URLs
        url_regex = r'http\S+'
        text = re.sub(url_regex, "URL", text)

        # Expression régulière pour identifier les chiffres
        digit_regex = r'\d+'
        text = re.sub(digit_regex, "DIGIT", text)

        # Expression régulière pour identifier les users
        user_regex = r'@\S+'
        text = re.sub(user_regex, "USER", text)

    if remove_stopwords:
        # suppression des mots vides
        filtered_words = [word for word in text.split() if word.lower() not in stop_words]
        text = ' '.join(filtered_words)

    if tokenization:
        # racinisation et lemmatisation
        nlp_output = nlp(text)
    
    return nlp_output


def remove_html_tags(text):
    """Supprime toutes les balises HTML d'une chaîne de caractères"""
    clean = re.compile('<.*?>')
    return re.sub(clean, '', text)

# Fonction pour récupérer les dernières actualités à partir de le Monde
def get_news():
    url = 'https://www.lemonde.fr/'
    headers = {'User-Agent': 'Mozilla/5.0'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, 'html.parser')
    news_items = soup.find_all(class_='article__title')
    # Delete all balise html in news_items
    news = []
    for item in news_items:
        news.append(remove_html_tags(str(item)))

    return '\n'.join(news)


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Julien\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [46]:
from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-e2m-intent")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-e2m-intent")

def get_intent(event, max_length=16):
  input_text = "%s </s>" % event
  features = tokenizer([input_text], return_tensors='pt')

  output = model.generate(input_ids=features['input_ids'], 
               attention_mask=features['attention_mask'],
               max_length=max_length)
  return remove_html_tags(tokenizer.decode(output[0])).strip()


The `xla_device` argument has been deprecated in v4.4.0 of Transformers. It is ignored and you can safely remove it from your `config.json` file.
The `xla_device` argument has been deprecated in v4.4.0 of Transformers. It is ignored and you can safely remove it from your `config.json` file.
The `xla_device` argument has been deprecated in v4.4.0 of Transformers. It is ignored and you can safely remove it from your `config.json` file.
The `xla_device` argument has been deprecated in v4.4.0 of Transformers. It is ignored and you can safely remove it from your `config.json` file.


In [47]:

def get_similarity_cosinus(question, corpus):
    corpus_token = [preprocess(q).text for q in corpus]

    phrase = preprocess(question).text
    vectorizer = TfidfVectorizer()

    # Calcul du vecteur tf-idf du corpus
    tfidf_corpus = vectorizer.fit_transform(corpus_token)

    # Calcul du vecteur tf-idf de la phrase d'exemple
    tfidf_phrase = vectorizer.transform([phrase])

    # Calcul de la similarité cosinus entre la phrase d'exemple et le corpus
    cosine_similarities = cosine_similarity(tfidf_phrase, tfidf_corpus).flatten()

    # Récupération de l'indice de la phrase la plus similaire
    most_similar_index = cosine_similarities.argmax()

    return cosine_similarities[most_similar_index]


def doAction():
    print("#####")

event = "What's the latest news on the world of gaming?"
intent = get_intent(event)

print(get_similarity_cosinus(intent, intent_news))

