# CHATBOT INTELLIGENT USING NLP et machine learning

## BY SEZINE ARIELLE

#### La santé mentale fait référence à l'état de bien-être émotionnel, psychologique et social d'une personne. Elle influence la manière dont une personne pense, ressent, et agit, ainsi que sa capacité à gérer le stress, à nouer des relations et à prendre des décisions. La santé mentale est une composante essentielle de la santé globale et affecte tous les aspects de la vie d'une personne.

Développer un chatbot pour ***la santé mentale*** est crucial car il offre un accès immédiat et discret à un soutien psychologique, particulièrement pour les personnes qui peuvent hésiter à consulter un professionnel en raison de la stigmatisation ou des contraintes d'accessibilité. Les chatbots peuvent fournir des conseils, des ressources, et une écoute active 24/7, aidant ainsi à prévenir les crises en intervenant tôt. Ils permettent aussi de décharger les professionnels en offrant une première ligne de soutien, rendant les soins de santé mentale plus accessibles à un large public.

In [1]:
![sante_mentale]('mental_health.jfif')

# Analyse exploratoire

In [2]:
# import des bibliotheques necéssaires pour la manipulation des données
import pandas as pd
import json
#chargement des bibliotheques necessaires pour le nlp
import nltk
from nltk.tokenize import word_tokenize
import string
from nltk.stem import WordNetLemmatizer
from sklearn.preprocessing import LabelEncoder


# Télécharger les ressources 
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt')




In [3]:
#chargement des données
with open('KB.json','rb') as file:
    data=json.load(file)

In [4]:
### on transforme notre fichier json en dataframme pour le rendre plus lisible
df=pd.DataFrame(data['intents'])
df.info()

la cellule ci haut nous permet de voir qu'il ya une entité dictionnaire ou on a mal nomée le champ responses on va donc le renomer

In [5]:
# recherche de l'index ou s'est produit l'erreur
for i,elt in enumerate(df['response']):
        print(f'{i}------------{elt}')


In [6]:
# on se rassure que dans cha

In [7]:
df["responses"][23]

# preprocessing

In [8]:
#ayant remarquer que cette erreur s'est produite a la l'index 23, on la corrige
df["responses"][23]=df["response"][23]

In [9]:
df["responses"][23]

In [10]:
df.info()

In [11]:
# on supprime la colonne response qui ne sera par suite d'aucune utilité
df=df.drop(columns=['response'])
df

Afin de créer nos données d’entraînement, nous devons d’abord effectuer certaines opérations sur nos données telles que :

- Créer un vocabulaire de tous les mots utilisés dans les patterns 

- Créer une liste des classes – Il s’agit simplement des tags de chaque intention.

- Créer une liste de tous les patterns dans le fichier des intentions.

- Créer une liste de touts les tags associés à chaque pattern dans le fichier intents.

In [12]:
classes=[]
vocabulary=[]
patterns=[]
tags=[]

for intent in data["intents"]: 
    for pattern in intent['patterns']:
        tokens=word_tokenize(pattern.lower())
        for mot in tokens:
            if mot not in vocabulary:
                vocabulary.append(mot)
                
    patterns.extend(intent['patterns'])

    tags.append(intent['tag'])

    if intent['tag'] not in classes:
        classes.append(intent['tag'])

In [13]:
len(classes)

In [14]:
len(vocabulary)

In [15]:
vocabulary=[mot for mot in vocabulary if mot not in string.punctuation]
len(vocabulary)

In [16]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

In [17]:
vocabulary=[mot for mot in vocabulary if mot not in stop_words]
len(vocabulary)

### lemmatisation des mots du vocabulaire

La lemmatisation est le processus de transformation d'un mot sous sa forme de base ou de "lemme", qui est la forme canonique ou le dictionnaire d'un mot. Contrairement à la racinisation (stemming), qui coupe les suffixes pour réduire un mot à sa racine, la lemmatisation utilise des règles linguistiques et des bases de données lexicales pour transformer un mot en une forme valide grammaticalement.En utilisant les lemmes, les algorithmes de NLP peuvent mieux comprendre le contexte d'un texte, ce qui est essentiel pour des tâches comme la classification de texte

Exemples :

- "running" devient "run"
- "better" devient "good"
- "geese" devient "goose"

In [18]:
import nltk
from nltk.stem import WordNetLemmatizer
from sklearn.preprocessing import LabelEncoder
# Télécharger les ressources nécessaires pour lemmatizer (si ce n'est pas déjà fait)
nltk.download('wordnet')
nltk.download('omw-1.4')



In [19]:
# Initialiser le lemmatizer
lemmatizer = WordNetLemmatizer()
# Appliquer le lemmatizer
vocabulary_final = [lemmatizer.lemmatize(word) for word in vocabulary]

### Encodage de la target 

In [20]:

# Initialiser le Label Encoder
label_encoder = LabelEncoder()

# Convertir les étiquettes catégorielles en valeurs numériques
labels_numeriques = label_encoder.fit_transform(classes)
print(labels_numeriques)

In [21]:
dic = {"tag":[], "patterns":[], "responses":[]}
for i in range(len(df)):
    ptrns = df[df.index == i]['patterns'].values[0]
    rspns = df[df.index == i]['responses'].values[0]
    tag = df[df.index == i]['tag'].values[0]
    for j in range(len(ptrns)):
        dic['tag'].append(tag)
        dic['patterns'].append(ptrns[j])
        dic['responses'].append(rspns)
        
df = pd.DataFrame.from_dict(dic)
df


#### on doit maintenant mettre les patterns dans un format adequat en:
- rendant tout en miniscule
- tokenisant le texte
- supprimant les stopwords
- lemmatisant le texte

In [22]:
df.shape[0]

In [23]:
list(df['patterns'])

In [24]:
cleaned_patterns=[]
def preprocessing_patterns(df):
    for i in range (df.shape[0]):
        texte=df['patterns'][i]
        texte=texte.lower()
        tokens=word_tokenize(texte)
        tokens_no_punk=[mot for mot in tokens if mot not in stop_words]
        tokens_lem=[lemmatizer.lemmatize(mot) for mot in tokens_no_punk]
        tokens_char=' '.join(tokens_lem)
        cleaned_patterns.append(tokens_char)
        return cleaned_patterns

In [25]:
cleaned_patterns=preprocessing_patterns(df)
cleaned_patterns

###  on commencera par subdiviser notre ensembe de donné en X et y:
 - X pour les patterns ou messages que nos utilisateurs peuvent taper,
 - y pour le tag, categorie a laquelle appartient le pattern ou message

In [26]:
len(classes)