In [1]:
#importation des packages de base :

import pandas as pd
import numpy as np
import streamlit as st


#import package nécessaire au prétraitement de texte :

from bs4 import BeautifulSoup

import nltk 
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.tokenize import word_tokenize, wordpunct_tokenize, RegexpTokenizer
from nltk.corpus import words, stopwords

#import des packages pour la prédiction :

from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.multiclass import OneVsRestClassifier

#import modeles : 
from sklearn.linear_model import  SGDClassifier
#import embedding : 
import tensorflow_hub as hub 
import pickle

#import package mise en page : 
from PIL import Image




# Organisation du notebook : 

### 1. Déclaration des fonctions nécessaire à notre modèle de prédiction
### 2. Mise en page de l'API avec le module Streamlite
### 3. Zone de test pour vérifier le bon fonctionnement de l'application

Seul les 1. et 2. seront transférés

# 1. Déclaration des fonctions :

In [2]:
###### Fonctions prétraitement de texte  : 

########### Fonction 1 : ###########
####################################

#fonction suppression des balises html : 

def clean_balise(text):
    soup = BeautifulSoup(text, 'html.parser')
    clean_text = soup.get_text()
    return clean_text
    
########### Fonction 2 : ###########
####################################


def preprocessing(txt, list_rare_words = None,
                  format_txt=False):

    """
    txt : contient le document au format str qui subira le preprocessing
    format_txt : Si True cela renvoie une chaine de caractère, sinon une liste
    list_rare_words : liste de token a fournir si on souhaite les supprimer
    """
    #tokenization et separation de la ponctuation
    tokens = nltk.wordpunct_tokenize(txt)
    
    #suppression ponctuation
    tokenizer = RegexpTokenizer(r"\w+")
    tokens = tokenizer.tokenize(txt)
    
    #suppression majuscule : 
    tokens = [w.lower() for w in tokens]
    
        
    #suppression des chiffres : 
    tokens = [w for w in tokens if not w.isnumeric()]

    
    #suppression stopwords : 
    stopw = nltk.corpus.stopwords.words("english")
    tokens = [w for w in tokens if w not in stopw]

    #Supprime les tokens fournie dans la liste en hyperparametres
    if list_rare_words:
        tokens = [w for w in tokens if w not in list_rare_words]

        
        
    #Lemmatization des mots s'ils n'appartiennent pas a la liste toptag : 
    lemm = WordNetLemmatizer()
    tmp_list = []

    for i in tokens:
        if i not in toptag: #si le token n'est pas dans la toptag liste alors on le lemmatize
            tmp_list.append(lemm.lemmatize(i))
        else: #sinon on conserve le token tel quel
            tmp_list.append(i)
    

    #Suppression des mots token qui ne sont pas des mots dans le dictionnaire anglais 
    #OU qui ne sont pas dans la liste des top tags à conserver :
    
    tokens = [w for w in tmp_list if w in eng_words or w in toptag]    
    
    
    if format_txt:
        tokens = " ".join(tokens)
    return tokens


########### Fonction 3 : ###########
####################################


#fonction d'application de notre prétraitement de texte :
def cleaning(doc):
    new_doc = preprocessing(doc, 
                            list_rare_words = None, 
                            format_txt=True, 
                             )
    return new_doc

In [3]:
#Fonction pour transformer le texte de l'utilisateur en feature compatible avec notre modèle de ML:
###########################################################

# Creation des features USE:
# Chargement du modèle USE :

embed = hub.load("https://tfhub.dev/google/universal-sentence-encoder/4")
def feature_USE_fct(sentence):
    import tensorflow_hub as hub
#     import tensorflow_text as text

    # Chargement du modèle USE
#     embed = hub.load("https://tfhub.dev/google/universal-sentence-encoder-multilingual-large/3")

    # Traitement de la phrase
    feat = embed([sentence])  # Passage de la phrase en tant que liste

    return feat


2023-05-24 10:03:09.343 INFO    absl: Using C:\Users\MohR9\AppData\Local\Temp\tfhub_modules to cache modules.


In [78]:
### Fonction qui, à partir du texte rentré par l'utilisateur, va retourner une prédiction de tag :

def applying(text):
    text = clean_balise(text) #utilisation des fonctions de prétraitement de text
    text = cleaning(text)
    text = feature_USE_fct(text) # transformation du texte en feature compatible avec notre modèle de prédiction
    text_USE = pd.DataFrame(text)
    prediction = sgd.predict(text_USE) #prediction du texte
    tag_pred = mlb.inverse_transform(prediction) #transformation de la target binarizée en target lisible 
    if len(tag_pred) == 0:
        return  "Le corps de votre texte ne contient pas de mot pertinent. Ressayez avec des termes plus techniques"
    else: return tag_pred #affichage des tags prédits

In [13]:
#### Chargement des fichiers : 
toptag = pickle.load(open("toptag.pkl","rb"))

eng_words = pickle.load(open("eng_words","rb"))

sgd = pickle.load(open("Model","rb"))

mlb = pickle.load(open("mlb","rb"))


# 2. Mise en page

In [83]:
# Titre : 
st.title("Keyword prediction tool Stackoverflow ") 


# Données entrées par l'utilisateur :
Title_input = st.text_input("Write the title of your request below")
input_body_utilisateurs = st.text_input("Enter the content of your request below ")

#Réponse de notre modèle : 

applying(input_body_utilisateurs)

### Ajout d'une image :
image = Image.open('logo.png')



2023-05-24 10:36:21.243 
  command:

    streamlit run C:\Users\MohR9\Anaconda3\lib\site-packages\ipykernel_launcher.py [ARGUMENTS]


 ## TEST ZONE

In [87]:
test = "I use to like coding with python, java or c++"
test2 = 'This is a test. I can program in c++, java and R'
test3 = "expert python could someone explain problem like collect supervisor http made different script print output bash php collect output without problem python work sh bin php php sleep echo test sh bin bash sleep echo item done sh test print output bin import time import import range time sleep print test write test print test supervisor file bash program command home user sh home user log php program command home user sh home user log python program command home user sh home user log thank much help driving crazy"
test4 = 'question whether use guarantee visibility field respect synchronized example following class field need declared volatile synchronized used class private double public synchronized void method double temp temp temp example using however volatile field necessary class b private final lock new private volatile double public void method lock lock try double temp temp temp finally lock know using volatile anyway likely impose performance would still like code correctly'

In [81]:
applying(test)

[('  c++', 'java', 'python')]

In [82]:
applying(test2)

[('  c++', 'java')]

In [80]:
applying(test3)

[('  cmd',)]

In [88]:
applying(test4)

[('  multithreading', 'c++', 'java')]

In [24]:
st.text(input_body_utilisateurs)

str