# Études pour le model 1 :

Notre étude va se dérouler en plusieurs parties. 

1. Mise en place d'un modèle de base :

    **pre_traitement()**

    Entrée : nos csv
    
    Sortie : Une matrice contenant les données que nous pensons utile pour ce modèle après avoir enlevé les stop_words, la ponctuation et les majuscules.

    
    **Choix d'un modèle de base**

    **genere_embedding()**

    Entrée : la sortie de pre_traitement()
    
    Sortie : stock dans un fichier les embeddings correspondant à nos solutions.

    **find_solution()**

    Entrée : secteur, description

    Sortie : Une liste des meilleures solutions classés dans l'orde. On peut imaginer mettre une limite par exemple distance cos > 0.65

    **Tester conso dans gaia**

2. Creation d'un Test set 

    **Creation du test_set**

    On génère des description et domaine d'activité en fonction des infos de solution avec GPT4. On génère différent niveau de précision par solution.

    **test_model()**

    Entrée : find_solution() de notre modèle et test_set.

    Sortie : On renvoie une accuracy. On considère que si le modèle prédit la bonne solution dans son top 3 sol, c'est validé.

3. Test de différents modèles. L'idée est d'avoir un tableau avec la conso, l'accuracy et le model pour expliquer pourquoi on a pris celui-ci plutôt qu'un autre.

    **Faire un tableau de tests**
    
    Tester différents modèles et type de modèles, Word2Vec, FastText, SentenceTransformers (plusieurs).
    
    **Test Fine tuning**
    
    Fine tunner le meilleur pour voir le résultat.

    **Si temps, on peut même tenter d'entrainer un modèle sur notre test set avec notre méthode**



# 1. Mise en place d'un modèle de base

## Chargement des données

Selection données à utiliser et création dataset :

Ici on souhaite récupérer toutes les données pertinentes pour nos solutions et les concaténer afin d'avoir un dataset : [num_sol, données_pertinentes]

Voir si on prend plus de données par la suite en ajoutant les technologies.

In [30]:
!pip install pandas



In [83]:
import pandas as pd

# Charger le fichier CSV en spécifiant le séparateur '|'
df = pd.read_csv('../data/solutions.csv', sep='|', header=None)

# Renommer les colonnes
df.columns = ['id_solution', 'categorie', 'texte']

# Filtrer les lignes pour les catégories spécifiées
categories_specifiees = [1, 2, 5, 6]
df_filtre = df[df['categorie'].isin(categories_specifiees)]

# Pivoter les données pour obtenir les colonnes 'titre', 'definition', 'application' et 'bilan énergie'
df_pivot = df_filtre.pivot(index='id_solution', columns='categorie', values='texte').reset_index()

# Renommer les colonnes
df_pivot.columns = ['id_solution', 'titre', 'definition', 'application', 'bilan_energie']

# Afficher le dataset final
# print(df_pivot)

      id_solution  \
0               2   
1               3   
2               4   
3               5   
4               6   
...           ...   
1095         1710   
1096         1711   
1097         1712   
1098         1713   
1099         1714   

                                                                                        titre  \
0                         Installation frigorifique négative de type cascade utilisant du CO2   
1                                                           Centrale négative en mode booster   
2          Arrêt des compresseurs le week end et lorsque le besoin de refroidissement est nul   
3                                              Régulation non électronique sur un compresseur   
4                                                  Condenseur frigorifique à haute efficacité   
...                                                                                       ...   
1095                                  Favoriser la communication dig

In [86]:
# Ajouter un point à la fin des colonnes si nécessaire
colonnes = ['titre', 'definition', 'application', 'bilan_energie']
for col in colonnes:
    df_pivot[col] = df_pivot[col].apply(lambda x: x.strip() + '.' if isinstance(x, str) and x.strip()[-1] != '.' else x.strip() if isinstance(x, str) else x)

# Gérer les valeurs NaN lors de la fusion des colonnes
def combine_text(row):
    text_parts = [row[col] for col in colonnes if pd.notnull(row[col])]
    return ' '.join(text_parts)

# Appliquer la fonction pour créer la nouvelle colonne 'text'
df_pivot['text'] = df_pivot.apply(combine_text, axis=1)

# Sélectionner uniquement les colonnes 'id_solution' et 'text'
df_final = df_pivot[['id_solution', 'text']]

# Afficher le DataFrame final
print(df_final)

      id_solution  \
0               2   
1               3   
2               4   
3               5   
4               6   
...           ...   
1095         1710   
1096         1711   
1097         1712   
1098         1713   
1099         1714   

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           

In [124]:
# Configure Pandas pour afficher le contenu complet des cellules
pd.set_option('display.max_colwidth', None)

# Afficher la solution avec l'ID 2
solution_id = df_final[df_final['id_solution'] == 54]
print(solution_id)

    id_solution  \
48           54   

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 

## Pré-traitement et nettoyage des données

In [46]:
!pip install spacy bs4

Collecting spacy
  Downloading spacy-3.7.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Downloading spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Downloading spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.10-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.0 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.8-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.4 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.9-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.2 kB)
Collecting thinc<8.3.0,>=8.2.2 (from spacy)
  Downloading thinc-8.2.3-cp311-cp311-manylinux_2_17_x86_

In [71]:
import re
import unicodedata
import spacy
from bs4 import BeautifulSoup
from spacy.lang.fr.stop_words import STOP_WORDS

# Charger le modèle spaCy pour le français
nlp = spacy.load("fr_core_news_sm")

def pre_processing(texte):
    # Nettoyer HTML Tags
    texte = BeautifulSoup(texte, 'html.parser').get_text()

    # Remplacer "&nbsp;." par rien
    texte = re.sub(r'&nbsp;\.', '', texte)

    # Accents
    texte = unicodedata.normalize('NFD', texte).encode('ascii', 'ignore').decode("utf-8")

    # Retirer les numéros
    texte = re.sub(r'\b\d+\b', '', texte)

    # Tokenization, Lemmatization, Removing Stopwords, Lowercase
    doc = nlp(texte)
    phrases_propres = []
    for phrase in doc.sents:
        tokens = [token.lemma_.lower() for token in phrase if not token.is_stop and not token.is_punct and not token.is_space]
        phrase_propre = ' '.join(tokens)
        if phrase_propre:
            phrases_propres.append(phrase_propre + ".")  # Ajouter un point à la fin de la phrase propre

    # Joining the cleaned sentences back into a single string
    cleaned_text = ' '.join(phrases_propres)

    return cleaned_text

# Exemple d'utilisation
texte_original = "Ce texte contient des &nbsp;. &nbsp;. balises HTML, des caractères spéciaux comme des accents ééèà, des chiffres 123, et de la ponctuation ! ? Cette phrase a un point. Et une autre test aussi."
texte_pre_traite = pre_processing(texte_original)
print("Texte original:")
print(texte_original)
print("\nTexte pré-traité:")
print(texte_pre_traite)


Texte original:
Ce texte contient des &nbsp;. &nbsp;. balises HTML, des caractères spéciaux comme des accents ééèà, des chiffres 123, et de la ponctuation ! ? Cette phrase a un point. Et une autre test aussi.

Texte pré-traité:
texte contenir. balise html caractere special accent eeeer chiffre ponctuation. phrase point. test.


In [74]:
text_solution = solution_id['text'].iloc[0]
print(text_solution)

text_pre_traite = pre_processing(text_solution)
print(text_pre_traite)

Moteur à haut rendement. Il existe plusieurs catégories de performance des moteurs selon leur rendement, qui s'appellent IE1 et IE2 en Europe. Depuis mi 2011, les nouveaux moteurs doivent être au minimum de classe IE2. Les constructeurs développent des moteurs répondant aux classes IE3 (obligatoire à partir de 2015 et 2017) et IE4 (Super Premium). Comparés aux moteurs standards, les moteurs à haut rendement ont été travaillés pour diminuer les pertes internes aux moteurs. Selon les classes de performance, cette réduction peut aller jusqu’à 45 %. Hors rupture de technologie, les moteurs à haut rendement sont de même taille et ont une augmentation de poids d’environ 15 %. Plus la puissance du moteur est faible, plus le gain sur le rendement du moteur est important. Pour autant, l’utilisation de moteurs à haut rendement sur de fortes puissances est aussi intéressante car, si le pourcentage d’augmentation est plus faible, il concerne une puissance plus importante. Sur la durée de vie total

In [89]:
# Appliquer le prétraitement sur la colonne 'text'
df_final['text_pre_traite'] = df_final['text'].apply(pre_processing)

# Afficher le DataFrame avec les textes prétraités
print(df_final[['id_solution', 'text_pre_traite']])

  texte = BeautifulSoup(texte, 'html.parser').get_text()


      id_solution  \
0               2   
1               3   
2               4   
3               5   
4               6   
...           ...   
1095         1710   
1096         1711   
1097         1712   
1098         1713   
1099         1714   

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final['text_pre_traite'] = df_final['text'].apply(pre_processing)


## Implémentation Sentence Transformers

### Choix du modèle

S'assurer d'avoir des phrases qui ne dépassent pas la taille du modèle.


Ici on a choisi de tester le modèle **paraphrase-multilingual-MiniLM-L12-v2** 
https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

It maps sentences & paragraphs to a 384 dimensional dense vector space and can be used for tasks like clustering or semantic search.

'max_seq_length': 128


In [91]:
!pip install -U sentence_transformers



### Test de mettre ça dans des fonctions

In [178]:
import pandas as pd
import numpy as np
import pickle
from sentence_transformers import SentenceTransformer, util
from sentence_transformers.quantization import quantize_embeddings

# Charger le modèle SentenceTransformer
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")

def calculate_average_embedding(text, quantize=False, precision="binary"):
    # Diviser le texte en phrases
    sentences = [sentence.strip() for sentence in text.split('.') if sentence.strip()]
    
    # Calculer l'embedding de chaque phrase
    if quantize :
        sentence_embeddings = model.encode(sentences, precision=precision)
    else :
        sentence_embeddings = model.encode(sentences)
    
    # Prendre la moyenne des embeddings des phrases
    if len(sentence_embeddings) > 0:
        average_embedding = np.mean(sentence_embeddings, axis=0)
    else:
        average_embedding = np.zeros(model.get_sentence_embedding_dimension())
    
    return average_embedding

def genere_embedding(data, output_file, quantize=False, precision="binary"):

    # Appliquer la fonction pour calculer l'embedding moyen à chaque texte
    if quantize:
        embeddings = data['text_pre_traite'].apply(calculate_average_embedding, quantize=True)
    else :
        embeddings = data['text_pre_traite'].apply(calculate_average_embedding)

    
    # Créer un nouveau DataFrame avec id_solution et les embeddings
    new_data = {
        'id_solution': data['id_solution'],
        'text_embedding': embeddings
    }
    
    # Créer un DataFrame à partir des nouvelles données
    df_embeddings = pd.DataFrame(new_data)
    
    # Storer les embeddings dans un fichier
    with open(output_file, "wb") as fOut:
        pickle.dump(df_embeddings, fOut, protocol=pickle.HIGHEST_PROTOCOL)
    
    print("Les embeddings ont été storer avec succès.")

def find_solution(text_to_compare, embeddings_file, quantize=False, precision="binary"):
    # Calculer l'embedding moyen du texte à comparer
    embedding_to_compare = calculate_average_embedding(text_to_compare, quantize, precision)
    
    # Charger les embeddings à partir du fichier
    with open(embeddings_file, "rb") as fIn:
        df_embeddings = pickle.load(fIn)
    
    # Calculer la similarité cosinus entre l'embedding à comparer et les embeddings dans df_embeddings
    similarities = util.pytorch_cos_sim(embedding_to_compare.reshape(1, -1), df_embeddings['text_embedding'].values.tolist())
    
    # Ajouter les similarités au DataFrame df_embeddings
    df_embeddings['similarity'] = similarities.flatten()
    
    # Trier par similarité décroissante
    df_sorted = df_embeddings.sort_values(by='similarity', ascending=False)
    
    # Récupérer les id_solution et les similarités
    solution_info = df_sorted[['id_solution', 'similarity']].head(10)
    
    # Convertir en liste de tuples (id_solution, similarity)
    solution_list = list(zip(solution_info['id_solution'], solution_info['similarity']))
    
    return solution_list



In [149]:
# Exécuter la fonction pour générer et stocker les embeddings
genere_embedding(df_final, "embeddings.pkl")


Les embeddings ont été storer avec succès.


In [176]:
# Exemple d'utilisation pour trouver les solutions les plus proches d'un nouveau texte
text_to_compare = "centrale negativ mode booster. installation centrale frigorifique bas moyenne temperatur mode booster consister injecter refoulement compresseur froid negatif aspiration compresseur cycle froid positif. maniere rendement cycle frigorifique bas temperature negatif grandement ameliore condensation bas temperature egal temperature evaporation central positif. solution diminuer quantite tuyauterie utilisee. solution applicable uniquement projet neuf projet refonte total systeme production froid. eligibl production froid niveau temperature. production froid positif temperature consigne 0c temperature evaporation cote fluide -10c exemple. production froid negatif temperature consigne bien inferieur 0c temperature evaporation c exemple. besoin froid positif superieur besoin froid negatif. niveau temperature exempe retrouve secteur activite grande moyenne surface distribution alimentaire gms. industrie agroalimentaire. chimie pharmacie."
solutions = find_solution(text_to_compare, "embeddings.pkl")

# Afficher les solutions les plus proches avec leurs similarités
print("Les solutions les plus proches :")
for solution in solutions:
    print(f"id_solution : {solution[0]}, Similarité : {solution[1]}")

Les solutions les plus proches :
id_solution : 3, Similarité : 1.0000001192092896
id_solution : 4, Similarité : 0.7062098979949951
id_solution : 6, Similarité : 0.7770412564277649
id_solution : 7, Similarité : 0.7390691637992859
id_solution : 9, Similarité : 0.7869465351104736
id_solution : 10, Similarité : 0.7429227828979492
id_solution : 12, Similarité : 0.7863449454307556
id_solution : 15, Similarité : 0.6566013097763062
id_solution : 17, Similarité : 0.7598704099655151
id_solution : 18, Similarité : 0.717254102230072
id_solution : 19, Similarité : 0.818574845790863
id_solution : 20, Similarité : 0.7308758497238159
id_solution : 25, Similarité : 0.8053005933761597
id_solution : 26, Similarité : 0.7907536625862122
id_solution : 27, Similarité : 0.7548044323921204
id_solution : 28, Similarité : 0.8111556768417358
id_solution : 29, Similarité : 0.7821413278579712
id_solution : 30, Similarité : 0.7400749921798706
id_solution : 31, Similarité : 0.6520401239395142
id_solution : 34, Simila

On peut expliquer qu'on a implémenté un embeddings_quantized afin de réduire la taille des embeddings stockés de sorte à ne pas consommer d'énergie à stocker de grandes données et à faire des recherches plus rapides.

In [151]:
genere_embedding(df_final, "embeddings_quantized.pkl", quantize=True, precision="binary")

Les embeddings ont été storer avec succès.


In [168]:
# Exemple d'utilisation pour trouver les solutions les plus proches d'un nouveau texte
text_to_compare = "centrale negativ mode booster. installation centrale frigorifique bas moyenne temperatur mode booster consister injecter refoulement compresseur froid negatif aspiration compresseur cycle froid positif. maniere rendement cycle frigorifique bas temperature negatif grandement ameliore condensation bas temperature egal temperature evaporation central positif. solution diminuer quantite tuyauterie utilisee. solution applicable uniquement projet neuf projet refonte total systeme production froid. eligibl production froid niveau temperature. production froid positif temperature consigne 0c temperature evaporation cote fluide -10c exemple. production froid negatif temperature consigne bien inferieur 0c temperature evaporation c exemple. besoin froid positif superieur besoin froid negatif. niveau temperature exempe retrouve secteur activite grande moyenne surface distribution alimentaire gms. industrie agroalimentaire. chimie pharmacie."
solutions = find_solution(text_to_compare, "embeddings_quantized.pkl", quantize=True)

# Afficher les solutions les plus proches avec leurs similarités
print("Les solutions les plus proches :")
for solution in solutions:
    print(f"id_solution : {solution[0]}, Similarité : {solution[1]}")

Les solutions les plus proches :
id_solution : 3, Similarité : 1.0000000000000002
id_solution : 280, Similarité : 0.8338601026755779
id_solution : 26, Similarité : 0.8293075388193698
id_solution : 108, Similarité : 0.8239859183736618
id_solution : 958, Similarité : 0.8224887399894056
id_solution : 354, Similarité : 0.8173533730067889
id_solution : 1119, Similarité : 0.8071937765402742
id_solution : 264, Similarité : 0.7943726247579588
id_solution : 903, Similarité : 0.7862356686070046
id_solution : 824, Similarité : 0.7855407449267934


La quantization ici n'est pas pertinente car on passe d'un fichier embedding de 1.7MB à 459.6KB mais on perd en précision de prédiction. ça peut être utile si la BDD grandit considérablement.

### Génération et sauvegarde des embeddings + Voir Quantization des embeddings

### Test find_solution()

In [161]:
dataset_test_kerdos = [
    [724, "","C'est quoi la HP flottante ?"],
    [914, "", "Je voudrais dimensionner un panneau solaire."],
    [719, "", "Quel gain pour un variateur de vitesse ?"],
    [-1, "", "J'aimerais avoir une régulation optimisée de mon groupe froid."],
    [-1, "", "Comment faire pour réduire la consommation de mon compresseur d'air comprimé ?"]
]

In [177]:
# On va tester notre code sur plusieurs entrée :
def model_PAT(secteur, description) :
    # On commence par concaténer notre secteur et notre description.
    text = secteur + ". " + description

    # Ensuite on applique notre pré-processing
    clean_text = pre_processing(text)

    # Ensuite on cherche nos similarités 
    solutions = find_solution(clean_text, "embeddings.pkl")

    # On return une liste contenant les solutions
    id_solutions = []
    for solution in solutions :
        id_solutions.append(solution[0])

    return id_solutions

# On va tester sur notre dataset_test
for i in range(len(dataset_test_kerdos)):
    print("--------------------------------------------")
    print("Solution attendue : ", dataset_test_kerdos[i][0])
    print(model_PAT(dataset_test_kerdos[i][1], dataset_test_kerdos[i][2]))

--------------------------------------------
Solution attendue :  724
[]
--------------------------------------------
Solution attendue :  914
[270, 1452, 1453, 1454, 1455, 1456, 1457, 1486]
--------------------------------------------
Solution attendue :  719
[1140, 1144, 1445, 1533, 1595, 1596, 1649]
--------------------------------------------
Solution attendue :  -1
[149, 1049]
--------------------------------------------
Solution attendue :  -1
[4, 5, 6, 7, 8, 18, 19, 25, 27, 28, 29, 30, 34, 35, 36, 39, 41, 42, 45, 46, 47, 63, 68, 72, 75, 77, 80, 81, 84, 85, 94, 95, 110, 111, 124, 143, 144, 145, 146, 148, 150, 151, 152, 153, 154, 155, 156, 157, 162, 164, 165, 168, 170, 171, 172, 208, 209, 218, 248, 258, 264, 267, 271, 283, 306, 308, 325, 332, 336, 354, 356, 357, 358, 371, 388, 390, 502, 504, 507, 567, 569, 572, 708, 720, 723, 724, 766, 778, 790, 791, 793, 794, 812, 820, 821, 844, 857, 881, 885, 886, 906, 909, 915, 922, 923, 928, 929, 937, 947, 949, 954, 1001, 1034, 1041, 1051, 105

In [160]:
# Exemple d'utilisation pour trouver les solutions les plus proches d'un nouveau texte
text_to_compare = "C'est quoi la HP flottante ?"
text_to_compare_clean = pre_processing(text_to_compare)


solutions = find_solution(text_to_compare_clean, "embeddings.pkl")

# Afficher les solutions les plus proches avec leurs similarités
print("Les solutions les plus proches :")
for solution in solutions:
    print(f"id_solution : {solution[0]}, Similarité : {solution[1]}")

Les solutions les plus proches :
id_solution : 722, Similarité : 0.6277627348899841
id_solution : 54, Similarité : 0.5975562334060669
id_solution : 1070, Similarité : 0.5933644771575928
id_solution : 724, Similarité : 0.5926741361618042
id_solution : 386, Similarité : 0.584690272808075
id_solution : 1144, Similarité : 0.5656955242156982
id_solution : 222, Similarité : 0.5623266100883484
id_solution : 335, Similarité : 0.5603174567222595
id_solution : 1533, Similarité : 0.5587159395217896
id_solution : 329, Similarité : 0.558351457118988


## 2. Génération test set 

En utilisant GPT4, prendre des lots de 20 solutions, générer doaine d'activité et description de ce qu'un utilisateur pourrait demander. En générer 3 ou 4 par solutions avec différents niveau de précision. Le faire pour une centaine de solutions.

On aurrait donc X = [description, domaine_activitée], y = [num_solution ].

Pour tester notre modèle on peut tenter de lui faire prédire les meilleures solutions en fonction de la description et du domaine_activitée. Si la solution correspondante est dans le top 3 des solutions prédites, on considère que c'est une réussite.

# 3. Modèles à tester


TF-IDF (c'est long et peu performant mais méthode sans embedding. On peut en parler dans Questionnaire et dire qu'on ne l'a pas implémenté car peu pertinent suivant les études qu'on a lu.)

FastText (on a un token par mot et on fait la moyenne pour avoir le texte)

Sentence transformers (un token par phrase et on fait la moyenne pour avoir le texte)

Doc2Vec (document lvl)
