# Moteur de recherche

In [1]:
from transformers import CamembertTokenizer, CamembertModel
import torch
import numpy as np
import pandas as pd
from scipy.spatial.distance import cosine

In [2]:
# Chargement du modèle et du tokenizer CamemBERT
model_name = 'camembert-base'
tokenizer = CamembertTokenizer.from_pretrained(model_name)
model = CamembertModel.from_pretrained(model_name)

Downloading (…)tencepiece.bpe.model: 100%|██████████| 811k/811k [00:00<00:00, 2.23MB/s]
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Downloading tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 12.5kB/s]
Downloading config.json: 100%|██████████| 508/508 [00:00<00:00, 254kB/s]
Downloading pytorch_model.bin: 100%|██████████| 445M/445M [00:09<00:00, 46.3MB/s] 
Some weights of the model checkpoint at camembert-base were not used when initializing CamembertModel: ['lm_head.layer_norm.weight', 'lm_head.dense.bias', 'lm_head.dense.weight', 'lm_head.layer_norm.bias', 'lm_head.decoder.weight', 'lm_head.bias']
- This IS expected if you are initializing CamembertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializ

In [3]:
# Fonction pour obtenir l'encodage Camembert du corpus
def encode_corpus(corpus):
    corpus_embeddings = []
    for text in corpus:
        input_ids = tokenizer.encode(text, add_special_tokens=True, return_tensors='pt')
        with torch.no_grad():
            outputs = model(input_ids)
            embeddings = outputs[0][:, 0, :].squeeze().numpy()
            corpus_embeddings.append(embeddings)

    return corpus_embeddings

# Fonction pour calculer la similarité cosinus entre deux vecteurs
def cosine_similarity(vector1, vector2):
    return 1 - cosine(vector1, vector2)

In [4]:
def search_similar_texts(input_text, corpus_embeddings, corpus, n=5):
    # Encodage du texte d'entrée
    input_ids = tokenizer.encode(input_text, add_special_tokens=True, return_tensors='pt')
    with torch.no_grad():
        outputs = model(input_ids)
        input_embedding = outputs[0][:, 0, :].squeeze().numpy()

    # Calcul de la similarité cosinus entre le texte d'entrée et chaque texte du corpus
    similarities = [cosine_similarity(input_embedding, embedding) for embedding in corpus_embeddings]

    # Trie les indices des textes du corpus par ordre de similarité décroissante
    sorted_indices = np.argsort(similarities)[::-1]

    # Récupère les n textes les plus similaires
    similar_texts = [(corpus[i], similarities[i]) for i in sorted_indices[:n]]

    return similar_texts


In [5]:
# Encodage du corpus
data = pd.read_csv("data/data.csv", index_col=0)
Titres = data.titre.values

Titres_embedings=encode_corpus(corpus=Titres)

In [11]:
# Texte d'entrée en français
input_text = "Sociologie du travail rural"

# Recherche des 3 textes les plus similaires, possible de selectionner le nombre de texte similaires manuellement
similar_texts = search_similar_texts(input_text, corpus_embeddings=Titres_embedings,corpus=Titres, n=3)

# Affichage des textes les plus similaires
print("Textes les plus similaires :")
for text, similarity in similar_texts:
    print(text, "Similarity:", similarity)

Textes les plus similaires :
Gilles Ferréol, Philippe Deubel, Économie du travail Similarity: 0.9780381917953491
François Perroux, Économie et société Similarity: 0.9704778790473938
Reconversion des élites agraires.  Similarity: 0.9692001342773438
