In [8]:
# Objectif : D√©tection de la nouveaut√© √† partir des embeddings


import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity #mesurer la similarit√© entre deux embeddings
from tqdm import tqdm #afficher une barre de progression pendant les boucles
import os

# === Chargement des donn√©es ===
DATA_PATH = r"C:\Users\hasna\Desktop\Master\S3\NLP\Projet-NLP\data"

print(" Chargement du dataset r√©duit et des embeddings...")
df = pd.read_csv(os.path.join(DATA_PATH, "data_small_with_embeddings.csv"))
embeddings = np.load(os.path.join(DATA_PATH, "embeddings_small_minilm.npy"))

print(f" Dataset : {df.shape[0]} lignes")
print(f" Embeddings : {embeddings.shape}")

# === D√©tection de la nouveaut√© batch-wise ===

# Le seuil (threshold) d√©termine √† partir de quelle similarit√© on consid√®re un article comme ‚Äúr√©p√©titif‚Äù ou ‚Äúnouveau‚Äù
#Si la similarit√© max < 0.60 ‚Üí nouveau (label = 1)
#Si la similarit√© max ‚â• 0.60 ‚Üí r√©p√©titif (label = 0)
#plus haut ‚Üí plus d‚Äôarticles consid√©r√©s ‚Äúsimilaires‚Äù
#plus bas ‚Üí plus d‚Äôarticles consid√©r√©s ‚Äúnouveaux‚Äù

plus bas ‚Üí plus d‚Äôarticles consid√©r√©s ‚Äúnouveaux‚Äù
threshold = 0.60
labels = []

print("\n D√©tection de la nouveaut√© (batch-wise)...")

#Boucle principale de d√©tection

for i in tqdm(range(len(embeddings))):
    if i == 0:
        labels.append(1)  # le premier texte est toujours "nouveau"
    else:
        #Pour chaque article (embedding[i]), on le compare √† tous les articles pr√©c√©dents.
        previous_embeddings = embeddings[:i]
        sim = cosine_similarity(       #On calcule la similarit√© cosinus entre le vecteur courant et les pr√©c√©dents.
            embeddings[i].reshape(1, -1),
            previous_embeddings
        )
        max_sim = np.max(sim) #On r√©cup√®re la plus grande similarit√© trouv√©e (max_sim)
        if max_sim < threshold:
            labels.append(1)  # nouveau
        else:
            labels.append(0)  # similaire √† un texte existant

# Ajout de la colonne "label"
df["label"] = labels
print("\n Colonne 'label' ajout√©e avec succ√®s !")
print(df["label"].value_counts())

# === Sauvegarde du dataset enrichi ===

output_file = os.path.join(DATA_PATH, "data_small_with_labels.csv")
df.to_csv(output_file, index=False)
print(f" Dataset sauvegard√© dans : {output_file}")

# === Aper√ßu ===
df.head(10)


üì• Chargement du dataset r√©duit et des embeddings...
‚úÖ Dataset : 30000 lignes
‚úÖ Embeddings : (30000, 384)

‚öôÔ∏è D√©tection de la nouveaut√© (batch-wise)...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 30000/30000 [16:12<00:00, 30.83it/s]



‚úÖ Colonne 'label' ajout√©e avec succ√®s !
label
1    17051
0    12949
Name: count, dtype: int64
üíæ Dataset sauvegard√© dans : C:\Users\hasna\Desktop\Master\S3\NLP\Projet-NLP\data\data_small_with_labels.csv


Unnamed: 0,PY,id,eid,TI,author,clean_text,embedding_index,label
0,2018,85058550296,2-s2.0-85058550296,knowledge capture and reuse through expert‚Äôs a...,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",knowledge capture reuse expert activity monito...,0,1
1,2018,85058873457,2-s2.0-85058873457,an approach of energy resources control system...,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",approach energy resource control system design,1,1
2,2018,85058993388,2-s2.0-85058993388,som-like neural network and differential evolu...,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",som like neural network differential evolution...,2,1
3,2018,85059318297,2-s2.0-85059318297,drug discovery and drug marketing with the cri...,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",drug discovery drug marketing critical role mo...,3,1
4,2018,85059937495,2-s2.0-85059937495,towards a natural language compiler,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",towards natural language compiler,4,1
5,2018,85044445280,2-s2.0-85044445280,spontaneous emergence of programs from ‚Äúprimor...,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",spontaneous emergence program primordial soup ...,5,1
6,2018,85044714101,2-s2.0-85044714101,towards high-performance python,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",towards high performance python,6,1
7,2018,85045383599,2-s2.0-85045383599,the online set aggregation problem,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",online set aggregation problem,7,1
8,2018,85045426562,2-s2.0-85045426562,"practical, anonymous, and publicly linkable un...","[{'@_fa': 'true', '@seq': '1', 'author-url': '...",practical anonymous publicly linkable universa...,8,1
9,2018,85046626398,2-s2.0-85046626398,a distributional semantics model for idiom det...,"[{'@_fa': 'true', '@seq': '1', 'author-url': '...",distributional semantics model idiom detection...,9,1
