Vecteurs techniques (tools_list + topics_list)

In [5]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
# --- Charger la DB enrichie ---
df = pd.read_json("github_data_enriched.jsonl", lines=True)

# --- Construire vocabulaire technique ---
all_tech = set()
for tools in df['tools_list']:
    all_tech.update(tools)
for topics in df['topics_list']:
    all_tech.update(topics)

vocab_list = sorted(list(all_tech))  # ordre fixe

repo_texts = df.apply(
    lambda row: " ".join(row["tools_list"] + row["topics_list"]),
    axis=1
)

vectorizer = TfidfVectorizer()
X_tech = vectorizer.fit_transform(repo_texts)

# ‚úÖ SAUVEGARDE
np.save("X_tech.npy", X_tech.toarray())

print("TF-IDF sauvegard√© :", X_tech.shape)

TF-IDF sauvegard√© : (1349, 4745)


Vecteurs s√©mantiques (full_text embeddings)

In [6]:
import pandas as pd
import torch
import numpy as np
from sentence_transformers import SentenceTransformer

device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device :", device)

model = SentenceTransformer("all-MiniLM-L6-v2", device=device)

df = pd.read_json("github_data_enriched.jsonl", lines=True)
texts = df["full_text"].fillna("").tolist()

embeddings = model.encode(
    texts,
    batch_size=32,
    show_progress_bar=True,
    convert_to_numpy=True
)

# ‚úÖ SAUVEGARDE
np.save("embeddings_semantic.npy", embeddings)

print("Embeddings sauvegard√©s :", embeddings.shape)

Device : cuda


Batches:   0%|          | 0/43 [00:00<?, ?it/s]

Embeddings sauvegard√©s : (1349, 384)


Vecteurs num√©riques (features suppl√©mentaires)

In [7]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

numeric_features = df[
    ["log_stars", "fork_ratio", "recency_days"]
].fillna(0)

scaler = MinMaxScaler()
X_numeric = scaler.fit_transform(numeric_features)

# ‚úÖ SAUVEGARDE
np.save("X_numeric.npy", X_numeric)

print("Features num√©riques sauvegard√©es :", X_numeric.shape)


Features num√©riques sauvegard√©es : (1349, 3)


Vecteur hybride final

In [8]:
import numpy as np
from sklearn.preprocessing import normalize
from scipy.sparse import csr_matrix

# üîÑ Charger depuis disque
embeddings = np.load("embeddings_semantic.npy")
X_tech = csr_matrix(np.load("X_tech.npy"))
X_numeric = np.load("X_numeric.npy")

# Normalisation
embeddings = normalize(embeddings)
X_tech = normalize(X_tech)
X_numeric = normalize(X_numeric)

# Pond√©rations
W_SEM = 0.6
W_TECH = 0.3
W_NUM = 0.1

# Fusion
X_hybrid = np.hstack([
    embeddings * W_SEM,
    X_tech.toarray() * W_TECH,
    X_numeric * W_NUM
])

# ‚úÖ SAUVEGARDE FINALE
np.save("X_hybrid.npy", X_hybrid)

print("üî• Vecteur hybride pr√™t")
print("Shape :", X_hybrid.shape)


üî• Vecteur hybride pr√™t
Shape : (1349, 5132)


Stockage

In [9]:
import os

# Dossier principal pour stocker les fichiers
DATA_DIR = "data/processed"

os.makedirs(DATA_DIR, exist_ok=True)

print(f"‚úÖ Dossier de stockage pr√™t : {DATA_DIR}")

‚úÖ Dossier de stockage pr√™t : data/processed


In [10]:
import pandas as pd

# Charger la DB enrichie si pas d√©j√† en m√©moire
df = pd.read_json("github_data_enriched.jsonl", lines=True)

# S√©lection des colonnes utiles pour stockage
metadata_cols = [
    "databaseId", "nameWithOwner", "url", "target_domain",
    "stargazerCount", "forkCount", "recency_days",
    "tools_list", "topics_list"
]

metadata_df = df[metadata_cols]

# Sauvegarde JSONL
metadata_file = os.path.join(DATA_DIR, "metadata.jsonl")
metadata_df.to_json(metadata_file, orient='records', lines=True, force_ascii=False)

print(f"‚úÖ M√©tadonn√©es sauvegard√©es : {metadata_file}")

‚úÖ M√©tadonn√©es sauvegard√©es : data/processed\metadata.jsonl


In [11]:
import numpy as np

# embeddings : numpy array (N, 384)
# exemple : embeddings d√©j√† calcul√©s avec SentenceTransformer
# embeddings = model.encode(...)

embeddings_file = os.path.join(DATA_DIR, "embeddings_semantic.npy")
np.save(embeddings_file, embeddings)

print(f"‚úÖ Embeddings s√©mantiques sauvegard√©s : {embeddings_file}")


‚úÖ Embeddings s√©mantiques sauvegard√©s : data/processed\embeddings_semantic.npy


In [12]:
from scipy.sparse import save_npz

# X_tech : matrice sparse
# vectorizer.vocabulary_ : dictionnaire vocabulaire

# Sauvegarder matrice sparse
X_tech_file = os.path.join(DATA_DIR, "X_tech.npz")
save_npz(X_tech_file, X_tech)

# Sauvegarder vocabulaire JSON
import json
vocab_file = os.path.join(DATA_DIR, "vocab_tech.json")
with open(vocab_file, "w", encoding="utf-8") as f:
    json.dump(vectorizer.vocabulary_, f, ensure_ascii=False, indent=2)

print(f"‚úÖ Vecteurs TF-IDF sauvegard√©s : {X_tech_file}")
print(f"‚úÖ Vocabulaire sauvegard√© : {vocab_file}")


‚úÖ Vecteurs TF-IDF sauvegard√©s : data/processed\X_tech.npz
‚úÖ Vocabulaire sauvegard√© : data/processed\vocab_tech.json


In [13]:
# X_numeric : numpy array
numeric_file = os.path.join(DATA_DIR, "X_numeric.npy")
np.save(numeric_file, X_numeric)

print(f"‚úÖ Features num√©riques sauvegard√©es : {numeric_file}")


‚úÖ Features num√©riques sauvegard√©es : data/processed\X_numeric.npy


In [14]:
from sklearn.preprocessing import normalize
from scipy.sparse import csr_matrix

# Normalisation
embeddings_norm = normalize(embeddings)
X_tech_norm = normalize(X_tech)
X_numeric_norm = normalize(X_numeric)

# Pond√©ration (modifiable)
W_SEM = 0.6
W_TECH = 0.3
W_NUM = 0.1

X_hybrid = np.hstack([
    embeddings_norm * W_SEM,
    X_tech_norm.toarray() * W_TECH,
    X_numeric_norm * W_NUM
])

hybrid_file = os.path.join(DATA_DIR, "X_hybrid.npy")
np.save(hybrid_file, X_hybrid)

print(f"‚úÖ Vecteur hybride sauvegard√© : {hybrid_file}")
print("Shape :", X_hybrid.shape)


‚úÖ Vecteur hybride sauvegard√© : data/processed\X_hybrid.npy
Shape : (1349, 5132)


FAISS

In [15]:
import numpy as np

DATA_DIR = "data/processed"
hybrid_file = f"{DATA_DIR}/X_hybrid.npy"

X_hybrid = np.load(hybrid_file)
print("‚úÖ Vecteur hybride charg√©")
print("Shape :", X_hybrid.shape)


‚úÖ Vecteur hybride charg√©
Shape : (1349, 5132)


In [18]:
import faiss

d = X_hybrid.shape[1]  # dimension des vecteurs
index_cpu = faiss.IndexFlatL2(d)  # distance L2

# Ajouter tous les vecteurs
index_cpu.add(X_hybrid.astype(np.float32))
print("‚úÖ Index FAISS CPU cr√©√©")
print("Nombre de vecteurs dans l'index :", index_cpu.ntotal)

# Sauvegarder l'index
faiss.write_index(index_cpu, "index/faiss_index_cpu.bin")
print("‚úÖ Index FAISS CPU sauvegard√© : index/faiss_index_cpu.bin")


‚úÖ Index FAISS CPU cr√©√©
Nombre de vecteurs dans l'index : 1349
‚úÖ Index FAISS CPU sauvegard√© : index/faiss_index_cpu.bin


In [21]:
import faiss
import numpy as np  # je suppose que X_hybrid est un np.array

# Dimension des vecteurs
d = X_hybrid.shape[1]

# Cr√©er l'index FAISS CPU (compatible Windows)
index_flat = faiss.IndexFlatL2(d)

# Ajouter les vecteurs
index_flat.add(X_hybrid.astype(np.float32))
print("‚úÖ Index FAISS CPU cr√©√©")
print("Nombre de vecteurs dans l'index :", index_flat.ntotal)

# Sauvegarder l'index CPU
faiss.write_index(index_flat, "index/faiss_index_cpu.bin")
print("‚úÖ Index FAISS sauvegard√© : index/faiss_index_cpu.bin")


‚úÖ Index FAISS CPU cr√©√©
Nombre de vecteurs dans l'index : 1349
‚úÖ Index FAISS sauvegard√© : index/faiss_index_cpu.bin
