In [6]:
import os
import re
import json
import numpy as np
from dotenv import load_dotenv
from mistralai import Mistral
import faiss


In [7]:
# 0. Charger la clé depuis le fichier .env
load_dotenv()
api_key = os.getenv("MISTRAL_API_KEY")
client = Mistral(api_key=api_key)

In [8]:
# 1. Lire fichiers .py et .ipynb
def read_code(folder, extensions={".py", ".ipynb"}, show_structure=False):
    """
    Parcourt un dossier récursivement et extrait le contenu des fichiers .py et .ipynb.
    
    Args:
        folder (str): chemin du dossier
        extensions (set): extensions de fichiers à inclure
        show_structure (bool): si True, affiche l’arborescence du dossier

    Returns:
        List[Tuple[str, str]]: liste de tuples (chemin_relatif, code_source)
    """
    code_files = []

    for dirpath, _, filenames in os.walk(folder):
        for f in filenames:
            ext = os.path.splitext(f)[1].lower()
            if ext in extensions:
                full_path = os.path.join(dirpath, f)
                rel_path = os.path.relpath(full_path, folder)
                try:
                    if ext == ".ipynb":
                        with open(full_path, "r", encoding="utf-8") as file:
                            nb = json.load(file)
                            code = ""
                            for cell in nb.get("cells", []):
                                if cell.get("cell_type") == "code":
                                    code += "".join(cell.get("source", [])) + "\n"
                            code_files.append((rel_path, code))
                    else:
                        with open(full_path, "r", encoding="utf-8") as file:
                            code = file.read()
                            code_files.append((rel_path, code))
                except Exception as e:
                    print(f"Erreur lecture {rel_path} : {e}")

    if show_structure:
        print("Contenu du dossier :")
        for path, _ in code_files:
            print(" -", path)

    return code_files


In [9]:
# 2. Découper par fonction
def split_functions(code):
    pattern = r"(def [\w_]+\s*\(.*?\):(?:\n(?:\s+.+))*)"
    funcs = re.findall(pattern, code, re.DOTALL)
    return funcs if funcs else [code]

# 3. Créer embeddings
import numpy as np
import time
import random

def create_embeddings(chunks, batch_size=16, max_retries=5):
    """
    Crée des embeddings pour une liste de textes (chunks) en batch
    et gère les erreurs 429 avec retry exponentiel.
    
    Args:
        chunks (list of str): textes à encoder
        batch_size (int): nombre de chunks à envoyer par requête
        max_retries (int): nombre de tentatives en cas d'erreur 429
    Returns:
        embeddings (list of np.array): embeddings de chaque chunk
    """
    embeddings = []

    for i in range(0, len(chunks), batch_size):
        batch = chunks[i:i+batch_size]
        for attempt in range(max_retries):
            try:
                resp = client.embeddings.create(
                    model="codestral-embed",
                    inputs=batch
                )
                # Ajouter chaque embedding du batch
                for emb in resp.data:
                    embeddings.append(np.array(emb.embedding, dtype=np.float32))
                break  # sortir de la boucle retry si OK
            except Exception as e:
                # Vérifie si c'est une erreur 429
                if "429" in str(e):
                    wait = 2 ** attempt + random.random()
                    print(f"Erreur 429, tentative {attempt+1}/{max_retries}. Attente {wait:.2f}s")
                    time.sleep(wait)
                else:
                    raise e  # autre erreur → remonter
    return embeddings



In [10]:
# 4. Lire + chunker + embeddings
folder = "/Users/aya31/Desktop/M2 MIASHS/Calcul Paralle/creating-a-README-for-a-codebase/TESTS/TEST2"
all_code = read_code(folder, show_structure=True)

all_chunks = []
chunk_to_path = []

for path, code in all_code:
    chunks = split_functions(code)
    all_chunks.extend(chunks)
    chunk_to_path.extend([path] * len(chunks))  # pour traçabilité


# 4 bis. Créer les embeddings à partir des chunks
embeddings = create_embeddings(all_chunks, batch_size=8)


# 5. Stocker dans FAISS
dim = len(embeddings[0])
index = faiss.IndexFlatL2(dim)
index.add(np.array(embeddings))

# 6. Fonction pour poser une question au LLM avec RAG
def ask_question(query, top_k=3):
    """
    Utilise le RAG : embeddings + FAISS pour récupérer du contexte,
    puis envoie un prompt au LLM pour, par exemple, rédiger un README.
    `query` contient directement la consigne (ex: 'Rédige un README GitHub pour ce projet').
    """

    # 1. Créer l'embedding de la question
    query_emb = client.embeddings.create(
        model="codestral-embed",
        inputs=query
    ).data[0].embedding

    # 2. Recherche des chunks les plus proches dans FAISS
    import numpy as np
    D, I = index.search(np.array([query_emb]), top_k)

    # 3. Construire le contexte à partir des chunks sélectionnés
    retrieved_chunks = [all_chunks[i] for i in I[0]]
    context = "\n\n".join(retrieved_chunks)

    # 4. Préparer le prompt pour le LLM (sans bloc 'Question : ...')
    prompt = (
        "Tu es un assistant expert en analyse de code et en rédaction de documentation technique.\n"
        "On te fournit des extraits de code provenant d'un projet.\n"
        "En te basant uniquement sur ces extraits, rédige le contenu demandé ci-dessous.\n\n"
        "===== CONTEXTE (EXTRAITS DE CODE) =====\n"
        f"{context}\n"
        "===== FIN DU CONTEXTE =====\n\n"
        "===== CONSIGNE =====\n"
        f"{query}\n"
        "===== FIN DE LA CONSIGNE =====\n\n"
        "Contraintes de rédaction :\n"
        "- Sois clair, structuré et précis.\n"
        "- Si la consigne demande un README GitHub, inclue :\n"
        "  - une description du projet,\n"
        "  - les fonctionnalités principales,\n"
        "  - les bibliothèques utilisées et à installer,\n"
        "  - les instructions d'installation et d'exécution,\n"
        "  - éventuellement la structure des fichiers si elle est déductible du code.\n"
        "- N'invente pas de fonctionnalités qui ne sont pas suggérées par le code.\n"
    )

    # 5. Appeler le LLM Mistral plus léger
    response = client.chat.complete(
        model="codestral-2508",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.2,
        max_tokens=1200
    )

    return response.choices[0].message.content


# 6. Exemple d'utilisation
question = "Rédige un README (GitHub) complet pour ce dossier à partir du code fourni en contexte."
answer = ask_question(question)
print("README généré :\n", answer)


Contenu du dossier :
 - code3.py
 - DOSSIER 2/code2.py
 - DOSSIER 2/code4.ipynb
 - DOSSIER 1/code5.ipynb
 - DOSSIER 1/code1.py
Erreur 429, tentative 1/5. Attente 1.25s
README généré :
 # Projet d'Utilitaires de Fichiers et de Données

## Description

Ce projet fournit un ensemble d'utilitaires pour la manipulation de fichiers et la création de structures de données simples. Il inclut des fonctions pour gérer des fichiers et des dossiers, ainsi que des outils pour créer et manipuler des DataFrames pandas.

## Fonctionnalités principales

- **Gestion de fichiers et dossiers** :
  - Lister les fichiers dans un dossier
  - Créer des dossiers
  - Créer et lire des fichiers
  - Compter les lignes dans un fichier

- **Manipulation de données** :
  - Créer des DataFrames pandas à partir de listes
  - Générer des exemples de DataFrames avec des valeurs aléatoires
  - Opérations mathématiques simples avec numpy

## Bibliothèques utilisées

- `os` : Pour les opérations de système de fichiers
- `p

In [11]:
print(client.models.list())



object='list' data=[BaseModelCard(id='mistral-medium-2505', capabilities=ModelCapabilities(completion_chat=True, completion_fim=False, function_calling=True, fine_tuning=True, vision=True, classification=False), object='model', created=1763464545, owned_by='mistralai', name='mistral-medium-2505', description='Our frontier-class multimodal model released May 2025.', max_context_length=131072, aliases=[], deprecation=None, deprecation_replacement_model=None, default_model_temperature=0.3, TYPE='base'), BaseModelCard(id='mistral-large-latest', capabilities=ModelCapabilities(completion_chat=True, completion_fim=False, function_calling=True, fine_tuning=True, vision=True, classification=False), object='model', created=1763464545, owned_by='mistralai', name='mistral-large-latest', description='Official mistral-large-latest Mistral AI model', max_context_length=131072, aliases=[], deprecation=None, deprecation_replacement_model=None, default_model_temperature=0.3, TYPE='base'), BaseModelCard(