# fRiend At codinG: LLMs combined with RAG for code generation

# **Obiettivo:**  
Creare un sistema modulare in grado di generare codice in diversi linguaggi (Python, Java, JavaScript) utilizzando modelli LLM combinati con tecniche di Retrieval-Augmented Generation (RAG) e prompting avanzato (few-shot e guided code generation).  
Il sistema include inoltre una componente di valutazione basata su metriche standard (Pass@k, BLEU, CodeBLEU, METEOR, ROUGE) e un approccio LLM-based ispirato a **CodeJudge** per valutare la correttezza semantica del codice generato.

# **Architettura del sistema:**  
 1. **Code Generation Using LLM and RAG**  
    - **A)** Motivazioni: Limitazioni degli LLM (dati obsoleti, allucinazioni, limiti contestuali)  
   - **B1)** Retrieval basato su Embedding: Recupero di esempi rilevanti da una knowledge base (utilizzando FAISS)  
    - **B2)** Prompting avanzato e Few-Shot Learning: Inserimento di esempi few-shot e generazione guidata (in stile AceCoder)

# 2. **Code Evaluation**  
   - **a)** Valutazione funzionale con metriche standard (Pass@k, BLEU, CodeBLEU, METEOR, ROUGE)  
   - **b)** Valutazione semantica con CodeJudge: Un approccio LLM-based per giudicare il codice in maniera semantica

 Le librerie principali utilizzate includono **LangChain** per orchestrare il flusso di prompting e **FAISS** per il retrieval semantico.  

In [None]:
# ## 1. Setup e Installazione
# Installa le librerie necessarie
!pip install langchain faiss-cpu openai sacrebleu nltk
!pip install langchain_community
!pip install tiktoken

# Importa le librerie richieste
import os
import re
import numpy as np
from langchain.llms import OpenAI, HuggingFacePipeline
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain import PromptTemplate, LLMChain
from langchain.chat_models import ChatOpenAI




# Configurazione API key per OpenAI
#os.environ['OPENAI_MODEL_NAME']='gpt-3.5-turbo-0125'
#os.environ['OPENAI_MODEL_NAME']='gpt-4o-2024-08-06'
os.environ['OPENAI_API_KEY']='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'






## 2. Recupero tramite Embedding (RAG)

 In questa sezione costruiamo un semplice knowledge base con alcuni snippet di codice e utilizziamo FAISS per indicizzare i documenti mediante embedding.

 L'obiettivo è: dato un prompt in linguaggio naturale, recuperare i *k* snippet più simili e utilizzarli come contesto nel prompt finale per la generazione del codice.

 **Nota:** In un'applicazione reale, la knowledge base dovrebbe essere molto più ampia e potrebbe essere costruita aggregando dati da fonti esterne (es. GitHub, StackOverflow, etc.). NEL NOSTRO PROGETTO SERVE QUINDI CAPIRE CHE KNOWLEDGE BASE USARE E COME SCEGLIERLA




In [None]:
# Esempio di knowledge base: lista di dizionari con snippet di codice -> SERVE TROVARE UN KNOWLEDGE BASE PIU GRANDE DA USARE MA QUESTO è SOLO PER PROVA
knowledge_base = [
    {
        "id": "ex1",
        "language": "Python",
        "code": "def sort_list(lst):\n    return sorted(lst)"
    },
    {
        "id": "ex2",
        "language": "JavaScript",
        "code": "function sortArray(arr) {\n  return arr.sort((a, b) => a - b);\n}"
    },
    {
        "id": "ex3",
        "language": "Java",
        "code": "import java.util.*;\npublic class Sorter {\n  public static List<Integer> sortList(List<Integer> list) {\n    Collections.sort(list);\n    return list;\n  }\n}"
    }
]

# Funzione per ottenere l'embedding (utilizziamo il modello OpenAI embeddings)
embedding_model = OpenAIEmbeddings(model="text-embedding-ada-002")
def get_embedding(text):
    return embedding_model.embed_query(text)

# Costruisci una matrice degli embedding per ogni snippet della knowledge base
example_embeddings = np.array([get_embedding(example["code"]) for example in knowledge_base]).astype("float32")

# Costruisci l'indice FAISS
dimension = example_embeddings.shape[1]
index = FAISS.from_texts([ex["code"] for ex in knowledge_base], embedding_model, metadatas=knowledge_base)
print(f"Indice FAISS costruito con {index.index.ntotal} esempi.")


# Funzione per recuperare gli snippet più simili dato un prompt
def retrieve_examples(prompt, k=2):
    results = index.similarity_search(prompt, k=k)
    return results


# Esempio di recupero
test_prompt = "Scrivi una funzione Python per ordinare una lista di numeri."
retrieved_examples = retrieve_examples(test_prompt, k=2)
print("Esempi recuperati:")
for doc in retrieved_examples:
    print(f"ID: {doc.metadata['id']} | Language: {doc.metadata['language']}")
    print(doc.page_content)
    print("---------------------------")


Indice FAISS costruito con 3 esempi.
Esempi recuperati:
ID: ex3 | Language: Java
import java.util.*;
public class Sorter {
  public static List<Integer> sortList(List<Integer> list) {
    Collections.sort(list);
    return list;
  }
}
---------------------------
ID: ex1 | Language: Python
def sort_list(lst):
    return sorted(lst)
---------------------------


## 3. Generazione di Codice con Prompting Avanzato
 In questa sezione costruiamo il prompt finale per la generazione del codice.

 Il prompt integra:
 1. La descrizione del problema (input dell’utente).
 2. Un output preliminare per guidare la generazione (es. analisi dei requisiti e test case – in stile AceCoder).
 3. Gli esempi recuperati (few-shot learning) dalla knowledge base.

Utilizzeremo **LangChain** per strutturare il prompt e per invocare l'LLM generativo.


In [None]:
# Configura l'LLM generativo (qui usiamo OpenAI GPT-4; nel progetto completo useremo differenti llms come CodeLlama o StarCoder)
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.2) # or model_name="gpt-4"

# Definisci un template di prompt che integra il task, un'analisi preliminare e gli esempi recuperati. -> QUI VOGLIO CAPIRE COME è POSSIBILE DA UNA RICHIESTA IN LINGUAGGIO NATURALE OTTENERE ANALISI, ESEMPI (FEW SHOT LEARNING) E ISTRUZIONI IN MANIERA AUTOMATICA {crew ai library=}
prompt_template = """
## Problema:
{task_description}

## Analisi preliminare:
Per comprendere meglio il compito, fornisci un'analisi dei requisiti e, se possibile, genera alcuni casi di test o uno pseudocodice che delinei cosa il codice deve fare.

## Esempi di riferimento:
{examples}

## Istruzioni:
Ora, scrivi il codice completo per risolvere il problema.
"""

# Prepara il testo degli esempi recuperati
examples_text = "\n\n".join([f"### Esempio ({doc.metadata['language']}):\n{doc.page_content}" for doc in retrieved_examples])

# Costruisci il prompt finale
final_prompt = prompt_template.format(task_description=test_prompt, examples=examples_text)
print("Prompt finale per la generazione di codice:")
print(final_prompt)

# Crea la catena LLM tramite LangChain
chain = LLMChain(
    llm=llm,
    prompt=PromptTemplate(
        template=prompt_template,
        input_variables=["task_description", "examples"]
    )
)

# Genera il codice
generated_code = chain.run(task_description=test_prompt, examples=examples_text)
print("Codice generato:")
print(generated_code)


  llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.2) # or model_name="gpt-4"


Prompt finale per la generazione di codice:

## Problema:
Scrivi una funzione Python per ordinare una lista di numeri.

## Analisi preliminare:
Per comprendere meglio il compito, fornisci un'analisi dei requisiti e, se possibile, genera alcuni casi di test o uno pseudocodice che delinei cosa il codice deve fare.

## Esempi di riferimento:
### Esempio (Java):
import java.util.*;
public class Sorter {
  public static List<Integer> sortList(List<Integer> list) {
    Collections.sort(list);
    return list;
  }
}

### Esempio (Python):
def sort_list(lst):
    return sorted(lst)

## Istruzioni:
Ora, scrivi il codice completo per risolvere il problema.

Codice generato:
```python
def sort_list(lst):
    return sorted(lst)

# Esempio di utilizzo
numbers = [4, 2, 7, 1, 9, 5]
sorted_numbers = sort_list(numbers)
print(sorted_numbers)
```



## 4. Valutazione del Codice Generato

 In questa sezione implementiamo due modalità di valutazione:

 1. **Valutazione Funzionale con Metriche Standard**:  
    - Esecuzione del codice in una sandbox per verificare il corretto funzionamento (es. calcolo del Pass@k).
    - Calcolo di metriche come BLEU, CodeBLEU, METEOR e ROUGE.

 2. **Valutazione Semantica con CodeJudge (LLM-based)**:  
    - Utilizzo di un LLM (ad es. GPT-4) per analizzare il codice generato in relazione alla descrizione del problema e fornire un giudizio dettagliato.

Per semplicità, in questo notebook implementiamo versioni semplificate di questi processi.


In [None]:
# 4.1 Esecuzione simulata dei test unitari per calcolare Pass@k
def run_unit_tests(code_snippet, language="Python"):
    """
    Funzione simulata per eseguire test unitari.
    In un'applicazione reale, questa funzione eseguirà il codice in una sandbox e verificherà i test case.
    Per questo esempio, se il codice contiene 'sorted' lo consideriamo corretto.
    """
    if "sorted" in code_snippet:
        return True, "Test passed."
    return False, "Test failed: codice non contiene la logica attesa."

test_result, test_log = run_unit_tests(generated_code)
print("Risultato dei test automatici:")
print("Pass:", test_result)
print("Log:", test_log)


Risultato dei test automatici:
Pass: True
Log: Test passed.


In [None]:
# 4.2 Valutazione semantica ispirata a CodeJudge
from langchain.schema import (
    AIMessage,
    HumanMessage,
    SystemMessage
)

def codejudge_evaluation(code_snippet, task_description):
    """
    Funzione per valutare il codice usando un LLM come giudice (in stile CodeJudge).
    Costruisce un prompt per far analizzare il codice al modello e ne restituisce il giudizio.
    """
    evaluation_prompt = f"""
    Sei un esperto revisore di codice. Analizza attentamente il seguente problema e la soluzione proposta.

    ## Problema:
    {task_description}

    ## Codice proposto:
    {code_snippet}

    Spiega passo per passo se il codice risolve il problema in maniera corretta. Indica eventuali errori logici o di implementazione.
    Alla fine, rispondi con 'Verdetto: CORRETTO' se il codice è funzionale, oppure 'Verdetto: ERRATO' se ci sono errori.
    """
    # Create a HumanMessage object with the prompt
    messages = [HumanMessage(content=evaluation_prompt)]
    # Pass messages to the LLM
    evaluation = llm(messages)
    return evaluation.content  # Access the content of the AIMessage

evaluation_result = codejudge_evaluation(generated_code, test_prompt)
print("Valutazione semantica del codice (ispirata a CodeJudge):")
print(evaluation_result)


Valutazione semantica del codice (ispirata a CodeJudge):
Il codice proposto definisce una funzione `sort_list(lst)` che prende in input una lista di numeri `lst` e restituisce la lista ordinata utilizzando la funzione `sorted()` di Python. Successivamente viene creato un esempio di utilizzo della funzione con una lista di numeri non ordinata, viene chiamata la funzione `sort_list()` e il risultato viene stampato a schermo.

Il codice risolve correttamente il problema di ordinare una lista di numeri in maniera crescente. Non ci sono errori logici o di implementazione nel codice proposto.

Verdetto: CORRETTO



## 5. Conclusioni e Prossimi Passi

 In questo notebook abbiamo implementato un sistema di **generazione di codice** basato su LLM e RAG, che integra:

 - **Retrieval basato su embedding**: per arricchire il prompt con esempi rilevanti.
 - **Prompting avanzato (few-shot e guided code generation)**: per generare codice in modo più accurato.
 - **Valutazione del codice**: tramite test automatici (Pass@k) e una componente LLM-based ispirata a CodeJudge per una valutazione semantica.

**Prossimi passi:**  
 - Integrare una knowledge base più ampia e aggiornata per il retrieval.  
 - Estendere il modulo di valutazione per includere altre metriche (CodeBLEU, METEOR, ROUGE).  
 - Confrontare le performance di diversi LLM (es. CodeLlama vs. GPT-4 vs. StarCoder) utilizzando il framework modulare.  
 - Ottimizzare il processo di prompting e testare approcci iterativi per il refining del codice.

 Questo prototipo fornisce una base solida per lo sviluppo di un sistema di code generation e valutazione robusto e flessibile.
