# Documentazione API OpenAI
---

### In questa documentazione vedremo come utilizzare le API di OpenAI nel linguaggio python con l'utilizzo di Redis come database a vettori.

Prima di incominciare dobbiamo sapere cos'è un database vettoriale e qual è il suo scopo:\
I database vettoriali sono database specializzati che hanno lo scopo di archiviare e gestire enormi quantità di dati ad alta dimensione sotto forma di vettori.\
I vettori sono rappresentazioni di dati matematici che descrivono oggetti in base alle loro diverse caratteristiche o qualità.
In questa documetnazione come database vettoriale andremo ad utilizzare Redis (Remote Dictionary Server) che permette attraverso il salvataggio dei dati nella memoria cache delle prestazioni migliori [per approfondire Redis](https://redis.io/).

Redis girerà in un container (un container è un’unità di software che racchiude l’applicazione e tutte le sue dipendenze, isolandola dal sistema operativo e dall’hardware sottostante).\
Per creare il container utilizzeremo un altrò software chiamato Docker.

Per prima cosa andiamo ad impostare il nostro Redis:
- Creiamo un cartella chiamata *redis.conf*.
- Creiamo un file *docker-compose.yml*.



All'interno del file *docker-compose.yml* inseriamo:


```yaml
version: '3.7'
services:

  vector-db:
    image: redis/redis-stack:latest
    ports:
      - 6379:6379
      - 8001:8001
    environment:
      - REDISEARCH_ARGS=CONCURRENT_WRITE_MODE
    volumes:
      - vector-db:/var/lib/redis
      - ./redis.conf:/usr/local/etc/redis/redis.conf
    healthcheck:
      test: ["CMD", "redis-cli", "-h", "localhost", "-p", "6379", "ping"]
      interval: 2s
      timeout: 1m30s
      retries: 5
      start_period: 5s

volumes:
  vector-db:
```

Fatto questo, quando andremo ad avviare il nostro programma basterà fare `docker compose up` per far partire Redis.

---

Per utilizzare le API di OpenAI bisogna prendere la KEY che è creabile a questo [link](https://platform.openai.com/account/api-keys).\
Adesso andiamo a creare un file *.env* e al suo interno scriviamo creiamo una variabile d'ambiente:\
`OPENAI_API_KEY = "OPENAI_API_KEY"`

---

#### Andiamo a scaricare ed importare le nostre librerie:

Per prima cosa andiamo ad installare tutte le librerie che utilizzeremo:
- `pip install openai`
- `pip install redis`
- `pip install wget`
- `pip install pandas`
- `pip install fire`
- `pip install pypdf`
- `pip install python-dotenv`

O anche semplicemente:

- `pip install openai redis wget pandas fire pypdf python-dotenv`

In [1]:
# Importiamo le librerie
import os
import numpy as np
import openai
from pypdf import PdfReader
from redis.commands.search.field import TextField, VectorField
from redis.commands.search.indexDefinition import IndexDefinition, IndexType
from redis.commands.search.query import Query
import redis
from dotenv import load_dotenv

Importiamo la nostra variabile d'ambiente contenuta nel file *.env*:

In [2]:
# Carichiamo il file .Env
load_dotenv()
# Assegnamo la API KEY
openai.api_key = os.getenv("OPENAI_API_KEY")
print(openai.api_key)

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


---

#### Andiamo a definire i parametri e ci connettiamo a Redis

In [3]:
INDEX_NAME = "embeddings-index"           # Definiamo il nome dell'indice di ricerca
PREFIX = "doc"                            # Definiamo un prefisso per le chiavi dei documenti
DISTANCE_METRIC = "COSINE" # Definiamo la metrica di distanza utilizzata per i vettori (ex. COSINE, IP, L2)

# Definiamo le variabili per la connessione a Redis
REDIS_HOST = "localhost"
REDIS_PORT = 6379
REDIS_PASSWORD = "" 

# Creiamo un istanza del client Redis
redis_client = redis.Redis(
            host=REDIS_HOST,
            port=REDIS_PORT,
            password=REDIS_PASSWORD
        )


#### Adesso creiamo le funzioni che utilizzeremo nel nostro programma:

Questa funzione prende il *file.pdf* che gli viene passato in input, e restituisce una lista di dizionari aventi:
- Id
---
- Embedding: è la rappresentazione numerica di un testo e serve per misurare la correlazione delle stringhe di testo
---
- Text: piccole porzioni di testo prese dal file in input

In [4]:
# Definiamo la funzione pdf_to_embeddings (percorso del pdf,  lunghezza dei frammenti in cui il testo del PDF verrà suddiviso)
def pdf_to_embeddings(pdf_path: str, chunk_length: int = 550):
        # Leggiamo il file pdf e lo suddividiamo in chunks (frammenti più piccoli)
        reader = PdfReader(pdf_path)
        chunks = []

        # Facciamo un ciclo for che estragga il testo da ogni pagina del pdf e vada a suddividerlo in chunkks
        for page in reader.pages:
            text_page = page.extract_text()
            chunks.extend([text_page[i:i+chunk_length].replace('\n', '')
                          for i in range(0, len(text_page), chunk_length)])

        # Facciamo l'embedding dei chunks
        response = openai.Embedding.create(
            model='text-embedding-ada-002', input=chunks)
        return [{'id': value['index'], 'vector':value['embedding'], 'text':chunks[value['index']]} for value in response['data']]

Questa funzione ritorna una lista di dizionari come per la funzione che rigurda i *pdf* ma il testo in input è un *file.txt*:

In [5]:
# Definiamo la funzione txt_to_embeddings (percorso del file txt,  lunghezza dei frammenti in cui il testo del txt verrà suddiviso)
def txt_to_embeddings(text, chunk_length: int = 250):
        # Leggiamo il file txt e lo suddividiamo in chunks (frammenti più piccoli)
        text = open(text, "r")
        text = text.read()

        chunks = []
        
        # Suddividiamo il testo in chunk 
        chunks.extend([text[i:i+chunk_length].replace('\n', '')
                       for i in range(0, len(text), chunk_length)])

        # Facciamo l'embedding dei chunks
        response = openai.Embedding.create(
            model='text-embedding-ada-002', input=chunks)
        return [{'id': value['index'], 'vector':value['embedding'], 'text':chunks[value['index']]} for value in response['data']]

Facciamo lo stesso passando in input un *url*, per farlo dobbiamo però installare ed importare nuove librerie:
- `pip install beautifulsoup4`

In [6]:
# Importiamo le librerie utili per fare Web Screaping
import requests 
from bs4 import BeautifulSoup
import re

# Definiamo la funzione url_to_embeddings (indirizzo URL,  lunghezza dei frammenti in cui il testo della pagina web verrà suddiviso)
def url_to_embeddings(url, chunk_length: int = 250):

        # Definiamo una funzione format_url che formatti il testo estrapolato dalla pagina HTML, anando ad eliminare simboli comuni (es. "<>")
        def format_url(testo):
            pattern = r"<.*?>"  # Pattern per cercare "<" seguito da qualsiasi carattere, incluso il newline, fino a ">"
            testo_senza_angolari = re.sub(pattern, "", testo)  # Rimuovi i match del pattern dal testo
            return testo_senza_angolari



        
        page = requests.get(url) # Otteniamo il contenuto della pagina web

        # Analizziamo ed estrapoliamo le informazione che ci servono dal file HTML 
        soup = BeautifulSoup(page.content, "html.parser")
        body = soup.find('body')
        content = str(soup.find_all("p"))

        # Richiamiamo la funzione per formattare il testo estrapolato
        text = format_url(content)


        chunks = []

        # Suddividiamo il testo in chunk 
        chunks.extend([text[i:i+chunk_length].replace('\n', '')
                       for i in range(0, len(text), chunk_length)])

        # Creiamo l'embedding dei chunks
        response = openai.Embedding.create(
            model='text-embedding-ada-002', input=chunks)
        return [{'id': value['index'], 'vector':value['embedding'], 'text':chunks[value['index']]} for value in response['data']]

Prima di caricare il testo su Redis assicuriamoci che siano già stati forniti altri testi, nel caso ci fossero altri dati andiamo a cancellarli:

In [7]:
# Definiamo la funzione drop_redis_data (nome dell'indice di ricerca)
def drop_redis_data(index_name: str = INDEX_NAME):
    # Controlliamo che sono presenti dei dati nel db 
    if redis_client.dbsize() > 0:
        redis_client.flushdb() # Eliminiamo tutti i dati presenti nel db Redis
        print('Index dropped')
    else:
        print('Index does not exist')

Fatto questo carichiamo la lista di dizionari su Redis

In [8]:
# Definiamo la funzione load_data_to_redis (lista di dizionari ricevuta dopo aver fatto l'embedding di uun testo)
def load_data_to_redis(embeddings):

        vector_dim = len(embeddings[0]['vector'])  # Lunghezza dei vettori
        
		# Numero iniziale di vettori
        vector_number = len(embeddings)

        # Definizione dei campi di RediSearch
        text = TextField(name="text")
        text_embedding = VectorField("vector",
                                     "FLAT", {
                                         "TYPE": "FLOAT32",
                                         "DIM": vector_dim,
                                         "DISTANCE_METRIC": "COSINE",
                                         "INITIAL_CAP": vector_number,
                                     }
                                     )
        fields = [text, text_embedding]

        # Verifica se l'indice esiste già
        try:
            redis_client.ft(INDEX_NAME).info()
            print("Index already exists")
        except:
            # Creazione dell'indice RediSearch
            redis_client.ft(INDEX_NAME).create_index(
                fields=fields,
                definition=IndexDefinition(
                    prefix=[PREFIX], index_type=IndexType.HASH)
            )

        # Viene iterato su ciascun elemento in embeddings
        for embedding in embeddings:
            key = f"{PREFIX}:{str(embedding['id'])}" # Viene generata una chiave key utilizzando l'ID dell'embedding e il prefisso specificato
            # Il vettore di embedding viene convertito in un array di tipo np.float32
            embedding["vector"] = np.array(
                embedding["vector"], dtype=np.float32).tobytes() # Poi convertito in formato di byte utilizzando tobytes() 
            redis_client.hset(key, mapping=embedding) # Salviamo l'embedding nella chiave Redis corrispondente
        
        # Stampiamo un messaggio che indica il numero di documenti caricati nell'indice di ricerca Redis con il nome specificato.
        print(
            f"Loaded {redis_client.info()['db0']['keys']} documents in Redis search index with name: {INDEX_NAME}")

Una volta salvati i dati dobbiamo estrarre le parole chiavi dalla domanda dell'utente, per poi successivamente fare l'embedding di quest'ultime.\
Per farlo utilizziamo il modello *gpt-3.5-turbo* di OpenAI:

In [9]:
# Definiamo la funzione get_intent (domanda posta dall'utente)
def get_intent(user_question: str):
         # Chiamiamo l'endpoint openai ChatCompletion 
         response = openai.ChatCompletion.create(
         model="gpt-3.5-turbo", # Indichiamo il modello da utilzzare

         # Chiediamo di estrapolare le parole chiave dalla domanda dell'utente
         messages=[
               {"role": "user", "content": f'Extract the keywords from the following question: {user_question}'+
                 'Do not answer anything else, only the keywords.'}
            ]
         )
         

         # Estriamo la rispsota
         return (response['choices'][0]['message']['content'])

Prese le parole chiave dela domanda, facciamo l'embedding di quest'ultime e le confrontiamo con i nostri dati presenti in Redis.\
Facendo questo saremo in grado di prendere la porzione di testo nella quale è presente la risposta alla domanda:

In [10]:
# Definiamo la funzione search_redis 
def search_redis(user_query: str,
                     index_name: str = "embeddings-index",
                     vector_field: str = "vector",
                     return_fields: list = ["text", "vector_score"],
                     hybrid_fields="*",
                     k: int = 20,
                     print_results: bool = False,
                     ):

        # Creiamo l'embedding della query dell'utente
        embedded_query = openai.Embedding.create(input=user_query,
                                                 model="text-embedding-ada-002",
                                                 )["data"][0]['embedding']

        # Prepariamo la query 
        '''
        Viene definita la query di base base_query utilizzando la sintassi di ricerca RediSearch. La variabile hybrid_fields viene utilizzata per specificare 
        i campi da includere nella ricerca. Viene utilizzato l'operatore KNN per eseguire una ricerca K-nearest neighbor sull'indice utilizzando il campo 
        vettoriale specificato da vector_field. Il risultato della ricerca viene restituito con il nome vector_score.
        '''
        base_query = f'{hybrid_fields}=>[KNN {k} @{vector_field} $vector AS vector_score]'

        '''
        La query viene preparata utilizzando il modulo Query di RediSearch. Vengono specificati i campi da restituire con il metodo return_fields, 
        si ordina per vector_score utilizzando sort_by, si specifica la paginazione con paging e si imposta il dialetto a 2 con dialect.
        '''
        query = (
            Query(base_query)
            .return_fields(*return_fields)
            .sort_by("vector_score")
            .paging(0, k)
            .dialect(2)
        )

        # Convertiamo embedded_query
        params_dict = {"vector": np.array(
            embedded_query).astype(dtype=np.float32).tobytes()}

        # Eseguiamo la ricerca vettoriale
        results = redis_client.ft(index_name).search(query, params_dict)
        if print_results:
            for i, doc in enumerate(results.docs):
                score = 1 - float(doc.vector_score)
                print(f"{i}. {doc.text} (Score: {round(score ,3) })")
        return [doc['text'] for doc in results.docs]

Per avere la risposta alla nostra domanda passiamo al modello *gpt-3.5-turbo* la nostra domanda e il testo dalla quale prendere le informazioni per rispondere:

In [12]:
# Definiamo la funzione generate_response (informazioni dalla quale estrarre la risposta, domanda posta dall'utente)
def generate_response(facts, user_question):
         # Chiamiamo l'endpoint openai ChatCompletion 
         response = openai.ChatCompletion.create(
         model="gpt-3.5-turbo", # Indichiamo il modello da utilzzare
         
         # Chiediamo di rispondere alla domanda estrapolando le informazioni da facts
         messages=[
               {"role": "user", "content": 'Based on the FACTS, give an answer to the QUESTION.'+ 
                f'QUESTION: {user_question}. FACTS: {facts}'}
            ]
         )

         

         # Estraiamo la risposta
         return (response['choices'][0]['message']['content'])

---

#### Testiamo il nostro programma

##### PDF:

In [13]:
# indichiamo il percorso del file pdf
pdf = 'giochi.pdf'

# Richiamiamo la funzione drop_redis_data per eliminiare i dati dal db se serve
drop_redis_data()

# Richiamiamo la funzione pdf_to_embeddings per creare l'embedding del file
data = pdf_to_embeddings(pdf)

# Richiamiamo la funzione load_data_to_redis per caricare data su Redis
load_data_to_redis(data)

Index dropped
Loaded 75 documents in Redis search index with name: embeddings-index


Poniamo una domanda che riguarda il file che ha caricato:

In [14]:
# Poniamo una domanda rigurdante il file
question = "Di cosa parla il documento?"

# Richiamiamo la funzione get_intent per estrapolare le parole chiave dalla domanda 
intents = get_intent(question)

# Richiamiamo la funzione search_redis per trovare le parti di testo inerenti alla domanda
facts = search_redis(intents)

# Richiamiamo la funzione generate_responde per ricevere la risposta alla domanda
answer = generate_response(facts, question)

# Stampiamo la risposta
print(answer)

Il documento parla dell'argomento "Videogames e Game Studies", esplorando la storia, la teoria e l'evoluzione dei videogiochi dal punto di vista culturale, sociologico e narrativo. Viene inoltre discusso il ruolo del videogioco nella società e la tassonomia dei diversi tipi di giocatori. Il documento esplora anche l'evoluzione della narrazione nei videogiochi, dal semplice intrattenimento ai giochi che offrono un'esperienza narrativa completa. Infine, sono presenti conclusioni e fonti bibliografiche e informative per ulteriori approfondimenti.


----

##### TXT:

In [14]:
# indichiamo il percorso del file tct
txt = '6.txt'

# Richiamiamo la funzione drop_redis_data per eliminiare i dati dal db se serve
drop_redis_data()

# Richiamiamo la funzione txt_to_embeddings per creare l'embedding del file
data = txt_to_embeddings(txt)

# Richiamiamo la funzione load_data_to_redis per caricare data su Redis
load_data_to_redis(data)

Index dropped
Loaded 844 documents in Redis search index with name: embeddings-index


In [15]:
# Poniamo una domanda rigurdante il file
question = "Chi sono i fondatori di Apple?"

# Richiamiamo la funzione get_intent per estrapolare le parole chiave dalla domanda 
intents = get_intent(question)

# Richiamiamo la funzione search_redis per trovare le parti di testo inerenti alla domanda
facts = search_redis(intents)

# Richiamiamo la funzione generate_responde per ricevere la risposta alla domanda
answer = generate_response(facts, question)

# Stampiamo la risposta
print(answer)

I fondatori di Apple sono Steve Jobs, Steve Wozniak, and Ronald Wayne.


---

##### URL:

In [16]:
# Indichiamo l'URL della pagina sulla quale vogliamo fare porre delle domande
url = 'https://www.ilpost.it/2023/06/05/apple-vision-pro/'

# Richiamiamo la funzione drop_redis_data per eliminiare i dati dal db se serve
drop_redis_data()

# Richiamiamo la funzione url_to_embeddings per creare l'embedding del file
data = url_to_embeddings(url)

# Richiamiamo la funzione load_data_to_redis per caricare data su Redis
load_data_to_redis(data)

Index dropped
Loaded 18 documents in Redis search index with name: embeddings-index


In [18]:
# Poniamo una domanda rigurdante il file
question = "Quali sono le caratteristiche principarli dell'Apple Vision Pro?"

# Richiamiamo la funzione get_intent per estrapolare le parole chiave dalla domanda 
intents = get_intent(question)

# Richiamiamo la funzione search_redis per trovare le parti di testo inerenti alla domanda
facts = search_redis(intents)

# Richiamiamo la funzione generate_responde per ricevere la risposta alla domanda
answer = generate_response(facts, question)

# Stampiamo la risposta
print(answer)

Caratteristiche principali dell'Apple Vision Pro includono il suo prezzo di $3,499, la possibilità di funzionare con alcuni accessori come una tastiera e un trackpad, il tracciamento del movimento degli occhi, la risoluzione a 4K dei suoi schermi, il fatto che non si può vedere attraverso di esso ma riprende ciò che si ha intorno grazie a un set di 12 fotocamere, e la sua capacità di funzionare sia in modalità realtà aumentata sia in modalità realtà virtuale. Tuttavia, ci sono ancora dubbi circa la sua autonomia e le sue applicazioni pratiche.
