# Esercitazione: Vector Database con LanceDB

Questo notebook contiene esercizi pratici sull'utilizzo di LanceDB come vector database per dati testuali e di immagini. Completa gli esercizi seguendo le istruzioni e i suggerimenti forniti.

## Obiettivi dell'esercitazione

Al termine di questa esercitazione sarai in grado di:
1. Configurare e utilizzare LanceDB come vector database
2. Generare embedding per testi e immagini
3. Eseguire query di ricerca semantica
4. Implementare applicazioni di ricerca multimodale

## Prerequisiti

Prima di iniziare questa esercitazione, assicurati di aver compreso i concetti base presentati nei notebook introduttivi su LanceDB per il testo e LanceDB per le immagini con CLIP.

## Parte 1: Installazione delle dipendenze

Per prima cosa, installiamo le librerie necessarie:

In [None]:
# Installa le dipendenze necessarie
!pip install lancedb sentence-transformers datasets tqdm torch torchvision pillow matplotlib
!pip install git+https://github.com/openai/CLIP.git

## Parte 2: Importazione delle librerie

Importiamo le librerie che utilizzeremo in questa esercitazione:

In [None]:
import os
import torch
import clip
import lancedb
import numpy as np
import pandas as pd
from PIL import Image
import matplotlib.pyplot as plt
from tqdm.notebook import tqdm
from datasets import load_dataset
from sentence_transformers import SentenceTransformer
import requests
from io import BytesIO
import torchvision.transforms as transforms
from torchvision.datasets import CIFAR10

# Esercizio 1: Vector Database per il Testo

In questo esercizio, creerai un vector database per dati testuali utilizzando LanceDB.

## 1.1 Caricamento di un dataset testuale

Utilizzeremo un dataset di recensioni di film in italiano dalla libreria Hugging Face datasets.

In [None]:
# Carica il dataset di recensioni di film
dataset = load_dataset("italian_movies", split="train")

# ESERCIZIO: Seleziona solo le prime 100 recensioni per questo esempio
# Suggerimento: usa il metodo select() o slice()
reviews = dataset.select(range(100))

# Visualizza la struttura di una recensione
print("Struttura di una recensione:")
for key in reviews[0].keys():
    print(f"- {key}")

# Visualizza un esempio di titolo e recensione
print(f"\nTitolo: {reviews[0]['title']}")
print(f"Recensione: {reviews[0]['review'][:200]}...")

## 1.2 Chunking del testo

Implementa una funzione per suddividere il testo in chunk più piccoli.

In [3]:
# ESERCIZIO: Implementa la funzione chunk_text
def chunk_text(text, chunk_size=150, overlap=30):
    """
    Suddivide un testo in chunk di dimensione specificata con sovrapposizione.

    Args:
        text (str): Il testo da suddividere
        chunk_size (int): Numero di parole per chunk
        overlap (int): Numero di parole di sovrapposizione tra chunk consecutivi

    Returns:
        list: Lista di chunk di testo
    """
    words = text.split()
    chunks = []
    for i in range(0, len(words), chunk_size - overlap):
        chunk = words[i:i + chunk_size]
        chunks.append(" ".join(chunk))
    return chunks

In [4]:
# Test della funzione chunk_text
test_text = "Questo è un testo di esempio per testare la funzione di chunking. Dovrebbe essere suddiviso in chunk più piccoli con una certa sovrapposizione tra i chunk consecutivi. Questo ci permette di mantenere il contesto anche quando dividiamo testi lunghi."
chunks = chunk_text(test_text, chunk_size=10, overlap=3)

print(f"Testo originale: {test_text}")
print(f"Numero di chunk: {len(chunks)}")
for i, chunk in enumerate(chunks):
    print(f"Chunk {i+1}: {chunk}")

Testo originale: Questo è un testo di esempio per testare la funzione di chunking. Dovrebbe essere suddiviso in chunk più piccoli con una certa sovrapposizione tra i chunk consecutivi. Questo ci permette di mantenere il contesto anche quando dividiamo testi lunghi.
Numero di chunk: 6
Chunk 1: Questo è un testo di esempio per testare la funzione
Chunk 2: testare la funzione di chunking. Dovrebbe essere suddiviso in chunk
Chunk 3: suddiviso in chunk più piccoli con una certa sovrapposizione tra
Chunk 4: certa sovrapposizione tra i chunk consecutivi. Questo ci permette di
Chunk 5: ci permette di mantenere il contesto anche quando dividiamo testi
Chunk 6: quando dividiamo testi lunghi.


## 1.3 Preparazione dei dati

Prepara i dati creando chunk per ogni recensione.

In [None]:
# ESERCIZIO: Prepara i dati creando chunk per ogni recensione
all_chunks = []
chunk_metadata = []

# Il tuo codice qui
# Suggerimento: itera su ogni recensione, crea chunk e aggiungi metadati

print(f"Totale recensioni: {len(reviews)}")
print(f"Totale chunks: {len(all_chunks)}")
if all_chunks:
    print(f"\nEsempio di chunk: {all_chunks[0][:100]}...")

## 1.4 Generazione degli embedding

Utilizza un modello di SentenceTransformers per generare gli embedding dei chunk di testo.

In [None]:
# ESERCIZIO: Carica un modello di embedding e genera gli embedding per i chunk
# Suggerimento: usa SentenceTransformer con un modello multilingue

# Il tuo codice qui
# Carica il modello
model = None  # Sostituisci con il tuo codice

# Genera gli embedding
embeddings = []  # Sostituisci con il tuo codice

if embeddings:
    print(f"Dimensione di un embedding: {len(embeddings[0])}")

## 1.5 Creazione del Vector Database con LanceDB

Crea un database LanceDB e carica gli embedding.

In [None]:
# ESERCIZIO: Crea un dataframe con i chunk, i metadati e gli embedding
# Suggerimento: crea un dizionario per ogni chunk e convertilo in dataframe

# Il tuo codice qui
df = None  # Sostituisci con il tuo codice

if df is not None:
    print(f"Dataframe shape: {df.shape}")
    display(df.head(2))

In [None]:
# ESERCIZIO: Crea un database LanceDB e una tabella per i dati
# Suggerimento: usa lancedb.connect() e db.create_table()

# Il tuo codice qui
db_path = "./lancedb_reviews"
table_name = "movie_reviews"

# Crea il database e la tabella
# ...

print(f"Tabella '{table_name}' creata con successo!")

## 1.6 Esecuzione di query semantiche

Implementa una funzione per eseguire query semantiche sul vector database.

In [None]:
# ESERCIZIO: Implementa la funzione semantic_search
def semantic_search(query_text, top_k=5):
    """
    Esegue una ricerca semantica nel vector database.

    Args:
        query_text (str): Il testo della query
        top_k (int): Numero di risultati da restituire

    Returns:
        list: Lista dei risultati più rilevanti
    """
    # Il tuo codice qui
    # Suggerimento: genera l'embedding per la query e usa table.search()

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Testa la funzione semantic_search con diverse query
# Suggerimento: prova query come "film d'azione emozionante" o "commedia divertente"

# Il tuo codice qui
query = "film d'azione emozionante"
# Esegui la ricerca e visualizza i risultati
# ...

# Esercizio 2: Vector Database per le Immagini con CLIP

In questo esercizio, creerai un vector database per dati di immagini utilizzando LanceDB e CLIP.

## 2.1 Caricamento del modello CLIP

Carica il modello CLIP pre-addestrato.

In [None]:
# ESERCIZIO: Carica il modello CLIP
# Suggerimento: usa clip.load() con il modello "ViT-B/32"

# Il tuo codice qui
device = "cuda" if torch.cuda.is_available() else "cpu"
# Carica il modello CLIP
# ...

print(f"Modello CLIP caricato su {device}")

## 2.2 Caricamento di un dataset di immagini

Carica il dataset CIFAR-10 per questo esercizio.

In [None]:
# ESERCIZIO: Carica il dataset CIFAR-10 e seleziona un sottoinsieme di immagini
# Suggerimento: usa CIFAR10 da torchvision.datasets

# Il tuo codice qui
# Carica il dataset
# ...

# Seleziona un sottoinsieme di immagini
num_images = 200
# ...

print(f"Caricate {len(images)} immagini da {len(set(labels))} classi diverse")
print(f"Alcune classi presenti: {', '.join(set(labels)[:5])}...")

In [None]:
# ESERCIZIO: Visualizza alcune immagini di esempio
# Suggerimento: usa matplotlib per visualizzare le immagini

# Il tuo codice qui
# ...

## 2.3 Generazione degli embedding con CLIP

Implementa una funzione per generare embedding di immagini con CLIP.

In [None]:
# ESERCIZIO: Implementa la funzione get_image_embedding
def get_image_embedding(image):
    """
    Genera l'embedding di un'immagine utilizzando CLIP.

    Args:
        image (PIL.Image): L'immagine di input

    Returns:
        numpy.ndarray: L'embedding dell'immagine
    """
    # Il tuo codice qui
    # Suggerimento: preprocessa l'immagine, genera l'embedding e normalizzalo

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Genera gli embedding per tutte le immagini
# Suggerimento: usa un ciclo con tqdm per mostrare una barra di progresso

# Il tuo codice qui
embeddings = []
# ...

if embeddings:
    print(f"Dimensione di un embedding: {len(embeddings[0])}")

## 2.4 Creazione del Vector Database con LanceDB

Crea un database LanceDB e carica gli embedding delle immagini.

In [None]:
# ESERCIZIO: Implementa la funzione image_to_bytes
def image_to_bytes(image):
    """
    Converte un'immagine PIL in array di byte.

    Args:
        image (PIL.Image): L'immagine di input

    Returns:
        bytes: L'immagine convertita in bytes
    """
    # Il tuo codice qui
    # Suggerimento: usa BytesIO e il metodo save di PIL

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Crea un dataframe con le immagini, le etichette e gli embedding
# Suggerimento: crea un dizionario per ogni immagine e convertilo in dataframe

# Il tuo codice qui
df = None  # Sostituisci con il tuo codice

if df is not None:
    print(f"Dataframe shape: {df.shape}")
    display(df[['id', 'label']].head(2))

In [None]:
# ESERCIZIO: Crea un database LanceDB e una tabella per i dati
# Suggerimento: usa lancedb.connect() e db.create_table()

# Il tuo codice qui
db_path = "./lancedb_cifar"
table_name = "cifar_images"

# Crea il database e la tabella
# ...

print(f"Tabella '{table_name}' creata con successo!")

## 2.5 Ricerca semantica multimodale (testo-immagine)

Implementa funzioni per eseguire query semantiche utilizzando descrizioni testuali.

In [None]:
# ESERCIZIO: Implementa la funzione get_text_embedding
def get_text_embedding(text):
    """
    Genera l'embedding di un testo utilizzando CLIP.

    Args:
        text (str): Il testo di input

    Returns:
        numpy.ndarray: L'embedding del testo
    """
    # Il tuo codice qui
    # Suggerimento: tokenizza il testo, genera l'embedding e normalizzalo

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Implementa la funzione display_results
def display_results(results, query=None):
    """
    Visualizza i risultati della ricerca.

    Args:
        results (pandas.DataFrame): I risultati della ricerca
        query (str, optional): La query di ricerca
    """
    # Il tuo codice qui
    # Suggerimento: usa matplotlib per visualizzare le immagini

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Implementa la funzione semantic_search
def semantic_search(query_text, top_k=10):
    """
    Esegue una ricerca semantica nel vector database utilizzando una query testuale.

    Args:
        query_text (str): Il testo della query
        top_k (int): Numero di risultati da restituire

    Returns:
        pandas.DataFrame: Dataframe con i risultati più rilevanti
    """
    # Il tuo codice qui
    # Suggerimento: genera l'embedding per la query e usa table.search()

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Testa la funzione semantic_search con diverse query
# Suggerimento: prova query come "un animale" o "un veicolo"

# Il tuo codice qui
query = "un animale"
# Esegui la ricerca e visualizza i risultati
# ...

## 2.6 Ricerca per similarità di immagine

Implementa una funzione per cercare immagini simili a un'immagine di riferimento.

In [None]:
# ESERCIZIO: Implementa la funzione image_search
def image_search(query_image, top_k=10):
    """
    Esegue una ricerca semantica nel vector database utilizzando un'immagine come query.

    Args:
        query_image (PIL.Image): L'immagine di query
        top_k (int): Numero di risultati da restituire

    Returns:
        pandas.DataFrame: Dataframe con i risultati più rilevanti
    """
    # Il tuo codice qui
    # Suggerimento: genera l'embedding per l'immagine e usa table.search()

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Testa la funzione image_search con un'immagine casuale
# Suggerimento: seleziona un'immagine casuale dal dataset e cercane di simili

# Il tuo codice qui
# Seleziona un'immagine casuale
# ...

# Esegui la ricerca e visualizza i risultati
# ...

# Esercizio 3: Applicazione pratica - Motore di ricerca multimodale

In questo esercizio finale, creerai un'applicazione pratica che combina la ricerca testuale e di immagini.

## 3.1 Caricamento di immagini esterne

Implementa una funzione per caricare immagini da URL.

In [None]:
# ESERCIZIO: Implementa la funzione load_image_from_url
def load_image_from_url(url):
    """
    Carica un'immagine da un URL.

    Args:
        url (str): URL dell'immagine

    Returns:
        PIL.Image: Immagine caricata
    """
    # Il tuo codice qui
    # Suggerimento: usa requests per scaricare l'immagine e PIL per aprirla

    # Rimuovi questa riga e implementa la tua soluzione
    pass

## 3.2 Ricerca combinata testo-immagine

Implementa una funzione che combina la ricerca testuale e di immagini.

In [None]:
# ESERCIZIO: Implementa la funzione combined_search
def combined_search(text_query=None, image_query=None, weights=(0.5, 0.5), top_k=10):
    """
    Esegue una ricerca combinata testo-immagine nel vector database.

    Args:
        text_query (str, optional): Il testo della query
        image_query (PIL.Image, optional): L'immagine di query
        weights (tuple): Pesi per la combinazione (testo, immagine)
        top_k (int): Numero di risultati da restituire

    Returns:
        pandas.DataFrame: Dataframe con i risultati più rilevanti
    """
    # Il tuo codice qui
    # Suggerimento: genera gli embedding per testo e immagine, combinali con i pesi
    # e usa table.search()

    # Rimuovi questa riga e implementa la tua soluzione
    pass

In [None]:
# ESERCIZIO: Testa la funzione combined_search
# Suggerimento: prova diverse combinazioni di query testuali e di immagini

# Il tuo codice qui
text_query = "un animale carino"
# Seleziona un'immagine o caricala da URL
# ...

# Esegui la ricerca combinata e visualizza i risultati
# ...

## 3.3 Creazione di un'interfaccia utente semplice

Crea un'interfaccia utente semplice per il tuo motore di ricerca multimodale.

In [None]:
# ESERCIZIO BONUS: Crea un'interfaccia utente semplice con ipywidgets
# Suggerimento: installa ipywidgets e crea widget per input di testo, caricamento di immagini e visualizzazione dei risultati

# Il tuo codice qui
# !pip install ipywidgets
# import ipywidgets as widgets
# from IPython.display import display
# ...

# Crea l'interfaccia utente
# ...

# Domande di comprensione

Rispondi alle seguenti domande per verificare la tua comprensione dei concetti presentati in questa esercitazione:

1. Cosa sono gli embedding e perché sono utili per la ricerca semantica?

2. Quali sono i vantaggi di utilizzare un vector database come LanceDB rispetto a un database tradizionale?

3. Perché è importante suddividere i testi lunghi in chunk più piccoli quando si lavora con vector database?

4. Come funziona CLIP e perché è particolarmente utile per la ricerca multimodale?

5. Quali sono alcune applicazioni pratiche dei vector database nel campo dell'intelligenza artificiale e del machine learning?

# Soluzioni

Le soluzioni agli esercizi sono disponibili nel notebook separato "lancedb_esercitazione_soluzioni.ipynb".