# Multimodal RAG: Pipeline Demo

Мета - побудувати мультимодальну RAG-систему на базі статей з The Batch, що включає і текст, і зображення.
### Щоб працював StremLit додаток необхідно запустити кроки 1-5


In [None]:
## бібліотеки
import requests
from bs4 import BeautifulSoup
from langchain_community.document_loaders import WebBaseLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter # для поділу тексту на шматки
from PIL import Image
from chromadb.utils.embedding_functions import OpenCLIPEmbeddingFunction
import chromadb
import os
import numpy as np
from dotenv import load_dotenv
from google import genai
from google.genai import types

load_dotenv()

api_key = os.getenv("GOOGLE_API")

# from huggingface_hub import InferenceClient # для (типу) хорошої відповіді
# from transformers import BlipProcessor, BlipForConditionalGeneration # для опису зображень
# from chromadb.utils.data_loaders import ImageLoader
# from langchain.embeddings import HuggingFaceEmbeddings # для embeddings - лише текстової

## 1. Завантаження статей та зображень
Витягуємо текст і картинку

In [None]:
# url = "https://www.deeplearning.ai/the-batch/google-upgrades-its-ai-music-tools-for-professional-use/"
urls = ["https://www.deeplearning.ai/the-batch/the-international-energy-agency-examines-the-energy-costs-and-potential-savings-of-the-ai-boom/","https://www.deeplearning.ai/the-batch/ai-co-scientist-an-agent-that-generates-research-hypotheses-aiding-drug-discovery/","https://www.deeplearning.ai/the-batch/ai-and-data-center-boom-challenges-big-techs-emissions-targets/"]


далі треба якось спарсити все те

In [None]:
contents = []
images = []
for url in urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    initial_images = [img.get('src') for img in soup.find_all('img') if img.get('src')]
    images.append([url for url in initial_images if 'gif' not in url.lower() and 'wordpress' not in url.lower() and 'svg+xml' not in url.lower() and 'batch-logo' not in url.lower()])
    elements = soup.select(".prose--styled") # вибираєсмо класи, записується в зворотньому порядку
    print(f"{url} - Знайдено contents {len(elements)} елементs")
    print(f"{url} - Знайдено imgs {len(images)} елементs")
    contents.append(elements[0].get_text(separator=' ')) # нормальний текст
contents
images    

## 2. Препроцесінг тексту та зображень

витягнений текст

In [None]:
for content in contents:
    loader = WebBaseLoader(web_paths=urls)
    text_docs = loader.load()
text_docs[0].page_content = content

In [None]:
### перевірка (можна пропустити)
(len(text_docs))

збереження зображення

In [None]:
prefix = "https://www.deeplearning.ai"
img_dir = "downloaded_images"
os.makedirs(img_dir, exist_ok=True)

count = 0
for image_urls in images:
    for img_url in image_urls:
        resp = requests.get(prefix+img_url)
        ext_part = img_url.split('.')[-1] # Відокремлюємо частину після останньої крапки, а потім беремо до ? або &
        ext = ext_part.split('?')[0].split('&')[0]  # Обрізаємо параметри
        filename = f"img_{count}.{ext}"
        filepath = os.path.join(img_dir, filename)
        with open(filepath, "wb") as f:
            f.write(resp.content)
        # print(resp)
        count += 1

перетворення зображень на numpy масив

In [None]:
img_dir = "downloaded_images"
numpy_images = []

for filename in os.listdir(img_dir):
    filepath = os.path.join(img_dir, filename)
    with Image.open(filepath) as img:
        img = img.convert("RGB") 
        np_img = np.array(img)
        numpy_images.append(np_img)

print(f"Завантажено та конвертовано {len(numpy_images)} images у numpy")

### поділ тексту

використовуємо langchain для поділу тексту на шматки

In [None]:
all_text_splits = []

for text_doc in text_docs:
    text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # chunk size (characters)
    chunk_overlap=100,  # chunk overlap (characters) (перекриття між суміжними шматками (50 символів (або слів) з кінця попереднього шматка повторюються на початку наступного)
    add_start_index=True,  # track index in original document
    )

    all_text_splits += text_splitter.split_documents(text_docs)

print(f"Split post into {len(all_text_splits)} sub-documents.")

## 3-4 мультимодальний ембединг


In [None]:
embedding_function = OpenCLIPEmbeddingFunction()

## 5. Створення мультимодального індексу

### метадані та ід

In [None]:
### id
text_ids = [f"text_{i}" for i in range(len(all_text_splits))] # ід для тексту
image_ids = [f"img_{i}" for i in range(len(numpy_images))] # ід для зображень
# img_description_ids = [f"img_desc_{i}" for i in range(len(numpy_images))] # id опису зображень

text_documents = [doc.page_content for doc in all_text_splits] # для хрома (бо док-лангчеін не їсть)

In [None]:
text_metadatas = []
for split in all_text_splits:
    text_metadatas.append({
        "type": "text",
        "source": split.metadata.get("source", "unknown"),  # якщо є
        "title": split.metadata.get("title", "no_title"),
    })

image_metadatas = []
for text_doc in text_docs:
    image_metadatas.append({
        "type": "image",
        "source": text_doc.metadata.get("source", "unknown"),  # якщо є
        "title": text_doc.metadata.get("title", "no_title"),
        "local_path": img_dir + ''
        
    })    

# img_desc_metadatas = [] - на перспективу
# for text_doc,id_img in zip(text_docs,image_ids):
#     img_desc_metadatas.append({
#         "type": "text",
#         "source": text_doc.metadata.get("source", "unknown"),  # якщо є
#         "title": text_doc.metadata.get("title", "no_title"),
#         "image_ids": id_img,
#     })        

In [None]:
#перевірка (optional)
print(text_metadatas)
print(image_metadatas)
# print(img_desc_metadatas)

### також додамо опис для зображень (SKIP)

In [None]:
# processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
# model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")

# def generate_caption(image):
#     inputs = processor(image, return_tensors="pt")
#     out = model.generate(**inputs)
#     caption = processor.decode(out[0], skip_special_tokens=True)
#     return caption

In [None]:
# image_description = []
# for img in numpy_images:
#     img_pil = Image.fromarray(img)
#     caption = generate_caption(img_pil)
#     image_description.append(caption)    

In [None]:
# print(image_description)

### add до бд

In [None]:
# data_loader = ImageLoader() # для зберігання з uris 
client = chromadb.PersistentClient(path="chroma_langchain_db/") # для збереження локально

collection = client.create_collection(
    name='multimodal_collection',
    embedding_function=embedding_function,
    # data_loader=data_loader,
)

In [None]:
###додаєм до век бд текст
collection.add(
    ids=text_ids, 
    documents=text_documents,
    metadatas=text_metadatas,
               )

In [None]:
###додаєм до век бд зображення
collection.add(
    ids=image_ids,
    images=numpy_images,
    metadatas=image_metadatas,
)

In [None]:
# SKIP
# ###додаєм до век бд описи зображення
# collection.add(
#     ids=img_description_ids,
#     documents=image_description,
#     metadatas=image_metadatas,
# )

In [None]:
# перевірка (optional)
print(collection.count())


## 6. Запит і Ретрівал (тести) (optional)

- Користувач формулює запит (наприклад: “Що нового в архітектурах NVIDIA?”).
- Вивід: текст статті + пов’язане зображення.

In [None]:
#тест на зображенні
results = collection.query(
    query_images=[numpy_images[0]]
)

print((results))

In [None]:
docs = results.get('documents', [[]])[0]  # перший список документів

first_non_none_doc = next((doc for doc in docs if doc is not None), None)
print(first_non_none_doc)

In [None]:
#тест на тексті
results = collection.query(
    query_texts=["How is AI growth impacting tech companies' carbon goals and data center emissions?"]
)

print((results))

In [None]:
results['metadatas']

In [None]:
first_metadata = results['metadatas'][0][0]
first_source = first_metadata.get('source')
first_source

In [None]:
results_imgs = collection.get(
    where={
        "$and": [
            {"source": first_source},
            {"type": "image"}
        ]
    }
)


вивести зображення

In [None]:
def find_file_by_prefix(prefix, folder):
    for filename in os.listdir(folder):
        if filename.startswith(prefix):
            return os.path.join(folder, filename)
    return None

for img_id in results_imgs['ids']:
    filepath = find_file_by_prefix(img_id, img_dir)
    if filepath and os.path.exists(filepath):
        img = Image.open(filepath)
        img.show()
    else:
        print(f"Файл для {img_id} не знайдено")
filepath        

### LLM

лише текст

In [None]:
client = genai.Client(api_key=api_key)

with open(filepath, 'rb') as f:
      image_bytes = f.read()
query = "How is AI growth impacting tech companies' carbon goals and data center emissions?"

response = client.models.generate_content(
    model="gemini-2.5-flash", 
    contents=[
        types.Part(text=(
            "You are given a piece of text and an image. "
            "Based on both, provide a clear, structured, and factual response to the following query.\n\n"
            "Context:\n"
            f"{results['documents'][0][0]}\n\n"
            "Query:\n"
            f"{query}\n"
            "Use only the information available in the context and image. If you cannot answer based on that, say so honestly."
        )),
        types.Part.from_bytes(
            data=image_bytes,
            mime_type='image/jpeg',
        ),
    ]
)
print(response.text)