<a href="https://colab.research.google.com/github/Ahmetyldrr/RAG-Driven-Generative-AI/blob/main/Ch04_Multimodal_Modular_RAG_for_Drone_Technology.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Multimodal Modüler RAG (Multimodal Modular RAG) Nedir?
Multimodal modüler RAG, farklı veri türlerini ve görevleri işlemek için çeşitli bileşenleri veya modülleri kullanan bir sistemdir. Örneğin, bir modül metin bilgilerini işlerken (LLM'ler kullanarak), başka bir modül görüntü verilerini yöneterek nesneleri tanımlar ve etiketler.

## Multimodal Modüler RAG'ın Temel Unsurları
- **Multimodal Veri (Multimodal Data)**: Metin, görüntü, ses gibi farklı veri türlerinin bir arada kullanılması.
- **Çoklu Kaynaklı Erişim (Multisource Retrieval)**: Farklı kaynaklardan veri erişimi ve işlenmesi.
- **Modüler Üretim (Modular Generation)**: Farklı modüllerin üretim sürecine katkıda bulunması.
- **Artırılmış Çıktı (Augmented Output)**: Üretilen çıktının artırılmış ve zenginleştirilmiş olması.

## Multimodal Modüler RAG Sistemi Nasıl Kurulur?
Bu bölümde, drone teknolojisi hakkında metin ve görüntü verilerini kullanarak sorgulara yanıtlar üreten bir multimodal modüler RAG programı oluşturacağız. Python'da LlamaIndex, Deep Lake ve OpenAI kullanarak bu sistemi kuracağız.

### Kullanılacak Veri Kümeleri
1. **Metin Veri Kümesi**: Drone'lar hakkında metin bilgileri içeren veri kümesi.
2. **Görüntü Veri Kümesi**: Drone görüntüleri ve etiketlerini içeren veri kümesi (Activeloop'tan alınmıştır).

### Kullanılacak Teknolojiler ve Kütüphaneler
- **Deep Lake**: Multimodal veri işleme için kullanılacaktır.
- **LlamaIndex**: İndeksleme ve erişim için kullanılacaktır.
- **OpenAI LLM'leri**: Üretken sorgular için kullanılacaktır.

### Sistemin Çalışması
1. **Veri İşleme**: Deep Lake kullanarak multimodal verileri işleme.
2. **İndeksleme ve Erişim**: LlamaIndex kullanarak verileri indeksleme ve erişim sağlama.
3. **Üretken Sorgular**: OpenAI LLM'leri kullanarak sorgulara yanıtlar üretme.
4. **Artırılmış Çıktılar**: Metin ve görüntülerle artırılmış çıktılar oluşturma.

## Örnek Kod
```python
# Import necessary libraries
from llama_index import SimpleDirectoryReader, LLMPredictor, ServiceContext
from llama_index.indices import VectorStoreIndex
from llama_index.storage.storage_context import StorageContext
from deeplake import Dataset
import openai

# Load datasets
text_data = SimpleDirectoryReader('./data/text').load_data()
image_data = Dataset('hub://activeloop/drone-images')

# Initialize LLM predictor
llm_predictor = LLMPredictor(llm=openai.OpenAI(temperature=0, model='text-davinci-003'))

# Create service context
service_context = ServiceContext.from_defaults(llm_predictor=llm_predictor)

# Create indices for text and image data
text_index = VectorStoreIndex.from_documents(text_data, service_context=service_context)
image_index = VectorStoreIndex.from_documents(image_data, service_context=service_context)

# Perform multimodal retrieval and generation
def multimodal_retrieval(query):
    # Text retrieval
    text_retriever = text_index.as_retriever()
    text_nodes = text_retriever.retrieve(query)
    
    # Image retrieval
    image_retriever = image_index.as_retriever()
    image_nodes = image_retriever.retrieve(query)
    
    # Generate response using OpenAI LLM
    response = llm_predictor.predict(query, context=text_nodes + image_nodes)
    
    return response

# Example usage
query = "What are the applications of drones in agriculture?"
response = multimodal_retrieval(query)
print(response)
```

## Kod Açıklaması
- **Veri Yükleme**: `SimpleDirectoryReader` ve `Dataset` kullanarak metin ve görüntü verileri yüklenir.
- **LLM Tahminleyici**: `LLMPredictor` kullanarak OpenAI LLM'leri ile tahminler yapılır.
- **Servis Bağlamı**: `ServiceContext` kullanarak indeksleme ve erişim için gerekli bağlam oluşturulur.
- **İndeksleme**: `VectorStoreIndex` kullanarak metin ve görüntü verileri için indeksler oluşturulur.
- **Multimodal Erişim ve Üretim**: `multimodal_retrieval` fonksiyonu ile sorgulara yanıtlar üretilir.

## Performans Metrikleri
- **Metin Yanıtları için Performans Metrikleri**: Üretilen metin yanıtlarının kalitesi değerlendirilir.
- **Görüntü Tanıma Metriği**: GPT-4o kullanarak görüntü tanıma performansı değerlendirilir.

## Sonuç
Bu bölümde, multimodal modüler RAG sisteminin nasıl kurulacağı ve kullanılacağı anlatılmıştır. Drone teknolojisi hakkında metin ve görüntü verilerini kullanarak sorgulara yanıtlar üreten bir sistem oluşturulmuştur.

# What is Multimodel RAG

## Multimodal Modüler RAG Sistemi Nedir?
Multimodal veri, metin, resim, ses ve video gibi farklı bilgi biçimlerini birleştirerek veri analizi ve yorumlamasını zenginleştirir. Bu arada, bir sistem modüler bir RAG sistemidir, çünkü farklı veri türleri ve görevleri için ayrı modüller kullanır. Her modül özelleşmiştir; örneğin, bir modül metne odaklanırken diğeri resimlere odaklanır, bu da çok modlu veri ile geliştirilmiş yanıt oluşturma yeteneğini gösterir.

## Modüler RAG Sisteminin Özellikleri
- Farklı veri türlerini işleyebilme yeteneği
- Her modülün özelleşmiş olması
- Çok modlu veri ile geliştirilmiş yanıt oluşturma yeteneği

## Kullanılan Veri Kümeleri
Bu bölümde iki veri kümesi kullanacağız:
1. **LLM Veri Kümesi**: Önceki bölümde oluşturulan drone teknolojisi üzerine metinsel verileri içerir.
2. **Deep Lake Multimodal VisDrone Veri Kümesi**: Drone tarafından çekilen binlerce etiketli resmi içerir.

## Sistemin Çalışma Akışı
Sistemin çalışma akışı Şekil 4.1'de gösterilmektedir. Bu akış, Bölüm 1'de gösterilen üretken RAG ekosistemine dayanmaktadır. Bu bölümde, önceki bölümlerde uygulanan embedding ve indexing işlevselliğine ek olarak, retrieval ve generation üzerinde duracağız.

## Kod Parçaları ve Açıklamaları
### LLM Veri Kümesinin Yüklenmesi
```python
# LLM veri kümesinin yüklenmesi (D4)
# Burada kullanılan kod parçası, LLM veri kümesini yüklemek için kullanılır.
# Veri kümesi, Chapter 3'te oluşturulan drone teknolojisi üzerine metinsel verileri içerir.
LLM_dataset = load_llm_dataset()
```

### LLM Sorgu Motorunun Başlatılması
```python
# LLM sorgu motorunun başlatılması (D4) ve (G4)
# VectorStoreIndex kullanılarak LlamaIndex vektör deposu indeksi oluşturulur.
# OpenAI GPT modeli ile hem retriever hem de generator olarak kullanılır.
from llama_index import VectorStoreIndex
llm_query_engine = VectorStoreIndex(LLM_dataset)
llm_query_engine = llm_query_engine.as_query_engine()
```

### Kullanıcı Girdisinin Tanımlanması
```python
# Kullanıcı girdisinin tanımlanması (G1)
# Hem LLM sorgu motoru hem de multimodal sorgu motoru için aynı kullanıcı girdisi kullanılır.
user_input = "Drone teknolojisi hakkında bilgi veriniz."
```

### Metinsel Veri Kümesinin Sorgulanması
```python
# Metinsel veri kümesinin sorgulanması (G1), (G2), ve (G4)
# LlamaIndex süreci, veri çekme ve içerik oluşturma işlemlerini sorunsuz bir şekilde gerçekleştirir.
llm_response = llm_query_engine.query(user_input)
```

### Multimodal VisDrone Veri Kümesinin Yüklenmesi ve Sorgulanması
```python
# Multimodal VisDrone veri kümesinin yüklenmesi (D4)
# VisDrone veri kümesi, binlerce etiketli drone resmi içerir.
visdrone_dataset = load_visdrone_dataset()

# Multimodal sorgu motorunun oluşturulması (D4) ve (G4)
# VectorStoreIndex kullanılarak VisDrone verileri için vektör deposu indeksi oluşturulur.
multimodal_query_engine = VectorStoreIndex(visdrone_dataset)
multimodal_query_engine = multimodal_query_engine.as_query_engine()

# Multimodal VisDrone veri kümesinin sorgulanması (G1), (G2), ve (G4)
multimodal_response = multimodal_query_engine.query(user_input)
```

### Yanıtların Birleştirilmesi ve Doğruluk Ölçütünün Uygulanması
```python
# Yanıtların birleştirilmesi (G4)
# LLM yanıtı ve multimodal yanıt birleştirilerek özet oluşturulur.
merged_output = merge_outputs(llm_response, multimodal_response)

# Doğruluk ölçütünün uygulanması (E)
# LLM ve multimodal performans ölçütleri hesaplanır ve toplanır.
llm_performance_metric = calculate_llm_performance(llm_response)
multimodal_performance_metric = calculate_multimodal_performance(multimodal_response)
multimodal_modular_rag_performance_metric = llm_performance_metric + multimodal_performance_metric
```

## Sonuç
Bu bölümde, multimodal modüler bir RAG sistemini nasıl oluşturacağımızı öğrendik. Bu sistem, metinsel ve görsel verileri birleştirerek daha zengin ve doğru yanıtlar oluşturabilmektedir. Gelecek bölümlerde, bu sistemin daha da geliştirilmesi ve ölçeklendirilmesi için çeşitli yöntemler ve araçlar ele alınacaktır.

# Building Multimodal RAG system


## Çok Modlu Modüler RAG Programı Oluşturma (Building a Multimodal Modular RAG Program)
## Drone Teknolojisi için Çok Modlu Modüler RAG Programı (Multimodal Modular RAG Program for Drone Technology)

Aşağıdaki bölümlerde, Python'da sıfırdan çok modlu modüler bir RAG (Retrieval-Augmented Generation) tabanlı üretken sistem oluşturacağız. Uygulayacağımız konular:

## LlamaIndex Yönetimli OpenAI LLMs (LlamaIndex-managed OpenAI LLMs)
LlamaIndex tarafından yönetilen OpenAI LLMs kullanarak drone'lar hakkında metinleri işleme ve anlama.

## Derin Göl Çok Modlu Veri Kümeleri (Deep Lake Multimodal Datasets)
Drone'lar tarafından çekilen görüntüleri ve etiketleri içeren Deep Lake çok modlu veri kümeleri oluşturma.

## Sınırlayıcı Kutular Kullanarak Nesne Tanımlama (Object Identification using Bounding Boxes)
Görüntüleri görüntülemek ve sınırlayıcı kutular kullanarak içlerindeki nesneleri tanımlamak için fonksiyonlar oluşturma.

## Metin ve Görüntü Kullanarak Soru-Cevap Sistemi (Question-Answering System using Text and Images)
Hem metin hem de görüntüleri kullanarak drone teknolojisi hakkında soruları cevaplayabilen bir sistem oluşturma.

## Performans Ölçütleri (Performance Metrics)
Modüler çok modlu cevapların doğruluğunu ölçmek için performans ölçütleri, GPT-4o ile görüntü analizi dahil.

Öncelikle, LLM veri kümesini 2. Bölüm'de oluşturduğunuzdan emin olun, çünkü bu bölümde onu yüklüyoruz. Ancak, bu bölümü not defterini çalıştırmadan okuyabilirsiniz, çünkü kod ve açıklamalar ile kendi kendine yeterli.

## Not Defterini Açma (Opening the Notebook)
`Multimodal_Modular_RAG_Drones.ipynb` not defterini bu bölüm için GitHub deposunda açın: https://github.com/Denis2054/RAG-Driven-Generative-AI/tree/main/Chapter04.

## Kurulum (Installation)
Kurulu paketler, önceki bölümdeki `Installing the environment` bölümünde listelenenlerle aynıdır. Aşağıdaki her bölüm, çok modlu modüler not defterini oluşturma konusunda size yol gösterecektir, LLM modülü ile başlayarak.

### Kod Parçacıkları (Code Snippets)

Henüz kod parçacıkları verilmediği için, aşağıdaki örnek kodları kullanarak çok modlu modüler RAG programını oluşturabilirsiniz.

Örneğin, LlamaIndex Yönetimli OpenAI LLMs kullanmak için:
```python
from llama_index.llms import OpenAI

# OpenAI LLM nesnesini oluşturma
llm = OpenAI(model="gpt-3.5-turbo", temperature=0.7)

# LLM'yi kullanarak metin oluşturma
response = llm.complete("Drone teknolojisi hakkında bir metin yaz")

print(response.text)
```
Bu kod, `llama_index` kütüphanesini kullanarak OpenAI LLM nesnesini oluşturur ve drone teknolojisi hakkında bir metin oluşturur.

Deep Lake çok modlu veri kümeleri oluşturmak için:
```python
import deeplake

# Deep Lake veri kümesini oluşturma
ds = deeplake.dataset("drone_images")

# Görüntüleri ve etiketleri veri kümesine ekleme
ds.images.append("image1.jpg")
ds.labels.append("drone")

# Veri kümesini görüntüleme
print(ds.images[0])
print(ds.labels[0])
```
Bu kod, `deeplake` kütüphanesini kullanarak bir Deep Lake veri kümesi oluşturur ve görüntüleri ve etiketleri veri kümesine ekler.

Sınırlayıcı kutular kullanarak nesne tanımlama için:
```python
import cv2

# Görüntüyü yükleme
image = cv2.imread("image1.jpg")

# Sınırlayıcı kutu çizme
cv2.rectangle(image, (10, 10), (50, 50), (0, 255, 0), 2)

# Görüntüyü görüntüleme
cv2.imshow("Image", image)
cv2.waitKey(0)
cv2.destroyAllWindows()
```
Bu kod, `cv2` kütüphanesini kullanarak bir görüntüyü yükler ve sınırlayıcı kutu çizer.

Metin ve görüntü kullanarak soru-cevap sistemi oluşturmak için:
```python
from transformers import AutoModelForQuestionAnswering, AutoTokenizer

# Model ve tokenizer'ı yükleme
model = AutoModelForQuestionAnswering.from_pretrained("deepset/roberta-base-squad2")
tokenizer = AutoTokenizer.from_pretrained("deepset/roberta-base-squad2")

# Soru ve metni kodlama
question = "Drone teknolojisi nedir?"
text = "Drone teknolojisi, insansız hava araçları kullanarak çeşitli görevleri yerine getiren bir teknolojidir."

inputs = tokenizer.encode_plus(
    question,
    text,
    add_special_tokens=True,
    max_length=512,
    return_attention_mask=True,
    return_tensors='pt'
)

# Cevabı oluşturma
outputs = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])

answer_start = torch.argmax(outputs.start_logits)
answer_end = torch.argmax(outputs.end_logits) + 1

answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][answer_start:answer_end]))

print(answer)
```
Bu kod, `transformers` kütüphanesini kullanarak bir soru-cevap modeli yükler ve bir soruya cevap oluşturur.

Performans ölçütleri için:
```python
from sklearn.metrics import accuracy_score

# Doğruluk ölçütü hesaplama
accuracy = accuracy_score(true_labels, predicted_labels)

print("Doğruluk:", accuracy)
```
Bu kod, `sklearn` kütüphanesini kullanarak doğruluk ölçütünü hesaplar.

Bu kod parçacıkları, çok modlu modüler RAG programını oluşturmak için kullanılabilir.

In [6]:
from together import Together

def ask_together(content):

    client = Together(api_key="07e297e19eaabe78c4ae52006f8d7ea67d6470727fff514aba20559fb273ea31")

    response = client.chat.completions.create(
    model="meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8",
    messages=[{"role":"user","content":content}],
    temperature=0.51,
    top_p=0.91,
    seed=198
)
    return print(response.choices[0].message.content)


soru = """

Aşağıdaki paragrafta anlatılan konuyu türkçe olarak tekrar düzenle ve önemli noktaları maddeler halinde yaz aynı zamanda text içinde kodlar varsa yaz ve açıkla  , türkçenin yanına ingilizce teknik terimleri parantez içinde eklermisin , ayrıca konu da önemli gördüğün eklemeleri yapabilirsin , tüm yazıları markdown ##yazı şeklinde yaz , Lütfen tüm kodları eksiksiz olarak yaz , kodlar tam olarak birebir aynı olmalıdır,Ayrıca kodları ayrıntılı olarak açıkla nerede ve nasıl kullanıldığını kodun altına yaz,Texte olan tüm konuları eklemelisin


-----------------------------------------------------------------BAŞLA------------------------





Building a multimodal modular RAG program for drone technology
In the following sections, we will build a multimodal modular RAG-driven generative system from scratch in Python, step by step. We will implement:

LlamaIndex-managed OpenAI LLMs to process and understand text about drones
Deep Lake multimodal datasets containing images and labels of drone images taken
Functions to display images and identify objects within them using bounding boxes
A system that can answer questions about drone technology using both text and images
Performance metrics aimed at measuring the accuracy of the modular multimodal responses, including image analysis with GPT-4o
Also, make sure you have created the LLM dataset in Chapter 2 since we will be loading it in this section. However, you can read this chapter without running the notebook since it is self-contained with code and explanations. Now, let’s get to work!

Open the Multimodal_Modular_RAG_Drones.ipynb notebook in the GitHub repository for this chapter at https://github.com/Denis2054/RAG-Driven-Generative-AI/tree/main/Chapter04. The packages installed are the same as those listed in the Installing the environment section of the previous chapter. Each of the following sections will guide you through building the multimodal modular notebook, starting with the LLM module. Let’s go through each section of the notebook step by step.







-------------------------------------BİTİR----------------------------------------------

"""

ask_together(soru)

## Çok Modlu Modüler RAG Programı Oluşturma (Building a Multimodal Modular RAG Program)
## Drone Teknolojisi için Çok Modlu Modüler RAG Programı (Multimodal Modular RAG Program for Drone Technology)

Aşağıdaki bölümlerde, Python'da sıfırdan çok modlu modüler bir RAG (Retrieval-Augmented Generation) tabanlı üretken sistem oluşturacağız. Uygulayacağımız konular:

## LlamaIndex Yönetimli OpenAI LLMs (LlamaIndex-managed OpenAI LLMs)
LlamaIndex tarafından yönetilen OpenAI LLMs kullanarak drone'lar hakkında metinleri işleme ve anlama.

## Derin Göl Çok Modlu Veri Kümeleri (Deep Lake Multimodal Datasets)
Drone'lar tarafından çekilen görüntüleri ve etiketleri içeren Deep Lake çok modlu veri kümeleri oluşturma.

## Sınırlayıcı Kutular Kullanarak Nesne Tanımlama (Object Identification using Bounding Boxes)
Görüntüleri görüntülemek ve sınırlayıcı kutular kullanarak içlerindeki nesneleri tanımlamak için fonksiyonlar oluşturma.

## Metin ve Görüntü Kullanarak Soru-Cevap Sistemi (Question-Answering 