# LlamaIndex: RAG ile Sorgu İşleme, Embedding ve Cosine Similarity ile Veri Analizi

In [None]:
# Colab ortamında asenkron işlemler için nest_asyncio yüklüyoruz
%pip install nest_asyncio



In [None]:
import nest_asyncio
nest_asyncio.apply()

In [None]:
# LlamaIndex kütüphanesini güncelliyoruz
%pip install -Uq llama-index

## Extract

In [None]:
from llama_index.core import SimpleDirectoryReader

# yapayz pdf'imizi data klasörden yüklüyoruz
docs = SimpleDirectoryReader(input_dir="./data").load_data()

In [None]:
len(docs)  # Yüklenen toplam doküman sayısına bakalım (her sayfa bir doküman olarak alınıyor)

9

In [None]:
import pprint

# Yüklenen dokümanları daha okunaklı bir formatta yazdıralım
pprint.pprint(docs)

[Document(id_='56abf2c2-cfe3-4db0-94fd-e2fa776e9156', embedding=None, metadata={'page_label': '1', 'file_name': 'yapayz.pdf', 'file_path': '/content/data/yapayz.pdf', 'file_type': 'application/pdf', 'file_size': 1927556, 'creation_date': '2025-03-28', 'last_modified_date': '2025-03-28'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='Hayal gücümüzün sınırlarını zorlayan bir dünyaya adım atmak üzere \nolduğumuzun farkında mısınız? Bu dünyada bilgisayarlar, hesaplama \nyapabilen bir “beyin” olmaktan çıkıp yapay zekânın yenilikçi ve özgün \ndüşünme yeteneği ile bizi büyüleyecek bir hâle bürünüyor. Edebiyat, \nmüzik, sinema, tasarım, mimari, 

## Transform

In [None]:
# İlk dokümanın içeriğini sözlük formatında görüntüleyelim (fazla detay içerebilir)

docs[0].__dict__

{'id_': '43c9a784-d231-4907-8b3b-5131c9c3434c',
 'embedding': None,
 'metadata': {'page_label': '1',
  'file_name': 'yapayz.pdf',
  'file_path': '/content/data/yapayz.pdf',
  'file_type': 'application/pdf',
  'file_size': 1927556,
  'creation_date': '2025-03-28',
  'last_modified_date': '2025-03-28'},
 'excluded_embed_metadata_keys': ['file_name',
  'file_type',
  'file_size',
  'creation_date',
  'last_modified_date',
  'last_accessed_date'],
 'excluded_llm_metadata_keys': ['file_name',
  'file_type',
  'file_size',
  'creation_date',
  'last_modified_date',
  'last_accessed_date'],
 'relationships': {},
 'metadata_template': '{key}: {value}',
 'metadata_separator': '\n',
 'text_resource': MediaResource(embeddings=None, data=None, text='Hayal gücümüzün sınırlarını zorlayan bir dünyaya adım atmak üzere \nolduğumuzun farkında mısınız? Bu dünyada bilgisayarlar, hesaplama \nyapabilen bir “beyin” olmaktan çıkıp yapay zekânın yenilikçi ve özgün \ndüşünme yeteneği ile bizi büyüleyecek bir hâ

In [None]:
# LLM ve Embeddings'in görmesi gereken doküman örneği

from llama_index.core import Document
from llama_index.core.schema import MetadataMode

# Doküman oluşturuluyor ve metadata bilgileri tanımlanıyor
document = Document(
    text="This is a super-customized document",  #içerik
    metadata={    # meta veriler
        "file_name": "yapayz.pdf",
        "category": "yapay zeka",
        "author": "Erdem Unal",
    },
    # excluded_embed_metadata_keys=["file_name"],  # embeddingde hariç tutulacak metadata
    excluded_llm_metadata_keys=["category"],   # LLM'de hariç tutulacak metadata
    metadata_seperator="\n",    # metadata ayırıcı
    metadata_template="{key}:{value}",   # metadata formatı
    text_template="Metadata:\n{metadata_str}\n-----\nContent:\n{content}",   # içerik formatı
)

# LLM'in görmesi gereken içerik
print(
    "The LLM sees this: \n",
    document.get_content(metadata_mode=MetadataMode.LLM),    # LLM için içerik
)


The LLM sees this: 
 Metadata:
file_name:yapayz.pdf
author:Erdem Unal
-----
Content:
This is a super-customized document


In [None]:
from llama_index.core.schema import MetadataMode

# LLM'in göreceği içeriği yazdırmak için; şu an için yoruma alındı
# print(docs[0].get_content(metadata_mode=MetadataMode.LLM))   # LLM'in görmesi gereken içerik

# Embedding modelinin göreceği içeriği yazdırıyoruz; burada içerik aynı olduğu için benzer görünüyor
print(docs[0].get_content(metadata_mode=MetadataMode.EMBED)) # Embedding'in görmesi gereken içerik

page_label: 1
file_path: /content/data/yapayz.pdf

Hayal gücümüzün sınırlarını zorlayan bir dünyaya adım atmak üzere 
olduğumuzun farkında mısınız? Bu dünyada bilgisayarlar, hesaplama 
yapabilen bir “beyin” olmaktan çıkıp yapay zekânın yenilikçi ve özgün 
düşünme yeteneği ile bizi büyüleyecek bir hâle bürünüyor. Edebiyat, 
müzik, sinema, tasarım, mimari, eğitim ve daha pek çok alan yapay 
zekânın etkileyici dokunuşuyla şekillenirken insanlık kendi kapasitesini 
yeniden keşfediyor. İnsan ve makine arasındaki sınırların bulanıklaştığı 
bir çağa, üretken yapay zekâ çağına hoş geldiniz.
ChatGPT’yi duymayanımız kalmamıştır. Kendisi OpenAI ﬁrması 
tarafından geliştirilen yapay zekâ destekli bir sohbet robotu (chatbot). 
Yetenekleriyle şaşkınlık veren bu bot, konuşma tarzıyla karşımızda bir 
insan varmış gibi hissettiriyor. Şiir yazma, problem çözme, önerilerde 
bulunma gibi konularda olağanüstü bir başarı sergiliyor ve gerçekten 
insana özgü bir yeteneğe sahip gibi görünüyor. Günümüzde ChatG

In [None]:
# Tüm belgeler üzerinde döngü başlatıyoruz
for doc in docs:
    # İçerik ve meta veriler için şablon tanımlıyoruz
    doc.text_template = "Metadata:\n{metadata_str}\n---\nContent:\n{content}"

    # Embedding işleminde sayfa etiketini hariç tutuyoruz (sayfa etiketi embedding'e dahil edilmesin)
    if "page_label" not in doc.excluded_embed_metadata_keys:
        doc.excluded_embed_metadata_keys.append("page_label")

In [None]:
# Embedding tarafından görülen içeriği düzenledikten sonra, ilk belgenin içeriğini yazdırıyoruz

print(docs[0].get_content(metadata_mode=MetadataMode.EMBED))

Metadata:
file_path: /content/data/yapayz.pdf
---
Content:
Hayal gücümüzün sınırlarını zorlayan bir dünyaya adım atmak üzere 
olduğumuzun farkında mısınız? Bu dünyada bilgisayarlar, hesaplama 
yapabilen bir “beyin” olmaktan çıkıp yapay zekânın yenilikçi ve özgün 
düşünme yeteneği ile bizi büyüleyecek bir hâle bürünüyor. Edebiyat, 
müzik, sinema, tasarım, mimari, eğitim ve daha pek çok alan yapay 
zekânın etkileyici dokunuşuyla şekillenirken insanlık kendi kapasitesini 
yeniden keşfediyor. İnsan ve makine arasındaki sınırların bulanıklaştığı 
bir çağa, üretken yapay zekâ çağına hoş geldiniz.
ChatGPT’yi duymayanımız kalmamıştır. Kendisi OpenAI ﬁrması 
tarafından geliştirilen yapay zekâ destekli bir sohbet robotu (chatbot). 
Yetenekleriyle şaşkınlık veren bu bot, konuşma tarzıyla karşımızda bir 
insan varmış gibi hissettiriyor. Şiir yazma, problem çözme, önerilerde 
bulunma gibi konularda olağanüstü bir başarı sergiliyor ve gerçekten 
insana özgü bir yeteneğe sahip gibi görünüyor. Günümüz

İşte diğer, daha gelişmiş dönüşümler. Bazıları çalışabilmek için bir LLM (Büyük Dil Modeli) gerektiriyor. Biz, Groq üzerinden Qwen 2.5 32B Instruct 128k modelini kullanacağız, bu yüksek hızlı bir modeldir. Belgelerden Soru&Cevap (Q&A) ve başlıkları çıkarmak için yeterli olmalıdır.

In [None]:
# Llama-Index ile Groq LLM'lerini kullanabilmek için gerekli olan 'llama-index-llms-groq' paketini yükler.
%pip install -Uq llama-index-llms-groq

In [None]:
# Groq LLM'ini kullanmak için gerekli kütüphaneleri import eder ve API anahtarını alalım
from llama_index.llms.groq import Groq
import os
import getpass

# Kullanıcıdan Groq API anahtarını alır ve ortam değişkenine ekler
os.environ["GROQ_API_KEY"] = getpass.getpass("Enter your Groq API key: ")

Enter your Groq API key: ··········


In [None]:
# Groq LLM modelini başlatır ve API anahtarını kullanarak bağlantıyı kurar
llm_transformations = Groq(model="qwen-2.5-32b", api_key=os.environ["GROQ_API_KEY"])

In [None]:
# Farklı metin dönüştürme işlemleri (başlık çıkarıcı, soru-cevap çıkarıcı)

from llama_index.core.extractors import (
    TitleExtractor,        # Başlık çıkarıcı
    QuestionsAnsweredExtractor,      # Soru-cevap çıkarıcı
)
from llama_index.core.node_parser import SentenceSplitter     # Cümle ayırıcı

# Metinleri 1024 kelimelik parçalara ayıran cümle ayırıcı
text_splitter = SentenceSplitter(
    separator=" ", chunk_size=1024, chunk_overlap=128
)
# Başlık çıkarıcı, Groq modelini kullanarak ilk 5 düğümü çıkaracak
title_extractor = TitleExtractor(llm=llm_transformations, nodes=5)
# Soru-cevap çıkarıcı, Groq modelini kullanarak ilk 3 soruyu yanıtlayacak
qa_extractor = QuestionsAnsweredExtractor(llm=llm_transformations, questions=3)

# Veri akışını işlemek için ingeste boru hattı
from llama_index.core.ingestion import IngestionPipeline

# Transformasyon işlemleri sırasıyla çalıştıracak bir işlem hattı
pipeline = IngestionPipeline(
    transformations=[
        text_splitter,    # Metin ayırma
        title_extractor,   # Başlık çıkarma
        qa_extractor       # Soru-cevap çıkarma
    ]
)
# Verileri işle ve ilerlemeyi göster
nodes = pipeline.run(
    documents=docs,
    in_place=True,
    show_progress=True,
)

Parsing nodes:   0%|          | 0/9 [00:00<?, ?it/s]

  exec(txt, globals, ns)
100%|██████████| 1/1 [00:01<00:00,  1.07s/it]
100%|██████████| 1/1 [00:00<00:00,  2.14it/s]
100%|██████████| 1/1 [00:00<00:00,  1.77it/s]
100%|██████████| 2/2 [00:00<00:00,  3.31it/s]
100%|██████████| 1/1 [00:00<00:00,  1.95it/s]
100%|██████████| 2/2 [00:00<00:00,  3.41it/s]
100%|██████████| 2/2 [00:11<00:00,  5.85s/it]
100%|██████████| 2/2 [00:11<00:00,  5.84s/it]
100%|██████████| 2/2 [00:11<00:00,  5.85s/it]
 57%|█████▋    | 8/14 [00:46<00:26,  4.45s/it]

Varsayılan olarak, Llamaindex OpenAI'nin embedding modellerini kullanır. Ancak, aynı zamanda HuggingFace'den ücretsiz bir model de yükleyebilirsiniz (ancak bu daha yavaş olacaktır).

In [None]:
# nodes listesinin uzunluğunu yazdırma (kaç adet düğüm olduğunu gösterir)
len(nodes)

9

In [None]:
import pprint

# Düğümün içeriğini yazdırmak için __dict__ metodunu kullanma (bu satır yorum dışı bırakıldı)
# pprint.pprint(nodes[0].__dict__)

# İlk düğümün içeriğini, LLM göreceği şekilde yazdırma
print(nodes[0].get_content(metadata_mode=MetadataMode.LLM))

[Excerpt from document]
page_label: 1
file_path: /content/data/yapayz.pdf
document_title: Title: "Üretken Yapay Zekâ Çağı: ChatGPT ve Ötesi - Geleceğin Yolculuğuna Giriş"

This title suggests a comprehensive exploration of the era of generative artificial intelligence, focusing on ChatGPT and extending to future possibilities and advancements beyond it. The subtitle implies a journey into the future, indicating that the document will likely cover not only current technologies but also predictions and discussions about the future of AI.
questions_this_excerpt_can_answer: Based on the provided context, here are three questions that this document can specifically answer, which might not be easily found elsewhere:

1. **How does the document describe the transition from traditional AI to generative AI, and what specific examples does it provide to illustrate this shift?**
   - This question can be answered by examining the document's explanation of the differences between classical AI and 

## Index

In [None]:
# HuggingFace embeddings modelini yüklemek için llama-index-embeddings-huggingface paketini güncelleme
%pip install -Uq llama-index-embeddings-huggingface

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m94.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m73.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m52.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m14.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
# Embeddings

# HuggingFace modelinden embedding almak için gerekli modülün import edilmesi
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# BGE (Bidirectional Generative Encoder) modeli ile embedding oluşturuluyor
hf_embeddings = HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")

# "Hello world" metni için embedding hesaplanıyor
test_embed = hf_embeddings.get_text_embedding("Hello world")
#yazdıralım
print(test_embed)

[0.015196100808680058, -0.022570667788386345, 0.0085471011698246, -0.07417059689760208, 0.0038364154752343893, 0.0027135491836816072, -0.0312679260969162, 0.04463403671979904, 0.044055208563804626, -0.007871134206652641, -0.025200756266713142, -0.033366620540618896, 0.014427922666072845, 0.04653818905353546, 0.008555104956030846, -0.016145728528499603, 0.007405802607536316, -0.01901242695748806, -0.114726223051548, -0.01815761812031269, 0.12635929882526398, 0.02970289997756481, 0.025281012058258057, -0.034217868000268936, -0.04099970683455467, 0.006617335136979818, 0.010270599275827408, 0.022362269461154938, 0.004436342045664787, -0.12730959057807922, -0.0161492470651865, -0.020380133762955666, 0.047212108969688416, 0.011579900048673153, 0.0681871548295021, 0.007298617158085108, -0.017852986231446266, 0.04078212380409241, -0.010269463062286377, 0.023757092654705048, 0.01060289703309536, -0.028584439307451248, 0.00815972313284874, -0.015180555172264576, 0.0308962594717741, -0.0659798905

In [None]:
from huggingface_hub import login

# Hugging Face token'ınızı burada kullanalım
login("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")

In [None]:
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings

# Hugging Face modelini seçiyoruz
Settings.embed_model = HuggingFaceEmbedding(
    model_name="Data-Lab/multilingual-e5-large-instruct-embedder-tgd"
)

# Örnek metin ile embedding alalım
hf_embeddings = Settings.embed_model
test_embed = hf_embeddings.get_text_embedding("Merhaba dünya")
print(test_embed)

[-0.016705282032489777, -0.011946243233978748, 0.07994171231985092, -0.023517977446317673, 0.01432859431952238, 0.0026246579363942146, -0.07063882797956467, -0.0689142569899559, 0.03508877754211426, -0.045578982681035995, -0.05346222594380379, 0.018597019836306572, 0.02831447310745716, -0.008636756800115108, 0.03139949589967728, 0.050755538046360016, 0.0765010342001915, -0.03464064374566078, -0.055726997554302216, 0.06510782986879349, -0.036638595163822174, -0.04069102182984352, 0.018711162731051445, -0.05446203425526619, 0.048754822462797165, 0.04026756063103676, -0.023807751014828682, -0.021989138796925545, 0.04454756900668144, -0.015722811222076416, 0.02007135935127735, 0.024154920130968094, -0.06751210242509842, -0.03086235001683235, 0.010661407373845577, 0.01722293347120285, 0.014268146827816963, 0.01741877943277359, -0.010398464277386665, 0.0329473577439785, -0.013337639160454273, 0.03295813500881195, 0.004990623332560062, -0.026985207572579384, 0.03100605122745037, -0.0434882268

In [None]:
# index oluşturalım

# LlamaIndex'in VectorStoreIndex sınıfını import edelim
from llama_index.core import VectorStoreIndex

# Hücrelerdeki verilerle embedding modelini kullanarak bir vektör store index'i oluşturalım
index = VectorStoreIndex(nodes, embed_model=hf_embeddings)

## Query

In [None]:
# Groq ile Llama modelini kullanarak sorgu yapalım

from llama_index.core import VectorStoreIndex
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
import os
from llama_index.core.postprocessor import SimilarityPostprocessor


# Llama modelini Groq API üzerinden kullanma
llm_querying = Groq(
    model="llama-3.3-70b-versatile",
    api_key=os.environ["GROQ_API_KEY"],
    temperature=1.0,  # Yaratıcı ve çeşitli yanıtlar için
    max_tokens=500    # Cevap uzunluğunu sınırlama
)

# Similarity Cutoff Postprocessor oluştur
postprocessor = SimilarityPostprocessor(similarity_cutoff=0.85)

# İndeksin sorgu motoru olarak kullanılması
query_engine = index.as_query_engine(
    llm=llm_querying,
    similarity_top_k=15,
    postprocessors=[postprocessor]
)

# Sorgu yapma
response = query_engine.query(
    "Ayırt edici ve üretken modellerin farklarını, kedi ve köpek fotoğrafları örneği üzerinden açıklar mısınız?"
)

# Sonucu yazdırma
print(response)


Hayali bir durumda, kedi ve köpek fotoğraflarından oluşan büyük bir kutu düşünün, ancak bunlar karışık halde bulunmaktadırlar. Ayırıcı (discriminative) bir model, bu resimleri kedi ve köpek olarak ayrıştırmaya yardımcı olan bir araç gibidir. Bu işlemi, önceden kedi veya köpek olarak etiketlenmiş birçok resim inceleyerek gerçekleştirir. Bir kez öğrenince, yeni resimleri doğru kutuya đặtabilir.

Öte yandan, üretken (generative) bir model, daha önce görülmemiş yeni kedi ve köpek resimleri oluşturabilen büyülü bir ressam gibi çalışır. Aynı resimlere bakarak öğrenir, ancak yalnızca onları ayrıştırmak yerine, bir resmin kedi veya köpek gibi görünmesini sağlayan şeyin ne olduğunu anlamaya çalışır. Ardından, bu anlayışı kullanarak gerçekçi görünmeyen tamamen yeni resimler oluşturabilir.

Örneğin, gerçek hayatta olmayan bir köpek resmini oluşturmak istiyorsanız, bir üretken model, diğer köpek resimlerinden öğrendiklerine dayanarak bunu denemektedir. Bu, özellikle sanat oluşturma veya yeni ürünl

In [None]:
# response nesnesinin tüm içeriğini (özelliklerini) yazdırır
response.__dict__

{'response': 'Ayırt edici ve üretken modellerin farklı amaçları ve işlevleri vardır. Ayırt edici modeller, mevcut veri kümesini sınıflandırma amacını taşır ve belirli özellikleri öğrenerek fotoğrafları "kedi" veya "köpek" olarak ayırt edebilir. Bu modeller, ortak özelliklerin öğrenilmesine dayanır ve verilen bir fotoğraf kümesini sınıflandırma görevini gerçekleştirir.\n\nÜretken modeller ise, elimizdeki büyük miktardaki veri kümesini alır ve bu verilerin dağılımını öğrenir. Bu modellerden, herhangi bir etiketleme veya sınıflandırma işlemi yapmadan, yeni ve gerçekçi köpek veya kedi fotoğraflarının oluşturulmasını isteyebiliriz. Sonuç olarak, hiç var olmamış bir köpek veya kedi fotoğrafı elde edilebilir. Bu, üretken modellerin yeni veri örnekleri oluşturma yeteneğini gösterir.\n\nBu iki model türü arasındaki temel fark, ayırt edici modellerin sınıflandırma görevleri için kullanılması जबकi üretken modellerin yeni veri örnekleri oluşturma amacıyla kullanılmasıdır. Her iki model türü de yap

## Store

In [None]:
# Vektör verilerini belirtilen dizine (./vectors) kaydeder
index.storage_context.persist(persist_dir="./vectors")

In [None]:
from llama_index.core import StorageContext, load_index_from_storage

# StorageContext oluşturuluyor ve veriler "./vectors" dizininden yükleniyor
storage_context = StorageContext.from_defaults(persist_dir="./vectors")

# Kaydedilen index yükleniyor
index_from_storage = load_index_from_storage(storage_context, embed_model=hf_embeddings)

In [None]:
# Yüklenen index'i sorgulama motoruna dönüştürülüyor, LLM sorgulama modeli kullanılıyor
qa = index_from_storage.as_query_engine(llm=llm_querying)

In [None]:
# Sorgulama yapılıyor ve yanıt alınıyor
response = qa.query("Ayırt edici ve üretken modellerin farklarını, kedi ve köpek fotoğrafları örneği üzerinden açıklar mısınız?")
print(response)

Ayırt edici ve üretken modeller, yapay zeka alanında kullanılan iki farklı model türüdür. Ayırt edici modeller, veri setindeki özellikleri kullanarak sınıflandırma veya ayrıştırma işlemleri gerçekleştirir. Örneğin, kedi ve köpek fotoğraflarının sınıflandırılması için ayırt edici modeller kullanılabilir. Bu modeller, etiketlenmiş veri setini kullanarak kedi ve köpekleri ayırt eden özellikleri öğrenir ve daha sonra yeni, görmediği fotoğrafları sınıflandırmaya çalışır.

Üretken modeller ise, verilen veri setini kullanarak yeni, benzer veri üretme amacını taşır. Bu modeller, kedi veya köpek fotoğraflarının dağılımını öğrenip, daha sonra hiç var olmamış yeni bir kedi veya köpek fotoğrafı oluşturabilir. Üretken modeller, etiketli veri setine ihtiyaç duyulmaksızın, veri dağılımını öğrenerek yeni örnekler üretebilir.

Kedi ve köpek fotoğrafları örneğinde, ayırt edici model, etiketlenmiş veri setini kullanarak kedileri ve köpekleri ayırt eden özellikleri öğrenir. Örneğin, kulakların veya burunl

# Vector Stores

In [None]:
# Chromadb kütüphanesini yükleme
%pip install -Uq chromadb
# Llama-Index için Chroma vektör mağazası desteğini yükleme
%pip install -Uq llama-index-vector-stores-chroma

In [None]:
import chromadb
from llama_index.core import VectorStoreIndex
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import StorageContext

# Veritabanı istemcisini başlat, verilerin kaydedileceği yolu ayarla
db = chromadb.PersistentClient(path="./chroma_db")

# Yeni bir koleksiyon oluştur
chroma_collection = db.get_or_create_collection("AIGPT")

# Chroma'yı vektör mağazası olarak konteks ile ilişkilendir
vector_store = ChromaVectorStore(chroma_collection=chroma_collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)

# İndeksini oluştur
index = VectorStoreIndex(
    nodes, storage_context=storage_context, embed_model=hf_embeddings
)

# create a query engine and query
query_engine = index.as_query_engine(llm=llm_querying)

In [None]:
# Sorgu motorunu kullanarak sorguyu çalıştıralım ve yanıtı yazdıralım
response = query_engine.query("Ayırt edici ve üretken modellerin farklarını, kedi ve köpek fotoğrafları örneği üzerinden açıklar mısınız?")
print(response)

Ayırt edici modeller, sağladıkları avantajlarla uzun yıllardır ön planda iken, son zamanlarda üretken modellerin popülerliği hızla yükseliyor. 

Ayırt edici modeller, kedi ve köpek fotoğraflarını ayırarak düzenlemek için kullanılır. Örneğin, elimizde milyonlarca kedi ve köpek fotoğrafı olduğunu farz edelim, ancak tüm fotoğraflar birbirine karışmış ve açıp bakmadan hangi fotoğrafın kediye hangisinin köpeğe ait olduğunu bilemiyoruz. 

Bu durumda, bazı fotoğrafları kedi veya köpek olarak etiketlersiniz. Ardından, bu etiketlenmiş fotoğrafları yapay zekâya verirsiniz. Yapay zekâ, bu fotoğraflar ve etiketler üzerinden kedi ve köpek ayırımını öğrenmeye başlar. Eğitim tamamlandığında ise kalan fotoğrafları ona sunarak sınıflandırmasını isteyebilirsiniz. 

Üretken modeller ise, hiç var olmamış bir köpek fotoğrafı oluşturmak gibi görevler için kullanılır. Elimizdeki milyonlarca köpek fotoğrafını herhangi bir etiketleme yapmadan üretken modele veririz. Model, köpek fotoğraflarındaki verinin dağıl

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
import numpy as np

# Hugging Face embedding modelini yükleme
hf_embeddings = HuggingFaceEmbedding(model_name="Data-Lab/multilingual-e5-large-instruct-embedder-tgd")

# Doğru cevap ve model cevabı
true_answer = "Ayırt edici ve üretken modeller, farklı amaçlarla kullanılan yapay zeka modelleridir. Ayırt edici modeller, verileri sınıflandırmak ve anlamak için kullanılırken, üretken modeller yeni veriler üretir. Örneğin, bir kedi ve köpek fotoğrafı üzerinde çalışırken, ayırt edici model bu fotoğrafın kedi mi yoksa köpek mi olduğunu belirlerken, üretken model yeni bir kedi veya köpek fotoğrafı oluşturabilir."

response_text = response.response  # Modelin oluşturduğu yanıt

# Cevapları vektörleştirme
true_answer_embedding = hf_embeddings.get_text_embedding(true_answer)
response_embedding = hf_embeddings.get_text_embedding(response_text)

# Cosine Similarity hesaplama
similarity_score = cosine_similarity([true_answer_embedding], [response_embedding])[0][0]

print(f"Cosine Similarity Skoru: {similarity_score:.4f}")


Cosine Similarity Skoru: 0.6702
