<a href="https://colab.research.google.com/github/Ahmetyldrr/RAG-Driven-Generative-AI/blob/main/Ch02_RAG_Embedding_Vector_Stores_with_Deep_Lake_and_OpenAI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RAG Embedding Vector Stores ile Derin Göl (Deep Lake) ve OpenAI Kullanımı

Bu bölümde, RAG (Retrieval-Augmented Generation) tabanlı üretken yapay zeka (Generative AI) uygulamalarında karşılaşılan karmaşıklıklar ve bu karmaşıklıkları aşmak için kullanılan teknikler ele alınacaktır. Özellikle, metinlerin özetlenmesi ve anlamlandırılması için kullanılan "embedding" vektörlerinin depolanması ve yönetilmesi konusu derinlemesine incelenecektir.

### Embedding Vektörleri ve Önemi

Embedding vektörleri, yapılandırılmış veya yapılandırılmamış metinleri kompakt, yüksek boyutlu vektörlere dönüştürerek metinlerin anlamsal özünü yakalar. Bu sayede, bilgi erişimi daha hızlı ve verimli hale gelir. Ancak, büyük veri setleri ile çalışırken, belge embedding'lerinin oluşturulması ve depolanması gerekliliği ortaya çıkar ve bu da depolama sorunlarına yol açar.

### Neden Anahtar Kelimeler Yerine Embedding Kullanılır?

Anahtar kelimeler yerine embedding vektörlerinin kullanılmasının nedeni, embedding'lerin metinlerin daha derin anlamsal anlamlarını yakalayabilmesi ve daha incelikli, bağlam farkında bilgi erişimi sağlamasıdır. Bu, daha iyi ve daha ilgili sonuçlar elde edilmesini sağlar.

## Vektör Mağazaları (Vector Stores)

Embedding vektörlerinin organize edilmesi ve hızlı bir şekilde erişilebilmesi için vektör mağazaları kullanılır. Bu bölümde, ham verilerden Activeloop Deep Lake vektör mağazasına nasıl gidileceği, OpenAI embedding modellerinin yüklenmesi ve çeşitli platformlar arası paketlerin kurulması ve uygulanması ele alınacaktır.

### RAG Pipeline'ın Bileşenlere Ayrılması

RAG pipeline'ını bağımsız bileşenlere ayırarak, birden fazla takımın aynı anda proje üzerinde çalışabilmesi sağlanır. Bu sayede, proje daha verimli ve yönetilebilir hale gelir.

## Uygulama: Python ile RAG Pipeline Kurulumu

Bu bölümde, Python kullanarak sıfırdan üç bileşenli bir RAG pipeline'ı kurulacaktır. Activeloop Deep Lake, OpenAI ve özel geliştirilen fonksiyonlar kullanılarak, RAG tabanlı üretken yapay zeka pipeline'ı için bir şablon oluşturulacaktır.

### Karşılaşılan Zorluklar

- **Paket ve Bağımlılık Sorunları:** Çapraz platform ortam sorunları ile paket ve bağımlılıkların yönetimi.
- **Veri Parçalama (Chunking), Embedding Vektörleri ve Yükleme:** Veri parçalama, embedding vektörlerinin oluşturulması ve vektör mağazalarına yüklenmesi.

### Çözüm: GPT-4o Modeli ile Retrieval Queries Kullanımı

GPT-4o modelinin girdisini retrieval queries ile zenginleştirerek sağlam çıktıların üretilmesi sağlanacaktır.

## Sonuç

Bu bölümün sonunda, vektör mağazalarında gömülü belgelerin üretken yapay zeka için nasıl kullanılacağı tam olarak anlaşılmış olacaktır.

### İlgili Kaynaklar

- [Activeloop Deep Lake](https://www.activeloop.ai/)
- [OpenAI](https://www.openai.com/)

### Kullanılan Teknikler ve Kodlar

- **Embedding Vektörleri:** Metinlerin anlamsal özünü yakalamak için kullanılır. Örnek kod: `sentence-transformers` kütüphanesini kullanarak embedding oluşturma.
- **Vektör Mağazaları:** Embedding vektörlerini organize etmek ve hızlı erişim sağlamak için kullanılır. Örnek: Activeloop Deep Lake.
- **RAG Pipeline:** Retrieval-Augmented Generation pipeline'ı, bilgi erişimi ve metin üretimi için kullanılır.

### Neden Bu Teknikler Kullanılır?

- Daha verimli ve anlamlı bilgi erişimi sağlamak.
- Büyük veri setlerini daha iyi yönetmek.
- Üretken yapay zeka uygulamalarında daha doğru ve ilgili sonuçlar elde etmek.

### Kullanılabilecek Projeler

- **Doğal Dil İşleme (NLP) Projeleri:** Metin sınıflandırma, duygu analizi, metin özetleme.
- **Üretken Yapay Zeka Uygulamaları:** Chatbot'lar, içerik oluşturma araçları.
- **Bilgi Erişim Sistemleri:** Arama motorları, belge yönetim sistemleri.

## Markdown İfadeleri ile Özet

## RAG ve Embedding Vektörleri
## Vektör Mağazaları ve Önemi
## Uygulama ve Karşılaşılan Zorluklar
## Sonuç ve İlgili Kaynaklar

# From raw data to embeddings in vector stores

## Giriş
Bu bölümde, ham verilerden vektör depolarında (vector stores) gömülü temsillere (embeddings) kadar olan süreç açıklanmaktadır. Gömülü temsiller, metin, resim veya ses gibi her türlü veriyi gerçek sayılara dönüştürerek matematiksel temsiller oluşturur.

## Gömülü Templerin Oluşturulması (Creating Embeddings)
Gömülü temsiller, OpenAI `text-embedding-3-small` gibi bir model kullanılarak oluşturulur. Bu model, ham verileri (kitaplar, makaleler, bloglar, resimler veya şarkılar) temizledikten sonra gömülü temsillere dönüştürür. Activeloop Deep Lake gibi araçlar, metni önceden tanımlanmış parçalara (chunks) ayırarak daha detaylı gömülü temsiller oluşturur. Bu parçaların boyutu, örneğin 1,000 karakter olabilir.

## Şeffaflık ve RAG (Transparency and RAG)
RAG (Retrieval-Augmented Generation) çerçeveleri, oluşturulan her içerik parçasının kaynak verilere kadar izlenebilir olmasını sağlar. Bu, çıktıların şeffaflığını garanti eder. OpenAI üretken modeli, artırılmış girdiyi dikkate alarak yanıt verir. Gömülü temsiller doğrudan görünür ve metne bağlıdır, parametrik modellerin aksine.

## Vektör Deposu (Vector Store)
Vektör deposu, yüksek boyutlu verileri (gömülü temsiller gibi) işlemek üzere tasarlanmış özel bir veritabanıdır. Activeloop gibi sunucusuz platformlarda veri kümeleri oluşturulabilir ve API aracılığıyla kodda erişilebilir.

## Vektör Deposunun Özellikleri
Vektör depoları, güçlü indeksleme yöntemleri (indexing methods) ile donatılmıştır. Bu, RAG modelinin üretim aşamasında en ilgili gömülü temsilleri hızlı bir şekilde bulmasını ve getirmesini sağlar. Kullanıcı girdilerini artırarak modelin yüksek kaliteli çıktı üretme yeteneğini artırır.

## RAG İşlem Hattının Oluşturulması (Building a RAG Pipeline)
Veri toplama, işleme ve getirme işlemlerinden artırılmış girdi oluşturmaya kadar olan süreç RAG işlem hattını oluşturur.

## Kullanılan Teknikler ve Kodlar
- **Gömülü Templerin Oluşturulması**: OpenAI `text-embedding-3-small` modeli kullanılır.
- **Vektör Deposu**: Activeloop Deep Lake gibi araçlar kullanılır.
- **İndeksleme Yöntemleri**: Vektör depolarında güçlü indeksleme yöntemleri kullanılır.

## Neden Bu Teknikler Kullanılır?
- Gömülü temsiller, verileri matematiksel olarak temsil ederek benzer verilerin getirilmesini sağlar.
- RAG çerçeveleri, çıktıların şeffaflığını garanti eder.
- Vektör depoları, yüksek boyutlu verileri verimli bir şekilde işler.

## Kullanılabilecek Projeler
- Doğal dil işleme (NLP) projeleri
- Görüntü ve ses işleme projeleri
- Öneri sistemleri (recommendation systems)

## Kaynaklar
- [Activeloop Deep Lake](https://www.activeloop.ai/)
- [OpenAI](https://www.openai.com/)

## Ek Teknikler
- **Cosine Similarity**: Gömülü temsiller arasındaki benzerliği ölçmek için kullanılır.
- **Approximate Nearest Neighbors (ANN)**: Vektör depolarında hızlı arama yapmak için kullanılır.

Bu teknikler ve araçlar, büyük miktarda veriyi işleyerek yüksek kaliteli çıktı üretmek için kullanılır.

# RAG Pipeline'ı Düzenleme (Organizing RAG in a Pipeline)

RAG (Retrieve, Augment, Generate) pipeline'ı genellikle verileri toplar, temizler, örneğin dokümanları parçalara ayırır (`chunking`), gömme (`embedding`) işlemlerini gerçekleştirir ve bir vektör veri deposunda (`vector store dataset`) saklar. Daha sonra, vektör veri kümesi (`vector dataset`), üretken bir yapay zeka (`generative AI`) modelinin girdi (`input`) süresini artırmak için sorgulanır (`queried`). Ancak, bir vektör deposu (`vector store`) kullanırken bu RAG işlem sırasını tek bir programda çalıştırmamak önerilir.

## İşlemleri Ayırma (Separating the Process)

En azından işlemleri üç bileşene ayırmak gerekir:
1. **Veri Toplama ve Hazırlama (`Data collection and preparation`)**: Verilerin toplanması ve temizlenmesi.
2. **Veri Gömme ve Yükleme (`Data embedding and loading into the dataset of a vector store`)**: Verilerin gömme işlemlerinin yapılması ve vektör veri deposuna yüklenmesi.
3. **Sorgulama ve Üretken Model (`Querying the vectorized dataset to augment the input of a generative AI model`)**: Vektör veri kümesinin sorgulanması ve üretken modelin girdi süresini artırmak için kullanılması.

## Bu Yaklaşımın Nedenleri (Reasons for this Component Approach)

1. **Uzmanlaşma (`Specialization`)**: Her takım üyesinin en iyi olduğu alanda çalışmasına olanak tanır.
2. **Ölçeklenebilirlik (`Scalability`)**: Farklı bileşenlerin ayrı ayrı ölçeklendirilmesini ve geliştirilmesini sağlar.
3. **Paralel Geliştirme (`Parallel development`)**: Her takımın diğerlerinden bağımsız olarak çalışmasına ve geliştirmeler yapmasına olanak tanır.
4. **Bakım (`Maintenance`)**: Bileşenlerin bağımsız olarak bakımının yapılmasını sağlar.
5. **Güvenlik ve Gizlilik (`Security concerns and privacy`)**: Her takımın ayrı ayrı yetkilendirilmesini ve erişim kontrolünü sağlar.

## Kullanılan Teknikler ve Kodlar (Techniques and Codes Used)

- `Chunking`: Dokümanların daha küçük parçalara ayrılması.
- `Embedding`: Verilerin vektör temsillerinin oluşturulması.
- `Vector Store`: Vektörlerin saklandığı veri deposu.

Bu teknikler dışında, RAG pipeline'ında kullanılan diğer teknikler arasında ` Named Entity Recognition (NER)`, `Part-of-Speech (POS) Tagging` ve `Dependency Parsing` gibi doğal dil işleme (`Natural Language Processing, NLP`) teknikleri de bulunabilir.

## Neden Böyle Yapılır? (Why is it Done this Way?)

RAG pipeline'ını ayrı bileşenlere ayırmak, büyük ölçekli projelerde ve üretim ortamlarında (`production environments`) daha iyi bir yönetim ve bakım sağlar. Ayrıca, her bileşenin bağımsız olarak geliştirilmesi ve ölçeklendirilmesi mümkündür.

## Kullanım Alanları (Use Cases)

RAG pipeline'ı, metin tabanlı üretken modellerin geliştirilmesinde ve kullanılmasında kullanılabilir. Örneğin, sohbet robotları (`chatbots`), metin özetleme (`text summarization`) ve içerik oluşturma (`content generation`) gibi alanlarda kullanılabilir.

## Kaynaklar (Resources)

- [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks](https://arxiv.org/abs/2005.11401)
- [Vector Databases: A Beginner's Guide](https://www.youtube.com/watch?v=OQBKp9gdHO4)
- [A Beginner Guide Vektor Database](https://www.youtube.com/watch?v=NEreO2zlXDk)
- [Vector Databases: Complete Tutorial](https://www.youtube.com/watch?v=8KrTO9bS91s)
- [What is Vektor Database](https://www.youtube.com/watch?v=gl1r1XV0SLw&pp=ygUPdmVrdG9yIGRhdGFiYXNl)
- [Top 5 Vektor Database](https://www.youtube.com/watch?v=csTU7-Wg8Hs)
- [OpenAi Embedding Vektor Databese](https://www.youtube.com/watch?v=ySus5ZS0b94)
- [Types Vektor Database](https://www.youtube.com/watch?v=VfcRxtBKI54)
- [Vektor DataBase PGVektor vs Pinecone](https://www.youtube.com/watch?v=mke1V-2__D0)
- [İntroduction Vektör Database](https://www.youtube.com/watch?v=f0EcGl9O_Wg&pp=ygUPdmVrdG9yIGRhdGFiYXNl)
- [Vektor DataBase Pinecone](https://www.youtube.com/watch?v=56JSsEbMQVA)
-[Vektor DataBase ChromeDb](https://www.youtube.com/watch?v=HjvYsUL8NZQ)
- [Natural Language Processing (almost) from Scratch](https://arxiv.org/abs/1103.0398)

# RAG (Retrieval-Augmented Generation) Tabanlı Üretken Yapay Zeka İşlem Hattı (Pipeline)

RAG-driven generative AI pipeline, büyük dil modellerinin (LLM) geliştirilmesinde kullanılan bir yaklaşımdır. Bu yaklaşım, birden fazla bileşeni bir araya getirerek, üretken yapay zeka uygulamalarının geliştirilmesini sağlar.

### RAG İşlem Hattının Bileşenleri

RAG işlem hattı üç ana bileşenden oluşur:

1. **Veri Toplama ve Hazırlama (Data Collection and Prep - D1 ve D2)**: Bu bileşen, ham verilerin toplanması ve temizlenmesi işlemlerini içerir. Bu işlemler, verilerin doğru ve tutarlı olmasını sağlar.
2. **Veri Embedding ve Depolama (Data Embedding and Storage - D2 ve D3)**: Bu bileşen, toplanan verilerin OpenAI'ın embedding modeli kullanılarak vektörleştirilmesi ve bu vektörlerin bir vektör veritabanında (örneğin, Activeloop Deep Lake) depolanması işlemlerini içerir.
3. **Artırılmış Üretim (Augmented Generation - D4, G1-G4 ve E1)**: Bu bileşen, kullanıcı girdileri ve retrieval sorguları temel alınarak içerik üretimini gerçekleştirir. Bu işlem, GPT-4 gibi büyük dil modelleri kullanılarak yapılır.

### RAG İşlem Hattının Avantajları

RAG işlem hattının avantajları şunlardır:

* **Modüler Yapı**: RAG işlem hattı, her biri farklı bir bileşene odaklanan birden fazla takım tarafından geliştirilebilir. Bu, geliştirme sürecini hızlandırır ve ekiplerin birbirlerini beklemesini önler.
* **Esneklik**: RAG işlem hattı, farklı veri kaynakları ve farklı dil modelleri ile entegre edilebilir.

### Kullanılan Teknikler

RAG işlem hattında kullanılan teknikler şunlardır:

* **Embedding**: Metin verilerinin vektörleştirilmesi işlemidir. Bu işlem, OpenAI'ın embedding modeli kullanılarak yapılır.
* **Vektör Veritabanı**: Vektörleştirilmiş verilerin depolanması için kullanılan bir veritabanıdır. Örnek olarak Activeloop Deep Lake verilebilir.
* **GPT-4**: Büyük bir dil modelidir. Bu model, artırılmış üretim bileşeninde kullanılır.

### Neden Böyle Yapılır?

RAG işlem hattı, büyük dil modellerinin geliştirilmesini hızlandırmak ve kolaylaştırmak için tasarlanmıştır. Bu yaklaşım, birden fazla bileşeni bir araya getirerek, üretken yapay zeka uygulamalarının geliştirilmesini sağlar.

### Kullanılabilecek Projeler

RAG işlem hattı, aşağıdaki projelerde kullanılabilir:

* **Chatbot**: RAG işlem hattı, chatbot uygulamalarında kullanılabilir.
* **İçerik Üretimi**: RAG işlem hattı, içerik üretim uygulamalarında kullanılabilir.
* **Dil Çeviri**: RAG işlem hattı, dil çeviri uygulamalarında kullanılabilir.

### Kaynaklar

* [Retrieval-Augmented Generation for Large Language Models: A Survey](https://arxiv.org/abs/2108.12409)
* [RAG: Retrieval-Augmented Generation](https://www.pinecone.io/learn/rag-retrieval-augmented-generation/)
* [Activeloop Deep Lake](https://www.activeloop.ai/deep-lake/)

# Building RAG Pipeline

## RAG Pipeline Kurulumu  (Installation Packages and Libraries)

RAG (Retrieval-Augmented Generation) pipeline'ı oluşturmak için gerekli paket ve kütüphaneleri kurmak gerekmektedir. Bu işlem sırasında, bağımlılık çakışmalarını (dependency conflicts) ve kütüphanelerin fonksiyonlarıyla ilgili sorunları önlemek için paket sürümlerini dondurmak (freeze package versions) önemlidir.

### Bağımlılık Çakışmaları ve Sürüm Sorunları (Dependency Conflicts and Version Issues)

- **Sürüm Çakışmaları (Version Conflicts):** Kullanılan kütüphanelerin farklı sürümleri arasında çakışmalar olabilir. Örneğin, bir kütüphane belirli bir sürümdeki başka bir kütüphaneye bağımlı olabilir.
- **Uygulama Çalıştırma Sorunları (Application Execution Issues):** Bir uygulamanın çalışması için bazı kütüphanelerin güncellenmesi gerekebilir. Örneğin, Ağustos 2024'te Deep Lake kurulumu için Pillow sürüm 10.x.x gereklirken, Google Colab'da bu sürüm 9.x.x idi. Bu nedenle, Deep Lake kurulumundan önce Pillow'un kaldırılıp yeniden kurulumu gerekmiştir.
- **Sürüm Donması (Version Freezing):** Sürüm dondurma, uzun süre aynı sürümde kalındığında bazı kütüphanelerin işlevselliğini kaybetmesine (deprecation) veya hataların düzeltilmemesine neden olabilir.

### Paket Sürümlerini Dondurma (Freezing Package Versions)

Paket sürümlerini dondurmak, bir uygulama için belirli bir süre boyunca kararlılık sağlar, ancak uzun vadede sorunlara yol açabilir. Diğer taraftan, sürümleri çok hızlı güncelleme de diğer kütüphanelerin işlemez hale gelmesine neden olabilir. Bu nedenle, sürekli bir kalite kontrol süreci (continual quality control process) gereklidir.

### Kurulum Adımları (Installation Steps)

Bu bölümde, RAG pipeline'ı için gerekli ortamı oluşturmak üzere kurulum adımları gerçekleştirilecektir. Paket sürümleri dondurulacaktır.

### Kullanılan Teknikler ve Alternatifler (Used Techniques and Alternatives)

- **Paket Sürüm Yönetimi (Package Version Management):** `pip freeze` veya `conda env export` gibi komutlar kullanılarak mevcut paket sürümleri dondurulabilir.
- **Ortam Yönetimi (Environment Management):** `conda` veya `virtualenv` gibi araçlar kullanılarak izole edilmiş ortamlar oluşturulabilir.

### Kod Örnekleri (Code Examples)

```bash
# pip kullanarak paket sürümlerini dondurma
pip freeze > requirements.txt

# conda kullanarak ortamı export etme
conda env export > environment.yml
```

### Neden Böyle Yapılıyor? (Why is it Done This Way?)

Paket sürümlerini dondurmak, geliştirme ortamında tutarlılık ve kararlılık sağlar. Ancak, güvenlik yamaları ve yeni özelliklerden yararlanmak için düzenli olarak güncelleme yapmak önemlidir.

### Kullanım Alanları (Use Cases)

- **Makine Öğrenimi Projeleri (Machine Learning Projects):** Özellikle karmaşık bağımlılıklara sahip makine öğrenimi projelerinde paket sürüm yönetimi kritiktir.
- **Yazılım Geliştirme Projeleri (Software Development Projects):** Her türlü yazılım geliştirme projesinde, bağımlılık yönetimi için paket sürüm dondurma ve ortam yönetimi önemlidir.

### Kaynaklar (Resources)

- [Pip Documentation](https://pip.pypa.io/en/stable/)
- [Conda Documentation](https://docs.conda.io/en/latest/)
- [Virtualenv Documentation](https://virtualenv.pypa.io/en/latest/)

Bu teknikler ve araçlar, yazılım projelerinde kararlılık ve tekrar üretilebilirlik (reproducibility) sağlamak için kullanılır.

### Yapılacak İşlemler ve Teknikler
Bu bölümde, bir makine öğrenimi projesinde gerekli olan ortamın kurulması ve yapılandırılması işlemleri anlatılmaktadır. Kullanılan teknikler ve kodlar açıklanacaktır.

### 1. Gerekli Paketlerin Kurulması (Installing Requirements)
Projede kullanılacak kütüphanelerin kurulması işlemidir. Bu işlem için `pip install` komutu kullanılır. Örneğin:
```bash
!pip install beautifulsoup4==4.12.3
!pip install requests==2.31.0
```
Bu komutlar, `beautifulsoup4` ve `requests` kütüphanelerini belirtilen sürümlerde kurar.

### 2. Google Drive Bağlama (Mounting Google Drive)
Google Colab'da çalışırken, Google Drive'ı bağlamak için aşağıdaki kod kullanılır:
```python
from google.colab import drive
drive.mount('/content/drive')
```
Bu, Google Drive'ın `/content/drive` dizinine bağlanmasını sağlar.

### 3. GitHub'dan Dosya İndirme (Downloading Files from GitHub)
GitHub'dan dosya indirmek için `subprocess` modülü kullanılır. Örneğin:
```python
import subprocess
url = "https://raw.githubusercontent.com/Denis2054/RAG-Driven-Generative-AI/main/commons/grequests.py"
output_file = "grequests.py"
curl_command = ["curl", "-o", output_file, url]
subprocess.run(curl_command, check=True)
```
Bu kod, belirtilen URL'den `grequests.py` dosyasını indirir.

### 4. Gerekli Kütüphanelerin Kurulması (Installing Requirements)
Projede kullanılacak kütüphanelerin kurulması işlemidir. Örneğin:
```bash
!pip install deeplake==3.9.18
!pip install openai==1.40.3
```
Bu komutlar, `deeplake` ve `openai` kütüphanelerini belirtilen sürümlerde kurar.

### 5. DNS Sunucusunun Yapılandırılması (Configuring DNS Server)
Activeloop Deep Lake kütüphanesinin çalışması için Google'ın Public DNS sunucusunun yapılandırılması gerekir. Aşağıdaki kod bunu sağlar:
```python
with open('/etc/resolv.conf', 'w') as file:
   file.write("nameserver 8.8.8.8")
```
Bu, `/etc/resolv.conf` dosyasını `nameserver 8.8.8.8` olarak günceller.

### 6. Kimlik Doğrulama (Authentication)
OpenAI ve Activeloop API'larına erişmek için kimlik doğrulama işlemleri yapılır. Örneğin:
```python
# OpenAI API Key
f = open("drive/MyDrive/files/api_key.txt", "r")
API_KEY=f.readline().strip()
f.close()
import os
import openai
os.environ['OPENAI_API_KEY'] =API_KEY
openai.api_key = os.getenv("OPENAI_API_KEY")

# Activeloop API Token
f = open("drive/MyDrive/files/activeloop.txt", "r")
API_token=f.readline().strip()
f.close()
ACTIVELOOP_TOKEN=API_token
os.environ['ACTIVELOOP_TOKEN'] =ACTIVELOOP_TOKEN

```

## Ornek download kodu

```python

import subprocess
import os
# add a private token after the filename if necessary
def download(directory, filename):
    # The base URL of the image files in the GitHub repository
    base_url = 'https://raw.githubusercontent.com/Denis2054/RAG-Driven-Generative-AI/main/'
    # Complete URL for the file
    file_url = f"{base_url}{directory}/{filename}"
    # Use curl to download the file, including an Authorization header for the private token
    try:
        # Prepare the curl command with the Authorization header
        #curl_command = f'curl -H "Authorization: token {private_token}" -o {filename} {file_url}'
        curl_command = f'curl -H -o {filename} {file_url}'
        # Execute the curl command
        subprocess.run(curl_command, check=True, shell=True)
        print(f"Downloaded '{filename}' successfully.")
    except subprocess.CalledProcessError:
        print(f"Failed to download '{filename}'. Check the URL, your internet connection, and if the token is correct and has appropriate permissions.")

```


Bu kodlar, OpenAI ve Activeloop API'larına erişmek için gerekli kimlik doğrulama işlemlerini yapar.

## Kullanılan Teknikler ve Nedenleri
- `pip install`: Python paketlerini kurmak için kullanılır.
- `google.colab.drive.mount`: Google Colab'da Google Drive'ı bağlamak için kullanılır.
- `subprocess`: Harici komutları çalıştırmak için kullanılır.
- DNS sunucusunun yapılandırılması: Activeloop Deep Lake kütüphanesinin çalışması için gereklidir.
- Kimlik doğrulama: OpenAI ve Activeloop API'larına erişmek için gereklidir.

## Bu İşlemlerin Kullanılabileceği Projeler
- Makine öğrenimi projeleri
- Derin öğrenme projeleri
- Doğal dil işleme projeleri
- Veri bilimi projeleri

## Kaynaklar
- [Google Colab](https://colab.research.google.com/)
- [OpenAI](https://openai.com/)
- [Activeloop](https://www.activeloop.ai/)
- [Deep Lake](https://docs.activeloop.ai/)

# 1 - Data Collection and Preparation

## Veri Toplama ve Hazırlama (Data Collection and Preparation)
Veri toplama ve hazırlama, bir makine öğrenimi (Machine Learning) veya doğal dil işleme (Natural Language Processing) projesinin ilk aşamasıdır. Bu aşamada, projenin gerektirdiği veriler toplanır, işlenir ve uygun bir formatta saklanır.

![](https://learning.oreilly.com/api/v2/epubs/urn:orm:book:9781836200918/files/Images/B31169_02_07.png)

### Kullanılan Teknikler
Bu projede, veri toplama ve hazırlama aşamasında aşağıdaki teknikler kullanılmıştır:
* **HTTP İstekleri (HTTP Requests)**: `requests` kütüphanesi kullanılarak Wikipedia makalelerine HTTP istekleri gönderilir ve içerik alınır.
* **HTML Ayrıştırma (HTML Parsing)**: `BeautifulSoup` kütüphanesi kullanılarak alınan HTML içerik ayrıştırılır ve gerekli bilgiler çıkarılır.
* **Düzenli İfadeler (Regular Expressions)**: `re` kütüphanesi kullanılarak metin içerisindeki sayısal referanslar kaldırılır.

### Kod Açıklamaları
#### Veri Toplama
```python
import requests
from bs4 import BeautifulSoup
import re

# Wikipedia makalelerinin URL'leri
urls = [
    "https://en.wikipedia.org/wiki/Space_exploration",
    "https://en.wikipedia.org/wiki/Apollo_program",
    "https://en.wikipedia.org/wiki/Hubble_Space_Telescope",
    "https://en.wikipedia.org/wiki/Mars_rover",
    "https://en.wikipedia.org/wiki/International_Space_Station",
    "https://en.wikipedia.org/wiki/SpaceX",
    "https://en.wikipedia.org/wiki/Juno_(spacecraft)",
    "https://en.wikipedia.org/wiki/Voyager_program",
    "https://en.wikipedia.org/wiki/Galileo_(spacecraft)",
    "https://en.wikipedia.org/wiki/Kepler_Space_Telescope"
]
```
Bu kodda, Wikipedia makalelerinin URL'leri bir liste içerisinde tanımlanmıştır.

#### Veri Hazırlama
```python
def clean_text(content):
    # Sayısal referansları kaldır
    content = re.sub(r'\[\d+\]', '', content)
    return content

def fetch_and_clean(url):
    # URL'den içerik al
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    # Ana içerik kısmını bul
    content = soup.find('div', {'class': 'mw-parser-output'})
    # Bibliyografya kısmını kaldır
    for section_title in ['References', 'Bibliography', 'External links', 'See also']:
        section = content.find('span', id=section_title)
        if section:
            # Bu kısımdan sonraki tüm içerikleri kaldır
            for sib in section.parent.find_next_siblings():
                sib.decompose()
            section.parent.decompose()
    # Metni çıkar ve temizle
    text = content.get_text(separator=' ', strip=True)
    text = clean_text(text)
    return text
```
Bu kodda, `clean_text` fonksiyonu sayısal referansları kaldırır, `fetch_and_clean` fonksiyonu ise URL'den içerik alır, ana içerik kısmını bulur, bibliyografya kısmını kaldırır ve metni çıkarır.

#### Veri Yazma
```python
with open('llm.txt', 'w', encoding='utf-8') as file:
    for url in urls:
        clean_article_text = fetch_and_clean(url)
        file.write(clean_article_text + '\n')
print("İçerik llm.txt dosyasına yazıldı")
```
Bu kodda, temizlenmiş içerikler `llm.txt` dosyasına yazılır.

### Neden Böyle Yapıldı?
Veri toplama ve hazırlama aşaması, makine öğrenimi ve doğal dil işleme projelerinde önemlidir çünkü:
* **Veri kalitesi**: Veri kalitesi, modelin performansı üzerinde büyük bir etkiye sahiptir.
* **Veri formatı**: Veri formatı, modelin gerektirdiği formatta olmalıdır.

Bu projede, Wikipedia makaleleri toplanmış ve temizlenmiştir. Bu, makine öğrenimi modellerinin eğitilmesi için uygun bir veri kümesi oluşturur.

### Kullanılabilecek Projeler
Bu teknikler, aşağıdaki projelerde kullanılabilir:
* **Metin sınıflandırma**: Metinleri sınıflandırmak için makine öğrenimi modelleri eğitilebilir.
* **Dil modelleme**: Dil modelleri eğitilebilir ve metin oluşturma, çeviri gibi görevlerde kullanılabilir.

### Kaynaklar
* [BeautifulSoup documentation](https://beautiful-soup-4.readthedocs.io/en/latest/)
* [Requests documentation](https://requests.readthedocs.io/en/latest/)
* [Regular Expressions documentation](https://docs.python.org/3/library/re.html)
* [Step Step Data Collection](https://www.couchbase.com/blog/guide-to-data-prep-for-rag/)
* [Prepare Data For RAG - İBM](https://developer.ibm.com/tutorials/dpk-rag-llms/)
* [How to make data ready for your RAG application with Qdrant and FastEmbed](https://www.youtube.com/watch?v=2CESrNJ3NRI)
* [Optimising Data for Advanced AI Responses](https://www.youtube.com/watch?v=pIGRwMjhMaQ)
* [Best Tool For Getting Your Data Ready For RAG](https://www.youtube.com/watch?v=gvY4FgMjZUE)
* [Python RAG Tutorial (with Local LLMs): AI For Your PDFs](https://www.youtube.com/watch?v=2TJxpyO3ei4)









# 2 - Data embedding and storage

## Veri Gömmek ve Depolamak (Data Embedding and Storage)

Bu bölümde, veri gömmek ve depolamak için kullanılan teknikler ve araçlar ele alınacaktır. Veri gömmek, metin verilerini vektörlere dönüştürme işlemidir. Bu işlem, metinlerin anlamını ve içeriğini daha iyi temsil etmelerini sağlar.

### Veri Hazırlama (Data Preparation)

İlk olarak, veri hazırlama aşamasında, Team #1 tarafından hazırlanan veriler alınır. Bu veriler, daha sonra işlenmek üzere hazır hale getirilir.

```python
from grequests import download
source_text = "llm.txt"
directory = "Chapter02"
filename = "llm.txt"
download(directory, filename)
```

### Veri Okuma ve Doğrulama (Data Reading and Verification)

İndirilen veri, ilk 20 satır okunarak doğrulanır.

```python
# Open the file and read the first 20 lines
with open('llm.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    # Print the first 20 lines
    for line in lines[:20]:
        print(line.strip())
```

### Veri Parçalama (Chunking)

Veri, daha sonra belirli bir boyutta parçalara ayrılır. Bu işlem, veri işleme ve gömme işlemlerini optimize etmek için yapılır.

```python
with open(source_text, 'r') as f:
    text = f.read()
CHUNK_SIZE = 1000
chunked_text = [text[i:i+CHUNK_SIZE] for i in range(0,len(text), CHUNK_SIZE)]
```

### Vektör Deposu Oluşturma (Creating a Vector Store)

Vektör deposu, veri gömmek için kullanılır. Activeloop vektör deposu yolu tanımlanır ve depo oluşturulur.

```python
vector_store_path = "hub://denis76/space_exploration_v1"
```

Vektör deposu oluşturma veya yükleme işlemi yapılır.

```python
from deeplake.core.vectorstore.deeplake_vectorstore import VectorStore
import deeplake.util
try:
    # Attempt to load the vector store
    vector_store = VectorStore(path=vector_store_path)
    print("Vector store exists")
except FileNotFoundError:
    print("Vector store does not exist. You can create it.")
    # Code to create the vector store goes here
    create_vector_store=True
```

### Gömme Fonksiyonu (Embedding Function)

Gömme fonksiyonu, veri parçalarını vektörlere dönüştürmek için kullanılır. Bu örnekte, "text-embedding-3-small" modeli kullanılır.

```python
def embedding_function(texts, model="text-embedding-3-small"):
   if isinstance(texts, str):
       texts = [texts]
   texts = [t.replace("\n", " ") for t in texts]
   return [data.embedding for data in openai.embeddings.create(input = texts, model=model).data]
```

### Veri Ekleme (Adding Data to the Vector Store)

Vektör deposuna veri eklemek için aşağıdaki kod kullanılır.

```python
add_to_vector_store=True
if add_to_vector_store == True:
    with open(source_text, 'r') as f:
        text = f.read()
        CHUNK_SIZE = 1000
        chunked_text = [text[i:i+1000] for i in range(0, len(text), CHUNK_SIZE)]
vector_store.add(text = chunked_text,
              embedding_function = embedding_function,
              embedding_data = chunked_text,
              metadata = [{"source": source_text}]*len(chunked_text))
```

### Vektör Deposu Bilgileri (Vector Store Information)

Vektör deposu bilgileri, Activeloop'un API referansı kullanılarak elde edilebilir.

```python
ds = deeplake.load(vector_store_path)
```

Vektör deposu boyutu, aşağıdaki kod kullanılarak hesaplanabilir.

```python
#Estimates the size in bytes of the dataset.
ds_size=ds.size_approx()
# Convert bytes to megabytes and limit to 5 decimal places
ds_size_mb = ds_size / 1048576
print(f"Dataset size in megabytes: {ds_size_mb:.5f} MB")
# Convert bytes to gigabytes and limit to 5 decimal places
ds_size_gb = ds_size / 1073741824
print(f"Dataset size in gigabytes: {ds_size_gb:.5f} GB")
```

## Kullanılan Teknikler ve Araçlar

*   Veri gömmek için "text-embedding-3-small" modeli kullanılır.
*   Vektör deposu olarak Activeloop kullanılır.
*   Veri parçalama işlemi, veri işleme ve gömme işlemlerini optimize etmek için yapılır.

## Neden Bu Teknikler Kullanılır?

*   Veri gömmek, metin verilerini vektörlere dönüştürerek anlamını ve içeriğini daha iyi temsil etmelerini sağlar.
*   Vektör deposu, veri gömmek için kullanılır ve veri sorgulama işlemlerini hızlandırır.

## Bu Tekniklerin Kullanılabileceği Projeler

*   Doğal dil işleme (NLP) projeleri
*   Metin sınıflandırma projeleri
*   Öneri sistemleri projeleri

## Kaynaklar

*   [Activeloop](https://www.activeloop.ai/)
*   [OpenAI Embedding Models](https://platform.openai.com/docs/models/embeddings)
*   [Deep Lake API Reference](https://docs.deeplake.ai/en/latest/)
* [Deep Lake API Reference](https://docs.deeplake.ai/en/latest/)
* [Vector Search RAG Tutorial](https://www.youtube.com/watch?v=JEBDfGqrAUA)
* [Embeddings, Vector Databases, Similarity Search for RAG Systems Explained](https://www.youtube.com/watch?v=whu7SHx5cko)
* [Mastering RAG: A Deep Dive into Embeddings](https://medium.com/@shravankoninti/mastering-rag-a-deep-dive-into-embeddings-b78782aa1259)
* [How to Store Embeddings in Vector Search and Implement RAG](https://thenewstack.io/how-to-store-embeddings-in-vector-search-and-implement-rag/)
* [Vector Embeddings in RAG Applications](https://wandb.ai/mostafaibrahim17/ml-articles/reports/Vector-Embeddings-in-RAG-Applications--Vmlldzo3OTk1NDA5)
* [The Limitations of Text Embeddings in RAG Applications](https://neo4j.com/blog/developer/rag-text-embeddings-limitations/)
* [Understanding Embeddings in RAG and How to use them - Llama-Index](https://www.youtube.com/watch?v=v6g8eo86T8A)
* [How to automate embedding creation and sync for RAG](https://www.youtube.com/watch?v=j2B5fx1p1Ps)
* [How to Use Multimodal RAG to Extract Text, Images, & Tables](https://www.youtube.com/watch?v=jDFpEnJeSVg)
* [Advanced RAG: Chunking, Embeddings, and Vector Databases 🚀 | LLMOps](https://www.youtube.com/watch?v=tTW3dOfyCpE)
* [Build high-performance RAG using just PostgreSQL (Full Tutorial)](https://www.youtube.com/watch?v=hAdEuDBN57g)
* [Building Real-Time RAG Pipeline With Mongodb and Pinecone Part-1](https://www.youtube.com/watch?v=lJl_bIXO7_Y)
* [Practical RAG - Choosing the Right Embedding Model, Chunking Strategy, and More](https://www.youtube.com/watch?v=j1XRLh7yzzY)
* [Advanced RAG Performance: Smart Data Handling Strategies](https://www.youtube.com/watch?v=oSZCIwmp65I)
* [RAG with OpenAI & Pinecone Vector Database](https://www.youtube.com/watch?v=IuXVTJm-iF8)
* [GenAI 101: Getting Started with a Vector Database](https://www.youtube.com/watch?v=1N-938QsddI)




# 3 - Augmented input generation

## Augmented Input Generation (Geliştirilmiş Giriş Üretimi)
Augmented generation, bir makine öğrenimi işlem hattının (pipeline) üçüncü bileşenidir. Kullanıcı girdisini geliştirmek için alınan verileri kullanır. Bu bileşen, kullanıcı girdisini işler, vektör deposunu (vector store) sorgular, girdiyi geliştirir ve gpt-4-turbo'yu çağırır.

### İşlem Adımları
1. **Vektör Deposu Seçimi**: İlk olarak, vektör deposu yolu belirlenir.
   ```python
vector_store_path = "hub://denis76/space_exploration_v1"
```
2. **Veri Yükleme**: Deeplake kütüphanesi kullanılarak vektör deposu yüklenir.
   ```python
from deeplake.core.vectorstore.deeplake_vectorstore import VectorStore
import deeplake.util
ds = deeplake.load(vector_store_path)
vector_store = VectorStore(path=vector_store_path)
```
3. **Kullanıcı Girdisi ve Sorgu Alma**: Kullanıcı girdisi alınır ve bu girdi, daha önce yüklenen vektör deposunda sorgulama yapmak için kullanılır.
   ```python
def get_user_prompt():
    return input("Enter your search query: ")
user_prompt = "Tell me about space exploration on the Moon and Mars."
```

4. **Sorgu İşlemi**: Kullanıcı girdisi, vektör deposunda sorgulanır ve en ilgili sonuçlar alınır.
   ```python
search_results = vector_store.search(embedding_data=user_prompt, embedding_function=embedding_function)
```

5. **Gelişmiş Girdi Oluşturma**: Alınan sonuçlar içinden en üstteki sonuç, kullanıcı girdisine eklenir.
   ```python
top_text = search_results['text'][0].strip()
augmented_input = user_prompt + " " + top_text
```

6. **GPT-4 ile İçerik Üretimi**: Gelişmiş girdi, GPT-4 modeline verilerek içerik üretilir.
   ```python
from openai import OpenAI
client = OpenAI()
gpt_model = "gpt-4o"
def call_gpt4_with_full_text(itext):
    # GPT-4'e çağrı yapar ve yanıtı döndürür.
    response = client.chat.completions.create(
        model=gpt_model,
        messages=[
            {"role": "system", "content": "You are a space exploration expert."},
            {"role": "assistant", "content": "You can read the input and answer in detail."},
            {"role": "user", "content": prompt}
        ],
        temperature=0.1
    )
    return response.choices[0].message.content.strip()
gpt4_response = call_gpt4_with_full_text(augmented_input)
```

7. **Yanıtın Biçimlendirilmesi**: Üretilen içerik, Markdown biçimlendirmesi kullanılarak daha okunabilir hale getirilir.
   ```python
import textwrap
import re
from IPython.display import display, Markdown, HTML
import markdown
def print_formatted_response(response):
    # Markdown desenlerini arar ve uygun şekilde biçimlendirir.
    if any(re.search(pattern, response, re.MULTILINE) for pattern in markdown_patterns):
        html_output = markdown.markdown(response)
        display(HTML(html_output))
    else:
        wrapper = textwrap.TextWrapper(width=80)
        wrapped_text = wrapper.fill(text=response)
        print(wrapped_text)
print_formatted_response(gpt4_response)
```

### Kullanılan Teknikler ve Kütüphaneler
- **Deeplake**: Vektör deposu olarak kullanılan bir kütüphane. Veri saklama ve sorgulama işlemlerini kolaylaştırır.
- **OpenAI**: GPT-4 gibi gelişmiş dil modellerine erişim sağlar.
- **Markdown**: Metin biçimlendirme dili. İçerikleri daha okunabilir hale getirmek için kullanılır.

### Neden Bu Teknikler Kullanıldı?
- **Gelişmiş Girdi Oluşturma**: Kullanıcı girdisini, ilgili bilgilerle zenginleştirerek daha doğru ve detaylı içerik üretilmesini sağlar.
- **Vektör Deposu**: İlgili içeriklerin hızlı ve etkin bir şekilde sorgulanmasını sağlar.

### Kullanılabilecek Projeler
- **Chatbot Sistemleri**: Kullanıcılara daha doğru ve alakalı yanıtlar vermek için kullanılabilir.
- **İçerik Üretimi**: Otomatik içerik üretimi için kullanılabilir. Örneğin, belirli bir konuda makale veya rapor yazımı.

### Kaynaklar
- [Deeplake Resmi Dokümantasyonu](https://docs.deeplake.ai/en/latest/)
- [OpenAI API Dokümantasyonu](https://platform.openai.com/docs/api-reference)
- [Markdown Rehberi](https://www.markdownguide.org/)


### YouTube Kaynakları
* [GenAI 101: Getting Started with a Vector Database](https://www.youtube.com/watch?v=1N-938QsddI)
* [Vector Search RAG Tutorial](https://www.youtube.com/watch?v=JEBDfGqrAUA)
* [How to Use Multimodal RAG to Extract Text, Images, & Tables](https://www.youtube.com/watch?v=jDFpEnJeSVg)

### İngilizce Kaynaklar
* [Mastering RAG: A Deep Dive into Embeddings](https://medium.com/@shravankoninti/mastering-rag-a-deep-dive-into-embeddings-b78782aa1259)
* [How to Store Embeddings in Vector Search and Implement RAG](https://thenewstack.io/how-to-store-embeddings-in-vector-search-and-implement-rag/)
* [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (ArXiv)](https://arxiv.org/abs/2005.11401)



# 4 - Similarity - Metrics

## Cosine Similarity ile Çıktı Değerlendirme
Bu bölümde, kullanıcı girdisi ve üretken yapay zeka modelinin çıktısı arasındaki benzerliği ölçmek için cosine similarity (kosinüs benzerliği) uygulayacağız. Ayrıca, genişletilmiş kullanıcı girdisi ile üretken yapay zeka modelinin çıktısı arasındaki benzerliği de ölçülecektir.

### Kosinüs Benzerliği Fonksiyonu Tanımlama
İlk olarak, kosinüs benzerliği fonksiyonunu tanımlayalım:

```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def calculate_cosine_similarity(text1, text2):
    vectorizer = TfidfVectorizer()
    tfidf = vectorizer.fit_transform([text1, text2])
    similarity = cosine_similarity(tfidf[0:1], tfidf[1:2])
    return similarity[0][0]
```

Bu fonksiyon, iki metin arasındaki kosinüs benzerliğini hesaplar. TF-IDF (Term Frequency-Inverse Document Frequency) vektörleştiricisi kullanılarak metinler vektör uzayına dönüştürülür ve ardından kosinüs benzerliği hesaplanır.

### Kullanıcı Promptı ve GPT-4 Yanıtı Arasındaki Benzerlik
Kullanıcı promptı ve GPT-4 yanıtı arasındaki benzerliği hesaplayalım:

```python
similarity_score = calculate_cosine_similarity(user_prompt, gpt4_response)
print(f"Cosine Similarity Score: {similarity_score:.3f}")
```

Çıktı:
```
Cosine Similarity Score: 0.396
```

Bu skor düşük görünmektedir, ancak çıktı insan için kabul edilebilir görünmektedir.

### Genişletilmiş Kullanıcı Girdisi ve GPT-4 Yanıtı Arasındaki Benzerlik
Genişletilmiş kullanıcı girdisi ve GPT-4 yanıtı arasındaki benzerliği hesaplayalım:

```python
similarity_score = calculate_cosine_similarity(augmented_input, gpt4_response)
print(f"Cosine Similarity Score: {similarity_score:.3f}")
```

Çıktı:
```
Cosine Similarity Score: 0.857
```

Bu skor daha iyi görünmektedir.

### Kosinüs Benzerliği Sınırlamaları
Kosinüs benzerliği, TF-IDF kullanırken tam kelime örtüşmesine bağlıdır ve anlamsal anlamlar, eş anlamlılar veya bağlamsal kullanım gibi önemli dil özelliklerini dikkate alır. Bu nedenle, kavramsal olarak benzer ancak kelime seçimi farklı olan metinler için daha düşük benzerlik skorları üretebilir.

### Cümle Transformatörleri ile Benzerlik Hesaplama
Cümle Transformatörleri, kelimeler ve cümleler arasındaki daha derin anlamsal ilişkileri yakalayan embeddings kullanır. Bu yaklaşım, metinler arasındaki bağlamsal ve kavramsal benzerliği tanımada daha etkilidir.

İlk olarak, sentence-transformers kütüphanesini kuralım:

```bash
!pip install sentence-transformers
```

Ardından, MiniLM mimarisini kullanarak benzerlik hesaplayalım:

```python
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')

def calculate_cosine_similarity_with_embeddings(text1, text2):
    embeddings1 = model.encode(text1)
    embeddings2 = model.encode(text2)
    similarity = cosine_similarity([embeddings1], [embeddings2])
    return similarity[0][0]
```

Bu fonksiyon, iki metin arasındaki kosinüs benzerliğini embeddings kullanarak hesaplar.

### Genişletilmiş Kullanıcı Girdisi ve GPT-4 Yanıtı Arasındaki Benzerlik (Cümle Transformatörleri ile)
Genişletilmiş kullanıcı girdisi ve GPT-4 yanıtı arasındaki benzerliği Cümle Transformatörleri ile hesaplayalım:

```python
similarity_score = calculate_cosine_similarity_with_embeddings(augmented_input, gpt4_response)
print(f"Cosine Similarity Score: {similarity_score:.3f}")
```

Çıktı:
```
Cosine Similarity Score: 0.739
```

Bu skor, Cümle Transformatörleri'nin metinler arasındaki anlamsal benzerliği daha etkili bir şekilde yakaladığını göstermektedir.

## Sonuç
Kosinüs benzerliği ve Cümle Transformatörleri, metinler arasındaki benzerliği ölçmede farklı yaklaşımlar sunar. Proje gereksinimlerine bağlı olarak, uygun metrik seçilmelidir.

## İlgili Kaynaklar

* [Sentence Transformers](https://www.sbert.net/)
* [Hugging Face Model Hub](https://huggingface.co/models)
* [Cosine Similarity](https://en.wikipedia.org/wiki/Cosine_similarity)

## Kullanılabilecek Projeler
Bu teknikler, doğal dil işleme (NLP) projelerinde, özellikle de metin benzerliği ve anlamsal arama uygulamalarında kullanılabilir. Örneğin:

* Metin sınıflandırma
* Anlamsal arama
* Otomatik özetleme
* Makine çevirisi değerlendirme

Bu tekniklerin kullanılabileceği diğer projeler için [NLP uygulamaları](https://www.nlpapplications.com/) sayfasını ziyaret edebilirsiniz.

# References

OpenAI Ada documentation for embeddings:
https://platform.openai.com/docs/guides/embeddings/embedding-models

OpenAI GPT documentation for content generation:
 https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4

Activeloop API documentation:
https://docs.deeplake.ai/en/latest/

MiniLM model reference:
https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

In [None]:
from together import Together

def ask_together(content):

    client = Together()

    response = client.chat.completions.create(
    model="meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8",
    messages=[{"role":"user","content":content},{"role":"user","content":""}],
    temperature=0.51,
    top_p=0.91,
    seed=198
)
    return print(response.choices[0].message.content)


soru = """

Aşağıda paragrafı türkçe olarak açıkla ama ingilizce teknik kavramlarıda yanına ekle , Konu ile ilgili aşağıdaki text e bağlı kalmadan ve önemli noktalar ekle , Aşağıda kullanılan teknikler dşında başka teknikler var ise onlarıda yaz,kodları açıkla , neden böyle yapıldığını yaz , ayrıca bu işlemin ne tür projelerde kullanılabileceğini ifade et , ayrıca konuyla ilgili internetteki kaynaklardan alacağın linkleride ekle , ayrıca markdown olarak ## ifadeleri ile yaz, Lütfen tüm kodları eksiksiz yaz ve resim linklerini verdim onlarıda ilgili yerde göster.

"""




ask_together(soru)

## Cosine Similarity ile Çıktı Değerlendirme
Bu bölümde, kullanıcı girdisi ve üretken yapay zeka modelinin çıktısı arasındaki benzerliği ölçmek için cosine similarity (kosinüs benzerliği) uygulayacağız. Ayrıca, genişletilmiş kullanıcı girdisi ile üretken yapay zeka modelinin çıktısı arasındaki benzerliği de ölçülecektir.

### Kosinüs Benzerliği Fonksiyonu Tanımlama
İlk olarak, kosinüs benzerliği fonksiyonunu tanımlayalım:

```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def calculate_cosine_similarity(text1, text2):
    vectorizer = TfidfVectorizer()
    tfidf = vectorizer.fit_transform([text1, text2])
    similarity = cosine_similarity(tfidf[0:1], tfidf[1:2])
    return similarity[0][0]
```

Bu fonksiyon, iki metin arasındaki kosinüs benzerliğini hesaplar. TF-IDF (Term Frequency-Inverse Document Frequency) vektörleştiricisi kullanılarak metinler vektör uzayına dönüştürülür ve ardından kosinüs benzerliği hesa