___

<p style="text-align: center;"><img src="https://docs.google.com/uc?id=1lY0Uj5R04yMY3-ZppPWxqCr5pvBLYPnV" class="img-fluid" alt="CLRSWY"></p>

___

# WELCOME

This notebook will guide you through two increasingly significant applications in the realm of Generative AI: RAG (Retrieval Augmented Generation) chatbots and text summarization for big text.

Through two distinct projects, you will explore these technologies and enhance your skills. Detailed descriptions of the projects are provided below.

## Project 1: Building a Chatbot with a PDF Document (RAG)

In this project, you will develop a chatbot using a provided PDF document from web page. You will utilize the Langchain framework along with a large language model (LLM) such as GPT or Gemini. The chatbot will leverage the Retrieval Augmented Generation (RAG) technique to comprehend the document's content and respond to user queries effectively.

### **Project Steps:**

- **1.PDF Document Upload:** Upload the provided PDF document from web page (https://aclanthology.org/N19-1423.pdf) (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding).

- **2.Chunking:** Divide the uploaded PDF document into smaller segments (chunks). This facilitates more efficient information processing by the LLM.

- **3.ChromaDB Setup:**
  - Save ChromaDB to your Google Drive.

  - Retrieve ChromaDB from your Drive to begin using it in your project.

  - ChromaDB serves as a vector database to store embedding vectors generated from your document.

- **4.Embedding Vectors Creation:**
  - Convert the chunked document into embedding vectors. You can use either GPT or Gemini embedding models for this purpose.

  - If you choose the Gemini embedding model, set "task_type" to "retrieval_document" when converting the chunked document.

- **5.Chatbot Development:**
  - Utilize the **load_qa_chain** function from the Langchain library to build the chatbot.

  - This function will interpret user queries, retrieve relevant information from **ChromaDB**, and generate responses accordingly.



### Install Libraries

In [None]:
!pip install -qU langchain-google-community

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.4/50.4 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.6/75.6 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.3/2.3 MB[0m [31m87.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m396.2/396.2 kB[0m [31m36.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m58.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m150.7/150.7 kB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.4/76.4 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.9/77.9 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
!pip install -qU langchain-community

In [None]:
!pip install langchain-google-genai


Collecting langchain-google-genai
  Downloading langchain_google_genai-1.0.10-py3-none-any.whl.metadata (3.8 kB)
Downloading langchain_google_genai-1.0.10-py3-none-any.whl (39 kB)
Installing collected packages: langchain-google-genai
Successfully installed langchain-google-genai-1.0.10


In [None]:
!pip install -qU langchain-chroma

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/67.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m559.5/559.5 kB[0m [31m31.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m87.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m93.5/93.5 kB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m273.8/273.8 kB[0m [31m25.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m75.9 MB/s[0m eta [36m0:00:00

In [None]:
!pip install -qU pypdfium2

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/48.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.5/48.5 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.8 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━[0m [32m2.1/2.8 MB[0m [31m64.5 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m44.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
!pip install -q -U google-generativeai

In [None]:
!pip install chromadb



In [None]:
import pandas as pd
from langchain import PromptTemplate
from langchain.chains.question_answering import load_qa_chain
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA


In [None]:
!pip install -qU langchain-openai

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/52.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m52.0/52.0 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/365.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m365.7/365.7 kB[0m [31m32.3 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m62.6 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/318.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m318.9/318.9 kB[0m [31m29.3 MB/s[0m eta [36m0:00:00[0m
[?25h

Kütüphanelerin Yüklenmesi:

!pip install -qU langchain-google-community: langchain kütüphanesinin Google ile ilgili topluluk sürümünü yüklüyor. -qU parametresi, sessiz (quiet) ve en güncel sürümü (upgrade) yüklemeyi sağlar.
!pip install -qU langchain-community: langchain kütüphanesinin genel topluluk sürümünü yüklüyor.
!pip install langchain-google-genai: Google'ın Generative AI (yapay zeka) ile ilgili modüllerini içeren langchain sürümünü yüklüyor.
!pip install -qU langchain-chroma: langchain'in Chroma entegrasyonu için gerekli modülleri yüklüyor. Chroma, vektör depolama ve arama için kullanılan bir teknolojidir.
!pip install -qU pypdfium2: PDF dosyalarını işlemek için kullanılan pypdfium2 kütüphanesini yüklüyor.
!pip install -q -U google-generativeai: Google'ın generative AI API'lerini kullanmak için gerekli olan Python kütüphanesini yüklüyor.
!pip install chromadb: Chroma veritabanı için gerekli kütüphaneyi yüklüyor.
!pip install -qU langchain-openai: langchain'in OpenAI entegrasyonu için gerekli kütüphaneyi yüklüyor.

Pandas Kütüphanesinin İçe Aktarılması:

import pandas as pd: Verileri işlemek ve analiz etmek için kullanılan popüler bir Python kütüphanesi olan pandas'ı içe aktarıyor.

Langchain Kütüphanelerinin İçe Aktarılması ve Yapılandırılması:

from langchain import PromptTemplate: Yapay zeka modelleriyle çalışırken kullanılacak istem şablonlarını oluşturmak için PromptTemplate sınıfını içe aktarıyor.
from langchain.chains.question_answering import load_qa_chain: Soru-cevap zincirini (QA chain) yüklemek için gerekli olan fonksiyonu içe aktarıyor.
from langchain.document_loaders import PyPDFLoader: PDF dosyalarını yüklemek ve belgeye dönüştürmek için kullanılan sınıfı içe aktarıyor.
from langchain.text_splitter import RecursiveCharacterTextSplitter: Metinleri belirli kurallara göre parçalara ayırmak için kullanılan bir sınıfı içe aktarıyor.
from langchain.vectorstores import Chroma: Chroma vektör depolama için kullanılan sınıfı içe aktarıyor.
from langchain.chains import RetrievalQA: Geri alma tabanlı soru-cevap sistemi için kullanılan RetrievalQA sınıfını içe aktarıyor.
Bu adımların tümü, büyük dil modellerini ve belge işleme sistemlerini kullanarak soru-cevap zincirleri kurmak, belge yüklemek ve metinleri işlemek gibi görevleri yerine getirmek için bir altyapı hazırlamaya yöneliktir. Bu yapılandırma, özellikle Chroma gibi vektör tabanlı arama motorlarını kullanarak belgelerdeki bilgileri etkin bir şekilde aramayı ve işlemeyi amaçlar.









### Access Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Google Colab içinde Google Drive ile ilgili işlemleri yapmanıza olanak tanıyan drive modülünü içe aktarır.

Google Drive'ınızı Colab çalışma ortamınıza bağlar (mount eder). Bu, Google Drive'daki dosyalarınıza Colab üzerinden erişmenizi sağlar. Bağlantı /content/drive dizininde yapılır, böylece Drive'daki dosyalara bu dizin üzerinden erişilebilir.

### Entering Your OpenAI or Google Gemini API Key.

In [None]:
import os
from google.colab import userdata
os.environ['OPENAI_API_KEY']=userdata.get('chatbot')

os.environ['OPENAI_API_KEY']: Python'da çevresel değişkenleri ayarlamak için kullanılır. Bu değişken, genellikle sistem genelinde kullanılmak üzere belirli bir anahtarı veya yapılandırma bilgisini saklar.
userdata.get('chatbot'): userdata modülünden chatbot anahtarıyla ilişkili değeri alır. Bu genellikle bir API anahtarı veya başka bir önemli bilgi olur. Bu değeri OPENAI_API_KEY adlı çevresel değişkene atar.
Bu kodlar, Google Colab ortamında API anahtarlarını güvenli bir şekilde yönetmek, dosya sistemine erişmek ve Google Drive'a bağlanarak dosyalara erişmek gibi işlemleri gerçekleştirmek için kullanılır. Özellikle, os.environ['OPENAI_API_KEY'] ifadesi, OpenAI API'si gibi harici servislerle entegrasyon yaparken kullanılan anahtarı ayarlamak için kullanılır.

### Loading PDF Document

In [None]:
# create a pdf reader function
from langchain_community.document_loaders import PyPDFium2Loader

def read_doc(directory):
    file_loader=PyPDFium2Loader(directory)
    pdf_documents=file_loader.load() # PyPDFium2Loader reads page by page
    return pdf_documents

PyPDFium2Loader, PDF dosyalarını sayfa sayfa okuyan bir belge yükleyicisidir. langchain_community.document_loaders modülünden içe aktarılır. Bu, PDF belgelerini analiz etmek ve metin verilerini çıkarmak için kullanılır.

read_doc(directory): Bir PDF dosyasını okuyup işleyen bir işlev tanımlar.
file_loader = PyPDFium2Loader(directory): PyPDFium2Loader sınıfını kullanarak, directory (yani dosya yolu) ile belirtilen PDF dosyasını yükler. Bu, PDF dosyasını okumaya hazırlayan bir nesne oluşturur.
pdf_documents = file_loader.load(): load() yöntemi, PDF dosyasını sayfa sayfa okuyarak metin verilerini çıkarır ve bu verileri bir liste olarak döndürür.
return pdf_documents: Yüklenen PDF içeriğini döndürür. Bu içerik, her biri bir PDF sayfasını temsil eden öğelerden oluşan bir listedir.

In [None]:
pdf=read_doc('/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf')
len(pdf)

# The document consists of 16 pages



16

pdf = read_doc(...): read_doc işlevini çağırarak belirtilen dizindeki PDF dosyasını okur. Burada, dosya yolu /content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf olarak belirtilmiştir. Sonuç olarak, PDF dosyasının tüm sayfalarını içeren bir liste olan pdf değişkeni elde edilir.

len(pdf): pdf listesinin uzunluğunu, yani PDF dosyasındaki sayfa sayısını verir. Örnekte, bu PDF dosyasının 16 sayfadan oluştuğu belirtilmiştir.

In [None]:
pdf[0]

Document(metadata={'source': '/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf', 'page': 0}, page_content='Proceedings of NAACL-HLT 2019, pages 4171–4186\r\nMinneapolis, Minnesota, June 2 - June 7, 2019. \rc 2019 Association for Computational Linguistics\r\n4171\r\nBERT: Pre-training of Deep Bidirectional Transformers for\r\nLanguage Understanding\r\nJacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova\r\nGoogle AI Language\r\n{jacobdevlin,mingweichang,kentonl,kristout}@google.com\r\nAbstract\r\nWe introduce a new language representa\x02tion model called BERT, which stands for\r\nBidirectional Encoder Representations from\r\nTransformers. Unlike recent language repre\x02sentation models (Peters et al., 2018a; Rad\x02ford et al., 2018), BERT is designed to pre\x02train deep bidirectional representations from\r\nunlabeled text by jointly conditioning on both\r\nleft and right context in all layers. As a re\x02sult, the pre-trained BERT model can be fine\x02tuned with jus

pdf[0]: PDF dosyasının ilk sayfasının içeriğini görüntüler. Liste indeksleme kullanılarak, pdf listesindeki ilk öğe seçilir ve bu öğe o sayfanın içeriğini temsil eder.

Özetle:
Bu kod, bir PDF dosyasını okuyarak her sayfanın metin içeriğini bir liste içinde toplar. read_doc işlevi, PDF dosyasını işlemek için kullanılır ve ardından dosyanın sayfa sayısını kontrol eder ve ilk sayfanın içeriğini görüntüler.

### Document Splitter

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter


def chunk_data(docs, chunk_size=1000, chunk_overlap=200):
    text_splitter=RecursiveCharacterTextSplitter(chunk_size=chunk_size,
                                                 chunk_overlap=chunk_overlap)
    pdf=text_splitter.split_documents(docs)
    return pdf


Bu kod parçası, metin belgelerini belirli boyutlarda parçalara ayırmak için kullanılan bir işlev tanımlar. Bu tür işlemler, özellikle büyük metin verileriyle çalışırken, örneğin doğal dil işleme (NLP) modelleri veya bilgi arama sistemleri için önemlidir. Parçalama işlemi, metni anlamlı ve yönetilebilir alt parçalara bölerken aynı zamanda parçalar arasında belli bir bağlamı korumayı amaçlar. İşte bu kodun adım adım açıklaması:
RecursiveCharacterTextSplitter ve CharacterTextSplitter: Bu sınıflar, metni karakter bazında böler ve parçalar. RecursiveCharacterTextSplitter, metni daha akıllıca bölmek için bir algoritma kullanır; metni bölerken doğal dilin yapısını dikkate alır.


chunk_data Fonksiyonu: Bu fonksiyon, bir veya birden fazla belgeyi (metin dokümanları) alır ve bu belgeleri belirli boyutlarda parçalara böler.

Parametreler:
docs: İşlenecek olan metin belgeleri. Bu, tek bir belge olabileceği gibi, birden fazla belgeyi içeren bir liste de olabilir.
chunk_size=1000: Her bir parçanın maksimum karakter sayısını belirler. Örneğin, 1000 karakter olarak ayarlanmış.
chunk_overlap=200: Ardışık parçalar arasındaki karakter sayısıdır. Bu, önceki parçanın son 200 karakterinin, sonraki parçanın başında tekrarlanacağı anlamına gelir. Bu tekrar, metnin bölünmesi sırasında bağlam kaybını önlemek için kullanılır.
Fonksiyonun İşleyişi:
RecursiveCharacterTextSplitter sınıfı, belirli boyutlarda (burada chunk_size=1000) ve belirli bir örtüşme (burada chunk_overlap=200) ile metni böler.
split_documents(docs): Bu yöntem, verilen belgeleri böler ve sonuç olarak her biri belirli bir karakter sayısına sahip olan parçalar elde edilir.
return pdf: Bölünmüş parçaları döndürür. Bu parçalar, daha sonra başka işlemler veya analizler için kullanılabilir.

Parçalama İşlemi ve chunk_overlap Parametresinin Önemi
Parçalama İşlemi: Metin, belirli büyüklüklerdeki parçalara bölünürken, her parçanın anlamlı bir bütünlük içinde olmasına dikkat edilir. RecursiveCharacterTextSplitter, metni doğal dilin yapısını koruyarak bölmek için daha gelişmiş bir yöntem kullanır.

chunk_overlap Parametresi: Bu parametre, ardışık parçalar arasında belirli bir örtüşme sağlar. Örneğin, bir parça 1000 karakterlikse ve chunk_overlap=200 olarak belirlenmişse, bu parçanın son 200 karakteri, bir sonraki parçanın başında tekrar yer alır. Bu, metinlerin bölünmesi sırasında bağlamın korunmasına yardımcı olur. Örtüşme, özellikle metnin anlamını korumak ve metni işlerken önemli bilgilerin kaybolmasını önlemek için önemlidir.

Özetle:
Bu kod, büyük metin belgelerini yönetilebilir ve anlamlı parçalara bölmek için kullanılır. Bu işlem, özellikle dil modelleri veya metin analizi gibi işlemlerde metinlerin verimli ve doğru bir şekilde işlenmesini sağlamak için kritik önem taşır. Parçalar arasındaki örtüşme (overlap), bağlamı koruyarak metnin anlamını bozmadan daha büyük metinleri küçük parçalara bölmeyi mümkün kılar.

In [None]:
pdf_doc=chunk_data(docs=pdf)
len(pdf_doc)

84

In [None]:
pdf_doc[25:27]

[Document(metadata={'source': '/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf', 'page': 4}, page_content='answering, and the [CLS] representation is fed\r\ninto an output layer for classification, such as en\x02tailment or sentiment analysis.\r\nCompared to pre-training, fine-tuning is rela\x02tively inexpensive. All of the results in the pa\x02per can be replicated in at most 1 hour on a sin\x02gle Cloud TPU, or a few hours on a GPU, starting\r\nfrom the exact same pre-trained model.7 We de\x02scribe the task-specific details in the correspond\x02ing subsections of Section 4. More details can be\r\nfound in Appendix A.5.\r\n4 Experiments\r\nIn this section, we present BERT fine-tuning re\x02sults on 11 NLP tasks.\r\n4.1 GLUE\r\nThe General Language Understanding Evaluation\r\n(GLUE) benchmark (Wang et al., 2018a) is a col\x02lection of diverse natural language understanding\r\ntasks. Detailed descriptions of GLUE datasets are\r\nincluded in Appendix B.1.\r\nTo fine-tune 

chunk_data(docs=pdf): Daha önce PDF'den okunan pdf adlı belgeleri alır ve chunk_data fonksiyonu kullanılarak parçalara böler.
Sonuç: pdf_doc, belgelerin parçalanmış halini tutan bir liste olur. Her bir öğe, metnin belirli bir kısmını temsil eden bir parçadır.

len(pdf_doc): pdf_doc listesinin uzunluğunu, yani parçalanmış metinlerin sayısını verir. Bu, metnin kaç parçaya bölündüğünü gösterir.

pdf_doc[25:27]: pdf_doc listesindeki 25. ve 26. indekslerdeki parçaları seçer ve döndürür. Python dilinde listeler sıfırdan başladığı için, bu kod 26. ve 27. parçalara denk gelir.

 Parçaların İçeriği ve Meta Verileri:
Her parça, bir Document nesnesi olarak temsil edilir ve iki önemli bileşene sahiptir:

metadata: Her parçanın meta verilerini içerir. Burada, belgenin kaynağı (PDF dosyasının yolu) ve parçanın hangi sayfaya ait olduğu bilgisi bulunur.

source: Parçanın alındığı PDF dosyasının yolu.
page: Parçanın ait olduğu sayfa numarası.
page_content: Parçalanan metnin kendisi. Bu, belirli bir metin parçasını temsil eder ve chunk_size ve chunk_overlap parametrelerine göre bölünmüştür.

İncelenen Parçaların İçeriği:
25. Parça (İlk Parça): PDF'in 4. sayfasına ait bir metin parçası. Bu metin parçası, BERT modelinin ince ayar sonuçlarını ve GLUE benchmark'ı hakkındaki bilgileri içeriyor. Ayrıca, modelin eğitim süresi hakkında bilgiler içeriyor.

26. Parça (İkinci Parça): Bu da 4. sayfadan gelen bir başka metin parçası. İlk parça ile örtüşen bazı bilgiler içerir ve BERT modelinin GLUE benchmark'ı üzerindeki ince ayar süreci hakkında daha fazla teknik detay sunar.

Parçalama İşlemi ve Bağlamın Korunması:
Örtüşme: Parçalar arasında chunk_overlap ile belirlenen bir örtüşme var. Bu, örneğin bir parçanın son kısımlarının bir sonraki parçanın başında tekrarlanması anlamına gelir. Bu örtüşme, metni işlerken bağlamın korunmasına yardımcı olur ve metnin anlam bütünlüğünü bozmadan bölünmesini sağlar.
Bu kod, büyük bir PDF belgesini yönetilebilir alt parçalara ayırarak, her bir parçayı ayrı ayrı işlemek ve analiz etmek için kullanılır. Parçalama işlemi sırasında, metinler arasındaki bağlamın korunmasına özen gösterilir.

### 1. Creating A Embedding Model
### 2. Convert the Each Chunk of The Split Document to Embedding Vectors
### 3. Storing of The Embedding Vectors to Vectorstore
### 4. Save the Vectorstore to Your Drive

In [None]:
from langchain_openai import OpenAIEmbeddings


embeddings = OpenAIEmbeddings(model="text-embedding-3-large",
                                          dimensions = 3072)# dimensions=256, 1024, 3072



print(embeddings)


client=<openai.resources.embeddings.Embeddings object at 0x7ec3ddda13f0> async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x7ec3dd97b940> model='text-embedding-3-large' dimensions=3072 deployment='text-embedding-ada-002' openai_api_version='' openai_api_base=None openai_api_type='' openai_proxy='' embedding_ctx_length=8191 openai_api_key=SecretStr('**********') openai_organization=None allowed_special=None disallowed_special=None chunk_size=1000 max_retries=2 request_timeout=None headers=None tiktoken_enabled=True tiktoken_model_name=None show_progress_bar=False model_kwargs={} skip_empty=False default_headers=None default_query=None retry_min_seconds=4 retry_max_seconds=20 http_client=None http_async_client=None check_embedding_ctx_length=True


Bu kod, LangChain kütüphanesini kullanarak metinleri vektörlere dönüştürmek için OpenAI Embeddings modelini yapılandırıyor. Embeddings, metinlerin anlamsal temsillerini sayısal vektörler olarak kodlamaya yarar. Bu tür vektörler, çeşitli doğal dil işleme (NLP) görevlerinde, özellikle benzerlik ölçümleri ve metin tabanlı sorgulamalar gibi işlemlerde kullanılır. Kodun işleyişini adım adım açıklayalım:
OpenAIEmbeddings: Bu sınıf, OpenAI'nin embedding modellerini kullanarak metinleri vektörlere dönüştürür. Embedding, kelimelerin veya cümlelerin anlamsal ilişkilerini sayısal bir formda temsil eden bir tekniktir.

OpenAIEmbeddings: OpenAIEmbeddings sınıfı, metinleri embedding'lere (vektörlere) dönüştürmek için kullanılır. Bu sınıf, OpenAI'nin farklı embedding modellerini destekler.

model="text-embedding-3-large": Kullanılacak modelin adı. Burada "text-embedding-3-large" modeli seçilmiş. Bu model, büyük boyutlu embedding'ler üretir ve metinleri daha ayrıntılı bir şekilde temsil edebilir.

dimensions=3072: Üretilen embedding'lerin boyut sayısını belirler. Bu durumda, her metin vektörü 3072 boyutlu olacaktır. Boyut sayısı, embedding'lerin ne kadar ayrıntılı olduğunu belirler; daha yüksek boyut sayısı, daha fazla bilgi tutabilir, ancak daha fazla hesaplama gücü gerektirebilir.

Diğer seçenekler: 256, 1024, 3072 gibi farklı boyutlar da kullanılabilir. Bu, modelin kapasitesine ve uygulamanın gereksinimlerine göre seçilir.

Bu satır, oluşturulan embeddings nesnesinin bilgisini terminale veya çıktıya yazdırır. Çıktı, kullanılan model ve boyutlar gibi yapılandırma detaylarını içerir.
Özetle:
Bu kod, OpenAI'nin embedding modelini kullanarak metinleri yüksek boyutlu vektörlere dönüştürmek için bir yapılandırma yapar. text-embedding-3-large modeli ve 3072 boyutlu vektörler, metinlerin anlamını daha ayrıntılı bir şekilde temsil eder ve bu tür embedding'ler, NLP uygulamalarında metinlerin anlamsal benzerliklerini hesaplamak için kullanılabilir.

### Load Vectorstore(index) From Your Drive

In [None]:
from langchain_chroma import Chroma


Chroma: Chroma, LangChain kütüphanesi içerisinde vektör tabanlı veri depolama ve arama işlemleri için kullanılan bir araçtır. Metin verilerini embedding'ler şeklinde depolar ve bu vektörleri kullanarak hızlı bir şekilde arama yapmaya olanak tanır.

In [None]:
#index=Chroma.from_documents(documents=pdf_doc,
#                            embedding=embeddings,
#                            persist_directory="/content/drive/MyDrive/vectorstore1") # persist_directory, saves in the directory

#retriever=index.as_retriever()


Bu kod parçacığı, Chroma kütüphanesi kullanarak bir vektör deposu (vector store) oluşturmayı ve bu vektör deposu üzerinde arama yapmak için bir retriever (geri getirici) oluşturmayı amaçlar. Kod, iki aşamadan oluşur: önce belgeleri embedding'lere (vektörlere) dönüştürerek vektör deposunu oluşturur, sonra bu depo üzerinde arama işlemleri gerçekleştirmek için bir retriever yaratır.

Bu kod parçacığı, bir dizi belgeyi embedding'lere dönüştürerek bir vektör deposu oluşturur ve ardından bu vektör deposu üzerinde metin arama işlemleri yapmak için bir retriever yaratır.

Vektör Deposu Oluşturma: Belgeler embedding'lere dönüştürülür ve belirtilen dizinde kalıcı olarak saklanır.
Retriever Oluşturma: Vektör deposunu kullanarak bir retriever oluşturulur, böylece belirli bir sorguya karşılık gelen en uygun metin parçaları hızlıca bulunabilir.
Bu yapı, büyük metin koleksiyonları üzerinde hızlı ve etkili aramalar yapmaya olanak tanır.

In [None]:
loaded_index=Chroma(persist_directory="/content/drive/MyDrive/vectorstore1",
                    embedding_function=embeddings)

Chroma(persist_directory="/content/drive/MyDrive/vectorstore1", embedding_function=embeddings):

persist_directory: Chroma'nın daha önce depolanan vektör dosyalarını sakladığı dizindir. Burada, /content/drive/MyDrive/vectorstore1 dizini belirtilmiş. Bu dizin, önceden oluşturulmuş bir vektör deposunu içerir.
embedding_function=embeddings: Embedding işlemi için kullanılan fonksiyondur. Burada, daha önce yapılandırılan OpenAI embedding modeli (embeddings) kullanılıyor. Bu, verilerin embedding formatına dönüştürülmesinde kullanılır.
Bu satır, Chroma vektör deposunu belirli bir dizinden yükler ve belirtilen embedding fonksiyonunu kullanarak metinlerle ilgili arama işlemlerini gerçekleştirmeye hazır hale getirir.

In [None]:
load_retriver=loaded_index.as_retriever(search_kwargs={"k": 5})

loaded_index.as_retriever(): Bu metod, Chroma vektör deposunu kullanarak bir retriever (geri getirici) oluşturur. Retriever, belirli bir sorguya en iyi uyan sonuçları döndürmek için kullanılır.

search_kwargs={"k": 5}: Arama parametrelerini belirtir.

k=5: En iyi uyan 5 sonuç geri getirilir. Bu, bir sorgu yapıldığında retriever'ın en uygun 5 metni döndüreceği anlamına gelir.

Özetle:
Bu kod, daha önce depolanan vektör verilerini içeren bir Chroma vektör deposunu yükler ve bu veriler üzerinde metin tabanlı arama işlemleri yapmak için bir retriever oluşturur. Retriever, bir sorguya en iyi uyan vektörleri bulur ve belirli sayıda (bu durumda 5) sonucu döndürür. Bu yapı, büyük metin koleksiyonlarında hızlı ve etkili aramalar yapmaya olanak tanır.

### Retrival the First 5 Chunks That Are Most Similar to The User Query from The Document

In [None]:
load_retriver = loaded_index.as_retriever(search_kwargs = {'k': 5})

loaded_index.as_retriever(): Bu metod, daha önce loaded_index olarak yüklenen vektör deposu üzerinde bir retriever (geri getirici) oluşturur. Bu retriever, sorgulara en uygun belgeleri veya metin parçalarını bulmak için kullanılır.

search_kwargs = {'k': 5}: Bu parametre, arama işlemi sırasında kaç sonuç döndürülmesi gerektiğini belirtir. Burada, k=5 olarak ayarlanmış, yani retriever en uygun 5 metin parçasını geri getirecek.

In [None]:
retrieved_docs = load_retriver.invoke('What is BERT?')

load_retriver.invoke('What is BERT?'): Bu satır, retriever'a 'What is BERT?' (BERT nedir?) şeklinde bir sorgu gönderir. Retriever, bu sorguya en uygun olan 5 metin parçasını (veya belgeyi) vektör deposundan bulur ve geri döndürür.

retrieved_docs: Bu, retriever tarafından döndürülen sonuçları tutan bir değişkendir. Bu değişkende, sorguya en uygun metin parçaları (örneğin, BERT ile ilgili açıklamalar) yer alır.

In [None]:
retrieved_docs

[]

Bu satır, retriever tarafından döndürülen sonuçları (belgeleri veya metin parçalarını) görüntülemek için kullanılır. Bu belgeler, sorguya karşılık gelen en uygun 5 sonuç olacak ve BERT hakkında bilgiler içerecektir.

Bu kod, daha önce yüklenmiş bir vektör deposundan belirli bir sorguya (bu durumda "What is BERT?") en uygun metin parçalarını bulmak için bir retriever kullanır. Retriever, vektör deposunda depolanan metinleri kullanarak, sorguyla en iyi eşleşen 5 metin parçasını döndürür.

Retriever Oluşturma: Vektör deposu üzerinde arama işlemi yapacak bir retriever oluşturulur.
Sorgu Gönderme: "What is BERT?" şeklinde bir sorgu gönderilir.
Sonuçların Alınması: Sorguya karşılık gelen en uygun 5 metin parçası geri döndürülür ve retrieved_docs değişkeninde saklanır.
Bu süreç, özellikle büyük metin koleksiyonları üzerinde hızlı ve etkili bir şekilde bilgi arama ve getirme işlemleri için kullanılır.

### Generating an Answer Based on The Similar Chunks

In [None]:
from langchain.prompts import PromptTemplate

template="""Use the following pieces of context to answer the user's question of {question}.

----------------
{context}"""

prompt_template = PromptTemplate(
    input_variables =['question','context'],
    template = template
)

Bu kod, bir kullanıcının sorusuna cevap vermek için belirli bir bağlamda (context) bir şablon (template) oluşturan bir PromptTemplate tanımlar. LangChain kütüphanesi kullanılarak yazılmış bu kod, doğal dil işleme (NLP) uygulamalarında yaygın olarak kullanılır ve kullanıcı tarafından verilen bir soruya verilen bağlamı kullanarak yapılandırılmış bir cevap oluşturur.

PromptTemplate: Bu sınıf, kullanıcı girdileriyle birleştirilecek bir metin şablonu tanımlamak için kullanılır. Bu şablon, NLP görevlerinde çeşitli amaçlar için kullanılabilir, örneğin bir dil modeline verilecek girişleri oluşturmak için.

template: Bu değişken, soruya verilen bağlamı kullanarak bir yanıt oluşturmak için kullanılacak olan şablon metnini içerir.

"""Use the following pieces of context to answer the user's question of {question}.\n\n----------------\n{context}""": Şablonun kendisi şu şekilde yapılandırılmıştır:

{question}: Kullanıcının sorusu bu yer tutucuya yerleştirilir.
{context}: Soruya yanıt vermek için kullanılacak bağlam bu yer tutucuya yerleştirilir.
Şablon şu şekilde çalışır: "Use the following pieces of context to answer the user's question of {question}." ("Kullanıcının {question} sorusunu yanıtlamak için aşağıdaki bağlamı kullanın.") yazılır, ardından bir çizgi ile ayrılmış {context} eklenir. Bu, dil modeline açık ve yapılandırılmış bir giriş sağlar.

PromptTemplate: Burada, bir PromptTemplate nesnesi oluşturuluyor.
input_variables=['question', 'context']: Bu, şablonun hangi değişkenleri beklediğini tanımlar. Şablon, bir question (soru) ve bir context (bağlam) alır.
template=template: Bu, yukarıda tanımlanan şablon metnidir.

Soru ve Bağlamın Yerleştirilmesi: Kullanıcının sorusu ve ilgili bağlam bu şablona yerleştirilir.
Cevap Üretme: Bu şablon, özellikle dil modelleriyle kullanıldığında, ilgili bağlamı kullanarak soruya uygun bir cevap oluşturur.

Bu kod, kullanıcının sorduğu bir soruya verilen bağlamı kullanarak cevap oluşturmak için bir PromptTemplate oluşturur. Şablon, soruyu ve bağlamı alır, ardından yapılandırılmış bir formatta bu bilgileri birleştirir.

{question}: Kullanıcının sorduğu soru.
{context}: Soruyu cevaplamak için kullanılan bağlam.
Bu yapı, özellikle büyük dil modelleriyle kullanıldığında, kullanıcı sorularına doğru ve bağlama dayalı yanıtlar üretmek için güçlü bir araçtır.

### Pipeline For RAG (If you want, you can use the gemini-1.5-pro model)

In [None]:
our_query = "What is BERT?"

Bu satır, our_query adında bir değişken oluşturur ve "What is BERT?" (BERT nedir?) metin değerini atar. Bu, sistemin yanıtlamasını istediğimiz soruyu temsil eder.

In [None]:
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser

llm=ChatOpenAI(model_name="gpt-4o-mini",
               temperature=1,
               top_p=1)

chain = prompt_template | llm | StrOutputParser()

output= chain.invoke({"question":our_query, "context":retrieved_docs}) # first four most similar texts are returned
output

'BERT, which stands for Bidirectional Encoder Representations from Transformers, is a natural language processing (NLP) model developed by Google. It utilizes a transformer architecture and is designed to understand the context of words in a sentence by considering the relationships between all the words in both directions (left-to-right and right-to-left). This bidirectional approach allows BERT to capture nuanced meanings and improve performance on a variety of language tasks, such as question answering and language inference. It has become a foundational model in NLP and has significantly advanced the state of the art in many applications.'

Bu satır, langchain_openai paketinden ChatOpenAI sınıfını içeri aktarır. ChatOpenAI, muhtemelen OpenAI'nin dil modelleri ile çalışmak için kullanılan özel bir sınıftır.
from langchain_core.output_parsers import StrOutputParser:

Bu satır, langchain_core.output_parsers paketinden StrOutputParser sınıfını içeri aktarır. Bu sınıf, dil modelinin çıktısını bir metin formatında işlemek ve formatlamak için kullanılır.
Bu satır, ChatOpenAI sınıfından bir örnek oluşturur. Bu örnek, kullanmak istediğimiz dil modelini temsil eder ve bazı parametreler ile yapılandırılır:
model_name="gpt-4o-mini": Kullanılacak modelin adını belirtir, burada "gpt-4o-mini" (GPT-4'ün daha küçük bir versiyonu) kullanılıyor.
temperature=1: Modelin çıktısındaki rastgeleliği kontrol eder. Daha yüksek bir değer daha rastgele sonuçlar üretir.
top_p=1: Bu, bir örnekleme tekniği parametresidir. 1 olarak ayarlandığında, model tüm olasılık dağılımını dikkate alır.

llm=ChatOpenAI(model_name="gpt-4o-mini", temperature=1, top_p=1):

Bu satır, ChatOpenAI sınıfından bir örnek oluşturur. Bu örnek, kullanmak istediğimiz dil modelini temsil eder ve bazı parametreler ile yapılandırılır:
model_name="gpt-4o-mini": Kullanılacak modelin adını belirtir, burada "gpt-4o-mini" (GPT-4'ün daha küçük bir versiyonu) kullanılıyor.
temperature=1: Modelin çıktısındaki rastgeleliği kontrol eder. Daha yüksek bir değer daha rastgele sonuçlar üretir.
top_p=1: Bu, bir örnekleme tekniği parametresidir. 1 olarak ayarlandığında, model tüm olasılık dağılımını dikkate alır.

chain = prompt_template | llm | StrOutputParser():

Bu satır, bir "zincir" oluşturur. Bu bağlamda:
prompt_template (kodda tanımlanmamış, ancak muhtemelen istem için bir şablon içeriyor).
llm daha önce oluşturduğumuz dil modeli nesnesi.
StrOutputParser() ise, çıktıyı bir metin formatında işleyecek olan çıktı ayrıştırıcıdır.
| operatörü, burada ardışık bir yapı kurmaya yarıyor; bir bileşenin çıktısı, bir sonraki bileşene giriş olarak aktarılır.

output= chain.invoke({"question":our_query, "context":retrieved_docs}):

Bu satır, zinciri belirtilen girdilerle çalıştırır:
question: Daha önce başlattığımız sorgu ("What is BERT?").
context: retrieved_docs, modelin uygun bir yanıt oluşturmak için kullanacağı bazı belgeler veya bağlamı tutan bir değişken.
Bu işlemin çıktısı output değişkenine kaydedilir.

from IPython.display import Markdown:

Bu satır, IPython gösterim modülünden Markdown sınıfını içeri aktarır. Bu sınıf, çıktının Jupyter Notebook veya benzeri ortamlarda Markdown formatında gösterilmesine olanak tanır.
Markdown(output):

Bu satır, dil modelinden gelen output (bir metin çıktısı) değerini Markdown formatına dönüştürerek gösterir.

Özet: Kod, bir doğal dil işleme (NLP) boru hattı (pipeline) kullanarak bir sorgu gerçekleştirmek için tasarlanmıştır:

Bir sorgu ile başlanır ("What is BERT?").
Bu sorgu, önceden tanımlanmış bir istem şablonu ve OpenAI'nin dil modeli (gpt-4o-mini) kullanılarak işlenir.
Dil modeli, belirtilen bağlamı (retrieved_docs) kullanarak uygun bir yanıt üretir.
Yanıt, bir metin formatına dönüştürülür ve Markdown olarak gösterilir.
Bu zincir tabanlı yaklaşım, özellikle konuşma AI veya Soru-Cevap (Q&A) sistemlerinde yaygındır. Farklı bileşenler (bağlam alma, model çağrısı, çıktı formatlama gibi) sırayla ele alınarak doğru ve kullanıcı dostu sonuçlar sağlanır.

In [None]:
from IPython.display import Markdown

Markdown(output)

BERT, which stands for Bidirectional Encoder Representations from Transformers, is a natural language processing (NLP) model developed by Google. It utilizes a transformer architecture and is designed to understand the context of words in a sentence by considering the relationships between all the words in both directions (left-to-right and right-to-left). This bidirectional approach allows BERT to capture nuanced meanings and improve performance on a variety of language tasks, such as question answering and language inference. It has become a foundational model in NLP and has significantly advanced the state of the art in many applications.

Kodun son satırında yapılan işlem şu şekilde açıklanabilir:

Markdown(output) Satırının Açıklaması
from IPython.display import Markdown:
Bu satır, Jupyter Notebook veya benzeri bir IPython ortamında Markdown formatındaki metinleri görüntülemek için kullanılan Markdown sınıfını içeri aktarır.
Markdown(output):
output değişkeni, önceki adımlarda dil modelinden (örneğin, BERT gibi bir modelin ne olduğu hakkında bilgi veren bir model) alınan yanıtı içerir. Bu yanıt, muhtemelen bir metin olarak formatlanmıştır.
Markdown(output), bu metni Markdown formatında görüntüler. Markdown, metinleri biçimlendirmek için kullanılan bir işaretleme dilidir ve başlıklar, kalın veya italik metinler, listeler ve bağlantılar gibi farklı stiller eklemek için kullanılır.

Markdown(output) komutu, modelin yanıtını daha kullanıcı dostu bir biçimde gösterir ve bu sayede yanıtın içeriği anlaşılır ve görsel olarak düzenli hale gelir.

BERT, "Bidirectional Encoder Representations from Transformers" ifadesinin kısaltmasıdır ve Google tarafından geliştirilen bir doğal dil işleme (NLP) modelidir. BERT, kelimelerin bir cümledeki bağlamını anlamak için bir "transformer" mimarisi kullanır. Bu mimari, kelimelerin hem sağdan sola hem de soldan sağa olan ilişkilerini dikkate alarak, cümlenin tamamındaki tüm kelimeler arasındaki bağlantıları öğrenir.

##**Retrieval**

In [None]:
def retrieve_query(query,k=5):
    load_retriever=loaded_index.as_retriever(search_kwargs={"k": k}) #loaded_index
    return load_retriever.invoke(query)

Amaç: Kullanıcının sorgusuna en yakın k sayıda belgeyi geri döndürmek.
Parametreler:
query: Kullanıcının sorduğu soru veya sorgu (örneğin: "What is BERT?").
k: Kaç tane benzer belgenin döndürüleceğini belirtir (varsayılan olarak 5).
İşleyiş:
loaded_index.as_retriever(...): loaded_index adı verilen önceden yüklenmiş bir arama indeksini kullanarak bir "retriever" (geri getirici) oluşturur. Bu retriever, belirtilen k sayıda en benzer belgeyi bulmaya yarar.
invoke(query): Belirtilen sorguya göre en benzer belgeleri bulur ve geri döndürür.

In [None]:
our_query = "What is BERT?"

doc_search=retrieve_query(our_query, k=5) # first two most similar texts are returned
doc_search

[]

Amaç: "What is BERT?" sorusuna en uygun olan 5 belgeyi bulmak.
İşleyiş:
retrieve_query fonksiyonu kullanılarak our_query sorgusu çalıştırılır ve en benzer 5 belge doc_search değişkenine atanır.

In [None]:
def get_answers(query, k = 5):
    from langchain_openai import ChatOpenAI
    from langchain_core.output_parsers import StrOutputParser
    from langchain.prompts import PromptTemplate
    from IPython.display import Markdown

    doc_search=retrieve_query(query, k = k) # most similar texts are returned


    template="""Use the following pieces of context to answer the user's question of {question}.

    ----------------
    {context}"""

    prompt_template = PromptTemplate(
    input_variables =['question','context'],
    template = template)


    llm=ChatOpenAI(model_name="gpt-4o-mini",
                  temperature=0,
                  top_p=1)

    chain = prompt_template | llm | StrOutputParser()

    output= chain.invoke({"question":query, "context":doc_search}) # first four most similar texts are returned
    return Markdown(output)

Amaç: Kullanıcının sorusuna (örneğin, "BERT'in temel mimari bileşenleri nelerdir?") en uygun yanıtı oluşturmak.
Parametreler:
query: Kullanıcının sorduğu soru.
k: En benzer k sayıda belgeyi geri getirmek için kullanılır.

Fonksiyonun İçeriği:
Gerekli Kütüphanelerin İçe Aktarılması:

langchain_openai, langchain_core.output_parsers, langchain.prompts ve IPython.display modüllerini içe aktararak, OpenAI modelini kullanmak, çıktıyı işlemek ve Markdown formatında görüntülemek için gerekli kütüphaneler yüklenir.
Benzer Belgeleri Getirme:

doc_search = retrieve_query(query, k=k) ifadesi ile kullanıcı sorusuna en uygun belgeler (k sayıda) doc_search değişkenine atanır.
Şablon Tanımlama ve Kullanımı:

template değişkeni, dil modelinin kullanıcı sorusuna yanıt vermesi için kullanacağı bir metin şablonunu tanımlar. Şablon, kullanıcının sorusunu ({question}) ve belgeleri ({context}) içerir.
PromptTemplate: Bu şablon kullanılarak bir istem şablonu (prompt_template) oluşturulur.
Dil Modelinin Yapılandırılması:

ChatOpenAI: GPT-4'ün bir versiyonunu (gpt-4o-mini) çalıştırmak için kullanılır. temperature=0 ayarı, modelin daha belirgin ve deterministik (yani rastgeleliği düşük) yanıtlar üretmesini sağlar.
top_p=1: Modelin çıktılarını üretirken tüm olasılık dağılımını dikkate almasını sağlar.
İşlem Zincirinin Oluşturulması ve Çalıştırılması:

chain: Sorgu yanıtlamada kullanılacak bir zincir (pipeline) oluşturur. Bu zincir, istem şablonu (prompt_template), dil modeli (llm), ve çıktı ayrıştırıcısını (StrOutputParser()) içerir.
chain.invoke(...): Kullanıcının sorusu ve bağlam olarak bulunan belgelerle (doc_search) zinciri çalıştırır ve modelden bir yanıt döndürür.
Markdown Formatında Yanıt Döndürme:

Markdown(output): Modelin çıktısını Markdown formatında döndürerek Jupyter Notebook veya benzeri bir ortamda düzgün bir şekilde görüntülenmesini sağlar.

In [None]:
our_query = "What are the key architectural components of BERT?"
answer = get_answers(our_query)
answer

BERT (Bidirectional Encoder Representations from Transformers) is built on several key architectural components:

1. **Transformer Architecture**: BERT is based on the Transformer model, which uses self-attention mechanisms to process input data. This allows BERT to consider the context of a word based on all other words in a sentence, rather than just the words that come before or after it.

2. **Bidirectional Context**: Unlike previous models that read text in a unidirectional manner (left-to-right or right-to-left), BERT reads text in both directions simultaneously. This bidirectional approach enables a deeper understanding of context and meaning.

3. **Input Representation**: BERT uses a unique input representation that combines three types of embeddings:
   - **Token Embeddings**: Represent individual words or subwords.
   - **Segment Embeddings**: Indicate whether a token belongs to the first or second sentence in tasks involving pairs of sentences.
   - **Position Embeddings**: Provide information about the position of each token in the sequence, as the Transformer architecture does not inherently understand the order of tokens.

4. **Multi-Head Self-Attention**: BERT employs multi-head self-attention, which allows the model to focus on different parts of the input sequence simultaneously. This enhances its ability to capture various relationships and dependencies between words.

5. **Layer Normalization and Residual Connections**: Each layer in BERT includes layer normalization and residual connections, which help stabilize training and allow for deeper networks by mitigating the vanishing gradient problem.

6. **Pre-training and Fine-tuning**: BERT is pre-trained on a large corpus of text using unsupervised learning tasks (Masked Language Model and Next Sentence Prediction) and can be fine-tuned on specific tasks with labeled data, making it highly versatile for various NLP applications.

These components work together to enable BERT to achieve state-of-the-art performance on a wide range of natural language processing tasks.

Amaç: "BERT'in temel mimari bileşenleri nelerdir?" sorusuna yanıt almak.
İşleyiş:
get_answers fonksiyonu çağrılarak our_query kullanılır ve yanıt answer değişkenine atanır.
Yanıt, Markdown formatında görüntülenir, böylece görsel olarak düzenlenmiş ve okunabilir bir yanıt elde edilir.

Bu kod, bir sorgu alır, en benzer belgeleri bulur, dil modelini kullanarak bu belgelerden bir yanıt oluşturur ve sonucu Markdown formatında görüntüler. Kullanıcı, bu sayede açık ve düzenli bir şekilde sorusunun yanıtını alır.

In [None]:
our_query = "What are the main contributions of the BERT model?"
answer = get_answers(our_query)
answer

The BERT (Bidirectional Encoder Representations from Transformers) model has made several significant contributions to the field of natural language processing (NLP):

1. **Bidirectional Contextual Understanding**: Unlike previous models that processed text in a unidirectional manner (left-to-right or right-to-left), BERT reads text in both directions simultaneously. This allows it to capture the context of a word based on all surrounding words, leading to a deeper understanding of language.

2. **Pre-training and Fine-tuning Paradigm**: BERT introduced a two-step approach where the model is first pre-trained on a large corpus of text using unsupervised learning techniques (like masked language modeling and next sentence prediction) and then fine-tuned on specific tasks with labeled data. This approach has proven effective for a variety of NLP tasks.

3. **Transfer Learning in NLP**: BERT popularized the use of transfer learning in NLP, allowing models to leverage knowledge gained from pre-training on large datasets to improve performance on specific tasks with limited data.

4. **State-of-the-Art Performance**: BERT achieved state-of-the-art results on several benchmark NLP tasks, including question answering, sentiment analysis, and named entity recognition, demonstrating its effectiveness and versatility.

5. **Open Source and Community Impact**: BERT was released as an open-source model, which has encouraged widespread adoption and further research in the NLP community. It has inspired numerous variations and improvements, leading to advancements in the field.

Overall, BERT has significantly advanced the capabilities of NLP models and has influenced the development of subsequent architectures and techniques.

Bu kod, "BERT modelinin başlıca katkıları nelerdir?" sorusuna en uygun yanıtı bulmak için bir doğal dil işleme boru hattı kullanır. Bu, kullanıcıdan gelen sorguya benzer belgeleri bulur, dil modelini kullanarak bu belgelere dayalı bir yanıt oluşturur ve yanıtı Markdown formatında gösterir. Bu sayede, kullanıcı dostu ve anlaşılır bir sonuç elde edilir.

our_query adlı bir değişken tanımlanır ve "What are the main contributions of the BERT model?" değeri atanır. Bu değişken, dil modelinin yanıtlamasını istediğimiz soruyu içerir.

get_answers fonksiyonu çağrılır ve içine our_query değişkeni geçirilir.
get_answers fonksiyonu daha önce tanımlanmıştı ve şu adımları gerçekleştiriyordu:
En Benzer Belgeleri Getirme: Soruya en uygun belgeleri (k sayıda, varsayılan olarak 5) bulmak için retrieve_query fonksiyonunu kullanır.
Şablon Kullanarak Yanıt Oluşturma: Kullanıcının sorusu ve bulunan belgeler kullanılarak, dil modeli (gpt-4o-mini) bir yanıt oluşturur.
Markdown Formatında Yanıt Döndürme: Yanıt, Markdown formatında düzenlenir ve okunabilir bir şekilde döndürülür.

answer değişkeni, get_answers fonksiyonunun çıktısını tutar ve bu değişken görüntülenerek, dil modelinin verdiği yanıt gösterilir.

get_answers Fonksiyonunun Çalışma Mantığı
get_answers fonksiyonu çağrıldığında şu adımları gerçekleştirir:

Soruya En Uygun Belgeleri Bulur:

retrieve_query fonksiyonu, "What are the main contributions of the BERT model?" sorusuna en benzer belgeleri döndürür.
Yanıt Şablonunu Oluşturur ve Kullanır:

Kullanıcının sorusunu ve geri döndürülen belgeleri kullanarak bir yanıt oluşturur.
Şablon:
python
Kodu kopyala
template = """Use the following pieces of context to answer the user's question of {question}.
----------------
{context}"""
Bu şablon, dil modelinin yanıt verirken kullanması için bir yapı sağlar. Model, kullanıcının sorusuna yanıt verirken bu şablonun içindeki question (soru) ve context (bağlam) yer tutucularını kullanır.
Dil Modeli (LLM) Kullanılarak Yanıt Üretilir:

gpt-4o-mini modeli kullanılarak, bağlam ve soru birlikte işlenir ve modelden bir yanıt alınır.
Yanıt Markdown Formatında Döndürülür:

Çıktı, Markdown formatında düzenlenir ve kullanıcıya daha okunabilir bir formatta sunulur.

## Project 2: Generating PDF Document Summaries

In this project, you will explore various methods for creating summaries from the provided PDF document. You will experiment with different chaining functions offered by the Langchain library to achieve this.

### **Project Steps:**
- **1.PDF Document Upload and Chunking:** As in the first project, upload the PDF document and divide it into smaller chunks. Consider splitting it by half-page or page.

- **2.Summarization Techniques:**

  - **Summary of the First 5 Pages (Stuff Chain):** Utilize the load_summarize_chain function with the parameter chain_type="stuff" to generate a concise summary of the first 5 pages of the PDF document.

  - **Short Summary of the Entire Document (Map Reduce Chain):** Employ chain_type="map_reduce" and refine parameters to create a brief summary of the entire document. This method generates individual summaries for each chunk and then combines them into a final summary.

  - **Detailed Summary with Bullet Points (Map Reduce Chain):** Use chain_type="map_reduce" to generate a detailed summary with at least 1000 tokens. Provide the LLM with the prompt "Summarize with 1000 tokens" and set the max_token parameter to a value greater than 1000. Add a title to the summary and present key points using bullet points.

### Important Notes:

- Models like GPT-4 and Gemini Pro models might excel in generating summaries based on token count. Consider prioritizing these models.

- For comprehensive information on Langchain and LLMs, refer to their respective documentation.
Best of luck!

### Install Libraries

In [None]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate

Bu bileşenler, LangChain framework'ünün bir parçasıdır ve doğal dil işleme (NLP) sistemleri için bilgi getirme ve yanıt oluşturma görevlerini optimize etmek için kullanılır. create_retrieval_chain ve create_stuff_documents_chain belgeleri bulma ve işleme görevlerini gerçekleştirirken, ChatPromptTemplate modeli doğru yönlendirecek istem şablonlarını oluşturur. Bu sayede, kullanıcının sorgusuna en uygun ve anlamlı yanıtın oluşturulması sağlanır.

. from langchain.chains import create_retrieval_chain
Açıklama:

create_retrieval_chain fonksiyonu, LangChain kütüphanesindeki bir retrieval zincirini oluşturmak için kullanılır. Bu zincir, bir kullanıcının sorgusuna en uygun yanıtları oluşturabilmek için önce ilgili belgeleri (dokümanları) geri getirir (retrieval).
Amaç:

Sorguya uygun belgeleri (dokümanları) bulmak ve bu belgeleri kullanarak daha sonrasında dil modeline geçiş yapmak.
Genellikle, bir bilgi tabanında veya büyük bir belge koleksiyonunda uygun içeriği bulmak için kullanılır.

from langchain.chains.combine_documents import create_stuff_documents_chain
Açıklama:

create_stuff_documents_chain fonksiyonu, LangChain kütüphanesindeki bir belge birleştirme zinciri oluşturur. Bu zincir, bulunan belgeleri veya dokümanları bir araya getirip, anlamlı bir bütün oluşturur.
Amaç:

Bulunan belgeleri işleyip, birleştirerek tek bir yanıt için gerekli bağlamı oluşturmak.
Bu işlem, belgelerin veya dokümanların farklı kısımlarını bir araya getirip, dil modelinin daha anlamlı ve tutarlı bir yanıt vermesine yardımcı olur.

from langchain_core.prompts import ChatPromptTemplate
Açıklama:

ChatPromptTemplate, LangChain'in core (çekirdek) kütüphanesindeki bir sınıftır ve sohbet tabanlı istemleri (prompts) oluşturmak için kullanılır.
Sohbet tabanlı istemler, dil modeline spesifik bir görev veya soru için verilen yapılandırılmış metinlerdir.
Amaç:

Kullanıcının sorusunu ve modeli yanıtlaması gereken bağlamı tanımlayan bir istem şablonu oluşturmak.
ChatPromptTemplate, kullanıcıdan gelen sorulara veya görevlere uygun istemler hazırlamayı kolaylaştırır.

### Loading PDF Document

In [None]:
pdf=read_doc('/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf')



Açıklama:

read_doc fonksiyonu, verilen bir PDF dosyasını okur ve dosyanın içeriğini Python'da işleyebilecek bir formata dönüştürür.
'/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf' dosya yolu, Google Drive üzerinde bulunan bir PDF dosyasının konumunu belirtir.
pdf değişkeni, bu PDF dosyasının okunmuş içeriğini tutar.
Amaç:

Bu satır, belirli bir PDF dosyasını okumak ve üzerinde işlem yapmak için kullanılır. Genellikle, dil işleme (NLP) görevlerinde, bir PDF dosyasından metin çıkarıp analiz etmek için kullanılır.

In [None]:
pdf[0] #first page

Document(metadata={'source': '/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf', 'page': 0}, page_content='Proceedings of NAACL-HLT 2019, pages 4171–4186\r\nMinneapolis, Minnesota, June 2 - June 7, 2019. \rc 2019 Association for Computational Linguistics\r\n4171\r\nBERT: Pre-training of Deep Bidirectional Transformers for\r\nLanguage Understanding\r\nJacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova\r\nGoogle AI Language\r\n{jacobdevlin,mingweichang,kentonl,kristout}@google.com\r\nAbstract\r\nWe introduce a new language representa\x02tion model called BERT, which stands for\r\nBidirectional Encoder Representations from\r\nTransformers. Unlike recent language repre\x02sentation models (Peters et al., 2018a; Rad\x02ford et al., 2018), BERT is designed to pre\x02train deep bidirectional representations from\r\nunlabeled text by jointly conditioning on both\r\nleft and right context in all layers. As a re\x02sult, the pre-trained BERT model can be fine\x02tuned with jus

. pdf[0] #first page
Açıklama:

pdf[0], PDF belgesinin ilk sayfasını temsil eder. Bu, pdf değişkeninde saklanan içeriğin ilk sayfasını alır.
#first page (ilk sayfa) ifadesi bir yorumdur ve kodun ne yaptığını açıklamak için kullanılır.
Amaç:

PDF dosyasının yalnızca ilk sayfasının içeriğini elde etmek için kullanılır. Örneğin, bir araştırma makalesinin özetini veya başlık sayfasını almak isteyebilirsiniz.

Özet
Bu kod parçaları, bir PDF dosyasını okumak ve içeriğiyle çalışmak için kullanılır.

Dosyanın Okunması: read_doc fonksiyonu kullanılarak PDF dosyası okunur.
İlk Sayfanın Elde Edilmesi: pdf[0] ifadesi, bu PDF dosyasının ilk sayfasının içeriğini alır ve işleme hazır hale getirir.

### Summarizing the First 5 Pages of The Document With Chain_Type of The 'stuff'

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import load_summarize_chain
from langchain.llms import OpenAI

RecursiveCharacterTextSplitter sınıfı, bir metni belirli karakter sınırlarına göre bölmek için kullanılan bir metin ayırıcıdır.
Bu sınıf, metni daha küçük parçalara bölmek için kullanılır; özellikle uzun metinlerin veya belgelerin işlenmesi gerektiğinde yararlıdır. Metni, maksimum karakter uzunluğunu aşmayan parçalara bölerek, modelin daha verimli çalışmasını sağlar.

Özetleme veya başka bir dil işleme görevi için metni daha küçük parçalara ayırmak. Böylece, model her bir parça üzerinde ayrı ayrı çalışabilir ve belgenin tamamı için daha iyi bir özet veya analiz yapabilir.

load_summarize_chain fonksiyonu, LangChain kütüphanesinde özetleme (summarization) zinciri oluşturmak için kullanılır.
Bir özetleme zinciri, verilen metni veya belgeyi kısaca özetleyen bir süreçtir. Bu zincir, metnin veya belgenin uzunluğunu ve karmaşıklığını azaltarak daha kısa bir açıklama veya özet sağlar.

Büyük metinleri veya belgeleri otomatik olarak özetlemek ve kullanıcıya daha kısa ve anlaşılır bir bilgi sunmak.

OpenAI sınıfı, OpenAI dil modellerine erişmek ve onları kullanmak için LangChain'de sağlanan bir arayüzdür.
Bu sınıf, OpenAI'nin modellerine (örneğin, GPT-3, GPT-4) bağlanarak, dil işleme görevleri için kullanılır.

OpenAI'nin güçlü dil modellerini kullanarak metin işleme görevlerini (örneğin özetleme, soru-cevap) gerçekleştirmek.

In [None]:
pdf[:5] # first five page

[Document(metadata={'source': '/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf', 'page': 0}, page_content='Proceedings of NAACL-HLT 2019, pages 4171–4186\r\nMinneapolis, Minnesota, June 2 - June 7, 2019. \rc 2019 Association for Computational Linguistics\r\n4171\r\nBERT: Pre-training of Deep Bidirectional Transformers for\r\nLanguage Understanding\r\nJacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova\r\nGoogle AI Language\r\n{jacobdevlin,mingweichang,kentonl,kristout}@google.com\r\nAbstract\r\nWe introduce a new language representa\x02tion model called BERT, which stands for\r\nBidirectional Encoder Representations from\r\nTransformers. Unlike recent language repre\x02sentation models (Peters et al., 2018a; Rad\x02ford et al., 2018), BERT is designed to pre\x02train deep bidirectional representations from\r\nunlabeled text by jointly conditioning on both\r\nleft and right context in all layers. As a re\x02sult, the pre-trained BERT model can be fine\x02tuned with ju

Açıklama:

pdf[:5], PDF dosyasının ilk beş sayfasını seçer.
# first five pages (ilk beş sayfa) ifadesi bir yorumdur ve kodun ne yaptığını açıklamak için kullanılır.
Amaç:

PDF dosyasının sadece ilk beş sayfasının içeriğini almak ve bu içerik üzerinde çalışmak.

Bu kod parçaları, bir PDF dosyasının ilk beş sayfasının metin içeriğini alır, bu metinleri uygun büyüklükteki parçalara böler ve ardından OpenAI dil modelini kullanarak özetleme işlemi gerçekleştirir. Bu işlem, kullanıcının uzun belgelerden daha kısa ve anlamlı özetler almasına yardımcı olur.

### Document Splitter

In [None]:
pdf_doc=chunk_data(docs=pdf)
len(pdf_doc)

84

Açıklama:

chunk_data fonksiyonu, PDF dosyasının içeriğini (metinlerini) alır ve onları daha küçük parçalar (chunk'lar) halinde böler.
docs=pdf parametresi, bu fonksiyonun pdf değişkenindeki metinleri işleyip parçalara ayırması gerektiğini belirtir. pdf değişkeni, daha önce PDF dosyasının içeriğini tutmak için kullanılmıştı.
Amaç:

Uzun metinleri veya belgeleri, dil modelinin daha iyi işleyebileceği daha küçük parçalara ayırmak. Bu, performansı artırır ve modelin daha anlamlı özetler veya yanıtlar oluşturmasına olanak tanır.

 len(pdf_doc)
Açıklama:

len(pdf_doc) ifadesi, pdf_doc değişkenindeki parçaların (chunk'ların) sayısını hesaplar.
pdf_doc değişkeni, chunk_data fonksiyonu tarafından oluşturulan ve PDF'in parçalarını içeren bir liste olarak kabul edilir.
Amaç:

PDF dosyasının kaç parçaya (chunk'a) bölündüğünü kontrol etmek. Bu, parçaların sayısına göre modelin özetleme işlemlerini optimize etmek için önemlidir.

In [None]:
#Belgeyi parçalara ayırın
#text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=0)
#docs = text_splitter.split_documents(pdf)

In [None]:
from langchain_openai import ChatOpenAI
from langchain.chains.summarize import load_summarize_chain

llm = ChatOpenAI(temperature=0,
                 model_name='gpt-4o-mini',
                 max_tokens=1024)

 from langchain_openai import ChatOpenAI
Açıklama:

ChatOpenAI sınıfı, OpenAI'nin dil modellerine (örneğin GPT-4) erişmek ve onları kullanmak için bir arayüz sağlar.
Bu sınıf, LangChain'in bir parçasıdır ve OpenAI API'sine bağlanarak dil işleme görevlerini gerçekleştirmek için kullanılır.
Amaç:

OpenAI'nin güçlü dil modelini (gpt-4o-mini gibi) özetleme görevinde kullanmak.

. from langchain.chains.summarize import load_summarize_chain
Açıklama:

load_summarize_chain fonksiyonu, bir özetleme zinciri oluşturur.
Bu zincir, belirli bir metni özetlemek için kullanılır. Kullanıcının sağladığı metin parçalarını işleyerek, kısa ve anlamlı özetler üretir.
Amaç:

Dil modelini kullanarak, uzun metinleri veya belgeleri otomatik olarak özetleyen bir süreç oluşturmak.

. llm = ChatOpenAI(temperature=0, model_name='gpt-4o-mini', max_tokens=1024)
Açıklama:

ChatOpenAI sınıfı, OpenAI'nin gpt-4o-mini modelini kullanarak bir dil modeli nesnesi oluşturur.
temperature=0: Bu, modelin yanıtlarının deterministik (öngörülebilir) olmasını sağlar, yani aynı girdiye her seferinde benzer bir çıktı üretilir.
max_tokens=1024: Bu, modelin üretebileceği maksimum token sayısını (kelime ve semboller) belirtir. Yani, yanıtın uzunluğu bu sınırı aşmaz.
Amaç:

gpt-4o-mini modelini kullanarak, dil işleme görevlerini gerçekleştirmek ve özetleme zincirini beslemek için bir dil modeli örneği oluşturmak.

In [None]:
chain = load_summarize_chain(
    llm,
    chain_type='stuff'
)
output_summary = chain.invoke(pdf_doc[0:5])['output_text']

chain = load_summarize_chain(llm, chain_type='stuff')
Açıklama:

load_summarize_chain fonksiyonu kullanılarak bir özetleme zinciri (chain) oluşturulur.
llm: Daha önce tanımlanan ChatOpenAI nesnesini belirtir. Bu, zincirin hangi dil modelini kullanacağını tanımlar.
chain_type='stuff': stuff zincir türü, verilen tüm metni tek bir seferde işlemek için kullanılır.
Amaç:

Belirli bir dil modeli kullanarak (gpt-4o-mini), metinleri özetlemek için bir zincir oluşturmak.

 output_summary = chain.invoke(pdf_doc[0:5])['output_text']
Açıklama:

chain.invoke(pdf_doc[0:5]): Özetleme zincirini çağırır (invoke), ve pdf_doc değişkeninin ilk beş parçasını işleyerek bir özet oluşturur.
pdf_doc[0:5]: PDF'in ilk beş parçasını (chunk'ını) alır.
['output_text']: invoke fonksiyonunun çıktısındaki özet metni alır.
Amaç:

PDF'in ilk beş parçası üzerinde bir özetleme işlemi gerçekleştirmek ve çıkan özeti output_summary değişkenine kaydetmek.

In [None]:
from IPython.display import Markdown
Markdown(output_summary)

The paper introduces BERT (Bidirectional Encoder Representations from Transformers), a novel language representation model developed by Google AI Language. Unlike previous models that use unidirectional context, BERT pre-trains deep bidirectional representations from unlabeled text, allowing it to consider both left and right context in all layers. This design enables BERT to be fine-tuned with minimal additional architecture for various natural language processing tasks, achieving state-of-the-art results on eleven benchmarks, including significant improvements in GLUE, MultiNLI, and SQuAD. BERT employs a masked language model pre-training objective, enhancing its effectiveness for both sentence-level and token-level tasks.

from IPython.display import Markdown
Açıklama:

IPython kütüphanesinin Markdown sınıfı, Jupyter Notebook veya Google Colab ortamında Markdown formatında metin göstermek için kullanılır.
Amaç:

Özetlenen metni Markdown formatında daha güzel ve okunabilir bir şekilde göstermek.

Markdown(output_summary)
Açıklama:

output_summary değişkenindeki özet metni, Markdown formatında görüntülenir.
Amaç:

Özet metnin kullanıcıya okunabilir ve düzgün formatta gösterilmesini sağlamak.

Özet
Bu kod, bir PDF dosyasının ilk beş parçasını alır, bu parçaları küçük segmentlere böler, ardından OpenAI'nin dil modelini kullanarak bu segmentlerin özetini çıkarır ve özet metni Markdown formatında görüntüler.

Adım Adım İşleyiş:

PDF Dosyasını Bölme: PDF içeriği, daha küçük parçalara bölünür.
Dil Modeli Tanımlama: gpt-4o-mini modeli kullanılarak özetleme işlemi için bir dil modeli oluşturulur.
Özetleme Zinciri Oluşturma: Dil modeli, stuff tipi bir özetleme zincirine entegre edilir.
Özetleme İşlemi: İlk beş parçadan özet çıkarılır ve output_summary değişkeninde saklanır.
Sonucun Gösterilmesi: Özetlenen metin Markdown formatında kullanıcıya gösterilir.
Bu süreç, kullanıcıya uzun bir PDF belgesinin özetini otomatik olarak çıkartarak, daha kısa ve anlaşılır bir metin sunar.

### Make A Brief Summary of The Entire Document With Chain_Types of "map_reduce" and "refine"

##**chain_type = map_reduce**

In [None]:
from langchain.chains.summarize import load_summarize_chain
import textwrap

llm = ChatOpenAI(temperature=0,
                 model_name='gpt-4o-mini',
                 max_tokens=1024)

Gerekli Modüllerin Yüklenmesi:

load_summarize_chain: Metin özetleme zincirini yüklemek için kullanılır.
textwrap: Metinlerin belirli bir genişlikte sarılması için kullanılabilir, ancak bu kodda kullanılmamış.
ChatOpenAI: OpenAI dil modeliyle iletişim kurmak için kullanılır.

LLM (Dil Modeli) Tanımlaması:

llm adlı değişken, OpenAI'nin dil modelini çalıştırmak için yapılandırılmıştır. temperature=0, çıktının daha deterministik olmasını sağlar. model_name='gpt-4o-mini' modeli kullanılıyor ve maksimum 1024 tokenlık cevaplar alınıyor.

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=0)
chunks = text_splitter.split_documents(pdf)

Metin Bölme:

RecursiveCharacterTextSplitter kullanılarak, uzun bir metin belirli parçalara ayrılıyor. Bu, çok büyük bir metni yönetilebilir parçalara ayırarak özetleme işlemini kolaylaştırır.
chunk_size=10000, her bir parçanın maksimum 10.000 karakter olmasını sağlar. chunk_overlap=0 ise parçalar arasında örtüşme olmadığını belirtir.
chunks değişkeni, bu bölünmüş metin parçalarını tutar ve len(chunks) parçaların sayısını döndürür.

Anlamı: Bu satır, langchain kütüphanesindeki metin bölme işlemleri için kullanılan iki sınıfı (RecursiveCharacterTextSplitter ve CharacterTextSplitter) içe aktarır.
Not: Bu örnekte sadece RecursiveCharacterTextSplitter kullanılıyor. CharacterTextSplitter burada yedek bir seçenek olarak bulunuyor.

Anlamı: Bu satır, RecursiveCharacterTextSplitter sınıfından bir nesne oluşturur.
Parametreler:
chunk_size=10000: Her bir metin parçasının maksimum uzunluğunu 10.000 karakter olarak belirler. Yani, metin parçalara bölünürken her parça en fazla 10.000 karakter uzunluğunda olacaktır.
chunk_overlap=0: Metin parçaları arasında hiçbir örtüşme olmamasını sağlar. Yani, bir parça bittiği yerde diğeri başlar; parçalar arasında paylaşılan karakterler yoktur.
RecursiveCharacterTextSplitter: Bu sınıf, metinleri belirli kurallara göre (örneğin, cümle sınırları, paragraflar, vb.) bölme yeteneğine sahiptir. Bu sayede metinler anlamlı bir şekilde parçalara ayrılır.

Anlamı: Bu satır, pdf adlı dokümanı/metni text_splitter nesnesi aracılığıyla parçalara böler.
Ne Yapar:
split_documents(pdf): Bu metodu çağırarak, pdf adlı doküman/metin belirlenen chunk_size ve chunk_overlap parametrelerine göre bölünür. Sonuçta, her biri maksimum 10.000 karakter uzunluğunda olan metin parçaları elde edilir.
chunks: Bu değişken, bölünmüş metin parçalarının bir listesini tutar. Yani, chunks bir listedir ve her bir elemanı metnin bir parçasını temsil eder.

In [None]:
len(chunks)

16

len(chunks)
Anlamı: Bu ifade, chunks adlı listenin uzunluğunu, yani metnin kaç parçaya bölündüğünü gösterir.
Ne Yapar: text_splitter.split_documents(pdf) ile metin (veya doküman) belirli boyutlarda parçalara bölündü. len(chunks) ifadesi ise bu parçalardan oluşan listenin eleman sayısını döndürür.
Sonuç: Eğer çıktı olarak 5 gibi bir değer alırsanız, bu metnin 5 parçaya bölündüğü anlamına gelir.

In [None]:
chunks[0]

Document(metadata={'source': '/content/drive/MyDrive/Colab Notebooks/Capstone/N19-1423.pdf', 'page': 0}, page_content='Proceedings of NAACL-HLT 2019, pages 4171–4186\r\nMinneapolis, Minnesota, June 2 - June 7, 2019. \rc 2019 Association for Computational Linguistics\r\n4171\r\nBERT: Pre-training of Deep Bidirectional Transformers for\r\nLanguage Understanding\r\nJacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova\r\nGoogle AI Language\r\n{jacobdevlin,mingweichang,kentonl,kristout}@google.com\r\nAbstract\r\nWe introduce a new language representa\x02tion model called BERT, which stands for\r\nBidirectional Encoder Representations from\r\nTransformers. Unlike recent language repre\x02sentation models (Peters et al., 2018a; Rad\x02ford et al., 2018), BERT is designed to pre\x02train deep bidirectional representations from\r\nunlabeled text by jointly conditioning on both\r\nleft and right context in all layers. As a re\x02sult, the pre-trained BERT model can be fine\x02tuned with jus

chunks[0]
Anlamı: Bu ifade, chunks listesindeki ilk parçayı (yani birinci metin parçasını) alır.
Ne Yapar: chunks listesi içinde birçok metin parçası vardır. chunks[0] bu parçaların ilkiyle ilgilidir ve ilk metin parçasını görüntülemeye yarar.
Sonuç: Bu, bölünen metnin ilk parçasının içeriğini gösterir. Örneğin, bu parçada metnin ilk 10.000 karakterlik kısmı bulunabilir.

In [None]:
%%time
chain = load_summarize_chain(llm,
                             chain_type="map_reduce")


output_summary = chain.invoke(chunks)["output_text"]
Markdown(output_summary)

CPU times: user 913 ms, sys: 93.7 ms, total: 1.01 s
Wall time: 34.9 s


The paper presents BERT (Bidirectional Encoder Representations from Transformers), a groundbreaking language representation model developed by Google AI Language. BERT utilizes deep bidirectional representations, allowing it to consider both left and right context during pre-training on unlabeled text, which enhances its performance on various natural language processing (NLP) tasks. It employs a masked language model (MLM) and next sentence prediction (NSP) for pre-training, enabling effective fine-tuning with minimal task-specific adjustments. BERT achieves state-of-the-art results on eleven NLP benchmarks, including GLUE and SQuAD, outperforming previous models like OpenAI GPT and ELMo. The model's architecture includes a multi-layer bidirectional Transformer encoder, and it supports versatile input representations for single and paired sentences. The study highlights the significance of extensive pre-training, model size, and effective masking strategies in optimizing performance across diverse NLP tasks. BERT's code and pre-trained models are publicly available, contributing to ongoing advancements in the field.

"Map-Reduce" Zincir Tipi ile Özetleme:

chain_type="map_reduce" kullanılarak, parçalar üzerinde bir "map-reduce" yöntemiyle özetleme yapılır. Bu yöntemde önce her bir parça özetlenir, ardından bu özetler birleştirilerek son özet oluşturulur.
output_summary değişkeni bu işlemin sonucundaki özeti tutar ve Markdown(output_summary) ile bu özet Markdown formatında görüntülenir.

##**chain_type = refine**

In [None]:
%%time
chain = load_summarize_chain(llm,
                             chain_type="refine")

output_summary = chain.invoke(chunks)["output_text"]

CPU times: user 536 ms, sys: 61.1 ms, total: 597 ms
Wall time: 1min 45s


"Refine" Zincir Tipi ile Özetleme:

chain_type="refine" ile yapılan bu özetleme yöntemi, önce her parçayı özetler, sonra bu özetleri iteratif olarak rafine ederek son özeti oluşturur.
Bu işlem sonucunda output_summary değişkeni nihai özeti tutar ve Markdown(output_summary) ile bu özet görüntülenir.

Zamanlama:

%%time komutları, her özetleme işleminin ne kadar sürdüğünü zamanlamak için kullanılır.
Bu işlem, uzun belgeleri veya metinleri özetlemek için kullanılır ve map_reduce ve refine gibi farklı stratejilerle çalışabilir. Her iki yöntemin de avantajları ve kullanım durumları vardır.

In [None]:
chain

RefineDocumentsChain(initial_llm_chain=LLMChain(prompt=PromptTemplate(input_variables=['text'], template='Write a concise summary of the following:\n\n\n"{text}"\n\n\nCONCISE SUMMARY:'), llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7ec3d94019c0>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7ec3dbf56230>, root_client=<openai.OpenAI object at 0x7ec3de87b610>, root_async_client=<openai.AsyncOpenAI object at 0x7ec3d94019f0>, model_name='gpt-4o-mini', temperature=0.0, openai_api_key=SecretStr('**********'), openai_proxy='', max_tokens=1024)), refine_llm_chain=LLMChain(prompt=PromptTemplate(input_variables=['existing_answer', 'text'], template="Your job is to produce a final summary.\nWe have provided an existing summary up to a certain point: {existing_answer}\nWe have the opportunity to refine the existing summary (only if needed) with some more context below.\n------------\n{text}\n------------\nGiven the new context, re

chain
Anlamı: Bu ifade, özetleme zinciri nesnesini (chain) temsil eder.
Ne Yapar:
Daha önceki adımlarda load_summarize_chain fonksiyonu ile bir özetleme zinciri oluşturulmuştu. chain bu oluşturulan zinciri ifade eder.
Bu nesne, metni özetlemek için kullanılır ve hangi stratejinin (map_reduce veya refine) kullanıldığını belirtir.
Tek başına chain yazılması, genellikle bu nesnenin durumunu veya yapılandırmasını görüntülemek için kullanılır.

In [None]:
Markdown(output_summary)

The paper introduces BERT (Bidirectional Encoder Representations from Transformers), a novel language representation model developed by Google AI Language. Unlike previous models that use unidirectional context, BERT pre-trains deep bidirectional representations from unlabeled text, allowing it to consider both left and right context in all layers. This design enables BERT to be fine-tuned with minimal additional architecture for various natural language processing tasks, achieving state-of-the-art results on eleven benchmarks, including significant improvements in GLUE, MultiNLI, and SQuAD tasks.

BERT employs a masked language model (MLM) pre-training objective, which enhances its effectiveness for both sentence-level and token-level tasks. The model randomly masks a percentage of input tokens and predicts them, allowing for a deep bidirectional representation. Specifically, during the masking procedure, 80% of the time a token is replaced with a [MASK] token, 10% of the time it is replaced with a random word, and 10% of the time it remains unchanged. This approach ensures that the Transformer encoder maintains a distributional contextual representation of every input token. Additionally, BERT incorporates a "next sentence prediction" (NSP) task that trains the model to understand the relationship between sentence pairs, which is crucial for tasks like Question Answering (QA) and Natural Language Inference (NLI). The NSP task is designed to transfer all parameters to initialize end-task model parameters, unlike prior work that only transferred sentence embeddings.

To handle a variety of downstream tasks, BERT's input representation can unambiguously represent both single sentences and pairs of sentences in one token sequence. It uses WordPiece embeddings with a 30,000 token vocabulary, where the first token of every sequence is a special classification token ([CLS]). The final hidden state corresponding to this token is used as the aggregate sequence representation for classification tasks. The input embeddings are the sum of token embeddings, segment embeddings, and position embeddings, allowing for effective modeling of text pairs through a unified self-attention mechanism.

BERT's architecture is a multi-layer bidirectional Transformer encoder, with two primary model sizes: BERTBASE and BERTLARGE. The pre-training corpus includes the BooksCorpus (800M words) and English Wikipedia (2,500M words), emphasizing the importance of using a document-level corpus to extract long contiguous sequences. Fine-tuning BERT is straightforward and can be accomplished in a relatively short time, with results on various tasks replicable in under an hour on a single Cloud TPU.

BERT marks a significant advancement in the field of NLP by reducing the need for heavily-engineered task-specific architectures and achieving state-of-the-art performance across a wide range of tasks. In particular, BERTBASE and BERTLARGE outperform all previous systems on the GLUE benchmark, with BERTLARGE achieving an average accuracy improvement of 7.0% over the prior state of the art. On the SQuAD v1.1 dataset, BERT demonstrates superior performance, surpassing top leaderboard systems by notable margins, including achieving an F1 score of 90.9 with BERTLARGE and 91.8 with an ensemble approach. In the SQuAD v2.0 task, BERT also shows a +5.1 F1 improvement over the previous best system, demonstrating its robustness in handling more complex question-answering scenarios. Additionally, BERTLARGE outperforms other models on the SWAG dataset, showcasing its effectiveness in grounded common-sense inference tasks.

Ablation studies reveal the importance of the NSP task, as removing it significantly degrades performance on tasks like QNLI, MNLI, and SQuAD. Furthermore, the model size plays a crucial role in performance, with larger models consistently achieving better accuracy across various tasks, even those with limited training data. BERTBASE contains 110M parameters, while BERTLARGE has 340M parameters, demonstrating that scaling model size leads to substantial improvements in performance.

The paper also explores the effectiveness of both fine-tuning and feature-based approaches using BERT. While the fine-tuning approach, where a simple classification layer is added to the pre-trained model, has shown significant success, the feature-based approach—where fixed features are extracted from the pre-trained model—offers computational benefits and can be advantageous for certain tasks that require task-specific architectures. Experiments on the CoNLL-2003 Named Entity Recognition task indicate that BERT can perform competitively using both methods, with the feature-based approach yielding results close to those achieved through fine-tuning.

Additional ablation studies further investigate the impact of the number of training steps and different masking strategies on BERT's performance. Results indicate that BERT benefits from extensive pre-training, with accuracy improving significantly with more training steps. The studies also show that while fine-tuning is robust to various masking strategies, the feature-based approach is more sensitive to the specific masking used during pre-training. Overall, BERT's ability to generalize across various NLP tasks through rich, unsupervised pre-training marks

Markdown(output_summary)
Anlamı: Bu ifade, özetleme sonucunu Markdown formatında görüntülemek için kullanılır.
Ne Yapar:
output_summary değişkeni, metin özetleme zincirinin (chain) çıktı olarak ürettiği özeti tutar.
Markdown(output_summary) ifadesi, bu özeti Markdown formatında görüntülemeye yarar. Markdown, metinleri zenginleştirilmiş bir şekilde (örneğin, başlıklar, listeler, kalın yazı vb.) görüntülemek için kullanılan bir biçimlendirme dilidir.
Bu sayede, özet sonucu daha okunabilir ve biçimlendirilmiş bir şekilde gösterilir.

Özet
chain ifadesi, özetleme işlemini gerçekleştiren zinciri temsil eder.
Markdown(output_summary) ise bu zincirin oluşturduğu özeti Markdown formatında görüntülemeye yarar.

### Generate A Detailed Summary of The Entire Document With At Least 1000 Tokens. Also, Add A Title To The Summary And Present Key Points Using Bullet Points With Chain_Type of "map_reduce".

##**map_reduce with custom prompt**

In [None]:
chain = load_summarize_chain(
    llm=llm,
    chain_type='map_reduce'
)
chain

MapReduceDocumentsChain(llm_chain=LLMChain(prompt=PromptTemplate(input_variables=['text'], template='Write a concise summary of the following:\n\n\n"{text}"\n\n\nCONCISE SUMMARY:'), llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7ec3d94019c0>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7ec3dbf56230>, root_client=<openai.OpenAI object at 0x7ec3de87b610>, root_async_client=<openai.AsyncOpenAI object at 0x7ec3d94019f0>, model_name='gpt-4o-mini', temperature=0.0, openai_api_key=SecretStr('**********'), openai_proxy='', max_tokens=1024)), reduce_documents_chain=ReduceDocumentsChain(combine_documents_chain=StuffDocumentsChain(llm_chain=LLMChain(prompt=PromptTemplate(input_variables=['text'], template='Write a concise summary of the following:\n\n\n"{text}"\n\n\nCONCISE SUMMARY:'), llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7ec3d94019c0>, async_client=<openai.resources.chat.completions.As

Anlamı: Bu satır, özetleme işlemini gerçekleştirecek olan bir zincir (chain) oluşturur.
Parametreler:
llm=llm: Önceden tanımlanmış dil modelini (llm) kullanır.
chain_type='map_reduce': Map-Reduce yöntemiyle özetleme yapılacağını belirtir. Bu yöntemde önce her metin parçası özetlenir, sonra bu özetler birleştirilerek nihai özet oluşturulur.

In [None]:
# prompt for every chunk
from langchain import PromptTemplate

# Map prompt (her parça için kullanılacak prompt)
chunks_prompt = """
Please summarize the following text:
{text}
"""
map_prompt_template = PromptTemplate(input_variables=['text'], template=chunks_prompt)

Anlamı: Bu kısım, her bir metin parçası için kullanılacak olan özetleme talimatını (prompt) tanımlar.
Ne Yapar:
chunks_prompt: Her metin parçası için özetleme yapılacak talimatı içeren şablon.
PromptTemplate: Bu sınıf, metni nasıl özetlemesi gerektiğini dil modeline söyleyen şablonları oluşturur.
map_prompt_template: Bu, yukarıda tanımlanan şablonun (chunks_prompt) bir örneğidir.

In [None]:
# Combine prompt (bütün parçalar birleştirildiğinde kullanılacak prompt)
final_combine_prompt = """
Summarize the text below with at least 1000 tokens. Provide a title and key points using bullet points:
{text}
"""
final_combine_prompt_template = PromptTemplate(input_variables=['text'], template=final_combine_prompt)

Anlamı: Bu kısım, bütün metin parçaları özetlendikten sonra, nihai özetin nasıl oluşturulacağını belirten talimatı tanımlar.
Ne Yapar:
final_combine_prompt: Nihai özet için en az 1000 token'lık bir özet oluşturulmasını ve başlık ile madde işaretleri kullanarak önemli noktaların vurgulanmasını ister.
final_combine_prompt_template: Bu, nihai özetleme işlemi için kullanılacak olan şablondur.

In [None]:
# 3. Map-Reduce zinciri oluşturma
chain = load_summarize_chain(
    llm=llm,
    chain_type='map_reduce',
    map_prompt=map_prompt_template,
    combine_prompt=final_combine_prompt_template
)

Anlamı: Bu satır, yukarıda tanımlanan prompt şablonları ile bir Map-Reduce özetleme zinciri oluşturur.
Ne Yapar:
map_prompt=map_prompt_template: Her bir metin parçasını özetlemek için kullanılacak şablon.
combine_prompt=final_combine_prompt_template: Tüm özetleri birleştirerek nihai özetin oluşturulacağı şablon.

In [None]:
output_summary = chain.invoke(chunks)["output_text"]
output_summary

'# Title: Advancements in Natural Language Processing: An In-Depth Overview of BERT\n\n## Key Points:\n\n- **Introduction to BERT**: \n  - BERT, which stands for Bidirectional Encoder Representations from Transformers, is a groundbreaking language representation model developed by Google AI Language.\n  - It is designed to pre-train deep bidirectional representations from unlabeled text, effectively considering both left and right context in all layers of the model.\n\n- **Pre-training and Fine-tuning**:\n  - The architecture of BERT allows for efficient fine-tuning with minimal modifications for a variety of natural language processing (NLP) tasks.\n  - BERT has achieved state-of-the-art results across eleven benchmarks, including GLUE (General Language Understanding Evaluation), MultiNLI (Multi-Genre Natural Language Inference), and SQuAD (Stanford Question Answering Dataset).\n\n- **Critique of Existing Models**:\n  - The authors critique traditional pre-training strategies that rel

Anlamı: Bu satır, metni özetlemek için oluşturulan zinciri kullanarak özetin çıkışını (output_summary) alır.
Ne Yapar:
chain.invoke(chunks): Bölünmüş metin parçalarını (chunks) özetlemek için zinciri çağırır.
["output_text"]: Zincirin oluşturduğu özet metnini alır ve output_summary değişkenine atar.

In [None]:
from IPython.display import Markdown

Markdown(output_summary)

# Title: Advancements in Natural Language Processing: An In-Depth Overview of BERT

## Key Points:

- **Introduction to BERT**: 
  - BERT, which stands for Bidirectional Encoder Representations from Transformers, is a groundbreaking language representation model developed by Google AI Language.
  - It is designed to pre-train deep bidirectional representations from unlabeled text, effectively considering both left and right context in all layers of the model.

- **Pre-training and Fine-tuning**:
  - The architecture of BERT allows for efficient fine-tuning with minimal modifications for a variety of natural language processing (NLP) tasks.
  - BERT has achieved state-of-the-art results across eleven benchmarks, including GLUE (General Language Understanding Evaluation), MultiNLI (Multi-Genre Natural Language Inference), and SQuAD (Stanford Question Answering Dataset).

- **Critique of Existing Models**:
  - The authors critique traditional pre-training strategies that rely on unidirectional models, which can limit effectiveness for certain NLP tasks.
  - BERT employs a "masked language model" (MLM) pre-training objective, which enhances contextual understanding by randomly masking tokens in the input text.

- **Key Contributions of BERT**:
  - **Bidirectional Pre-training**: BERT utilizes MLM to create deep bidirectional representations, contrasting with previous unidirectional approaches that were less effective.
  - **Reduction of Task-Specific Architectures**: BERT minimizes the need for complex, task-specific models, achieving high performance through its fine-tuning capabilities.
  - **Performance Improvement**: BERT sets new benchmarks across various NLP tasks, with its code and pre-trained models made publicly available for further research and application.

- **Evolution of Language Representation Models**:
  - The text reviews the evolution of language representation models, moving from traditional word embeddings to more sophisticated contextual models like ELMo and GPT.
  - These advanced models leverage contextual information from both left and right contexts, significantly improving performance on various NLP benchmarks.

- **BERT's Architecture**:
  - BERT consists of a multi-layer bidirectional Transformer encoder, which allows it to process input in both directions simultaneously.
  - The model comes in different sizes, including BERTBASE and BERTLARGE, with specific configurations and total parameters detailed.

- **Input/Output Representations**:
  - BERT processes both single sentences and pairs of sentences using a unified token sequence.
  - It employs WordPiece embeddings with a vocabulary of 30,000 tokens, starting sequences with a special classification token ([CLS]) and differentiating sentence pairs with a separator token ([SEP]).

- **Pre-training Tasks**:
  - **Masked Language Model (MLM)**: This task involves randomly masking a percentage of input tokens and training the model to predict them, which enhances its bidirectional representation capabilities.
  - **Next Sentence Prediction (NSP)**: This task trains the model to understand relationships between sentences by predicting whether a given sentence logically follows another.

- **Fine-tuning Process**:
  - BERT is fine-tuned on labeled data for specific downstream tasks, using the final hidden vector from the input as an aggregate representation for classification tasks.
  - The fine-tuning process is efficient and requires minimal time on powerful hardware, making it accessible for various applications.

- **Performance on Benchmarks**:
  - BERT models significantly outperform previous state-of-the-art systems on the GLUE benchmark and SQuAD v1.1.
  - BERTLARGE achieves an average accuracy improvement of 7.0% over prior models, excelling particularly in tasks with limited training data.

- **SQuAD Results**:
  - BERTLARGE achieves an impressive F1 score of 91.8 on SQuAD 1.1, outperforming other models in the field.
  - For SQuAD 2.0, BERTLARGE shows an F1 score of 83.1, marking a 5.1 F1 improvement over the previous best system.

- **SWAG Results**:
  - BERTLARGE excels in the SWAG (Situations With Adversarial Generations) dataset, achieving accuracy that surpasses previous models by substantial margins.

- **Ablation Studies**:
  - Ongoing ablation studies aim to understand the importance of different components of the BERT model.
  - Removing the NSP task significantly degrades performance on tasks like QNLI (Question Natural Language Inference), MNLI, and SQuAD.

- **Impact of Model Size**:
  - Increasing the model size enhances accuracy across various tasks, even for smaller datasets.
  - Larger models consistently yield better performance, demonstrating the importance of sufficient pre-training.

- **Fine-tuning vs. Feature-based Approaches**:
  - The text compares the effectiveness of fine-tuning all parameters versus using fixed features extracted from the pre-trained model for tasks like Named Entity Recognition (NER).
  - The feature-based method

Anlamı: Bu kısım, özetin Markdown formatında görüntülenmesini sağlar.
Ne Yapar:
Markdown(output_summary): Özet metnini Markdown formatında düzenler ve görüntüler.

Genel Özet
Bu kod parçacığı, bir belgeyi parçalara ayırarak her bir parçayı özetlemek ve ardından bu özetleri birleştirerek nihai bir özet oluşturmak için kullanılır. Özetleme işlemi, Map-Reduce yöntemiyle yapılır ve özel olarak tanımlanmış prompt şablonları ile özetleme süreci yönlendirilir. Sonuçta elde edilen özet, Markdown formatında kullanıcıya sunulur.

Bu metin, BERT modelinin doğal dil işleme alanında nasıl devrim yarattığını ve önceki modellere göre sunduğu avantajları özetlemektedir.

BERT'in Tanıtımı: BERT, Google tarafından geliştirilen ve hem soldan hem de sağdan bağlamı dikkate alarak derin dil temsilleri oluşturan bir modeldir.
Ön Eğitim ve İnce Ayar: BERT, farklı NLP görevleri için minimal ince ayar gerektirir ve birçok benchmark'ta en iyi performansı göstermiştir.
Mevcut Modellerin Eleştirisi: Tek yönlü modellerin sınırlamalarını aşmak için BERT, "Masked Language Model" (MLM) tekniğini kullanır.
Ana Katkılar: BERT, iki yönlü ön eğitim ve karmaşık görev-specifik mimarilere olan ihtiyacı azaltmasıyla öne çıkar.
Performans: BERT, çeşitli NLP görevlerinde önceki modellere göre üstün performans sergileyerek yeni standartlar belirlemiştir.

___

<p style="text-align: center;"><img src="https://docs.google.com/uc?id=1lY0Uj5R04yMY3-ZppPWxqCr5pvBLYPnV" class="img-fluid" alt="CLRSWY"></p>

___