#### 📄 Synthetic Data Generation from Turkish Financial PDFs using Gemma3n 🔥🦙
In this project, I focused on generating **synthetic instruction-style data from Turkish financial PDF documents using Gemma3n (via LangChain + Ollama).** My goal was to create a scalable and automated pipeline to enrich the currently limited Turkish-language datasets in the financial domain.

The system takes a PDF as input, extracts contextually relevant segments, and generates meaningful instruction-response pairs using an LLM. This synthetic data can be used to fine-tune financial chatbots or support RAG (Retrieval-Augmented Generation) systems for improved question answering in Turkish.

This approach is especially valuable for low-resource languages like Turkish, where high-quality domain-specific datasets are scarce. By bridging this gap with synthetic data, we aim to support the development of more accurate and inclusive financial AI tools for the Turkish-speaking community.

In [1]:
%%capture
!pip install langchain langchain_community  unstructured langchain_chroma langchain_chroma chromadb  langchain_ollama langchain_huggingface -q

In [2]:
import subprocess
import torch
from langchain_ollama import ChatOllama
from IPython.display import clear_output
import os

In [3]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

!curl -fsSL https://ollama.com/install.sh | sh
subprocess.Popen("ollama serve", shell=True)

clear_output()

In [4]:
subprocess.Popen("ollama pull gemma3n", shell=True)

llm = ChatOllama(
    model='gemma3n',
    temperature=0.2)

clear_output()

time=2025-07-20T19:13:00.883Z level=INFO source=types.go:130 msg="inference compute" id=GPU-137b5194-b7f8-67dd-5f8a-77145fc15298 library=cuda variant=v12 compute=7.5 driver=12.6 name="Tesla T4" total="14.7 GiB" available="14.6 GiB"
time=2025-07-20T19:13:00.884Z level=INFO source=types.go:130 msg="inference compute" id=GPU-20aebab1-80d1-9175-2182-b9c089624287 library=cuda variant=v12 compute=7.5 driver=12.6 name="Tesla T4" total="14.7 GiB" available="14.6 GiB"
[?2026h[?25l[1Gpulling manifest ⠋ [K[?25h[?2026l

[GIN] 2025/07/20 - 19:13:00 | 200 |     101.299µs |       127.0.0.1 | HEAD     "/"


[?2026h[?25l[1Gpulling manifest ⠙ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠹ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠸ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠼ [K[?25h[?2026ltime=2025-07-20T19:13:01.470Z level=INFO source=download.go:177 msg="downloading 38e8dcc30df4 in 16 471 MB part(s)"
[?2026h[?25l[1Gpulling manifest ⠴ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠦ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest [K
pulling 38e8dcc30df4:   0% ▕                  ▏  77 KB/7.5 GB                  [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4:   1% ▕                  ▏  40 MB/7.5 GB                  [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4:   1% ▕                  ▏  72 MB/7.5 GB                  [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4:   2% ▕                  ▏ 145 MB/7.5 GB                  [K[?25h[?2026l[?2026h[?

#### PDF Loader

In [5]:
import requests
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from pathlib import Path

#
pdf_url = "https://www.tcmb.gov.tr/wps/wcm/connect/2248323f-2e64-4850-9432-548087484aca/enf25_ii_tam.pdf?MOD=AJPERES&CACHEID=ROOTWORKSPACE-2248323f-2e64-4850-9432-548087484aca-puH-Dp5"

response = requests.get(pdf_url)
pdf_path = Path("downloaded_file.pdf")

with open(pdf_path, "wb") as f:
    f.write(response.content)

loader = PyPDFLoader(pdf_path)
docs = loader.load()

docs_splitter = RecursiveCharacterTextSplitter(chunk_size=600, chunk_overlap=50)
split_docs = docs_splitter.split_documents(docs)

"""
for doc in split_docs:
    print(doc)
"""

[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K[?25h[?2026l[?2026h[?25l[A[1Gpulling manif

'\nfor doc in split_docs:\n    print(doc)\n'

[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulling e0a42594d802: 100% ▕██████████████████▏  358 B                         [K
pulling 1adbfec9dcf0: 100% ▕██████████████████▏ 8.4 KB                         [K
pulling 8eac5d7750c5: 100% ▕██████████████████▏  491 B                         [K
verifying sha256 digest ⠋ [K[?25h[?2026l[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulling e0a42594d802: 100% ▕██████████████████▏  358 B                         [K
pulling 1adbfec9dcf0: 100% ▕██████████████████▏ 8.4 KB                         [K
pulling 8eac5d7750c5: 100% ▕██████████████████▏  491 B                         [K
verifying sha256 digest ⠙ [K[?25h[?2026l[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulli

#### Embeddings vector

In [6]:
#create retriever folder
!mkdir retriever

[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulling e0a42594d802: 100% ▕██████████████████▏  358 B                         [K
pulling 1adbfec9dcf0: 100% ▕██████████████████▏ 8.4 KB                         [K
pulling 8eac5d7750c5: 100% ▕██████████████████▏  491 B                         [K
verifying sha256 digest ⠸ [K[?25h[?2026l[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulling e0a42594d802: 100% ▕██████████████████▏  358 B                         [K
pulling 1adbfec9dcf0: 100% ▕██████████████████▏ 8.4 KB                         [K
pulling 8eac5d7750c5: 100% ▕██████████████████▏  491 B                         [K
verifying sha256 digest ⠼ [K[?25h[?2026l[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulli

In [7]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings 
from langchain.vectorstores import Chroma

embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

vectorstore  = Chroma.from_documents(split_docs , embeddings , persist_directory='/kaggle/working/retriever')

retriever  = vectorstore.as_retriever()

[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulling e0a42594d802: 100% ▕██████████████████▏  358 B                         [K
pulling 1adbfec9dcf0: 100% ▕██████████████████▏ 8.4 KB                         [K
pulling 8eac5d7750c5: 100% ▕██████████████████▏  491 B                         [K
verifying sha256 digest ⠼ [K[?25h[?2026l[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulling e0a42594d802: 100% ▕██████████████████▏  358 B                         [K
pulling 1adbfec9dcf0: 100% ▕██████████████████▏ 8.4 KB                         [K
pulling 8eac5d7750c5: 100% ▕██████████████████▏  491 B                         [K
verifying sha256 digest ⠴ [K[?25h[?2026l[?2026h[?25l[A[A[A[A[A[1Gpulling manifest [K
pulling 38e8dcc30df4: 100% ▕██████████████████▏ 7.5 GB                         [K
pulli

[GIN] 2025/07/20 - 19:13:48 | 200 | 47.941212797s |       127.0.0.1 | POST     "/api/pull"


2025-07-20 19:13:57.033965: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1753038837.191608      36 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1753038837.237575      36 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [8]:
#vectorstore
vectorstore = Chroma(
    persist_directory="/kaggle/working/retriever",
    embedding_function=embeddings
)

retriever = vectorstore.as_retriever()

  vectorstore = Chroma(


In [9]:
from langchain_core.output_parsers import StrOutputParser
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.prompts import ChatPromptTemplate
import json 

In [17]:
q_prompt = """
Sen finansal okur yazarlık alanında insanlara bir şeyler öğretmek isteyen bir profesörsün. 
Elindeki kaynaklardan finans alanında genel olarak sorulması gereken mantıklı soruları çıkartırsın.
her bir sorunun arasına "~" koy.
Asla elindeki mentinden farklı bir konu bağlamaına çıkmaz ve gerekli soruları sorarsın. 
Bağlam:{context}
Soru: {input}
Cevap:
"""

q_prompt = ChatPromptTemplate.from_messages([
    ("system", q_prompt)
])

output_parser = StrOutputParser()

document_chain  = create_stuff_documents_chain(llm  =  llm , prompt = q_prompt , output_parser = output_parser )

rag_chain = create_retrieval_chain(retriever = retriever , combine_docs_chain = document_chain )

input_que = "bana 50 tane mantıklı soru üret"
response  = rag_chain.invoke({'input' : input_que})

sorular = response['answer'].split("~")[:-1]

[GIN] 2025/07/20 - 19:22:33 | 200 | 41.152140793s |       127.0.0.1 | POST     "/api/chat"


In [23]:
#sorular

In [22]:
system_message = """
Sen, finansal okuryazarlık seviyesi sıfır olan bireylere yardımcı olmak için tasarlanmış bir yapay zeka asistanısın.
Görevin, sadece verilen *bağlam* içindeki bilgilere dayanarak öğretici ve sade açıklamalar üretmektir.

Aşağıdaki JSON yapısını her zaman kullan:

{{
  "instruction": "Kullanıcının öğrenmek istediği finansal konu başlığı",
  "input": "Kullanıcının sorduğu basit soru",
  "output": "Konuyu hiç bilmeyen biri için kısa, açık, sade bir açıklama. Gerekirse günlük hayattan örnek vererek anlat."
{{

Kurallar:

1. Yalnızca verilen bağlamdaki bilgileri kullan. Bağlam dışında bilgi varsa, kesinlikle yanıt verme.

2. Asla uydurma bilgi üretme. Emin değilsen ya da bağlamda bilgi yoksa şu sabit yanıtı ver:
   "Bu konuda bilgim yok. Lütfen bir finansal danışmana başvurun."

3. Yanıtlar sade, kısa ve öğretici olsun. Teknik terimler gerekiyorsa açıklayıp günlük örnekle açıkla.
   Hedef kitlen, ilk kez finansla tanışan bireylerdir.

4. Format dışına çıkma. Her zaman belirtilen JSON yapısında cevap ver.

5. Bağlam dışı soruları pass geç ve o soruyu üretme. çıktı olarak sadece "Dökümantasyonla alakalı bir soru değil" de 

Bağlam: {context}
Soru:{input}
Cevap:
"""

prompt = ChatPromptTemplate.from_messages([
    ("system", system_message)
])

document_chain  = create_stuff_documents_chain(llm  =  llm , prompt = prompt , output_parser = output_parser )

rag_chain = create_retrieval_chain(retriever = retriever , combine_docs_chain = document_chain )

### Inferencing
#input_que = "Tarım sektörünün ilk çeyrekteki performansı nasıl değerlendirilebilir?"
#response  = rag_chain.invoke({'input' : input_que})

json_format = []

for i, soru in enumerate(sorular):
    response = rag_chain.invoke({'input': soru})
    print(response["answer"])
    json_format.append(response["answer"])
    print(f"{i}. Soru cevabı kayıt edildi")
    
with open("/kaggle/working/instruction_dataset.json", "w", encoding="utf-8") as f:
    json.dump(json_format, f, ensure_ascii=False, indent=4)


[GIN] 2025/07/20 - 19:24:30 | 200 |  7.455695876s |       127.0.0.1 | POST     "/api/chat"
{
 "instruction": "Kullanıcının öğrenmek isteği finansal konu başlığı",
 "input": "Enflasyonun temel nedenleri nelerdir?",
 "output": "Enflasyon, mal ve hizmetlerin fiyatlarındaki genel ve sürekli artıştır. Bunun birçok nedeni olabilir. Örneğin, çok fazla para basılması, üretim maliyetlerinin artması (hammadde, işçilik gibi) veya talebin arzı aşması enflasyona yol açabilir. Fiyatlar sürekli yükseldiğinde, aynı miktarda para ile daha az şey satın alabilirsiniz. Bu nedenle enflasyon, yaşam standartlarınızı etkileyebilir."
}

0. Soru cevabı kayıt edildi
[GIN] 2025/07/20 - 19:24:38 | 200 |  8.038045803s |       127.0.0.1 | POST     "/api/chat"
{
 "instruction": "Enflasyonun ekonomiye etkileri",
 "input": "Enflasyonuun ekonomiye etkileri nelerdir?",
 "outp": "Enflasyon, mal ve hizmetlerin fiyatlarındaki genel artış anlamına gelir. Bu durum ekonomiyi farklı şekillerde etkileyebilir. Örneğin, enflasyon 