## Generate Planning Data

### Load Json Document

In [6]:
import json
from datasets import load_dataset, Dataset

In [4]:
with open('planning_data.json', 'r') as f:
    data = json.load(f)

In [5]:
len(data)

896

In [15]:
system_prompt_en = open("system_prompt_en.txt", "r").read()
system_prompt_tr = open("system_prompt_tr.txt", "r").read()

In [18]:
print(system_prompt_en)

You are a helpful assistant that summarizes raw tour itineraries into clear, structured, and concise daily travel plans in Turkish.

Rules:
1. Input is always a raw tour program.
2. Extract only essential details: şehirler, tarihi/kültürel yerler, aktiviteler, deneyimler.
3. Exclude irrelevant info: biletleme, check-in, pasaport, otel transferi, pazarlama cümleleri.
4. Preserve chronological order with daily headings (1. Gün, 2. Gün, ...).
5. Write in short, clear, and natural Turkish sentences.
6. Always use the exact format below for each day:

X. Gün
[Şehir]
[Kısa özet, maddeler halinde veya kısa paragraflar]
Görülecek Yerler: [places]
Hitap Ettiği Kategoriler: [ör. Mimari, İslam sanatı, fotoğrafçılık, kültürel deneyim]\n"
Günün Yeme-İçme Tavsiyesi: [recommendations]
Alışveriş Tavsiyesi: [recommendations]

7. Always infer and add Relevant Categories.
8. The response must be fully in Turkish.
9. Do not include any explanations, headings, or introductory text outside this format.


## Generate Data Rows

In [19]:
data[0]

{'url': 'https://www.jollytur.com/dolu-dolu-buyuk-sri-lanka-turu-rotasi-26-ocak-2026-4-yildizli-oteller-vb#tur-programi',
 'raw_text': "## Tur Programı\n**1.Gün**\nNegombo Colombo İstanbul\nDOLU DOLU BÜYÜK SRİ LANKA   \nTURU ROTASI   \nNegombo(1) Sigirya (2) – Kandy (1) -   \nNuwara Eliya(1) - Kolombo (1)  \nTHY | 6 Gece  \n  \nİSTANBUL - KOLOMBO \nİstanbul Havalimanı Dış Hatlar Gidiş Terminali'nde buluşarak, bilet, bagaj ve pasaport işlemlerimizi tamamlıyor ve Türk Hava Yolları tarifeli seferi ile Kolombo’ya hareket ediyoruz. Geceleme uçakta.\n  \nKOLOMBO - NEGOMBO\nKolombo’ya varışın ardından bizi bekleyen aracımıza geçiyoruz ve Sri Lanka’nın eşsiz doğa manzarası ile Negombo’da bulunan Otelimize transfer oluyoruz, Check-In işlemlerinin ardından serbest zaman ve dinlenme, Geceleme Otelimizde.\n**2.Gün**\nSigiriya pinnawala Dambulla Negombo\nNEGOMBO - PİNNAWALA – DAMBULLA - SIGIRYA\nOtelde alacağımız kahvaltının ardından Pinnawala’ya doğru yola çıkıyoruz. Pinnewala’da 1975 yılında kuru

In [23]:
conversation_data_list = [ [ {'role':'system', 'content': system_prompt_en}, {'role':'user', 'content': row['raw_text']}, {'role':'assistant', 'content': row['summarization']} ] for row in data]

In [None]:
print(conversation_data_list[0][0]['content'])

You are a helpful assistant that summarizes raw tour itineraries into clear, structured, and concise daily travel plans in Turkish.

Rules:
1. Input is always a raw tour program.
2. Extract only essential details: şehirler, tarihi/kültürel yerler, aktiviteler, deneyimler.
3. Exclude irrelevant info: biletleme, check-in, pasaport, otel transferi, pazarlama cümleleri.
4. Preserve chronological order with daily headings (1. Gün, 2. Gün, ...).
5. Write in short, clear, and natural Turkish sentences.
6. Always use the exact format below for each day:

X. Gün
[Şehir]
[Kısa özet, maddeler halinde veya kısa paragraflar]
Görülecek Yerler: [places]
Hitap Ettiği Kategoriler: [ör. Mimari, İslam sanatı, fotoğrafçılık, kültürel deneyim]\n"
Günün Yeme-İçme Tavsiyesi: [recommendations]
Alışveriş Tavsiyesi: [recommendations]

7. Always infer and add Relevant Categories.
8. The response must be fully in Turkish.
9. Do not include any explanations, headings, or introductory text outside this format.


In [28]:
print(conversation_data_list[0][1] ['content'])

## Tur Programı
**1.Gün**
Negombo Colombo İstanbul
DOLU DOLU BÜYÜK SRİ LANKA   
TURU ROTASI   
Negombo(1) Sigirya (2) – Kandy (1) -   
Nuwara Eliya(1) - Kolombo (1)  
THY | 6 Gece  
  
İSTANBUL - KOLOMBO 
İstanbul Havalimanı Dış Hatlar Gidiş Terminali'nde buluşarak, bilet, bagaj ve pasaport işlemlerimizi tamamlıyor ve Türk Hava Yolları tarifeli seferi ile Kolombo’ya hareket ediyoruz. Geceleme uçakta.
  
KOLOMBO - NEGOMBO
Kolombo’ya varışın ardından bizi bekleyen aracımıza geçiyoruz ve Sri Lanka’nın eşsiz doğa manzarası ile Negombo’da bulunan Otelimize transfer oluyoruz, Check-In işlemlerinin ardından serbest zaman ve dinlenme, Geceleme Otelimizde.
**2.Gün**
Sigiriya pinnawala Dambulla Negombo
NEGOMBO - PİNNAWALA – DAMBULLA - SIGIRYA
Otelde alacağımız kahvaltının ardından Pinnawala’ya doğru yola çıkıyoruz. Pinnewala’da 1975 yılında kurulmuş olan dünyadaki ilk Fil Yetimhanesi’ni ziyaret edip, ormanda yaralı veya bebekken bulunmuş fillerin beslenme ve banyo yapışlarını izleyeceğiz. Gezimi

In [29]:
print(conversation_data_list[0][2] ['content'])

1. Gün
Negombo
Sri Lanka'ya hoş geldiniz! Negombo'da bulunan otelimize transfer oluyoruz.

Görülecek Yerler: 
Hitap Ettiği Kategoriler: Doğa, Kültür
Günün Yeme-İçme Tavsiyesi: Sri Lanka mutfağının yerel lezzetlerini deneyin.
Alışveriş Tavsiyesi: Yerel pazarlarda hediyelik eşya alın.

2. Gün
Sigiriya
Pinnawala'daki Fil Yetimhanesi'ni ziyaret ediyoruz. Sonra Dambulla mağara tapınağına gidiyoruz.

Görülecek Yerler: Pinnawala Fil Yetimhanesi, Dambulla mağara tapınağı
Hitap Ettiği Kategoriler: Doğa, Kültür, Mimari
Günün Yeme-İçme Tavsiyesi: Sri Lanka mutfağının yerel lezzetlerini deneyin.
Alışveriş Tavsiyesi: Yerel pazarlarda hediyelik eşya alın.

3. Gün
Sigiriya
Sigiriya Kaya Kalesi'ni ziyaret ediyoruz. Sonra Habarana'ya gidiyoruz.

Görülecek Yerler: Sigiriya Kaya Kalesi, Habarana
Hitap Ettiği Kategoriler: Tarih, Kültür, Mimari
Günün Yeme-İçme Tavsiyesi: Sri Lanka mutfağının yerel lezzetlerini deneyin.
Alışveriş Tavsiyesi: Yerel pazarlarda hediyelik eşya alın.

4. Gün
Kandy
Kandy'ye gidiyo

In [36]:
conversation_data_list_tr = [ [ {'role':'system', 'content': system_prompt_tr}, {'role':'user', 'content': row['raw_text']}, {'role':'assistant', 'content': row['summarization']} ] for row in data[:100]]

In [37]:
conversation_data_list = conversation_data_list + conversation_data_list_tr

In [38]:
len(conversation_data_list)

996

## Generate Dataset

In [39]:
ds = Dataset.from_dict({'conversations': conversation_data_list})

In [40]:
ds

Dataset({
    features: ['conversations'],
    num_rows: 996
})

In [None]:
ds.push_to_hub("habanoz/planning_dataset_v1", private=False, token="xxx")

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Uploading files as a binary IO buffer is not supported by Xet Storage. Falling back to HTTP upload.


CommitInfo(commit_url='https://huggingface.co/datasets/habanoz/planning_dataset_v1/commit/a9c0eb37e15193dcc81df4068807aa801f7f1b43', commit_message='Upload dataset', commit_description='', oid='a9c0eb37e15193dcc81df4068807aa801f7f1b43', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/habanoz/planning_dataset_v1', endpoint='https://huggingface.co', repo_type='dataset', repo_id='habanoz/planning_dataset_v1'), pr_revision=None, pr_num=None)