In [1]:
from openai import OpenAI
import os
from dotenv import load_dotenv
import pandas as pd
import re
from sklearn.model_selection import train_test_split
import json
import random

load_dotenv()

True

In [2]:
api_key = os.getenv("OPENAI_API_KEY")
client = OpenAI(api_key=api_key)
columnist_name = "hilalkaplan"

### 1. Instructions with Key Facts and Summary

In [5]:
# Function to format the instruction from key facts and event summary
def generate_instruction_from_facts_and_summary(key_facts, event_summary):
    # Format the key facts into a bullet point list
    formatted_facts = '\n'.join(key_facts)

    # Construct the instruction template with the provided facts and event summary
    instruction = f"""
Aşağıdaki gerçekler verildiğinde:
{formatted_facts}

Ve tarif edilen olay:
{event_summary}

Bu olayın daha geniş etkileri hakkında bir köşe yazısı yazın. Olayın kamu politikalarını, toplumsal tutumları veya gelecekteki gelişmeleri nasıl etkileyebileceğini göz önünde bulundurun.
    """
    return instruction.strip()

# Main function to extract key facts and event summary, then format the instruction
def generate_instruction(article_content):
    # Prepare the conversation state for GPT-4o chat-based completion
    conversation_state = [
        {"role": "system", "content": "Sen, aşağıdaki içeriğin yalnızca gerçeklere dayanan önemli noktalarını ve ana olayın gerçeklere dayanan bir özetini çıkarmakla görevlendirilmiş bir yardımcı asistansın. Orijinal makaleye herhangi bir şekilde atıfta bulunma. 'Makalede belirtiliyor ki' ya da 'Metne göre' gibi ifadelerden kaçın. Gerçek noktaları ve ana olayı tarafsız ve doğrudan bir şekilde sun. Yanıtı şu şekilde biçimlendir:\n\n**Önemli Gerçekler**:\n- Gerçek 1\n- Gerçek 2\n- Gerçek 3\n\n**Ana Olay Özeti**:\n- [Ana olayın kısa özeti]."},
        {"role": "user", "content": f"İçerik burada:\n\n{article_content}\n\nLütfen aşağıdakileri çıkar:\n1. Önemli gerçekler (makalede açıkça belirtilen olgusal noktalar).\n2. Ana olayın gerçeklere dayanan özeti (ana olayı nesnel ve tarafsız bir şekilde tanımla, yorum ya da öznel analiz ekleme)."}
    ]

    # Call GPT-4o chat-based completion API
    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=conversation_state,
            max_tokens=600
        )

        # Extract the response from the assistant
        output = response.choices[0].message.content.strip()

        # Use case-insensitive flag via re.IGNORECASE, and clean up the expression
        key_facts_match = re.search(r"\*\*Önemli Gerçekler\*\*([\s\S]*?)\*\*Ana Olay Özeti\*\*", output, re.IGNORECASE)
        event_summary_match = re.search(r"\*\*Ana Olay Özeti\*\*([\s\S]*)", output, re.IGNORECASE)
        
        if key_facts_match:
            # Extract key facts (assuming each fact starts with a hyphen "-")
            key_facts_section = key_facts_match.group(1)
            key_facts = [fact.strip() for fact in key_facts_section.split("\n") if fact.strip().startswith('-')]
        else:
            key_facts = []

        if event_summary_match:
            event_summary = event_summary_match.group(1).strip()

            # Remove any leading colon or unwanted characters before the summary
            event_summary = re.sub(r"^[:\-\s]+", "", event_summary).strip()
        else:
            event_summary = ""

        # Format the final instruction using the key facts and event summary
        instruction = generate_instruction_from_facts_and_summary(key_facts, event_summary)
        return instruction


    except Exception as e:
        print(f"An error occurred: {e}")
        return None

# Example usage with one article's content
article_content = """
Alman medyasında Türkiye hakkında bir haber çıktığında hepimiz önce bir irkiliriz.
Acaba terör örgütlerinden hangisini öveceğini düşünürüz.
Bu Almanya'ya karşı bir önyargı değil, yılların getirdiği bir deneyimin sonucudur.
Alman medyası, PKK'dan DHKP/ C'ye, FETÖ'den MLKP'ye nerede Türkiye'nin başına bela olmuş bir terör örgütü varsa onu övmesi ve meşrulaştırmasıyla meşhurdur.
Ancak Alman medyasında Türkiye hakkında yer alan bir haber hepimizi biraz şaşırttı.
Haberi veren Spiegel dergisi, Almanya'nın Türkiye'ye torpido ve güdümlü füze ihracatı için izin verdiğini açıkladı.
Alman hükümetinde bir değişiklik olmadığı, paralel bir evrene de geçmediğimize göre bu oldukça önemli bir haberdi.
Çünkü Almanya merkezli başka bir haber de Siemens firmasının Akkuyu Nükleer Santrali'miz için gerekli ekipmanları yollamadığı gündemdeyken çok sayıda Türkiye düşmanı bakana sahip Alman hükümeti bu izni vermişti.
Cevap aslında oldukça basit ama bir o kadar da önemli: Çünkü artık biz üretiyoruz.
Türk savunma sanayii, Cumhurbaşkanı Erdoğan önderliğinde Türk mühendislerinin insanüstü çabasıyla yurtdışında paramızla bize verilmeyen hangi ürün varsa onu üretmek için var gücüyle çalışıp ambargolarını başlarına çaldı.
O yüzden artık istediğimiz ürünü vermediklerinde çok da dert etmiyoruz.
ABD ve İsrail'in bize vaktiyle İHA vermeyip Türkiye'yi dünyanın en büyük İHA üreticisi yapmalarında olduğu gibi onlarca örnek var.
Mesela Kanada, SİHA'larımız için Elektro-Optik Keşif, Gözetleme ve Hedef Tespit Sistemi CATS'ların satışını yasaklayarak bizi bu sektöre de sokmuştu.
Hatta artık Kanada'dan daha kaliteli ürünler geliştirmiştik.
Ve evet, Kanada da ""ambargosunu"" kaldırmıştı.
Bugün de Almanya'nın bize vaktiyle vermediği torpido ve güdümlü füzeleri üretmeye başladık.
Almanya o yüzden bu satışa izin vererek Türkiye'deki Alman hayranlarını şaşırttı.
Terör örgütü PKK ile mücadele ettiğimiz için parasıyla sattığı tankların parçalarını yollamayan, Türkiye'nin enerji bağımsızlığı için gerekli olan barajları engellemek için her türlü imkânını seferber eden Almanya'dan benzer haberler göreceğiz.
Bu zamana kadar vermek istemediği ne kadar savunma sanayii ürünü varsa şimdi satmak için kendisi çabalayacak.
Bu nokta bizi rehavete sevk etmemeli.
Elbette ki Türk Silahlı Kuvvetleri'mizin ihtiyaçlarının karşılanması gerekiyor ve bu yapılmalı.
Ancak satın aldığımız her ürünün daha iyisini kendi imkânlarımızla üretme amacımızdan bir an bile vazgeçmemeliyiz.
Biz bu hedeften sapmadığımız sürece düne kadar kırk dereden su getiren ""müttefiklerimizin"" kapımızı aşındırdığını göreceğiz.
Çünkü artık biz üretiyoruz.
"""

# Generate the instruction (key facts and event summary) and response
instruction = generate_instruction(article_content)
response = article_content.strip()
print(instruction)
print()
print(response)

Aşağıdaki gerçekler verildiğinde:
- Alman dergisi Spiegel, Almanya'nın Türkiye'ye torpido ve güdümlü füze ihracatı için izin verdiğini bildirdi.
- Siemens, Akkuyu Nükleer Santrali için gerekli ekipmanları göndermedi.
- Türkiye, savunma sanayii alanında dışa bağımlılığı azaltmak için önemli adımlar attı ve bazı ürünlerin üretimine başladı.
- Kanada, Türkiye'ye yönelik Elektro-Optik Keşif, Gözetleme ve Hedef Tespit Sistemi satışını yasaklamıştı, ancak Türkiye alternatiflerini geliştirmiş ve Kanada ambargosunu kaldırmıştı.
- Türkiye, Almanya'nın daha önce vermediği torpido ve güdümlü füzeleri üretmeye başlamıştır.

Ve tarif edilen olay:
Almanya, Türkiye'ye torpido ve güdümlü füze ihracatı için izin verdi. Bu gelişme, Türkiye'nin savunma sanayiinde kendi üretim kapasitesini artırması sonucunda, Almanya'nın daha önce uyguladığı kısıtlamaları yumuşatmasına işaret ediyor.

Bu olayın daha geniş etkileri hakkında bir köşe yazısı yazın. Olayın kamu politikalarını, toplumsal tutumları veya gelece

In [11]:
columnist_name = "hilalkaplan"

df = pd.read_csv(f"../../columnist_data/cleaned_articles/{columnist_name}_cleaned_articles.csv")

# Filter out rows where the article content is "Content not found"
df = df[df['Article Content'] != "Content not found"].reset_index(drop=True)

# Initialize lists to store the generated instructions and formatted responses
instructions = []
responses = []

# Iterate through each row in the filtered DataFrame
for row in df.itertuples():
    index = row[0]
    article_content = row[4].strip()

    # Generate the instruction for the article content
    instruction = generate_instruction(article_content)
    
    if instruction:
        # Format the original article content as a response
        formatted_response = article_content.strip()
        
        # Append the generated instruction and formatted response to their respective lists
        instructions.append(instruction)
        responses.append(formatted_response)

        # Optional: Print progress
        print(f"Processed article {index + 1}/{len(df)}")

# Add the generated instructions and formatted responses to the DataFrame
df['Instruction'] = instructions
df['Response'] = responses

# Select only the required columns
df_final = df[['Article Title', 'Date', 'URL', 'Instruction', 'Response']]

# Save the updated DataFrame to a new CSV file
df_final.to_csv(f'../../finetune_data/{columnist_name}/{columnist_name}.csv', index=False)
print("Filtered instructions and responses generated and saved to CSV successfully.")

Processed article 1/1464
Processed article 2/1464
Processed article 3/1464
Processed article 4/1464
Processed article 5/1464
Processed article 6/1464
Processed article 7/1464
Processed article 8/1464
Processed article 9/1464
Processed article 10/1464
Processed article 11/1464
Processed article 12/1464
Processed article 13/1464
Processed article 14/1464
Processed article 15/1464
Processed article 16/1464
Processed article 17/1464
Processed article 18/1464
Processed article 19/1464
Processed article 20/1464
Processed article 21/1464
Processed article 22/1464
Processed article 23/1464
Processed article 24/1464
Processed article 25/1464
Processed article 26/1464
Processed article 27/1464
Processed article 28/1464
Processed article 29/1464
Processed article 30/1464
Processed article 31/1464
Processed article 32/1464
Processed article 33/1464
Processed article 34/1464
Processed article 35/1464
Processed article 36/1464
Processed article 37/1464
Processed article 38/1464
Processed article 39/

In [18]:
# Split the dataset into training and test sets
columnist_name = "hilalkaplan"

# Load the full dataset with instructions and responses
df = pd.read_csv(f'../../finetune_data/{columnist_name}/{columnist_name}.csv')

# Split the data into train (80%) and test (20%)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# Save the training and test sets to separate CSV files
train_df.to_csv(f'../../finetune_data/{columnist_name}/{columnist_name}_train.csv', index=False)
test_df.to_csv(f'../../finetune_data/{columnist_name}/{columnist_name}_test.csv', index=False)

print("Training and test datasets saved successfully.")

Training and test datasets saved successfully.


### 2. Instructions with Shorter Summary

In [12]:
system_prompt = "Sen, sana verilecek olan içeriğin yalnızca gerçeklere dayanan önemli noktalarını ve ana olayın gerçeklere dayanan bir özetini çıkarmakla görevlendirilmiş bir yardımcı asistansın. Orijinal makaleye herhangi bir şekilde atıfta bulunma. 'Makalede belirtiliyor ki' ya da 'Metne göre' gibi ifadelerden kaçın. Yazarın öznel fikirlerini özete dahil etme. Gerçek noktaları ve ana olayı tarafsız ve doğrudan bir şekilde sun. Lütfen cevabında sadece özeti bulundur."
user_prompt_template = "İçerik burada:\n\n{article_content}\n\n Lütfen ana olayın özetini çıkarın (ana olayı nesnel ve tarafsız bir şekilde tanımla, yorum ya da öznel analiz ekleme). Cevabınızı 2 cümle ile sınırlayın."
instruction_template = "Lütfen aşağıdaki olay hakkında bir köşe yazısı yazın:\n\n{event_summary}"

In [15]:
# Main function to extract key facts and event summary, then format the instruction
def generate_instruction(article_content):
    # Prepare the conversation state for GPT-4o chat-based completion
    conversation_state = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt_template.format(article_content=article_content)}
    ]

    # Call GPT-4o chat-based completion API
    try:
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=conversation_state,
            max_tokens=200
        )

        # Extract the response from the assistant
        output = response.choices[0].message.content.strip()

        # Format the final instruction using the key facts and event summary
        instruction = instruction_template.format(event_summary=output)
        return instruction


    except Exception as e:
        print(f"An error occurred: {e}")
        return None

# Example usage with one article's content
article_content = """
Alman medyasında Türkiye hakkında bir haber çıktığında hepimiz önce bir irkiliriz.
Acaba terör örgütlerinden hangisini öveceğini düşünürüz.
Bu Almanya'ya karşı bir önyargı değil, yılların getirdiği bir deneyimin sonucudur.
Alman medyası, PKK'dan DHKP/ C'ye, FETÖ'den MLKP'ye nerede Türkiye'nin başına bela olmuş bir terör örgütü varsa onu övmesi ve meşrulaştırmasıyla meşhurdur.
Ancak Alman medyasında Türkiye hakkında yer alan bir haber hepimizi biraz şaşırttı.
Haberi veren Spiegel dergisi, Almanya'nın Türkiye'ye torpido ve güdümlü füze ihracatı için izin verdiğini açıkladı.
Alman hükümetinde bir değişiklik olmadığı, paralel bir evrene de geçmediğimize göre bu oldukça önemli bir haberdi.
Çünkü Almanya merkezli başka bir haber de Siemens firmasının Akkuyu Nükleer Santrali'miz için gerekli ekipmanları yollamadığı gündemdeyken çok sayıda Türkiye düşmanı bakana sahip Alman hükümeti bu izni vermişti.
Cevap aslında oldukça basit ama bir o kadar da önemli: Çünkü artık biz üretiyoruz.
Türk savunma sanayii, Cumhurbaşkanı Erdoğan önderliğinde Türk mühendislerinin insanüstü çabasıyla yurtdışında paramızla bize verilmeyen hangi ürün varsa onu üretmek için var gücüyle çalışıp ambargolarını başlarına çaldı.
O yüzden artık istediğimiz ürünü vermediklerinde çok da dert etmiyoruz.
ABD ve İsrail'in bize vaktiyle İHA vermeyip Türkiye'yi dünyanın en büyük İHA üreticisi yapmalarında olduğu gibi onlarca örnek var.
Mesela Kanada, SİHA'larımız için Elektro-Optik Keşif, Gözetleme ve Hedef Tespit Sistemi CATS'ların satışını yasaklayarak bizi bu sektöre de sokmuştu.
Hatta artık Kanada'dan daha kaliteli ürünler geliştirmiştik.
Ve evet, Kanada da ""ambargosunu"" kaldırmıştı.
Bugün de Almanya'nın bize vaktiyle vermediği torpido ve güdümlü füzeleri üretmeye başladık.
Almanya o yüzden bu satışa izin vererek Türkiye'deki Alman hayranlarını şaşırttı.
Terör örgütü PKK ile mücadele ettiğimiz için parasıyla sattığı tankların parçalarını yollamayan, Türkiye'nin enerji bağımsızlığı için gerekli olan barajları engellemek için her türlü imkânını seferber eden Almanya'dan benzer haberler göreceğiz.
Bu zamana kadar vermek istemediği ne kadar savunma sanayii ürünü varsa şimdi satmak için kendisi çabalayacak.
Bu nokta bizi rehavete sevk etmemeli.
Elbette ki Türk Silahlı Kuvvetleri'mizin ihtiyaçlarının karşılanması gerekiyor ve bu yapılmalı.
Ancak satın aldığımız her ürünün daha iyisini kendi imkânlarımızla üretme amacımızdan bir an bile vazgeçmemeliyiz.
Biz bu hedeften sapmadığımız sürece düne kadar kırk dereden su getiren ""müttefiklerimizin"" kapımızı aşındırdığını göreceğiz.
Çünkü artık biz üretiyoruz.
"""


article_content_2 = """İstanbul Büyükşehir Belediyesi'ne bağlı, internet üzerinden satış yapan İstanbul Kitap, Türkiye'de satılması yasak olan, eski PKK kurucularından Sakine Cansız'ın kitabını satıyormuş.
Skandal ortaya çıkınca, gelen tepkiler üzerine İmamoğlu ekibi panikle sayfayı kapatmış, satışına son vermişti.
Yine hafta başında, yargılanan HDP eski eş başkanı Demirtaş'ın yazdığı kitabın tiyatro oyununu Demirtaş'ın eşi, Kılıçdaroğlu ve İmamoğlu'nun eşleri birlikte izleyip kameralara poz vermişti.
Elbette HDP Eş Başkanı Buldan'ın ve CHP İl Başkanı Kaftancıoğlu'nun da orada olması siyasi mesaj kaygısının göstergesiydi.
Nitekim Kaftancıoğlu, yine hafta başında PKK'nın gazetesi Yeni Yaşam'a röportaj vermiş, gazete de röportajı manşetten ""Yan yana durmalıyız"" şeklinde duyurmuştu.
CHP ve İyi Parti'nin yerel seçimlerdeki zımni ortakları HDP ile araları bir açılıp bir düzeliyor.
""Ne seninle ne de sensiz"" diye sevgilileri hatırlatan bu durumu ne kadar içlerine sindirecekler bilmiyorum.
Ancak bu gidişatın 'kavgada söylenmez' denecek zirvelerinden birini hatırlatmak isterim.
HDP Grup Başkanvekili Fatma Kurtulan, meclis çatışı altında, genel kurulun kürsüsünden açıkça şunları söylemişti: ""İyi Parti, size söylüyorum: Size rağmen, içinde bulunduğunuz ittifaka, HDP ve PKK'ya içinde gönül vermişlerin de olduğu insanlar oy verdi.
Şu an koltuklarınızda HDP'nin oylarıyla oturuyorsunuz.
Bu ittifakta, CHP ile yaptığınız ittifakta HDP'nin oylarının etkisi vardır."" CHP ve İyi Parti'nin zımni ittifak ortağı olan HDPKK, ara sıra 'hizaya getirmek'için böyle tepkiler veriyor.
Mesele geçen seneki Cumhuriyet Bayramı'nda da CHP İsviçre Birliği'nin Zürih'te düzenlediği kutlamayı PKK sempatizanları basmıştı.
İçeriye giren PKK yandaşları, Öcalan pankartını açıp slogan attılar.
CHP İstanbul İl Başkanı Canan Kaftancıoğlu ve CHP Grup Başkanvekili Engin Özkoç'un da bulunduğu salondan PKK yandaşlarını kovmak yerine, CHP İsviçre Birliği Yönetim Kurulu Üyesi Ünal Konakçı, ""Açıklamanızı saygıyla karşıladık sizi dinledik.
Siz bizi dost olarak görmeyebilirsiniz, biz sizi dostumuz olarak görüyoruz"" şeklinde konuşmuştu.
Gezi kalkışması sırasında Atatürk ile Öcalan posterlerinin yan yana getirilmesiyle başlayan süreç, ""Her eve HDP'ye bir oy"" ile devam etti.
Ve bugün terörü meşrulaştırıp, PKK sempatizanlarına 'dostumuz' diyen bir vasıta gelindi.
Bakalım Erdoğan düşmanlığı yüzünden daha ne hallere düşülecek?
"""
# Generate the instruction (key facts and event summary) and response
instruction = generate_instruction(article_content_2)
response = article_content.strip()
print(instruction)

Lütfen aşağıdaki olay hakkında bir köşe yazısı yazın:

İstanbul Kitap, Sakine Cansız'ın kitabını satışa sununca tepkiler sonucu satışını durdurdu. Ayrıca, CHP ve İyi Parti'nin HDP ile olan ilişkileri ve geçtiğimiz günlerde yaşanan etkinliklerdeki duruşları, siyasi ortaklıklarına dair tartışmalara yol açtı.


In [17]:
columnist_name = "hilalkaplan"

df = pd.read_csv(f"../../columnist_data/cleaned_articles/{columnist_name}_cleaned_articles.csv")

# Filter out rows where the article content is "Content not found"
df = df[df['Article Content'] != "Content not found"].reset_index(drop=True)

# Initialize lists to store the generated instructions and formatted responses
summaries = []
instructions = []
responses = []

# Iterate through each row in the filtered DataFrame
for row in df.itertuples():
    index = row[0]
    article_content = row[4].strip()

    # Generate the instruction for the article content
    instruction = generate_instruction(article_content)

    if instruction:
        summary = instruction.split("\n\n")[-1].strip()
        # Format the original article content as a response
        formatted_response = article_content.strip()
        
        # Append the generated instruction and formatted response to their respective lists
        summaries.append(summary)
        instructions.append(instruction)
        responses.append(formatted_response)

        # Optional: Print progress
        print(f"Processed article {index + 1}/{len(df)}")

# Add the generated instructions and formatted responses to the DataFrame
df["Summary"] = summaries
df['Instruction'] = instructions
df['Response'] = responses

# Select only the required columns
df_final = df[['Article Title', 'Date', 'URL', 'Summary', 'Instruction', 'Response']]

# Save the updated DataFrame to a new CSV file
df_final.to_csv(f'../../finetune_data/{columnist_name}/{columnist_name}.csv', index=False)
print("Filtered instructions and responses generated and saved to CSV successfully.")

Processed article 1/1464
Processed article 2/1464
Processed article 3/1464
Processed article 4/1464
Processed article 5/1464
Processed article 6/1464
Processed article 7/1464
Processed article 8/1464
Processed article 9/1464
Processed article 10/1464
Processed article 11/1464
Processed article 12/1464
Processed article 13/1464
Processed article 14/1464
Processed article 15/1464
Processed article 16/1464
Processed article 17/1464
Processed article 18/1464
Processed article 19/1464
Processed article 20/1464
Processed article 21/1464
Processed article 22/1464
Processed article 23/1464
Processed article 24/1464
Processed article 25/1464
Processed article 26/1464
Processed article 27/1464
Processed article 28/1464
Processed article 29/1464
Processed article 30/1464
Processed article 31/1464
Processed article 32/1464
Processed article 33/1464
Processed article 34/1464
Processed article 35/1464
Processed article 36/1464
Processed article 37/1464
Processed article 38/1464
Processed article 39/

In [18]:
# Split the dataset into training and test sets
columnist_name = "hilalkaplan"

# Load the full dataset with instructions and responses
df = pd.read_csv(f'../../finetune_data/{columnist_name}/{columnist_name}.csv')

# Split the data into train (80%) and test (20%)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# Save the training and test sets to separate CSV files
train_df.to_csv(f'../../finetune_data/{columnist_name}/{columnist_name}_train.csv', index=False)
test_df.to_csv(f'../../finetune_data/{columnist_name}/{columnist_name}_test.csv', index=False)

print("Training and test datasets saved successfully.")

Training and test datasets saved successfully.


### 3. Really Short Instructions

In [7]:
# Split the dataset into training and test sets
columnist_name = "hilalkaplan"

# Load the full dataset with instructions and responses
df = pd.read_csv(f'../../finetune_data/{columnist_name}/{columnist_name}.csv')

# Preprocess: make the instruction one sentence long
df["Summary"] = df["Summary"].apply(lambda x: x.split(".")[0] + ".")
df["Instruction"] = df["Instruction"].apply(lambda x: x.split(".")[0] + ".")


# Split the data into train (80%) and test (20%)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# Save the training and test sets to separate CSV files
df.to_csv(f'../../finetune_data/{columnist_name}_2/{columnist_name}_2.csv', index=False)
train_df.to_csv(f'../../finetune_data/{columnist_name}_2/{columnist_name}_2_train.csv', index=False)
test_df.to_csv(f'../../finetune_data/{columnist_name}_2/{columnist_name}_2_test.csv', index=False)

print("Training and test datasets saved successfully.")

Training and test datasets saved successfully.


### 4. Question Answer Pairs

In [87]:
system_prompt = """Sen, verilen metinlerden soru-cevap çiftleri çıkarabilen bir asistansın. Soru-cevap çiftlerini oluştururken, soruları doğrudan yazara hitap eder gibi sor ve cevaplar için metindeki orijinal cümleleri aynen kullan. Soruları yanıtlara yönelik doğal bir merakla ve yazarın üslubuna uygun bir şekilde oluştur.

Sorular doğrudan yazara hitap etmeli, yanıtlar ise yazarın metindeki cümleleri olmalıdır. Orijinal metne veya yazara doğrudan referans yapma. Çıktıyı aşağıdaki formatta ver:

Soru 1: [Yazara hitaben soruyu yazınız]
Cevap 1: [Metindeki orijinal cümleyi yazınız]

Soru 2: [Yazara hitaben soruyu yazınız]
Cevap 2: [Metindeki orijinal cümleyi yazınız]

… (bu şekilde devam ediniz)

"""
user_prompt_template = "Aşağıdaki köşe yazısından yazara hitaben soru-cevap çiftleri oluştur. Soruları yazara sorar gibi doğrudan ve doğal bir üslupla yaz ve cevaplarda metindeki orijinal cümleleri aynen kullan. Orijinal metne referans yapmadan, belirtilen formatta listele:\n\n{article_content}"
MAX_COMPLETION_TOKENS = 2000

In [88]:
# Main function to extract key facts and event summary, then format the instruction
def generate_question_answer_pairs(article_content):
    # Prepare the conversation state for GPT-4o chat-based completion
    conversation_state = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt_template.format(article_content=article_content)}
    ]

    # Call GPT-4o chat-based completion API
    try:
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=conversation_state,
            max_tokens=MAX_COMPLETION_TOKENS
        )

        # Extract the response from the assistant
        output = response.choices[0].message.content.strip()

        # Display total tokens used
        token_usage = response.usage

        # Format the final instruction using the key facts and event summary

        qa_pairs = output.split("\n\n")
        return qa_pairs, token_usage


    except Exception as e:
        print(f"An error occurred: {e}")
        return None


In [None]:

# Example usage with one article's content
article_content = """
Alman medyasında Türkiye hakkında bir haber çıktığında hepimiz önce bir irkiliriz.
Acaba terör örgütlerinden hangisini öveceğini düşünürüz.
Bu Almanya'ya karşı bir önyargı değil, yılların getirdiği bir deneyimin sonucudur.
Alman medyası, PKK'dan DHKP/ C'ye, FETÖ'den MLKP'ye nerede Türkiye'nin başına bela olmuş bir terör örgütü varsa onu övmesi ve meşrulaştırmasıyla meşhurdur.
Ancak Alman medyasında Türkiye hakkında yer alan bir haber hepimizi biraz şaşırttı.
Haberi veren Spiegel dergisi, Almanya'nın Türkiye'ye torpido ve güdümlü füze ihracatı için izin verdiğini açıkladı.
Alman hükümetinde bir değişiklik olmadığı, paralel bir evrene de geçmediğimize göre bu oldukça önemli bir haberdi.
Çünkü Almanya merkezli başka bir haber de Siemens firmasının Akkuyu Nükleer Santrali'miz için gerekli ekipmanları yollamadığı gündemdeyken çok sayıda Türkiye düşmanı bakana sahip Alman hükümeti bu izni vermişti.
Cevap aslında oldukça basit ama bir o kadar da önemli: Çünkü artık biz üretiyoruz.
Türk savunma sanayii, Cumhurbaşkanı Erdoğan önderliğinde Türk mühendislerinin insanüstü çabasıyla yurtdışında paramızla bize verilmeyen hangi ürün varsa onu üretmek için var gücüyle çalışıp ambargolarını başlarına çaldı.
O yüzden artık istediğimiz ürünü vermediklerinde çok da dert etmiyoruz.
ABD ve İsrail'in bize vaktiyle İHA vermeyip Türkiye'yi dünyanın en büyük İHA üreticisi yapmalarında olduğu gibi onlarca örnek var.
Mesela Kanada, SİHA'larımız için Elektro-Optik Keşif, Gözetleme ve Hedef Tespit Sistemi CATS'ların satışını yasaklayarak bizi bu sektöre de sokmuştu.
Hatta artık Kanada'dan daha kaliteli ürünler geliştirmiştik.
Ve evet, Kanada da "ambargosunu" kaldırmıştı.
Bugün de Almanya'nın bize vaktiyle vermediği torpido ve güdümlü füzeleri üretmeye başladık.
Almanya o yüzden bu satışa izin vererek Türkiye'deki Alman hayranlarını şaşırttı.
Terör örgütü PKK ile mücadele ettiğimiz için parasıyla sattığı tankların parçalarını yollamayan, Türkiye'nin enerji bağımsızlığı için gerekli olan barajları engellemek için her türlü imkânını seferber eden Almanya'dan benzer haberler göreceğiz.
Bu zamana kadar vermek istemediği ne kadar savunma sanayii ürünü varsa şimdi satmak için kendisi çabalayacak.
Bu nokta bizi rehavete sevk etmemeli.
Elbette ki Türk Silahlı Kuvvetleri'mizin ihtiyaçlarının karşılanması gerekiyor ve bu yapılmalı.
Ancak satın aldığımız her ürünün daha iyisini kendi imkânlarımızla üretme amacımızdan bir an bile vazgeçmemeliyiz.
Biz bu hedeften sapmadığımız sürece düne kadar kırk dereden su getiren "müttefiklerimizin" kapımızı aşındırdığını göreceğiz.
Çünkü artık biz üretiyoruz.
"""


article_content_2 = """İstanbul Büyükşehir Belediyesi'ne bağlı, internet üzerinden satış yapan İstanbul Kitap, Türkiye'de satılması yasak olan, eski PKK kurucularından Sakine Cansız'ın kitabını satıyormuş.
Skandal ortaya çıkınca, gelen tepkiler üzerine İmamoğlu ekibi panikle sayfayı kapatmış, satışına son vermişti.
Yine hafta başında, yargılanan HDP eski eş başkanı Demirtaş'ın yazdığı kitabın tiyatro oyununu Demirtaş'ın eşi, Kılıçdaroğlu ve İmamoğlu'nun eşleri birlikte izleyip kameralara poz vermişti.
Elbette HDP Eş Başkanı Buldan'ın ve CHP İl Başkanı Kaftancıoğlu'nun da orada olması siyasi mesaj kaygısının göstergesiydi.
Nitekim Kaftancıoğlu, yine hafta başında PKK'nın gazetesi Yeni Yaşam'a röportaj vermiş, gazete de röportajı manşetten ""Yan yana durmalıyız"" şeklinde duyurmuştu.
CHP ve İyi Parti'nin yerel seçimlerdeki zımni ortakları HDP ile araları bir açılıp bir düzeliyor.
""Ne seninle ne de sensiz"" diye sevgilileri hatırlatan bu durumu ne kadar içlerine sindirecekler bilmiyorum.
Ancak bu gidişatın 'kavgada söylenmez' denecek zirvelerinden birini hatırlatmak isterim.
HDP Grup Başkanvekili Fatma Kurtulan, meclis çatışı altında, genel kurulun kürsüsünden açıkça şunları söylemişti: "İyi Parti, size söylüyorum: Size rağmen, içinde bulunduğunuz ittifaka, HDP ve PKK'ya içinde gönül vermişlerin de olduğu insanlar oy verdi.
Şu an koltuklarınızda HDP'nin oylarıyla oturuyorsunuz.
Bu ittifakta, CHP ile yaptığınız ittifakta HDP'nin oylarının etkisi vardır." CHP ve İyi Parti'nin zımni ittifak ortağı olan HDPKK, ara sıra 'hizaya getirmek'için böyle tepkiler veriyor.
Mesele geçen seneki Cumhuriyet Bayramı'nda da CHP İsviçre Birliği'nin Zürih'te düzenlediği kutlamayı PKK sempatizanları basmıştı.
İçeriye giren PKK yandaşları, Öcalan pankartını açıp slogan attılar.
CHP İstanbul İl Başkanı Canan Kaftancıoğlu ve CHP Grup Başkanvekili Engin Özkoç'un da bulunduğu salondan PKK yandaşlarını kovmak yerine, CHP İsviçre Birliği Yönetim Kurulu Üyesi Ünal Konakçı, ""Açıklamanızı saygıyla karşıladık sizi dinledik.
Siz bizi dost olarak görmeyebilirsiniz, biz sizi dostumuz olarak görüyoruz"" şeklinde konuşmuştu.
Gezi kalkışması sırasında Atatürk ile Öcalan posterlerinin yan yana getirilmesiyle başlayan süreç, "Her eve HDP'ye bir oy" ile devam etti.
Ve bugün terörü meşrulaştırıp, PKK sempatizanlarına 'dostumuz' diyen bir vasıta gelindi.
Bakalım Erdoğan düşmanlığı yüzünden daha ne hallere düşülecek?
"""
# Generate the question-answer pairs from the article
qa_pairs = generate_question_answer_pairs(article_content_2)
for qa in qa_pairs:
    print(qa)
    print()

In [78]:
def parse_qa_pairs(qa_pairs):
    qa_list = []
    
    for pair in qa_pairs:
        # Use regex to split each pair into question and answer
        question_match = re.search(r'Soru \d+:\s*(.*)', pair)
        answer_match = re.search(r'Cevap \d+:\s*(.*)', pair)
        
        # Extract and clean up question and answer
        if question_match and answer_match:
            question = question_match.group(1).strip()
            answer = answer_match.group(1).strip()
            
            # Add to the list as a dictionary
            qa_list.append({"question": question, "answer": answer})
    
    return qa_list

In [89]:
columnist_name = "hilalkaplan"

df = pd.read_csv(f"../../columnist_data/cleaned_articles/{columnist_name}_cleaned_articles.csv")

# Filter out rows where the article content is "Content not found"
df = df[df['Article Content'] != "Content not found"].reset_index(drop=True)

# Initialize lists to store the generated instructions and formatted responses
qa_pairs = []

# Iterate through each row in the filtered DataFrame
total_tokens = 0
for row in df.itertuples():
    index = row[0]
    article_content = row[4].strip()

    # Generate the question-answer pairs for the article content
    generated_pairs, token_usage = generate_question_answer_pairs(article_content)
    if generated_pairs:
        total_tokens += token_usage.total_tokens
        parsed_qa_pairs = parse_qa_pairs(generated_pairs) 
        # Append the generated question-answer pairs with the article's identifier
        if (token_usage.completion_tokens > MAX_COMPLETION_TOKENS):
            print(f"Article {index + 1} exceeds the maximum token limit.")
            parsed_qa_pairs = parse_qa_pairs[:-2]

        qa_pairs.append({
            "article_id": index + 1,
            "qa_pairs": parsed_qa_pairs
        })
        print(f"Processed article {index + 1}/{len(df)}, Total Tokens: {token_usage.total_tokens}, Completion Tokens: {token_usage.completion_tokens}")

# Write the question-answer pairs to a JSON file
output_filename = f"{columnist_name}_qa_pairs.json"
with open(output_filename, "w", encoding="utf-8") as outfile:
    json.dump(qa_pairs, outfile, ensure_ascii=False, indent=4)

print(f"Question-answer pairs saved to {output_filename}")
price = total_tokens * 0.15 * 1e-6 # $0.15 per 1M tokens
print(f"Total tokens used: {total_tokens}")
print(f"Estimated cost: ${price:.2f}")

Processed article 1/1464, Total Tokens: 1696, Completion Tokens: 885
Processed article 2/1464, Total Tokens: 2303, Completion Tokens: 1267
Processed article 3/1464, Total Tokens: 2039, Completion Tokens: 988
Processed article 4/1464, Total Tokens: 1642, Completion Tokens: 626
Processed article 5/1464, Total Tokens: 1892, Completion Tokens: 711
Processed article 6/1464, Total Tokens: 1693, Completion Tokens: 651
Processed article 7/1464, Total Tokens: 1963, Completion Tokens: 628
Processed article 8/1464, Total Tokens: 1972, Completion Tokens: 946
Processed article 9/1464, Total Tokens: 1512, Completion Tokens: 733
Processed article 10/1464, Total Tokens: 1935, Completion Tokens: 893
Processed article 11/1464, Total Tokens: 1749, Completion Tokens: 707
Processed article 12/1464, Total Tokens: 1729, Completion Tokens: 651
Processed article 13/1464, Total Tokens: 2444, Completion Tokens: 1348
Processed article 14/1464, Total Tokens: 2482, Completion Tokens: 1344
Processed article 15/1464,

In [5]:
# Preprocess to remove unnecessary quotation marks at the start and at the end from the answers
qa_json_filename = f"../../columnist_data/qa_pairs/{columnist_name}_qa_pairs.json"
qa_pairs_json = json.load(open(qa_json_filename, "r"))

for qa_pairs in qa_pairs_json:
    for pair in qa_pairs["qa_pairs"]:
        pair["answer"] = pair["answer"].strip('""')
        pair["question"] = pair["question"].strip('""')

# Save the updated question-answer pairs to the JSON file
output_filename = f"../../finetune_data/{columnist_name}_qa/{columnist_name}.json"
with open(output_filename, "w", encoding="utf-8") as outfile:
    json.dump(qa_pairs_json, outfile, ensure_ascii=False, indent=4)

In [11]:
def split_qa_dataset(filename, split_ratio=0.8, log_process=False):
    """
    Splits a JSON dataset of articles with QA pairs into train and test sets.

    Args:
        filename (str): Path to the input JSON file containing articles.
        split_ratio (float): Proportion of data to use for the training set.
        log_process (bool): If True, logs the splitting process.

    Returns:
        dict: Train and test datasets in the same format as the input.
    """
    
    # Load the original data
    with open(filename, "r", encoding="utf-8") as file:
        data = json.load(file)
    
    # Shuffle the data to ensure a random split
    random.shuffle(data)
    
    # Calculate split index
    split_index = int(len(data) * split_ratio)
    
    # Split data
    train_data = data[:split_index]
    test_data = data[split_index:]
    
    # Log process if requested
    if log_process:
        print(f"Total articles: {len(data)}")
        print(f"Training set size: {len(train_data)}")
        print(f"Test set size: {len(test_data)}")
    
    return {"train": train_data, "test": test_data}

In [12]:
columnist_name = "hilalkaplan_qa"
filename = f"../../finetune_data/{columnist_name}/{columnist_name}.json"
output_dir = f"../../finetune_data/{columnist_name}/{columnist_name}"

database = split_qa_dataset(filename, split_ratio=0.9, log_process=True)

# Save to JSON files
train_file_path = f"{output_dir}_train.json"
test_file_path = f"{output_dir}_test.json"

with open(train_file_path, "w", encoding="utf-8") as train_file:
    json.dump(database["train"], train_file, ensure_ascii=False, indent=4)

with open(test_file_path, "w", encoding="utf-8") as test_file:
    json.dump(database["test"], test_file, ensure_ascii=False, indent=4)

print("Database splitted and saved successfully.")

Total articles: 1464
Training set size: 1317
Test set size: 147
Database splitted and saved successfully.
