In [13]:
import os
from dotenv import load_dotenv
from IPython.display import Markdown, display
import openai
import random


In [14]:
load_dotenv(override=True)
api_key = os.getenv('OPENAI_API_KEY')

if not api_key:
    print("No API key was found - please head over to the troubleshooting notebook in this folder to identify & fix!")
else:
    print("API key found and looks good so far!")

API key found and looks good so far!


In [15]:
dataset_dir = "C:/Users/aalperen.arda/Documents/GitHub/LLM-Biography-Analysis/main/dataset_new"
output_dir = "C:/Users/aalperen.arda/Documents/GitHub/LLM-Biography-Analysis/main/json_output_new"
os.makedirs(output_dir, exist_ok=True)

In [16]:
system_prompt = """
Sen bir biyografik bilgi analiz uzmanısın. Sana verilen detaylı metinleri okuyarak, aşağıdaki formatta yapılandırılmış bir JSON çıktısı üretmelisin.

### Görevin:
Metindeki kişiyle ilgili tüm bilgileri analiz et ve aşağıdaki alanlara uygun şekilde JSON nesnesi oluştur. Lütfen bilgileri mümkün olduğunca eksiksiz çıkar. Eksikse `null` veya boş liste olarak belirt.

### JSON formatı:

{
  "ad": "...",                             // kişinin tam adı
  "dogum_yeri": "...",                    // şehir (ve ilçe varsa)
  "dogum_tarihi": "...",                  // gün.ay.yıl (örn: 12.02.1985)
  "yaş": int,                           // örn: 40
  "ilkokul_yılları": "...",               // örn: 1991-1995
  "ilkokul": "...",             
  "lise": "...",
  "lise_yılları": "...",                  // "2008-2010"
  "universite": "...",                    // lisans üniversitesi
  "üniversite_yılları": "...",            // "2008-2010"
  "bolum": "...",                         // lisans bölümü
  "yuksek_lisans": "...",                // üniversite adı
  "yüksek_lisans_yılları": "...",        // "2008-2010"
  "doktora": "...",                      // üniversite adı
  "doktora_yılları": "...",
  "meslegi": "...",                      // diğer bilgilerden mesleğini bul
  "calistigi_kurumlar": ["..."],         // çalıştığı kurum, şirket vs. (birden fazla olabilir)
  "çalışma_başlangıç_yılları": ["liste - her kurum için başlangıç ve bitiş yılı (örn: "2011-2014")"],
  "kurdugu_girisim_ve_dernekler": ["..."], // kurduğu dernekler, STK'lar, şirketler
  "girişim_kuruluş_yılları": ["liste - her girişim için kuruluş yılı"],
  "memleket": "...",                    // doğduğu yer veya anne babasının doğduğu yerler yazılabilir.
  "yasadigi_sehir": "...",
  "hobiler": ["...", "..."],             // metinden çıkarılabilen tüm hobi/ilgi alanları
  "es": "...",
  "cocuklar": ["...", "..."],            // çocuk isimleri
  "akademik_yayinlar": ["..."],          // tezler, projeler, makaleler vs. (başlık olarak)
  "yayın_yılları": ["liste - her yayın için yıl"],
  "dosya_adi": "..."                     // girilen biyografi metnine ait dosya adı (örneğin: ahmet_ermis.md)
}

Lütfen sadece geçerli ve biçimsel olarak doğru bir JSON nesnesi döndür. Açıklama, yorum veya başka metin ekleme. Noktalama ve dizim hatası yapma.

"""


In [17]:
def chat(message):
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": message}
    ]
    response = openai.chat.completions.create(
        model="gpt-4o-mini",
        messages=messages,
        temperature=0.2
    )
    return response.choices[0].message.content

In [18]:
for filename in os.listdir(dataset_dir):
    if filename.endswith(".md"):
        with open(os.path.join(dataset_dir, filename), "r", encoding="utf-8") as f:
            metin = f.read()

        try:
            json_output = chat(metin)
            json_path = os.path.join(output_dir, filename.replace(".md", ".json"))
            with open(json_path, "w", encoding="utf-8") as out_f:
                out_f.write(json_output)
            print(f"{filename} -> JSON kaydedildi")
        except Exception as e:
            print(f"{filename} -> HATA: {e}")

ahmet_dogan.md -> JSON kaydedildi
akin_dogan.md -> JSON kaydedildi
ali_turkmen.md -> JSON kaydedildi
alparslan_aydin.md -> JSON kaydedildi
alperen_aydin.md -> JSON kaydedildi
alperen_baran.md -> JSON kaydedildi
alperen_uzun.md -> JSON kaydedildi
alperen_yilmaz.md -> JSON kaydedildi
ayhan_korkmaz.md -> JSON kaydedildi
ayla_cakir.md -> JSON kaydedildi
ayla_ozdemir.md -> JSON kaydedildi
ayla_toprak.md -> JSON kaydedildi
aysegul_keskin.md -> JSON kaydedildi
aysel_ozturk.md -> JSON kaydedildi
ayse_cakir.md -> JSON kaydedildi
aysun_ucar.md -> JSON kaydedildi
bahar_erdogan.md -> JSON kaydedildi
baran_keskin.md -> JSON kaydedildi
batuhan_ozdemir.md -> JSON kaydedildi
batuhan_ucar.md -> JSON kaydedildi
baturalp_polat.md -> JSON kaydedildi
betul_dogan.md -> JSON kaydedildi
betul_erdogan.md -> JSON kaydedildi
bulent_yildiz.md -> JSON kaydedildi
burak_acar.md -> JSON kaydedildi
burcu_ozsoy.md -> JSON kaydedildi
burhan_dogan.md -> JSON kaydedildi
burhan_sezer.md -> JSON kaydedildi
burhan_turkmen.md