In [2]:
import os
from dotenv import load_dotenv
from IPython.display import Markdown, display
import openai
import random


In [3]:
load_dotenv(override=True)
api_key = os.getenv('OPENAI_API_KEY')

if not api_key:
    print("No API key was found - please head over to the troubleshooting notebook in this folder to identify & fix!")
else:
    print("API key found and looks good so far!")

API key found and looks good so far!


In [4]:
dataset_dir = "C:/Users/aalperen.arda/Documents/GitHub/LLM-Biography-Analysis/main/dataset"
output_dir = "C:/Users/aalperen.arda/Documents/GitHub/LLM-Biography-Analysis/main/json_output"
os.makedirs(output_dir, exist_ok=True)

In [5]:
system_prompt = """
Sen bir biyografik bilgi analiz uzmanısın. Sana verilen detaylı metinleri okuyarak, aşağıdaki formatta yapılandırılmış bir JSON çıktısı üretmelisin.

### Görevin:
Metindeki kişiyle ilgili tüm bilgileri analiz et ve aşağıdaki alanlara uygun şekilde JSON nesnesi oluştur. Lütfen bilgileri mümkün olduğunca eksiksiz çıkar. Eksikse `null` veya boş liste olarak belirt.

### JSON formatı:

{
  "ad": "...",                             // kişinin tam adı
  "dogum_yeri": "...",                    // şehir (ve ilçe varsa)
  "dogum_tarihi": "...",                  // gün.ay.yıl (örn: 12.02.1985)
  "ilkokul": "...",
  "lise": "...",
  "universite": "...",                    // lisans üniversitesi
  "bolum": "...",                         // lisans bölümü
  "yuksek_lisans": "...",                // üniversite adı
  "doktora": "...",                      // üniversite adı
  "calistigi_kurumlar": ["..."],         // çalıştığı kurum, şirket vs. (birden fazla olabilir)
  "kurdugu_girisim_ve_dernekler": ["..."], // kurduğu dernekler, STK'lar, şirketler
  "yasadigi_sehir": "...",
  "hobiler": ["...", "..."],             // metinden çıkarılabilen tüm hobi/ilgi alanları
  "es": "...",
  "cocuklar": ["...", "..."],            // çocuk isimleri
  "akademik_yayinlar": ["..."],          // tezler, projeler, makaleler vs. (başlık olarak)
  "dosya_adi": "..."                     // girilen biyografi metnine ait dosya adı (örneğin: ahmet_ermis.md)
}

Lütfen sadece geçerli ve biçimsel olarak doğru bir JSON nesnesi döndür. Açıklama, yorum veya başka metin ekleme. Noktalama ve dizim hatası yapma.

"""


In [None]:
def chat(message):
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": message}
    ]
    response = openai.chat.completions.create(
        model="gpt-4o-mini",
        messages=messages,
        temperature=0.2
    )
    return response.choices[0].message.content

In [11]:
for filename in os.listdir(dataset_dir):
    if filename.endswith(".md"):
        with open(os.path.join(dataset_dir, filename), "r", encoding="utf-8") as f:
            metin = f.read()

        try:
            json_output = chat(metin)
            json_path = os.path.join(output_dir, filename.replace(".md", ".json"))
            with open(json_path, "w", encoding="utf-8") as out_f:
                out_f.write(json_output)
            print(f"{filename} -> JSON kaydedildi")
        except Exception as e:
            print(f"{filename} -> HATA: {e}")

ahmet_ermis.md -> JSON kaydedildi
ahmet_tan.md -> JSON kaydedildi
ahmet_yildiz.md -> JSON kaydedildi
akin_korkmaz.md -> JSON kaydedildi
ali_polat.md -> JSON kaydedildi
alparslan_yuce.md -> JSON kaydedildi
alperen_demir.md -> JSON kaydedildi
alperen_gokmen.md -> JSON kaydedildi
alperen_toprak.md -> JSON kaydedildi
alper_yildiz.md -> JSON kaydedildi
arif_gunes.md -> JSON kaydedildi
asli_gokmen.md -> JSON kaydedildi
asli_tas.md -> JSON kaydedildi
asli_ucar.md -> JSON kaydedildi
asude_aktas.md -> JSON kaydedildi
asude_altun.md -> JSON kaydedildi
asuman_celik.md -> JSON kaydedildi
ayhan_ozkan.md -> JSON kaydedildi
aylin_tas.md -> JSON kaydedildi
aysegul_aktas.md -> JSON kaydedildi
aysegul_uzun.md -> JSON kaydedildi
aysel_gunes.md -> JSON kaydedildi
ayse_arslan.md -> JSON kaydedildi
aysun_ozturk.md -> JSON kaydedildi
aysun_polat.md -> JSON kaydedildi
aysun_uzun.md -> JSON kaydedildi
aysun_yildirim.md -> JSON kaydedildi
bahar_ozkan.md -> JSON kaydedildi
bahar_sezer.md -> JSON kaydedildi
baran