In [2]:
import json

In [3]:
def format_list(list_data, sign):
    if isinstance(list_data, list):
        return f"{sign} ".join(str(item).strip() for item in list_data if item)
    elif isinstance(list_data, str):
        return list_data.strip()
    else:
        return ''
    
def read_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        return json.load(f)
    
def save_to_file(file_path, content):    
    with open(file_path, 'w', encoding='utf-8') as f_out:
        json.dump(content, f_out, ensure_ascii=False, indent=4)
        print(f"Extraction complete! Saved {len(content)} items.")


In [59]:
data = read_file("../raw_data/Treaties.json")

In [60]:
output = []
for item in data:
    title = item['data'].get('title', '')
    description = format_list(item['data'].get('description', []),".")
    year = item['data'].get('period', {}).get('year', '')
    city = item['data'].get('location', {}).get('city', '')
    coordinates = item['data'].get('location', {}).get('coordinates', {})
    latitude = coordinates.get('latitude', '')
    longitude = coordinates.get('longitude', '')
    causes = format_list(item['data'].get('causes', []),",")
    belligerents = format_list(item['data'].get('belligerents', []),",")
    result = item['data'].get('result', '')
    impact = format_list(item['data'].get('impact', []),".")
    historical_significance = item['data'].get('historical_significance', '')
    
    text = []
    
    if description:
        text.append(description)
    if year:
        text.append(f"این رویداد در سال {year} رخ داده است.")
    if city:
        text.append(f"مکان وقوع آن شهر {city} بوده است.")
    if latitude != 0 and longitude != 0:
        text.append(f"مختصات جغرافیایی این رویداد برابر است با عرض جغرافیایی {latitude} و طول جغرافیایی {longitude}.")
    if causes:
        text.append(f"دلایل آن عبارتند از: {causes}")
    if belligerents:
        text.append(f"طرف های درگیر در این واقعه {belligerents} بوده اند.")
    if result:
        text.append(f"نتیجه: {result}")
    if impact:
        text.append(f"تاثیرات: {impact}")
    if historical_significance:
        text.append(f"اهمیت تاریخی آن: {historical_significance}")
    
    full_text = ' '.join(text)
    output.append({
        "event": title,
        "text": full_text,
        "questions": [] 
    })    

In [61]:
save_to_file("../processed_data/Treaties.json",output)

Extraction complete! Saved 127 items.


In [4]:
data = read_file("../raw_data/EVENTS.json")

In [7]:
output = []
for item in data:
    title = item['data'].get('title', '')
    description = format_list(item['data'].get('description', []),".")
    start_year = item['data'].get('period', {}).get('start_year', '')
    end_year = item['data'].get('period', {}).get('end_year', '')
    province = item['data'].get('location', {}).get('province', '')
    city = item['data'].get('location', {}).get('city', '')
    coordinates = item['data'].get('location', {}).get('coordinates', {})
    latitude = coordinates.get('latitude', '')
    longitude = coordinates.get('longitude', '')
    ref_title = item['data'].get('refrences', {}).get('title', '')
    author = item['data'].get('refrences', {}).get('author', '')
    ref_year = item['data'].get('refrences', {}).get('year', '')
    
    text = []
     
    if description:
        text.append(description)
    if start_year:
        text.append(f"این رویداد در سال {start_year} شروع شده است.")
    if end_year:
        text.append(f"اتمام آن در سال {end_year} بوده است.")
    if province:
        text.append(f"این واقعه در استان {province} رخ داده است.")
    if city:
        text.append(f"شهر آن {city} بوده است.")
    if latitude != '<TBD>' and longitude != '<TBD>':
        text.append(f"مختصات جغرافیایی این رویداد برابر است با عرض جغرافیایی {latitude} و طول جغرافیایی {longitude}.")
    if author:
        text.append(f"نویسنده این متن {author} است.")    
    if ref_title:
        text.append(f"این متن از منبع {ref_title} بدست آمده است.")
    if ref_year:
        text.append(f"در سال {ref_year} گرده اوری شده است.")
        
    full_text = ' '.join(text)
    output.append({
        "event": title,
        "text": full_text,
        "questions": [] 
    })    

In [8]:
save_to_file("../processed_data/Events.json",output)

Extraction complete! Saved 100 items.
