<a href="https://colab.research.google.com/github/lisaadnr/dataset-normalisasi-ayat/blob/main/Adding_Paragraph.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [9]:
import csv
import json
from pathlib import Path

# Fungsi untuk normalisasi chapter_id menjadi 3 digit
def normalize_chapter_id(chapter_id):
    return chapter_id.zfill(3)

# Fungsi utama untuk memproses data CSV dan JSON
def process_csv_and_json(csv_path, json_folder, output_path):
    # Load CSV data
    with open(csv_path, mode='r', encoding='utf-8') as f:
        csv_reader = csv.DictReader(f)
        csv_data = list(csv_reader)

    # Prepare results
    result = []

    for row in csv_data:
        chapter_id = normalize_chapter_id(str(row['chapter_id']).strip())  # Normalisasi chapter_id
        verse_id = str(row['verse_id']).strip()                           # Ambil verse_id

        # Log untuk debug
        print(f"Processing chapter_id: {chapter_id}, verse_id: {verse_id}")

        # Cek file JSON di folder
        json_file_path = Path(json_folder) / f"chapter_{chapter_id}.json"
        if not json_file_path.exists():
            print(f"JSON file for chapter {chapter_id} not found.")
            verse_text = "JSON file not found"
        else:
            # Load JSON data
            with open(json_file_path, mode='r', encoding='utf-8') as jf:
                json_data = json.load(jf)

            # Periksa apakah verse_id ada dalam chapter_id
            if chapter_id in json_data:
                if verse_id in json_data[chapter_id]:
                    verse_text = json_data[chapter_id][verse_id]['verse']['id']  # Ambil teks ayat
                    print(f"Match found: {verse_text}")
                else:
                    print(f"Verse ID {verse_id} not found in chapter {chapter_id}.")
                    verse_text = "Verse not found"
            else:
                print(f"Chapter ID {chapter_id} not found in JSON data.")
                verse_text = "Chapter not found"

        # Tambahkan hasil ke dalam list
        result.append({
            'Named entity': row['Named entity'],
            'chapter_id': chapter_id,
            'verse_id': verse_id,
            'verse_text': verse_text
        })

    # Tulis hasil ke file CSV baru
    output_fieldnames = ['Named entity', 'chapter_id', 'verse_id', 'verse_text']
    with open(output_path, mode='w', encoding='utf-8', newline='') as f:
        csv_writer = csv.DictWriter(f, fieldnames=output_fieldnames)
        csv_writer.writeheader()
        csv_writer.writerows(result)

    print(f"Processing complete. Results saved to {output_path}")

# Panggil fungsi dengan path CSV, folder JSON, dan output
process_csv_and_json(
    csv_path='/content/list_of_entities_resultedBy_gpt4 - list_of_entities_resultedBy_gpt4_not_InIndQNER.csv',  # Path ke CSV
    json_folder='/content/sample_data/data',  # Path folder JSON
    output_path='/content/sample_data/6.csv'  # Output CSV
)


Processing chapter_id: 001, verse_id: 4
Match found: Pemilik hari Pembalasan.
Processing chapter_id: 002, verse_id: 32
Match found: Mereka menjawab, “Maha Suci Engkau. Tidak ada pengetahuan bagi kami, selain yang telah Engkau ajarkan kepada kami. Sesungguhnya Engkaulah Yang Maha Mengetahui lagi Maha Bijaksana.”
Processing chapter_id: 002, verse_id: 102
Match found: Mereka mengikuti apa yang dibaca oleh setan-setan pada masa Kerajaan Sulaiman. Sulaiman itu tidak kufur, tetapi setan-setan itulah yang kufur. Mereka mengajarkan sihir kepada manusia dan apa yang diturunkan kepada dua malaikat di negeri Babilonia, yaitu Harut dan Marut. Padahal, keduanya tidak mengajarkan sesuatu kepada seseorang sebelum mengatakan, “Sesungguhnya kami hanyalah fitnah (cobaan bagimu) oleh sebab itu janganlah kufur!” Maka, mereka mempelajari dari keduanya (malaikat itu) apa yang (dapat) memisahkan antara seorang (suami) dan istrinya. Mereka tidak akan dapat mencelakakan seseorang dengan (sihir)-nya, kecuali de