In [None]:
import pandas as pd
import json
import os
from tabulate import tabulate

file_path = os.path.join('..', 'dataset', 'dataset_label.json')

if not os.path.exists(file_path):
    print(f"‚ùå Error: File '{file_path}' tidak ditemukan.")
    print("Pastikan file 'dataset_label.json' berada di dalam folder 'dataset' dan path-nya sudah benar.")
else:
    try:
        # Muat dataset dari file JSON
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        df = pd.DataFrame(data)

        print("‚úÖ Dataset berhasil dimuat!")
        
        # --- Informasi umum dan Statistik ---
        print("\n" + "="*50)
        print("üìä INFORMASI & STATISTIK DATASET")
        print("="*50)
        
        print("\n[ Info Kolom dan Tipe Data ]")
        df.info() # df.info() sudah cukup informatif

        # Pisahkan dan hitung data berdasarkan label
        hate_speech_df = df[df['label'] == 'hate_speech']
        not_hate_speech_df = df[df['label'] == 'not_hate_speech']
        
        stats_data = [
            ["Total Entri", len(df)],
            ["Jumlah 'hate_speech'", len(hate_speech_df)],
            ["Jumlah 'not_hate_speech'", len(not_hate_speech_df)]
        ]
        
        print("\n[ Statistik Label ]")
        # Menggunakan tabulate untuk statistik agar lebih rapi
        print(tabulate(stats_data, headers=["Deskripsi", "Jumlah"], tablefmt="double_outline"))
        

    except json.JSONDecodeError:
        print(f"‚ùå Error: Gagal membaca file JSON. Pastikan '{file_path}' adalah file JSON yang valid.")
    except Exception as e:
        print(f"‚ùå Terjadi kesalahan tak terduga: {e}")

‚úÖ Dataset berhasil dimuat!

üìä INFORMASI & STATISTIK DATASET

[ Info Kolom dan Tipe Data ]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3240 entries, 0 to 3239
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            3240 non-null   int64 
 1   cleaned_text  3240 non-null   object
 2   label         3240 non-null   object
dtypes: int64(1), object(2)
memory usage: 76.1+ KB

[ Statistik Label ]
Deskripsi                   Jumlah
------------------------  --------
Total Entri                   3240
Jumlah 'hate_speech'          1291
Jumlah 'not_hate_speech'      1949
