In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt

def analyze_dataset(base_path):
    """
    Menganalisis dataset klasifikasi yang terdiri dari folder train, valid, dan test.

    Args:
        base_path (str): Path ke direktori utama dataset.
    """

    data = []
    for folder in ['train', 'valid', 'test']:
        folder_path = os.path.join(base_path, folder)
        for class_name in os.listdir(folder_path):
            class_path = os.path.join(folder_path, class_name)
            if os.path.isdir(class_path):
                file_count = len(os.listdir(class_path))
                data.append([class_name, folder, file_count])

    df = pd.DataFrame(data, columns=['Nama Kelas', 'Folder', 'Jumlah'])

    # Menghitung total data untuk setiap kelas di setiap folder
    summary = df.groupby(['Nama Kelas', 'Folder'])['Jumlah'].sum().unstack(fill_value=0)
    summary['Total'] = summary.sum(axis=1)
    summary = summary.reset_index()

    # Menghitung persentase distribusi data
    for folder in ['train', 'valid', 'test']:  # Mengganti 'val' dengan 'valid'
        summary[f'{folder} (%)'] = (summary[folder] / summary['Total'] * 100).round(2)

    # Menampilkan tabel statistik
    print("Total Data untuk Setiap Kelas:")
    print("-" * 80)
    print(summary.to_string(index=False))
    print("-" * 80)
    print(f"Total Keseluruhan Data: {summary['Total'].sum()}")

    print("\nPersentase Distribusi Data untuk Setiap Kelas:")
    print("-" * 60)
    print(summary[['Nama Kelas', 'train (%)', 'test (%)', 'valid (%)']].to_string(index=False))  # Mengganti 'val' dengan 'valid'

    # Membuat grafik batang
    summary.plot(x='Nama Kelas', y=['train', 'test', 'valid'], kind='bar', figsize=(12, 6))  # Mengganti 'val' dengan 'valid'
    plt.title('Jumlah Data untuk Setiap Kelas di Setiap Folder')
    plt.xlabel('Kelas')
    plt.ylabel('Jumlah Data')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()