In [3]:
import os
import shutil
import random
import pandas as pd
from collections import defaultdict

Pada proses ini, Hal pertama yang saya perlukan ialah mengimpor beberapa pustaka Python untuk memudahkan pengelolaan file dan data. Pustaka `os` digunakan untuk berinteraksi dengan sistem file, memungkinkan saya untuk membuat atau menghapus direktori, serta memindahkan atau menyalin file sesuai kebutuhan. Pustaka `shutil` digunakan untuk operasi file lebih lanjut, seperti penyalinan atau penghapusan file. Selain itu, pustaka `random` memungkinkan pemilihan elemen secara acak, yang sering digunakan untuk membagi data menjadi set pelatihan dan pengujian. Pustaka `pandas` berfungsi untuk manipulasi data dalam bentuk tabel, memungkinkan proses penyaringan atau pemrosesan data sesuai dengan kebutuhan analisis atau pelatihan model. Terakhir, `defaultdict` dari pustaka `collections` digunakan untuk membuat kamus dengan nilai default, yang sangat berguna untuk menangani data yang belum lengkap atau memerlukan pengelolaan nilai default otomatis. Secara keseluruhan, proses ini bertujuan untuk mengelola file, memproses data, dan mempersiapkan data yang dibutuhkan untuk analisis atau pelatihan model.

In [4]:
# Path asal dan tujuan
source_dir = 'source'
output_dir = 'data'
splits = ['train', 'valid', 'test']
split_ratio = (0.7, 0.15, 0.15)  # 70% train, 15% valid, 15% test

# Siapkan CSV
csv_data = []

# Buat folder output
for split in splits:
    for class_name in os.listdir(source_dir):
        os.makedirs(os.path.join(output_dir, split, class_name), exist_ok=True)

# Proses masing-masing kelas
for class_name in os.listdir(source_dir):
    class_dir = os.path.join(source_dir, class_name)
    images = os.listdir(class_dir)
    random.shuffle(images)

    total = len(images)
    train_end = int(total * split_ratio[0])
    valid_end = train_end + int(total * split_ratio[1])

    split_files = {
        'train': images[:train_end],
        'valid': images[train_end:valid_end],
        'test': images[valid_end:]
    }

    for split, files in split_files.items():
        for file_name in files:
            src_path = os.path.join(source_dir, class_name, file_name)
            dst_path = os.path.join(output_dir, split, class_name, file_name)
            shutil.copy2(src_path, dst_path)

            # Tambahkan ke csv
            relative_path = os.path.relpath(dst_path, output_dir)
            csv_data.append({'path': relative_path, 'label': class_name})

# Simpan ke CSV
df = pd.DataFrame(csv_data)
df.to_csv(os.path.join(output_dir, 'labels.csv'), index=False)

print("Dataset telah dibagi dan label.csv dibuat.")


Dataset telah dibagi dan label.csv dibuat.


Selanjutnya saya membagi dataset gambar ke dalam beberapa subset (train, valid, test) dan membuat file CSV yang berisi informasi label untuk setiap gambar. Pertama, saya mendefinisikan path asal (`source_dir`) dan tujuan (`output_dir`), serta rasio pembagian dataset untuk pelatihan (train), validasi (valid), dan pengujian (test). Selanjutnya, folder output untuk masing-masing subset dan kelas gambar dibuat menggunakan `os.makedirs`.

Kemudian, untuk setiap kelas gambar yang ada di direktori sumber (`source_dir`), gambar-gambar dalam setiap kelas diacak menggunakan `random.shuffle`, dan dataset dibagi sesuai dengan rasio yang telah ditentukan. Gambar-gambar kemudian dipindahkan ke folder tujuan yang sesuai dengan subset-nya (train, valid, test) menggunakan `shutil.copy2`, yang juga memastikan metadata file tetap terjaga.

Selama proses pemindahan file, informasi mengenai path relatif file dan labelnya ditambahkan ke dalam list `csv_data`. Setelah semua gambar diproses, data tersebut dikonversi menjadi DataFrame menggunakan `pandas`, kemudian disimpan dalam format CSV yang disebut `labels.csv` di dalam direktori output.

Akhirnya, proses ini selesai dengan mencetak pesan bahwa dataset telah dibagi dan file `labels.csv` telah dibuat.

In [5]:
# Path ke folder dataset
base_dir = 'data'
splits = ['train', 'valid', 'test']

# Dictionary untuk menyimpan hasil
count_per_split = defaultdict(lambda: defaultdict(int))

for split in splits:
    split_path = os.path.join(base_dir, split)
    for label in os.listdir(split_path):
        label_path = os.path.join(split_path, label)
        if os.path.isdir(label_path):
            total = len(os.listdir(label_path))
            count_per_split[split][label] = total

# Tampilkan hasil
for split in splits:
    print(f"\n📁 {split.upper()}")
    for label, count in count_per_split[split].items():
        print(f"  - {label}: {count} file")



📁 TRAIN
  - cat: 12180 file
  - dog: 11722 file
  - snake: 3852 file

📁 VALID
  - cat: 4855 file
  - dog: 3470 file
  - snake: 1176 file

📁 TEST
  - cat: 4827 file
  - dog: 3470 file
  - snake: 1168 file


proses selanjutnya ialah menghitung jumlah file gambar dalam setiap subset dataset (train, valid, dan test) untuk setiap kelas label (seperti cat, dog, snake). Pertama, saya mendefinisikan direktori dasar (`base_dir`) tempat dataset disimpan dan menentukan tiga subset: `train`, `valid`, dan `test`.

Kemudian, saya menggunakan `defaultdict` untuk menyimpan jumlah file per kelas untuk setiap subset. Untuk setiap subset (`train`, `valid`, `test`), saya membaca setiap folder kelas (misalnya, `cat`, `dog`, dan `snake`) dan menghitung jumlah file yang ada di dalamnya. Jika folder kelas tersebut ada, saya menghitung jumlah file di dalamnya dan menyimpannya dalam dictionary `count_per_split`.

Setelah menghitung jumlah file untuk setiap kelas dan subset, hasilnya ditampilkan ke layar, menunjukkan jumlah file gambar untuk setiap kelas dalam masing-masing subset. Hasil yang ditampilkan menunjukkan jumlah file untuk setiap kelas di folder `train`, `valid`, dan `test`, seperti yang ditunjukkan pada output berikut:

- **TRAIN**: 
  - cat: 12180 file
  - dog: 11722 file
  - snake: 3852 file
- **VALID**: 
  - cat: 4855 file
  - dog: 3470 file
  - snake: 1176 file
- **TEST**: 
  - cat: 4827 file
  - dog: 3470 file
  - snake: 1168 file