<a href="https://colab.research.google.com/github/novtryrezki/sarung/blob/main/MembagiData.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Import Library

In [None]:
import os
import zipfile
import random
import shutil
import numpy as np
import tensorflow as tf
import pandas as pd
from google.colab import drive
from sklearn.model_selection import train_test_split

# Mount Google Drive dan Load Data

In [None]:
# Melakukan mount pada Google Drive
drive.mount('/content/drive')

# Membuat direktori jika belum ada
os.makedirs('/content/images', exist_ok=True)

# Menentukan path file ZIP di Google Drive
zip_path = '/content/drive/MyDrive/Data.zip'

# Membuat objek zip_ref
zip_ref = zipfile.ZipFile(zip_path, 'r')

# Mengekstrak file ZIP
extract_path = '/content/images'
zip_ref.extractall(extract_path)

# Tutup objek zip_ref setelah selesai
zip_ref.close()

Mounted at /content/drive


In [None]:
import os

# Mendefinisikan path direktori dataset
dataset_dir = '/content/images/Data'

# Fungsi untuk memeriksa duplikat dalam folder tertentu
def check_duplicates(folder_path):
    print(f"Memeriksa duplikat di {folder_path}")

    # Membuat list semua file dalam folder
    all_files = []
    for root, dirs, files in os.walk(folder_path):
        all_files.extend(files)

    # Menghitung jumlah file sebelum penghapusan duplikat
    initial_file_count = len(all_files)

    # Menghapus duplikat
    unique_files = set(all_files)

    # Menghitung jumlah file setelah penghapusan duplikat
    final_file_count = len(unique_files)

    # Cetak hasil
    print(f"Jumlah file sebelum penghapusan duplikat: {initial_file_count}")
    print(f"Jumlah file setelah penghapusan duplikat: {final_file_count}")

    # Jika terdapat duplikat, tampilkan file yang duplikat
    if initial_file_count > final_file_count:
        duplicate_files = [file for file in all_files if all_files.count(file) > 1]
        print("File duplikat:")
        print(duplicate_files)
    else:
        print("Tidak ada duplikat.")

# Memeriksa duplikat untuk setiap folder di dalam dataset_dir
for folder_name in os.listdir(dataset_dir):
    if folder_name not in ['train', 'test']:
        folder_path = os.path.join(dataset_dir, folder_name)
        check_duplicates(folder_path)


Memeriksa duplikat di /content/images/Data/angka 1
Jumlah file sebelum penghapusan duplikat: 459
Jumlah file setelah penghapusan duplikat: 459
Tidak ada duplikat.
Memeriksa duplikat di /content/images/Data/angka 9
Jumlah file sebelum penghapusan duplikat: 151
Jumlah file setelah penghapusan duplikat: 151
Tidak ada duplikat.
Memeriksa duplikat di /content/images/Data/angka 7
Jumlah file sebelum penghapusan duplikat: 91
Jumlah file setelah penghapusan duplikat: 91
Tidak ada duplikat.
Memeriksa duplikat di /content/images/Data/angka 3
Jumlah file sebelum penghapusan duplikat: 149
Jumlah file setelah penghapusan duplikat: 149
Tidak ada duplikat.
Memeriksa duplikat di /content/images/Data/angka 2
Jumlah file sebelum penghapusan duplikat: 210
Jumlah file setelah penghapusan duplikat: 210
Tidak ada duplikat.
Memeriksa duplikat di /content/images/Data/angka 6
Jumlah file sebelum penghapusan duplikat: 56
Jumlah file setelah penghapusan duplikat: 56
Tidak ada duplikat.
Memeriksa duplikat di /con

In [None]:
# Mendefinisikan path direktori dataset
dataset_dir = os.path.join(extract_path, 'Data')
train_dir = os.path.join(dataset_dir, 'train')
test_dir = os.path.join(dataset_dir, 'test')
list_angka = sorted(os.listdir(dataset_dir))

# Mendefinisikan proporsi pembagian subset data
train_ratio = 0.8
test_ratio = 0.2

print(list_angka)

['angka 0', 'angka 1', 'angka 2', 'angka 3', 'angka 4', 'angka 5', 'angka 6', 'angka 7', 'angka 8', 'angka 9']


In [None]:
for angka in list_angka:
    class_dir = os.path.join(dataset_dir, angka)
    image_files = os.listdir(class_dir)
    random.shuffle(image_files)

    train_files, test_files = train_test_split(image_files, test_size=test_ratio, random_state=42)

    for file_name in train_files:
        src_path = os.path.join(class_dir, file_name)
        dst_path = os.path.join(train_dir, angka, file_name)
        if os.path.isdir(src_path):
            shutil.copytree(src_path, dst_path)
        else:
            os.makedirs(os.path.dirname(dst_path), exist_ok=True)
            shutil.copy2(src_path, dst_path)

    for file_name in test_files:
        src_path = os.path.join(class_dir, file_name)
        dst_path = os.path.join(test_dir, angka, file_name)
        if os.path.isdir(src_path):
            shutil.copytree(src_path, dst_path)
        else:
            os.makedirs(os.path.dirname(dst_path), exist_ok=True)
            shutil.copy2(src_path, dst_path)


In [None]:
def count_images(directory):
    return sum(1 for file in os.listdir(directory) if file.endswith(('.jpg', '.jpeg', '.png', '.gif')))

# Menghitung jumlah gambar di data train
train_image_count = sum(count_images(os.path.join(train_dir, angka)) for angka in list_angka)

# Menghitung jumlah gambar di data test
test_image_count = sum(count_images(os.path.join(test_dir, angka)) for angka in list_angka)

print(f"Jumlah gambar di data train: {train_image_count}")
print(f"Jumlah gambar di data test: {test_image_count}")

Jumlah gambar di data train: 1763
Jumlah gambar di data test: 445


In [None]:
from google.colab import files
import shutil

# Menentukan path folder train dan test di Colab
train_dir_colab = '/content/images/Data/train'
test_dir_colab = '/content/images/Data/test'

# Membuat zip file dari folder train
shutil.make_archive('/content/train', 'zip', train_dir_colab)

# Membuat zip file dari folder test
shutil.make_archive('/content/test', 'zip', test_dir_colab)

# Mengunduh file zip
files.download('/content/train.zip')
files.download('/content/test.zip')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>