In [1]:
import os
import pandas as pd # dataframe library
import tensorflow as tf # neural network library
import numpy as np # quick and efficient math library
import matplotlib.pyplot as plt # plottinng in python library
import plotly.express as px
import random
import shutil

from shutil import copyfile
from sklearn.preprocessing import LabelEncoder # for label encoding
from sklearn.preprocessing import OneHotEncoder # for one hot encoding of labels
from sklearn.model_selection import train_test_split # to split our dataset in training and test set



In [2]:
import os
# ... (andere Imports) ...

# ----------------------------------------------------
# 1. Lokale Pfade definieren (Ersetzt die festen Colab-Pfade)
# ----------------------------------------------------

# Skript liegt in CodeSachen. ".." geht eine Ebene hoch zu "InnoProjekt".
BASE_DIR_OUTPUT = ".." 

# Quellverzeichnisse (Originalbilder)
CAT_DIR = "../DatensatzSachen/PetImages/Cat"
DOG_DIR = "../DatensatzSachen/PetImages/Dog"

# Zielverzeichnisse (Hauptordner)
TRAINING_DIR = os.path.join(BASE_DIR_OUTPUT, "training")
VALIDATION_DIR = os.path.join(BASE_DIR_OUTPUT, "validation")
TESTING_DIR = os.path.join(BASE_DIR_OUTPUT, "testing") # Muss hier definiert werden!

# Zielverzeichnisse (Unterordner für die Klassen)
TRAINING_CATS = os.path.join(TRAINING_DIR, "cats")
VALIDATION_CATS = os.path.join(VALIDATION_DIR, "cats")
TESTING_CATS = os.path.join(TESTING_DIR, "cats") 

TRAINING_DOGS = os.path.join(TRAINING_DIR, "dogs")
VALIDATION_DOGS = os.path.join(VALIDATION_DIR, "dogs")
TESTING_DOGS = os.path.join(TESTING_DIR, "dogs") 

INCLUDE_TEST = True 

# ----------------------------------------------------
# 2. Ordnerstruktur erstellen
# ----------------------------------------------------

try:
    # os.makedirs erstellt alle notwendigen Ordner
    os.makedirs(TRAINING_CATS, exist_ok=True)
    os.makedirs(TRAINING_DOGS, exist_ok=True)
    os.makedirs(VALIDATION_CATS, exist_ok=True)
    os.makedirs(VALIDATION_DOGS, exist_ok=True)
    os.makedirs(TESTING_CATS, exist_ok=True)
    os.makedirs(TESTING_DOGS, exist_ok=True)
    
    print("Verzeichnisstruktur erfolgreich lokal erstellt.")

except OSError as e:
    print(f"Fehler beim Erstellen der Verzeichnisse: {e}")

Verzeichnisstruktur erfolgreich lokal erstellt.


In [3]:
# ----------------------------------------------------
# 3. Funktion zum Aufteilen und Kopieren definieren
# ----------------------------------------------------
def split_data(main_dir, training_dir, validation_dir, test_dir, include_test_split=True, split_size=0.9):
    """
    Teilt Dateien aus einem Hauptverzeichnis (main_dir) zufällig in 
    Trainings-, Validierungs- und Testverzeichnisse auf und kopiert sie dorthin.
    """
    files = []
    # 1. Alle Dateinamen sammeln und leere Dateien ignorieren
    for filename in os.listdir(main_dir):
        if os.path.getsize(os.path.join(main_dir, filename)) == 0:
            print(f"Datei '{filename}' ist null groß, wird ignoriert.")
        else:
            files.append(filename)

    # 2. Dateien zufällig mischen
    shuffled_files = np.random.permutation(files)
    
    # 3. Splits berechnen
    # 'split' ist der Index, der den Trainingsanteil vom Rest trennt (90%)
    split = int(split_size * len(shuffled_files)) 
    
    # Der Rest (10%) wird weiter in Validierung und Test aufgeteilt (falls include_test_split=True)
    # Wenn Test dabei ist, teilt split_validation_test den Rest in Validation und Test (je 5%)
    split_validation_test = int(split + (len(shuffled_files) - split) / 2)

    train = shuffled_files[:split]
    
    # 4. Validierungs- und Test-Sets zuweisen
    if include_test_split:
        validation = shuffled_files[split:split_validation_test]
        test = shuffled_files[split_validation_test:]
    else:
        # Wenn kein Test-Split gewünscht, geht der gesamte Rest in Validation
        validation = shuffled_files[split:]
        test = [] # Das Test-Set bleibt leer
        
    # 5. Dateien in die Zielordner kopieren
    # Kopieren ins Training-Verzeichnis
    for element in train:
        shutil.copyfile(os.path.join(main_dir, element), os.path.join(training_dir, element))

    # Kopieren ins Validation-Verzeichnis
    for element in validation:
        shutil.copyfile(os.path.join(main_dir, element), os.path.join(validation_dir, element))

    # Kopieren ins Test-Verzeichnis
    if include_test_split:
        for element in test:
            shutil.copyfile(os.path.join(main_dir, element), os.path.join(test_dir, element))
            
    print("Split erfolgreich!")


# ----------------------------------------------------
# 4. Funktion aufrufen und Datentransfer starten
# ----------------------------------------------------
# Aufruf für Katzen
split_data(CAT_DIR, TRAINING_CATS, VALIDATION_CATS, TESTING_CATS, INCLUDE_TEST, split_size=0.9) 
# Aufruf für Hunde
split_data(DOG_DIR, TRAINING_DOGS, VALIDATION_DOGS, TESTING_DOGS, INCLUDE_TEST, split_size=0.9)

Datei '666.jpg' ist null groß, wird ignoriert.
Split erfolgreich!
Datei '11702.jpg' ist null groß, wird ignoriert.
Split erfolgreich!
