In [1]:
# Imports

from mpl_toolkits.mplot3d import Axes3D
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd 
#!pip install -q kagglehub
import kagglehub
import shutil
import csv

import random

import PIL.Image as Image

# Achtung, dauert sehr lange
# Load Data

target_dir = "plant_data"
os.makedirs(target_dir, exist_ok=True)


path = kagglehub.dataset_download("emmarex/plantdisease")

for item in os.listdir(path):
    src = os.path.join(path, item)
    dst = os.path.join(target_dir, item)
    
    if os.path.isdir(src):
        shutil.copytree(src, dst, dirs_exist_ok=True)
    else:
        shutil.copy2(src, dst)

print(f"Dataset erfolgreich in '{target_dir}' kopiert.")

In [2]:
# Dataframe mit Link zu Bild und Ordnername als Label

# Absoluter Pfad zum Hauptverzeichnis mit den Bildern
base_path = os.path.abspath(r"plant_data/PlantVillage")

# CSV-Datei erstellen
csv_file = "image_data.csv"

# Bilddaten sammeln
image_data = []

# Überprüfen, ob der Pfad existiert
if not os.path.exists(base_path):
    print(f"FEHLER: Der Pfad '{base_path}' existiert nicht!")
    exit()

print(f"Durchsuche '{base_path}' nach Bildern...")

# Durchlaufe alle Unterordner und sammle Bilder
for root, _, files in os.walk(base_path):
    label = os.path.basename(root)  # Letzter Ordnername als Label
    
    for file in files:
        if file.lower().endswith((".jpg", ".png", ".jpeg", "JPG")):  # Nur Bilddateien
            image_path = os.path.join(root, file)

            # Prüfen, ob die Datei wirklich existiert
            if not os.path.exists(image_path):
                print(f"FEHLER: Datei '{image_path}' nicht gefunden!")
                continue

            image_url = f"file://{os.path.abspath(image_path)}"  # Lokale URL zum Bild
            image_data.append([image_url, label])

# Prüfen, ob Bilder gefunden wurden
if not image_data:
    print("WARNUNG: Keine Bilder gefunden!")

# CSV-Datei speichern
with open(csv_file, mode="w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["url", "label"])  # Spaltenüberschriften
    writer.writerows(image_data)

print(f"CSV-Datei '{csv_file}' erfolgreich erstellt mit {len(image_data)} Einträgen!")



Durchsuche '/tf/workfiles/ZHAW/Machine Intelligence/Deep Learning/Arbeit/plant_data/PlantVillage' nach Bildern...
CSV-Datei 'image_data.csv' erfolgreich erstellt mit 20638 Einträgen!


In [None]:
# Einlesen und erste 5 Beispiele prüfen

# CSV-Datei einlesen
csv_file = "image_data.csv"
df = pd.read_csv(csv_file)

# Erste 5 Zeilen ausgeben
print(df.head())
print(df.tail())


In [None]:
# Duplikate und NaN prüfen

# CSV-Datei einlesen
csv_file = "image_data.csv"
df = pd.read_csv(csv_file)

# Doppelte Zeilen anzeigen
duplicates = df[df.duplicated()]
print(f"Duplikate: ' {duplicates}'")

# Leere Werte prüfen
empty_entries = df[df["url"].isna() | df["label"].isna()]

# Ergebnis anzeigen
print(f"Leere Einträge: ' {empty_entries}'")

In [None]:
# 1 random Bild von jeder Klasse

# CSV-Datei einlesen
csv_file = "image_data.csv"
df = pd.read_csv(csv_file)

# Dictionary für zufällige Bildauswahl pro Label
random_images = {}

# Ein zufälliges Bild für jedes Label auswählen
for label in df["label"].unique():
    images = df[df["label"] == label]["url"].tolist()
    if images:  # Falls Bilder für das Label existieren
        random_images[label] = random.choice(images)

# Bilder anzeigen
for label, image_path in random_images.items():
    image_path = image_path.replace("file://", "")  # Korrektur der Dateipfade
    
    try:
        print(f"Label: {label}")  # Label ausgeben
        img = Image.open(image_path)  # Bild mit PIL öffnen
        plt.figure(figsize=(4, 4))
        plt.imshow(img)
        plt.axis("off")
        plt.title(label)
        plt.show()
    except Exception as e:
        print(f"Fehler: Bild '{image_path}' konnte nicht geladen werden! ({e})")


In [None]:
# Verteilung der Daten

# CSV-Datei einlesen
csv_file = "image_data.csv"
df = pd.read_csv(csv_file)

# Label-Häufigkeiten berechnen
label_counts = df["label"].value_counts()

# Balkendiagramm erstellen
plt.figure(figsize=(10, 5))
label_counts.plot(kind="bar", color="skyblue", edgecolor="black")

plt.xlabel("Label")
plt.ylabel("Anzahl der Bilder")
plt.title("Verteilung der Labels")
plt.xticks(rotation=45, ha="right")  # Labels lesbar machen
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()

In [None]:
# Resize alle Bilder

import pandas as pd
import os
import PIL.Image as Image

# CSV-Datei einlesen
csv_file = "image_data.csv"
df = pd.read_csv(csv_file)

# Zielgröße
target_size = (60, 60)

# Speicherordner für neue Bilder
output_folder = "resized_images"
os.makedirs(output_folder, exist_ok=True)

# Liste für neue CSV-Daten
new_image_data = []

# Bilder bearbeiten
for index, row in df.iterrows():
    image_path = row["url"].replace("file://", "")  # Pfad korrigieren
    label = row["label"]
    
    try:
        img = Image.open(image_path)  # Bild öffnen
        
        # Originalgrößen abrufen
        width, height = img.size
        max_dim = max(width, height)
        
        # Neues leeres Bild in Weiß erstellen (quadratisch)
        square_img = Image.new("RGB", (max_dim, max_dim), (255, 255, 255))
        
        # Bild mittig in das weiße Quadrat einfügen
        paste_x = (max_dim - width) // 2
        paste_y = (max_dim - height) // 2
        square_img.paste(img, (paste_x, paste_y))
        
        # Auf 40x40 skalieren
        resized_img = square_img.resize(target_size, Image.LANCZOS)
        
        # Neues Bild speichern
        new_filename = f"{index}_{label}.jpg"
        new_path = os.path.join(output_folder, new_filename)
        resized_img.save(new_path)

        # Neue CSV-Daten hinzufügen
        new_image_data.append([f"file://{os.path.abspath(new_path)}", label])

        print(f"✔ Bild gespeichert: {new_path}")
        
    except Exception as e:
        print(f"❌ Fehler beim Verarbeiten von {image_path}: {e}")

# Neues CSV-File speichern
new_csv_file = "resized_image_data.csv"
df_new = pd.DataFrame(new_image_data, columns=["url", "label"])
df_new.to_csv(new_csv_file, index=False)

print(f"✔ Neues CSV '{new_csv_file}' erfolgreich gespeichert!")

In [None]:
# Zeige 1 random Bild von jeder Klasse

# CSV-Datei einlesen
csv_file = "resized_image_data.csv"
df = pd.read_csv(csv_file)

# Dictionary für zufällige Bildauswahl pro Label
random_images = {}

# Ein zufälliges Bild für jedes Label auswählen
for label in df["label"].unique():
    images = df[df["label"] == label]["url"].tolist()
    if images:  # Falls Bilder für das Label existieren
        random_images[label] = random.choice(images)

# Bilder anzeigen
for label, image_path in random_images.items():
    image_path = image_path.replace("file://", "")  # Korrektur der Dateipfade
    
    try:
        print(f"Label: {label}")  # Label ausgeben
        img = Image.open(image_path)  # Bild mit PIL öffnen
        plt.figure(figsize=(4, 4))
        plt.imshow(img)
        plt.axis("off")
        plt.title(label)
        plt.show()
    except Exception as e:
        print(f"Fehler: Bild '{image_path}' konnte nicht geladen werden! ({e})")