In [None]:
"""
w tym pliku badam, jakie zdjęcia i jaką strukture mają dane, które są na kagglu, który nam przypadł. 
Na końcu zdecydowałem się na usunięcie 6 folderów z DATA, ponieważ
były to duplikaty folderów z train_test_valid/train/
doatkowo wychodzi na to, że zdjęcia z test i valid nie pojawiają sie w train, więc możemy zacząć pracować na tych zbiorach
"""

'\nw tym pliku badam, jakie zdjęcia i jaką strukture mają dane, które są na kagglu, który nam przypadł. \nNa końcu zdecydowałem się na usunięcie 6 folderów z DATA, ponieważ\nbyły to duplikaty folderów z train_test_valid/train/\n'

In [1]:
import os
import hashlib
from collections import defaultdict

# 📍 Ścieżka główna do folderu z danymi
DATA_PATH = "DATA"

def list_folder_structure(base_path):
    """
    Rekurencyjnie wypisuje strukturę katalogów i liczbę zdjęć.
    """
    print("📂 Struktura folderów:\n")
    for root, dirs, files in os.walk(base_path):
        level = root.replace(base_path, '').count(os.sep)
        indent = ' ' * 4 * level
        num_images = len([f for f in files if f.lower().endswith(('.png', '.jpg', '.jpeg'))])
        print(f"{indent}- {os.path.basename(root)} ({num_images} zdjęć)")

list_folder_structure(DATA_PATH)


📂 Struktura folderów:

- DATA (0 zdjęć)
    - barrel_jellyfish (150 zdjęć)
    - blue_jellyfish (150 zdjęć)
    - compass_jellyfish (150 zdjęć)
    - lions_mane_jellyfish (150 zdjęć)
    - mauve_stinger_jellyfish (150 zdjęć)
    - Moon_jellyfish (150 zdjęć)
    - Train_Test_Valid (0 zdjęć)
        - test (0 zdjęć)
            - barrel_jellyfish (5 zdjęć)
            - blue_jellyfish (7 zdjęć)
            - compass_jellyfish (7 zdjęć)
            - lions_mane_jellyfish (8 zdjęć)
            - mauve_stinger_jellyfish (7 zdjęć)
            - Moon_jellyfish (6 zdjęć)
        - Train (0 zdjęć)
            - barrel_jellyfish (150 zdjęć)
            - blue_jellyfish (150 zdjęć)
            - compass_jellyfish (150 zdjęć)
            - lions_mane_jellyfish (150 zdjęć)
            - mauve_stinger_jellyfish (150 zdjęć)
            - Moon_jellyfish (150 zdjęć)
        - valid (0 zdjęć)
            - barrel_jellyfish (5 zdjęć)
            - blue_jellyfish (7 zdjęć)
            - compass_jellyfish 

In [3]:
import os
import hashlib
from collections import defaultdict

DATA_PATH = "DATA"

def get_all_image_hashes(root_folder):
    """
    Dla każdej podkategorii w strukturze danych zwraca mapę hash -> lista lokalizacji.
    """
    hash_map = defaultdict(list)

    for root, _, files in os.walk(root_folder):
        for file in files:
            if file.lower().endswith(('.png', '.jpg', '.jpeg')):
                filepath = os.path.join(root, file)
                with open(filepath, 'rb') as f:
                    file_hash = hashlib.md5(f.read()).hexdigest()
                    hash_map[file_hash].append(filepath)

    return hash_map

# 📦 Zbieramy wszystkie hashe i ich lokalizacje
image_hashes = get_all_image_hashes(DATA_PATH)

# 🧹 Sprawdzamy, czy są powtórzenia
duplicates = {h: paths for h, paths in image_hashes.items() if len(paths) > 1}

# 📊 Raport
print(f"🔎 Liczba unikalnych zdjęć: {len(image_hashes)}")
print(f"⚠️ Liczba hashy przypisanych do więcej niż jednego zdjęcia: {len(duplicates)}\n")

if duplicates:
    print("📌 Duplikaty znalezione!\n")
    for i, (h, paths) in enumerate(duplicates.items(), 1):
        print(f"{i}. Hash: {h}")
        for p in paths:
            print(f"   - {p}")
        print()
else:
    print("✅ Brak duplikatów – każdy obraz jest przypisany do dokładnie jednej lokalizacji.\n")


🔎 Liczba unikalnych zdjęć: 979
⚠️ Liczba hashy przypisanych do więcej niż jednego zdjęcia: 900

📌 Duplikaty znalezione!

1. Hash: be14051e0542c6a36ad79f08d5e5f520
   - DATA\barrel_jellyfish\01.jpeg
   - DATA\Train_Test_Valid\Train\barrel_jellyfish\01.jpeg

2. Hash: 32db529f7a826ccef144a4f8ac3d8c97
   - DATA\barrel_jellyfish\02.jpg
   - DATA\Train_Test_Valid\Train\barrel_jellyfish\02.jpg

3. Hash: e1fd2460e027881f35ed84d0dbbebc57
   - DATA\barrel_jellyfish\03.jpg
   - DATA\Train_Test_Valid\Train\barrel_jellyfish\03.jpg

4. Hash: ed79f52df99e871d3c2b00804355cc63
   - DATA\barrel_jellyfish\04.jpg
   - DATA\Train_Test_Valid\Train\barrel_jellyfish\04.jpg

5. Hash: 5b977f95809f3a2aa2167ab2d36c0950
   - DATA\barrel_jellyfish\05.jpg
   - DATA\Train_Test_Valid\Train\barrel_jellyfish\05.jpg

6. Hash: cf8b879ada0c5b37146e3a5e9af0a8f2
   - DATA\barrel_jellyfish\06.jpg
   - DATA\Train_Test_Valid\Train\barrel_jellyfish\06.jpg

7. Hash: f6535d5dfc322c2c7c32d80f8dd1a9e4
   - DATA\barrel_jellyfish\07.j

In [4]:
import shutil

to_remove = [
    "DATA/barrel_jellyfish",
    "DATA/blue_jellyfish",
    "DATA/compass_jellyfish",
    "DATA/lions_mane_jellyfish",
    "DATA/mauve_stinger_jellyfish",
    "DATA/Moon_jellyfish"
]

for folder in to_remove:
    shutil.rmtree(folder)
    print(f"✅ Usunięto folder: {folder}")


✅ Usunięto folder: DATA/barrel_jellyfish
✅ Usunięto folder: DATA/blue_jellyfish
✅ Usunięto folder: DATA/compass_jellyfish
✅ Usunięto folder: DATA/lions_mane_jellyfish
✅ Usunięto folder: DATA/mauve_stinger_jellyfish
✅ Usunięto folder: DATA/Moon_jellyfish


In [None]:
#komentarz