Source dir to CSV file

In [7]:
import os
import pandas as pd

def generate_and_sort_dataset_csv(data_dir, output_csv):
    """
    Generuje plik CSV z unikalnymi ID dla każdego ziarna uwzględniając klasę,
    a następnie sortuje dane po tych ID.

    Args:
        data_dir (str): Ścieżka do głównego katalogu danych.
        output_csv (str): Ścieżka do pliku wyjściowego CSV.
    """
    # Lista do przechowywania informacji o plikach
    data = []

    # Przejdź przez wszystkie pliki w katalogach klas
    for class_name in os.listdir(data_dir):
        class_dir = os.path.join(data_dir, class_name)
        
        # Sprawdź, czy to katalog (klasa)
        if os.path.isdir(class_dir):
            for file_name in os.listdir(class_dir):
                file_path = os.path.join(class_dir, file_name)
                
                # Sprawdź, czy to plik z rozszerzeniem .png
                if os.path.isfile(file_path) and file_name.endswith(".png"):
                    # Wyciągnij id ziarna z nazwy pliku (fragment przed _T/_B/_S)
                    seed_id = file_name.split("_")[0]

                    # Dodaj dane do listy
                    data.append({
                        "class": class_name,  # Klasa to nazwa katalogu nadrzędnego
                        "seed_id": seed_id,   # Tymczasowy identyfikator ziarna
                        "path": file_path,    # Pełna ścieżka do pliku
                    })

    # Utwórz DataFrame
    df = pd.DataFrame(data)

    # Tworzenie unikalnego identyfikatora (klasa + seed_id)
    df['unique_key'] = df['class'] + "_" + df['seed_id']

    # Mapowanie unikalnych identyfikatorów na numery od 0 w górę
    unique_keys = {key: idx for idx, key in enumerate(df['unique_key'].unique())}
    df['id'] = df['unique_key'].map(unique_keys)

    # Usuń tymczasowe kolumny `seed_id` i `unique_key`
    df.drop(columns=['seed_id', 'unique_key'], inplace=True)

    # Posortuj DataFrame po `id`
    df_sorted = df.sort_values(by=['id'], ascending=True)

    # Zapisz do CSV
    df_sorted.to_csv(output_csv, index=False)
    print(f"Plik CSV wygenerowany i posortowany: {output_csv}")

# Przykład użycia
data_dir = "/media/512GB_ext/preprocessed_dataset_padded_S_no_changes"  # Ścieżka do katalogu ze zbiorami danych
output_csv = "CSV/dataset/dataset.csv"     # Ścieżka do pliku wyjściowego CSV
generate_and_sort_dataset_csv(data_dir, output_csv)

Plik CSV wygenerowany i posortowany: CSV/dataset/dataset.csv


In [8]:
import pandas as pd

def count_elements_per_class(input_csv):
    """
    Zlicza liczbę elementów w każdej klasie na podstawie pliku CSV.

    Args:
        input_csv (str): Ścieżka do pliku wejściowego CSV.

    Returns:
        pd.Series: Liczba elementów w każdej klasie.
    """
    # Wczytaj plik CSV
    df = pd.read_csv(input_csv)

    # Zlicz elementy w każdej klasie
    class_counts = df['class'].value_counts()

    return class_counts

# Przykład użycia
input_csv = output_csv
class_counts = count_elements_per_class(input_csv)

# Wyświetl liczby elementów w każdej klasie
print(class_counts)

# Opcjonalnie zapisz wynik do pliku CSV
class_counts.to_csv("class_counts.csv", header=["count"], index_label="class")


class
penguin                                  29017
basil                                    29013
kws_olof                                 28043
jary_skarb_czyzczony                     27570
jary_jeczmien_skald_czyszczony_insect    27371
kws_atrika                               27048
ella                                     27006
jary_hajduczek                           26562
jary_oberek_czyszczony                   26416
nagradowicki                             25706
kucyk_insect                             24119
Name: count, dtype: int64


In [1]:
#podmianka w plikach CSV
from utils import update_csv_paths

list_names = ["test", "train", "val"]
for name in list_names:
    update_csv_paths(
        csv_path=f"CSV/dataset/{name}.csv",
        old_path="/media/512GB_ext/preprocessed_dataset_padded_S_no_changes/",
        new_path="/media/512GB_ext/pproces_dataset/80_224/",
        output_csv=f"CSV/dataset/{name}_80.csv"
    )


Zaktualizowano ścieżki w pliku: CSV/dataset/test_80.csv
Zaktualizowano ścieżki w pliku: CSV/dataset/train_80.csv
Zaktualizowano ścieżki w pliku: CSV/dataset/val_80.csv
