Nel seguente file avviene la creazione del dataset "spectrum_train_dataset.csv" contenente 60.000 path di immagini traslate nello spazio delle frequenze con Fourier. 30.000 path di immagini fake sono stati presi dalle cartelle "biggan_spectrum", latendiff_spectrum" e "tt-cc_spectrum" (taming_transformer"), e 30.000 reali sono stati presi dalla cartella "coco", più nello specifico dalla sotto-cartella "train_spectrum".

In [1]:
import pandas as pd
import os
import random

In [2]:
current_dir = os.getcwd()
# Definiamo le cartelle delle immagini
real_image_folder = os.path.join(current_dir, "dataset", "coco", "coco", "coco2017", "train_spectrum") #Spettri di immagini reali
biggan_spectrum_path = os.path.join(current_dir, "dataset", "big_gan", "big", "biggan-spectrum") #Spettri di immagini generate dal modello BigGan
latentdiff_spectrum_path = os.path.join(current_dir, "dataset", "latent_diffusion", "latentdiff_spectrum") #Spettri di immagini generate dal modello Latent Diffusion
tamingtransformer_spectrum_path = os.path.join(current_dir, "dataset", "taming_transformer", "tt-cc_spectrum") #Spettri di immagini generate dal modello Tamming Transformer

fake_image_folder = [biggan_spectrum_path, latentdiff_spectrum_path, tamingtransformer_spectrum_path]

In [3]:
# Ottieniamo i percorsi relativi per le immagini reali
real_image_paths = []
for root, dirs, files in os.walk(real_image_folder):
    for filename in files:
        if filename.endswith(".jpg"):
            real_image_paths.append(os.path.relpath(os.path.join(root, filename)))

# Ottieniamo i percorsi relativi per le immagini fake
fake_image_paths = []
for folder in fake_image_folder:
    for root, dirs, files in os.walk(folder):
        for filename in files:
            if filename.endswith(".jpg"):
                fake_image_paths.append(os.path.relpath(os.path.join(root, filename)))

In [4]:
# Mescoliamo casualmente i percorsi delle immagini
random.shuffle(real_image_paths)
random.shuffle(fake_image_paths)

In [5]:
# Prendiamo casualmente 30.000 percorsi per ogni cartella
real_image_paths = random.sample(real_image_paths, 30000)
fake_image_paths = random.sample(fake_image_paths, 30000)

In [6]:
# Creiamo una lista di tuple che rappresentano le righe del dataframe
rows = []
for _ in range(30000):
    anchor_real = random.choice(real_image_paths)
    positive_real = random.choice(real_image_paths)
    negative_fake = random.choice(fake_image_paths)
    rows.append((anchor_real, positive_real, negative_fake))

for _ in range(30000):
    anchor_fake = random.choice(fake_image_paths)
    positive_fake = random.choice(fake_image_paths)
    negative_real = random.choice(real_image_paths)
    rows.append((anchor_fake, positive_fake, negative_real))

# Mescoliamo casualmente le righe
random.shuffle(rows)


In [7]:
# Creiamo il dataframe utilizzando le righe mescolate
df = pd.DataFrame(rows, columns=['Anchor', 'Positive', 'Negative'])

# Salviamo il dataframe in un file CSV
df.to_csv('spectrum_train_dataset.csv', index=False)