Cell 1 ‚Äî Setup: imports, paths, and output folders

Purpose: load libraries and define the LIGHT dataset + output files we will generate.

In [4]:
import os
from pathlib import Path
import pandas as pd
import numpy as np
from tqdm import tqdm
from PIL import Image

tqdm.pandas()

CSV_LIGHT = "data/laion_big_light_tau1_0.2989.csv"

OUT_DIR = Path("data/week4_dedup_light")
OUT_DIR.mkdir(parents=True, exist_ok=True)

PHASH_CACHE = OUT_DIR / "light_with_phash_cache.csv"   # progressive save
DEDUP_OUT = OUT_DIR / "light_phash_dedup.csv"
SUMMARY_OUT = OUT_DIR / "week4_light_dedup_summary.json"

print("Input:", CSV_LIGHT)
print("Output dir:", OUT_DIR)


Input: data/laion_big_light_tau1_0.2989.csv
Output dir: data\week4_dedup_light


Cell 2 ‚Äî Load LIGHT dataset and inspect columns

Purpose: confirm dataset size and check which metadata columns are available.

In [5]:
df = pd.read_csv(CSV_LIGHT)
print("Rows:", len(df))
print("Columns:", df.columns.tolist())
df.head(3)


Rows: 107251
Columns: ['image_path', 'caption', 'width', 'height', 'similarity', 'punsafe', 'pwatermark', 'aesthetic_score', 'caption_len_words', 'exists', 'keep_quality', 'clipscore']


Unnamed: 0,image_path,caption,width,height,similarity,punsafe,pwatermark,aesthetic_score,caption_len_words,exists,keep_quality,clipscore
0,src/data/data/laion_aesthetic_subset_big\00000...,Photo pour Japanese pagoda and old house in Ky...,450.0,297.0,0.345947,0.000541,0.034099,6.526204,16,True,True,0.335841
1,src/data/data/laion_aesthetic_subset_big\00000...,San Pedro: One Of Mother Nature's Most Powerfu...,467.0,369.0,0.308873,0.000612,0.102705,6.749783,14,True,True,0.300125
2,src/data/data/laion_aesthetic_subset_big\00000...,"YZV200025S ¬© Stocktrek Images, Inc. 360 panora...",650.0,308.0,0.3321,1.3e-05,0.057178,6.529371,15,True,True,0.342683


Cell 3 ‚Äî Keep only rows with existing images (mandatory)

Purpose: remove rows whose image files are missing to avoid errors during hashing.

In [6]:
df["exists"] = df["image_path"].astype(str).apply(os.path.exists)
print("Existing images:", int(df["exists"].sum()), "/", len(df))

df = df[df["exists"]].copy()
df.reset_index(drop=True, inplace=True)
print("After dropping missing images:", len(df))


Existing images: 107251 / 107251
After dropping missing images: 107251


Cell 4 ‚Äî Diversity snapshot BEFORE deduplication

Purpose: compute baseline statistics to compare diversity before vs after deduplication.

In [7]:
def caption_len_words(x):
    if not isinstance(x, str):
        return 0
    return len(x.split())

df["caption_len_words"] = df["caption"].apply(caption_len_words)

stats_before = {
    "rows": int(len(df)),
    "caption_len_mean": float(df["caption_len_words"].mean()),
    "caption_len_median": float(df["caption_len_words"].median()),
    "width_mean": float(df["width"].mean()) if "width" in df.columns else None,
    "height_mean": float(df["height"].mean()) if "height" in df.columns else None,
    "aesthetic_mean": float(df["aesthetic_score"].mean()) if "aesthetic_score" in df.columns else None,
    "clipscore_mean": float(df["clipscore"].mean()) if "clipscore" in df.columns else None,
}
stats_before


{'rows': 107251,
 'caption_len_mean': 11.50586008522065,
 'caption_len_median': 9.0,
 'width_mean': 640.2439884010405,
 'height_mean': 555.3142441562317,
 'aesthetic_mean': 6.638642123141852,
 'clipscore_mean': 0.3257998502730627}

Cell 5 ‚Äî Exact deduplication by image_path (fast)

Purpose: remove exact repeated entries that point to the same local file path.

In [8]:
dup_paths = int(df.duplicated("image_path").sum())
print("Exact duplicates by image_path:", dup_paths)

df_exact = df.drop_duplicates("image_path").copy()
df_exact.reset_index(drop=True, inplace=True)

print("Before:", len(df), "After exact path dedup:", len(df_exact))


Exact duplicates by image_path: 0
Before: 107251 After exact path dedup: 107251


Cell 6 ‚Äî Install ImageHash (only if not installed)

Purpose: ensure the library for perceptual hashing (pHash) is available.

In [9]:
pip install imagehash


Collecting imagehash
  Downloading ImageHash-4.3.2-py2.py3-none-any.whl.metadata (8.4 kB)
Collecting PyWavelets (from imagehash)
  Downloading pywavelets-1.8.0-cp310-cp310-win_amd64.whl.metadata (9.0 kB)
Collecting scipy (from imagehash)
  Downloading scipy-1.15.3-cp310-cp310-win_amd64.whl.metadata (60 kB)
Downloading ImageHash-4.3.2-py2.py3-none-any.whl (296 kB)
Downloading pywavelets-1.8.0-cp310-cp310-win_amd64.whl (4.2 MB)
   ---------------------------------------- 0.0/4.2 MB ? eta -:--:--
   ---------------------- ----------------- 2.4/4.2 MB 11.2 MB/s eta 0:00:01
   ---------------------------------------- 4.2/4.2 MB 11.0 MB/s  0:00:00
Downloading scipy-1.15.3-cp310-cp310-win_amd64.whl (41.3 MB)
   ---------------------------------------- 0.0/41.3 MB ? eta -:--:--
   -- ------------------------------------- 2.4/41.3 MB 12.2 MB/s eta 0:00:04
   ---- ----------------------------------- 4.7/41.3 MB 11.9 MB/s eta 0:00:04
   ------- -------------------------------- 7.3/41.3 MB 11.9 MB



Cell 7 ‚Äî Define pHash function (robust image loading)

Purpose: compute a perceptual hash that detects visually similar images (near-duplicates).

In [10]:
import imagehash

def compute_phash(path: str) -> str:
    img = Image.open(path).convert("RGB")
    return str(imagehash.phash(img))  # returns a compact hash string


Cell 8 ‚Äî Resume if cache exists (avoid recomputing pHash)

Purpose: if the notebook stops, reload previous hashes and continue from remaining images.

In [11]:
if PHASH_CACHE.exists():
    print("‚úÖ Found cache:", PHASH_CACHE)
    df_hash = pd.read_csv(PHASH_CACHE)
    # Ensure correct columns exist
    if "phash" not in df_hash.columns:
        df_hash["phash"] = np.nan
else:
    print("‚ÑπÔ∏è No cache found. Creating a new one.")
    df_hash = df_exact.copy()
    df_hash["phash"] = np.nan

print("Rows in working dataframe:", len(df_hash))
print("Already hashed:", int(df_hash["phash"].notna().sum()))
print("Remaining:", int(df_hash["phash"].isna().sum()))



‚ÑπÔ∏è No cache found. Creating a new one.
Rows in working dataframe: 107251
Already hashed: 0
Remaining: 107251


Cell 9 ‚Äî Compute pHash for ALL 107k (progressive checkpointing)

Purpose: compute pHash for every image and save progress regularly to avoid losing work.

In [12]:
SAVE_EVERY = 1000  # save every N images

remaining_idx = df_hash.index[df_hash["phash"].isna()].to_list()
print("To hash:", len(remaining_idx))

for k, i in enumerate(tqdm(remaining_idx, desc="üîê Computing pHash (LIGHT 107k)")):
    try:
        df_hash.at[i, "phash"] = compute_phash(df_hash.at[i, "image_path"])
    except Exception:
        df_hash.at[i, "phash"] = np.nan  # keep as NaN if image is corrupted

    if (k + 1) % SAVE_EVERY == 0:
        df_hash.to_csv(PHASH_CACHE, index=False)
        print(f"üíæ Saved checkpoint: {PHASH_CACHE} | hashed: {int(df_hash['phash'].notna().sum())}/{len(df_hash)}")

# final save
df_hash.to_csv(PHASH_CACHE, index=False)
print("‚úÖ Final pHash cache saved:", PHASH_CACHE)



To hash: 107251


  df_hash.at[i, "phash"] = compute_phash(df_hash.at[i, "image_path"])
üîê Computing pHash (LIGHT 107k):   1%|‚ñé                                     | 1022/107251 [00:08<46:37, 37.98it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 1000/107251


üîê Computing pHash (LIGHT 107k):   2%|‚ñã                                     | 2016/107251 [00:16<43:59, 39.87it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 2000/107251


üîê Computing pHash (LIGHT 107k):   3%|‚ñà                                     | 3027/107251 [00:24<37:58, 45.74it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 3000/107251


üîê Computing pHash (LIGHT 107k):   4%|‚ñà‚ñç                                    | 4019/107251 [00:33<35:36, 48.32it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 4000/107251


üîê Computing pHash (LIGHT 107k):   5%|‚ñà‚ñä                                    | 5018/107251 [00:41<39:27, 43.19it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 5000/107251


üîê Computing pHash (LIGHT 107k):   6%|‚ñà‚ñà                                  | 6011/107251 [00:50<1:04:20, 26.22it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 6000/107251


üîê Computing pHash (LIGHT 107k):   7%|‚ñà‚ñà‚ñç                                   | 7027/107251 [00:59<38:57, 42.87it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 7000/107251


üîê Computing pHash (LIGHT 107k):   7%|‚ñà‚ñà‚ñä                                   | 8018/107251 [01:06<33:21, 49.57it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 8000/107251


üîê Computing pHash (LIGHT 107k):   8%|‚ñà‚ñà‚ñà‚ñè                                  | 9020/107251 [01:14<33:54, 48.28it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 9000/107251


üîê Computing pHash (LIGHT 107k):   9%|‚ñà‚ñà‚ñà‚ñç                                 | 10017/107251 [01:22<37:28, 43.24it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 10000/107251


üîê Computing pHash (LIGHT 107k):  10%|‚ñà‚ñà‚ñà‚ñä                                 | 11012/107251 [01:30<47:13, 33.96it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 11000/107251


üîê Computing pHash (LIGHT 107k):  11%|‚ñà‚ñà‚ñà‚ñà‚ñè                                | 12017/107251 [01:39<43:25, 36.55it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 12000/107251


üîê Computing pHash (LIGHT 107k):  12%|‚ñà‚ñà‚ñà‚ñà‚ñç                                | 13009/107251 [01:47<43:33, 36.06it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 13000/107251


üîê Computing pHash (LIGHT 107k):  13%|‚ñà‚ñà‚ñà‚ñà‚ñä                                | 14027/107251 [01:55<31:42, 48.99it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 14000/107251


üîê Computing pHash (LIGHT 107k):  14%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                               | 15027/107251 [02:03<33:40, 45.65it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 15000/107251


üîê Computing pHash (LIGHT 107k):  15%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                               | 16029/107251 [02:11<34:04, 44.62it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 16000/107251


üîê Computing pHash (LIGHT 107k):  16%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                               | 17015/107251 [02:20<37:33, 40.04it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 17000/107251


üîê Computing pHash (LIGHT 107k):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                              | 18016/107251 [02:28<40:33, 36.67it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 18000/107251


üîê Computing pHash (LIGHT 107k):  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                              | 19010/107251 [02:37<45:18, 32.45it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 19000/107251


üîê Computing pHash (LIGHT 107k):  19%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                              | 20010/107251 [02:46<47:07, 30.86it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 20000/107251


üîê Computing pHash (LIGHT 107k):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                             | 21025/107251 [02:53<26:39, 53.90it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 21000/107251


üîê Computing pHash (LIGHT 107k):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                             | 22012/107251 [03:02<42:07, 33.72it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 22000/107251


üîê Computing pHash (LIGHT 107k):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                             | 23017/107251 [03:11<36:28, 38.49it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 23000/107251


üîê Computing pHash (LIGHT 107k):  22%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                            | 24032/107251 [03:19<32:57, 42.08it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 24000/107251


üîê Computing pHash (LIGHT 107k):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                            | 25032/107251 [03:26<24:21, 56.24it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 25000/107251


üîê Computing pHash (LIGHT 107k):  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                            | 26030/107251 [03:34<28:37, 47.29it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 26000/107251


üîê Computing pHash (LIGHT 107k):  25%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                           | 26995/107251 [03:42<08:07, 164.70it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 27000/107251


üîê Computing pHash (LIGHT 107k):  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                           | 28014/107251 [03:52<30:49, 42.84it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 28000/107251


üîê Computing pHash (LIGHT 107k):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                           | 29018/107251 [04:00<30:24, 42.87it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 29000/107251


üîê Computing pHash (LIGHT 107k):  28%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                          | 30014/107251 [04:08<33:08, 38.85it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 30000/107251


üîê Computing pHash (LIGHT 107k):  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                          | 31021/107251 [04:17<27:23, 46.39it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 31000/107251


üîê Computing pHash (LIGHT 107k):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                          | 32017/107251 [04:25<33:56, 36.95it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 32000/107251


üîê Computing pHash (LIGHT 107k):  31%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                         | 33031/107251 [04:33<25:28, 48.56it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 33000/107251


üîê Computing pHash (LIGHT 107k):  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                         | 34029/107251 [04:41<21:31, 56.69it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 34000/107251


üîê Computing pHash (LIGHT 107k):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                         | 35028/107251 [04:49<22:43, 52.97it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 35000/107251


üîê Computing pHash (LIGHT 107k):  34%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                        | 36017/107251 [04:57<25:11, 47.13it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 36000/107251


üîê Computing pHash (LIGHT 107k):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                        | 37009/107251 [05:05<31:46, 36.84it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 37000/107251


üîê Computing pHash (LIGHT 107k):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                        | 38004/107251 [05:14<34:24, 33.55it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 38000/107251


üîê Computing pHash (LIGHT 107k):  36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                       | 39031/107251 [05:22<22:11, 51.25it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 39000/107251


üîê Computing pHash (LIGHT 107k):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                       | 40016/107251 [05:31<31:37, 35.43it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 40000/107251


üîê Computing pHash (LIGHT 107k):  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                      | 41018/107251 [05:39<24:18, 45.42it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 41000/107251


üîê Computing pHash (LIGHT 107k):  39%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                      | 42023/107251 [05:48<23:34, 46.12it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 42000/107251


üîê Computing pHash (LIGHT 107k):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                      | 43024/107251 [05:56<22:37, 47.33it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 43000/107251


üîê Computing pHash (LIGHT 107k):  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                     | 44022/107251 [06:06<35:00, 30.10it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 44000/107251


üîê Computing pHash (LIGHT 107k):  42%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                     | 45021/107251 [06:14<23:49, 43.54it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 45000/107251


üîê Computing pHash (LIGHT 107k):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                     | 46022/107251 [06:24<29:48, 34.24it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 46000/107251


üîê Computing pHash (LIGHT 107k):  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                    | 47011/107251 [06:34<33:24, 30.05it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 47000/107251


üîê Computing pHash (LIGHT 107k):  45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                    | 48022/107251 [06:43<23:03, 42.80it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 48000/107251


üîê Computing pHash (LIGHT 107k):  46%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                    | 49008/107251 [06:52<43:02, 22.55it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 49000/107251


üîê Computing pHash (LIGHT 107k):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                   | 50017/107251 [07:02<26:50, 35.54it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 50000/107251


üîê Computing pHash (LIGHT 107k):  48%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                   | 51013/107251 [07:12<27:14, 34.40it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 51000/107251


üîê Computing pHash (LIGHT 107k):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                   | 52023/107251 [07:22<25:58, 35.44it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 52000/107251


üîê Computing pHash (LIGHT 107k):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                  | 53031/107251 [07:31<21:14, 42.56it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 53000/107251


üîê Computing pHash (LIGHT 107k):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                  | 54032/107251 [07:39<20:10, 43.95it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 54000/107251


üîê Computing pHash (LIGHT 107k):  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                  | 55030/107251 [07:48<20:35, 42.28it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 55000/107251


üîê Computing pHash (LIGHT 107k):  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                 | 56014/107251 [07:57<25:44, 33.18it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 56000/107251


üîê Computing pHash (LIGHT 107k):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                 | 57014/107251 [08:05<24:54, 33.62it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 57000/107251


üîê Computing pHash (LIGHT 107k):  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                 | 58015/107251 [08:15<22:20, 36.74it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 58000/107251


üîê Computing pHash (LIGHT 107k):  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                | 59024/107251 [08:24<22:02, 36.46it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 59000/107251


üîê Computing pHash (LIGHT 107k):  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                | 60009/107251 [08:33<24:46, 31.78it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 60000/107251


üîê Computing pHash (LIGHT 107k):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                | 61013/107251 [08:41<21:19, 36.14it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 61000/107251


üîê Computing pHash (LIGHT 107k):  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç               | 62035/107251 [08:49<14:05, 53.47it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 62000/107251


üîê Computing pHash (LIGHT 107k):  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã               | 63024/107251 [08:58<15:13, 48.40it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 63000/107251


üîê Computing pHash (LIGHT 107k):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà               | 64035/107251 [09:05<14:23, 50.02it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 64000/107251


üîê Computing pHash (LIGHT 107k):  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç              | 65013/107251 [09:13<16:07, 43.66it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 65000/107251


üîê Computing pHash (LIGHT 107k):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä              | 66027/107251 [09:22<15:35, 44.05it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 66000/107251


üîê Computing pHash (LIGHT 107k):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà              | 67020/107251 [09:29<14:46, 45.37it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 67000/107251


üîê Computing pHash (LIGHT 107k):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç             | 68013/107251 [09:37<14:12, 46.02it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 68000/107251


üîê Computing pHash (LIGHT 107k):  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä             | 69022/107251 [09:45<15:41, 40.60it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 69000/107251


üîê Computing pHash (LIGHT 107k):  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè            | 70029/107251 [09:53<12:49, 48.34it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 70000/107251


üîê Computing pHash (LIGHT 107k):  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå            | 71026/107251 [10:01<12:30, 48.24it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 71000/107251


üîê Computing pHash (LIGHT 107k):  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä            | 72031/107251 [10:09<10:10, 57.72it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 72000/107251


üîê Computing pHash (LIGHT 107k):  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè           | 73022/107251 [10:17<11:42, 48.69it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 73000/107251


üîê Computing pHash (LIGHT 107k):  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå           | 74024/107251 [10:26<11:52, 46.62it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 74000/107251


üîê Computing pHash (LIGHT 107k):  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ           | 75014/107251 [10:34<13:11, 40.75it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 75000/107251


üîê Computing pHash (LIGHT 107k):  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè          | 76011/107251 [10:43<14:44, 35.30it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 76000/107251


üîê Computing pHash (LIGHT 107k):  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå          | 77025/107251 [10:50<09:44, 51.72it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 77000/107251


üîê Computing pHash (LIGHT 107k):  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ          | 78023/107251 [10:58<09:25, 51.70it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 78000/107251


üîê Computing pHash (LIGHT 107k):  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé         | 79013/107251 [11:06<13:49, 34.04it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 79000/107251


üîê Computing pHash (LIGHT 107k):  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå         | 80012/107251 [11:15<13:22, 33.93it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 80000/107251


üîê Computing pHash (LIGHT 107k):  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ         | 81023/107251 [11:23<10:23, 42.07it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 81000/107251


üîê Computing pHash (LIGHT 107k):  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé        | 82009/107251 [11:31<13:07, 32.04it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 82000/107251


üîê Computing pHash (LIGHT 107k):  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã        | 83023/107251 [11:40<12:48, 31.54it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 83000/107251


üîê Computing pHash (LIGHT 107k):  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ        | 84025/107251 [11:47<08:38, 44.78it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 84000/107251


üîê Computing pHash (LIGHT 107k):  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé       | 85014/107251 [11:57<10:59, 33.72it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 85000/107251


üîê Computing pHash (LIGHT 107k):  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã       | 86019/107251 [12:05<08:53, 39.81it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 86000/107251


üîê Computing pHash (LIGHT 107k):  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà       | 87020/107251 [12:13<08:09, 41.33it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 87000/107251


üîê Computing pHash (LIGHT 107k):  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé      | 88020/107251 [12:22<07:56, 40.33it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 88000/107251


üîê Computing pHash (LIGHT 107k):  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã      | 89013/107251 [12:31<07:57, 38.18it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 89000/107251


üîê Computing pHash (LIGHT 107k):  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà      | 90015/107251 [12:40<07:40, 37.46it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 90000/107251


üîê Computing pHash (LIGHT 107k):  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç     | 91013/107251 [12:54<08:09, 33.15it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 91000/107251


üîê Computing pHash (LIGHT 107k):  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã     | 92025/107251 [13:04<06:32, 38.79it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 92000/107251


üîê Computing pHash (LIGHT 107k):  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà     | 93033/107251 [13:12<04:10, 56.81it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 93000/107251


üîê Computing pHash (LIGHT 107k):  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 93995/107251 [13:18<01:28, 150.25it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 94000/107251


üîê Computing pHash (LIGHT 107k):  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 95020/107251 [13:28<04:21, 46.70it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 95000/107251


üîê Computing pHash (LIGHT 107k):  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 96024/107251 [13:38<05:15, 35.58it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 96000/107251


üîê Computing pHash (LIGHT 107k):  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 97018/107251 [13:47<03:25, 49.73it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 97000/107251


üîê Computing pHash (LIGHT 107k):  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 98016/107251 [13:55<04:17, 35.83it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 98000/107251


üîê Computing pHash (LIGHT 107k):  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 99022/107251 [14:05<02:58, 46.05it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 99000/107251


üîê Computing pHash (LIGHT 107k):  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 100010/107251 [14:13<03:31, 34.27it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 100000/107251


üîê Computing pHash (LIGHT 107k):  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 101020/107251 [14:22<02:09, 48.11it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 101000/107251


üîê Computing pHash (LIGHT 107k):  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 102018/107251 [14:29<01:57, 44.37it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 102000/107251


üîê Computing pHash (LIGHT 107k):  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 103024/107251 [14:37<01:24, 50.07it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 103000/107251


üîê Computing pHash (LIGHT 107k):  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 104024/107251 [14:45<00:57, 56.35it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 104000/107251


üîê Computing pHash (LIGHT 107k):  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 105012/107251 [14:53<01:01, 36.31it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 105000/107251


üîê Computing pHash (LIGHT 107k):  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 106021/107251 [15:02<00:29, 41.96it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 106000/107251


üîê Computing pHash (LIGHT 107k): 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 107017/107251 [15:11<00:05, 46.80it/s]

üíæ Saved checkpoint: data\week4_dedup_light\light_with_phash_cache.csv | hashed: 107000/107251


üîê Computing pHash (LIGHT 107k): 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 107251/107251 [15:12<00:00, 117.52it/s]


‚úÖ Final pHash cache saved: data\week4_dedup_light\light_with_phash_cache.csv


Cell 10 ‚Äî Analyze near-duplicate structure using pHash

Purpose: measure how many duplicates exist and identify the most repeated visual groups.

In [13]:
valid = df_hash[df_hash["phash"].notna()].copy()
unique_phash = valid["phash"].nunique()

print("Valid hashes:", len(valid), "/", len(df_hash))
print("Unique pHash:", unique_phash, "/", len(valid))
print("Approx near-duplicate rate:", round(1 - unique_phash/len(valid), 4))

groups = valid.groupby("phash").size().sort_values(ascending=False)
print("Top duplicate groups:")
display(groups.head(10))


Valid hashes: 107251 / 107251
Unique pHash: 81061 / 107251
Approx near-duplicate rate: 0.2442
Top duplicate groups:


phash
88890b7d497c75f8    190
91efe9b122d29c4a    188
c9c81f26234764f7    111
95c4e26a5b54e476     54
eca413f6839bcc86     45
d118d5ae71e215ec     41
83c75e277cc076c8     40
c29d1de319302f5e     39
ea7ed512d441dc94     33
e0464fdd6e0a9966     32
dtype: int64

Cell 11 ‚Äî pHash deduplication (keep one image per group)

Purpose: build a deduplicated dataset by keeping a single representative per pHash group.

In [14]:
df_phash_dedup = valid.drop_duplicates("phash").copy()
df_phash_dedup.reset_index(drop=True, inplace=True)

print("Before (valid hashed):", len(valid))
print("After pHash dedup:", len(df_phash_dedup))



Before (valid hashed): 107251
After pHash dedup: 81061


Cell 12 ‚Äî Diversity snapshot AFTER deduplication

Purpose: compare diversity statistics before vs after deduplication for the report.

In [15]:
df_phash_dedup["caption_len_words"] = df_phash_dedup["caption"].apply(caption_len_words)

stats_after = {
    "rows": int(len(df_phash_dedup)),
    "caption_len_mean": float(df_phash_dedup["caption_len_words"].mean()),
    "caption_len_median": float(df_phash_dedup["caption_len_words"].median()),
    "width_mean": float(df_phash_dedup["width"].mean()) if "width" in df_phash_dedup.columns else None,
    "height_mean": float(df_phash_dedup["height"].mean()) if "height" in df_phash_dedup.columns else None,
    "aesthetic_mean": float(df_phash_dedup["aesthetic_score"].mean()) if "aesthetic_score" in df_phash_dedup.columns else None,
    "clipscore_mean": float(df_phash_dedup["clipscore"].mean()) if "clipscore" in df_phash_dedup.columns else None,
}
stats_after


{'rows': 81061,
 'caption_len_mean': 11.416291434845363,
 'caption_len_median': 9.0,
 'width_mean': 653.9466697918851,
 'height_mean': 562.16467845203,
 'aesthetic_mean': 6.634265351825774,
 'clipscore_mean': 0.3249492619067096}

Cell 13 ‚Äî Save deduplicated dataset + JSON summary

Purpose: produce clean deliverables for your partner and for reporting.

In [16]:
df_phash_dedup.to_csv(DEDUP_OUT, index=False)
print("‚úÖ Saved deduplicated CSV:", DEDUP_OUT)

import json

summary = {
    "input_csv": CSV_LIGHT,
    "rows_input_existing": int(len(df)),
    "rows_after_exact_path_dedup": int(len(df_exact)),
    "rows_hashed_valid": int(len(valid)),
    "rows_after_phash_dedup": int(len(df_phash_dedup)),
    "stats_before": stats_before,
    "stats_after": stats_after,
}

SUMMARY_OUT.write_text(json.dumps(summary, indent=2), encoding="utf-8")
print("‚úÖ Saved summary JSON:", SUMMARY_OUT)


‚úÖ Saved deduplicated CSV: data\week4_dedup_light\light_phash_dedup.csv
‚úÖ Saved summary JSON: data\week4_dedup_light\week4_light_dedup_summary.json


Cell 14 ‚Äî (Optional) Quick qualitative inspection of duplicates

Purpose: inspect a duplicate group to confirm the deduplication behavior visually.

In [17]:
# Pick a hash with many duplicates (if any)
top_hash = groups.index[0]
dup_examples = valid[valid["phash"] == top_hash].head(5)[["image_path", "caption", "clipscore", "aesthetic_score"]]
dup_examples


Unnamed: 0,image_path,caption,clipscore,aesthetic_score
597,src/data/data/laion_aesthetic_subset_big\00171...,Shades Of Gray - stradina a St Paul de Vence b...,0.324271,7.076888
611,src/data/data/laion_aesthetic_subset_big\00175...,Tina Turner Rights Managed Images - stradina a...,0.301922,7.076888
796,src/data/data/laion_aesthetic_subset_big\00223...,Abstract Expressionism - stradina a St Paul de...,0.322866,7.076888
1388,src/data/data/laion_aesthetic_subset_big\00391...,Urban Abstracts - stradina a St Paul de Vence ...,0.332348,7.076888
1653,src/data/data/laion_aesthetic_subset_big\00469...,Just Desserts - stradina a St Paul de Vence by...,0.325831,7.076888
