In [43]:
import os
import pandas as pd
from tqdm.notebook import tqdm
import numpy as np

In [44]:
DISTANCE = 27
NUM_MATCHES = 20


def find_similar_image_pairs(df, distance=DISTANCE, num_matches=NUM_MATCHES):
    # Function to check if a list of matches meets the criteria
    def is_similar(matches):
        if matches is None:
            return np.inf
        # Filter matches to only include those with closeness <= 27
        filtered_matches = [match for match in matches if match <= distance]
        # Check if there are at least 20 such matches
        if len(filtered_matches) >= num_matches:
            # Return the closest match as their true distance
            return min(filtered_matches)
        else:
            # Indicate that the image pair is not similar
            return np.inf

    # Apply the is_similar function to each cell in the DataFrame
    similar_df = df.map(is_similar)
    
    return similar_df

In [45]:
parquet_folder = 'parquets-330'
parquet_files = os.listdir(parquet_folder)
parquet_files = [os.path.join(os.path.abspath(parquet_folder), f) for f in parquet_files]

agg_dfs = []
for file in tqdm(parquet_files, total=len(parquet_files), unit=' file'):
    df = pd.read_parquet(file)
    agg_df = find_similar_image_pairs(df)
    agg_dfs.append(agg_df)
    

concat_df = pd.concat(agg_dfs)
concat_df

  0%|          | 0/4 [00:00<?, ? file/s]

Unnamed: 0,Lil-Wayne_2,baby-yeet_81,Spongebob-time-card-background_84,Sad-Baby_26,Morgan-Freeman_1,Sure-grandma-lets-get-you-to-bed_75,newspaper_26,Skyrim-skill-meme_36,two-castles-94,Challenge-Accepted-Rage-Face_97,...,Baby-Insanity-Wolf_82,Alarm-Clock_32,Angry-Toddler_97,khan_5,Pippin-Second-Breakfast_7,Liam-Neeson-Taken_57,computer-nerd_75,Google-Translate_9,Alien-Meeting-Suggestion_73,Joseph-Ducreux_27
149781103607370_added-7706,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-10375,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-11534,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-12778,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-18978,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
DankMagicMemes_added-8930,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
imemeit_added-15546,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
imemeit_added-16353,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
verynicememethanks_added-47232,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf


In [46]:
non_inf_pairs = concat_df[concat_df != np.inf].stack().reset_index()
non_inf_pairs.columns = ['Image1', 'Image2', 'Distance']

# Display the non-inf pairs
non_inf_pairs

Unnamed: 0,Image1,Image2,Distance
0,2018_12-20615,creepy-condescending-wonka-192,6.0
1,2018_12-20615,creepy-condescending-wonka-136,9.0
2,2018_12-20615,Creepy-Condescending-Wonka_21,5.0
3,2018_12-20615,Creepy-Condescending-Wonka_91,5.0
4,2018_12-20615,Creepy-Condescending-Wonka_64,5.0
...,...,...,...
4642,DankMagicMemes_added-13013,disappearing_44,11.0
4643,DankMagicMemes_added-13013,disappearing_69,13.0
4644,DankMagicMemes_added-13013,disappearing_56,14.0
4645,DankMagicMemes_added-13013,disappearing_9,11.0


In [47]:
concat_df.to_parquet('sm-agg-dists/agg-dists-sm-330.parquet')

In [48]:
concat_df = pd.read_parquet('sm-agg-dists/agg-dists-sm-330.parquet')
concat_df

Unnamed: 0,Lil-Wayne_2,baby-yeet_81,Spongebob-time-card-background_84,Sad-Baby_26,Morgan-Freeman_1,Sure-grandma-lets-get-you-to-bed_75,newspaper_26,Skyrim-skill-meme_36,two-castles-94,Challenge-Accepted-Rage-Face_97,...,Baby-Insanity-Wolf_82,Alarm-Clock_32,Angry-Toddler_97,khan_5,Pippin-Second-Breakfast_7,Liam-Neeson-Taken_57,computer-nerd_75,Google-Translate_9,Alien-Meeting-Suggestion_73,Joseph-Ducreux_27
149781103607370_added-7706,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-10375,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-11534,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-12778,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
2018_12-18978,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
DankMagicMemes_added-8930,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
imemeit_added-15546,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
imemeit_added-16353,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
verynicememethanks_added-47232,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,...,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
