In [1]:
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
classifications = pd.read_csv('./zooniverse_exports/classify-classifications.csv', delimiter=",")

In [3]:
print(classifications.keys())

Index(['classification_id', 'user_name', 'user_id', 'user_ip', 'workflow_id',
       'workflow_name', 'workflow_version', 'created_at', 'gold_standard',
       'expert', 'metadata', 'annotations', 'subject_data', 'subject_ids'],
      dtype='object')


In [4]:
subject_data = classifications['subject_data']

In [56]:
def extract_subject_keys(data):
    all_keys = []

    for i in range(len(data)):
        for k, v in json.loads(data[i]).items():
            for key in v.keys():
                all_keys.append(key)

    return set(all_keys)

def extract_subject_names(data):
    subject_filenames = []
    
    for datum in data:
        subject = json.loads(datum)
        
        for k, v in subject.items():
            keys = v.keys()
            filename = False
            if "Filename" in keys:
                filename = v["Filename"]
            elif "IMAGE" in keys:
                filename = v["IMAGE"]
            elif "image" in keys:
                filename = v["image"]
            
            if filename:
                subject_filenames.append(filename)
        
    return subject_filenames

def split_name(name):
    '''
    Extract number designation from UDG candidate name string 
    Input: name, e.g. "UDGcand_1261", 
    Returns: number designation, e.g. 1261
    '''
    
    return int(name.split('_')[-1])

def compare(a, b):
    '''
    Custom comparison function to sort UDG candidate names by ascending number designation
    Input: params a, b as strings, e.g. "UDGcand_1303", "UDGcand_1311"
    Returns: split_name(a) - split_name(b)
    '''
    
    a = split_name(a)
    b = split_name(b)
    
    return a - b

In [52]:
unique_subject_keys = extract_subject_keys(subject_data)
print(unique_subject_keys)

{'retired', 'Image_id', 'image_cross', 'G-I', 'image', 'RA', 'R', 'Filename', 'IMAGE', 'ID', 'DEC'}


In [55]:
unique_names = set(extract_subject_names(subject_data))

UDGcand_388_insp.png
UDGcand_177_insp.png
UDGcand_204_insp.png
UDGcand_44_insp.png
UDGcand_39_insp.png
UDGcand_72_insp.png
UDGcand_57_insp.png
UDGcand_397_insp.png
UDGcand_19_insp.png
UDGcand_396_insp.png
UDGcand_371_insp.png
UDGcand_22_insp.png
UDGcand_309_insp.png
UDGcand_196_insp.png
UDGcand_110_insp.png
UDGcand_364_insp.png
UDGcand_276_insp.png
UDGcand_286_insp.png
UDGcand_325_insp.png
UDGcand_264_insp.png
UDGcand_155_insp.png
UDGcand_119_insp.png
UDGcand_254_insp.png
UDGcand_260_insp.png
UDGcand_255_insp.png
UDGcand_122_insp.png
UDGcand_124_insp.png
UDGcand_93_insp.png
UDGcand_132_insp.png
UDGcand_248_insp.png
UDGcand_197_insp.png
UDGcand_210_insp.png
UDGcand_164_insp.png
UDGcand_267_insp.png
UDGcand_276_insp.png
UDGcand_154_insp.png
UDGcand_61_insp.png
UDGcand_371_insp.png
UDGcand_207_insp.png
UDGcand_141_insp.png
UDGcand_4_insp.png
UDGcand_186_insp.png
UDGcand_52_insp.png
UDGcand_210_insp.png
UDGcand_97_insp.png
UDGcand_106_insp.png
UDGcand_28_insp.png
UDGcand_69_insp.png
UDGcan

UDGcand_339_insp.png
UDGcand_251_insp.png
UDGcand_221_insp.png
UDGcand_179_insp.png
UDGcand_295_insp.png
UDGcand_146_insp.png
UDGcand_340_insp.png
UDGcand_0_insp.png
UDGcand_310_insp.png
UDGcand_55_insp.png
UDGcand_269_insp.png
UDGcand_250_insp.png
UDGcand_193_insp.png
UDGcand_364_insp.png
UDGcand_282_insp.png
UDGcand_283_insp.png
UDGcand_286_insp.png
UDGcand_298_insp.png
UDGcand_221_insp.png
UDGcand_200_insp.png
UDGcand_111_insp.png
UDGcand_227_insp.png
UDGcand_169_insp.png
UDGcand_211_insp.png
UDGcand_397_insp.png
UDGcand_376_insp.png
UDGcand_41_insp.png
UDGcand_255_insp.png
UDGcand_68_insp.png
UDGcand_92_insp.png
UDGcand_89_insp.png
UDGcand_342_insp.png
UDGcand_53_insp.png
UDGcand_210_insp.png
UDGcand_372_insp.png
UDGcand_16_insp.png
UDGcand_315_insp.png
UDGcand_161_insp.png
UDGcand_365_insp.png
UDGcand_378_insp.png
UDGcand_157_insp.png
UDGcand_18_insp.png
UDGcand_214_insp.png
UDGcand_177_insp.png
UDGcand_265_insp.png
UDGcand_70_insp.png
UDGcand_78_insp.png
UDGcand_124_insp.png
UDGc

In [42]:
parsed_names = []

for name in unique_names:
    name = name[:-9]
    parsed_names.append(name)

In [43]:
# sort for presentation purposes

from functools import cmp_to_key

sorted_parsed_names = sorted(parsed_names, key=cmp_to_key(compare))

In [48]:
# # save the sorted list of unique target names to a .txt file
# #   uncomment to re-save
# np.savetxt('sf_candidate_names__classification-classify.txt', sorted_parsed_names, delimiter=',', fmt="%s")