In [2]:
import sys

sys.path.append('..')

import importcsv

small_dataset = importcsv.opencsv('../processedspeech.csv') 

In [4]:
# import the vector of characteristics (top k = 100 keywords) of each member
import json

file_path = "member_ch_vector.json"

# Load the dictionary from the file
with open(file_path, 'r') as file:
    member_vector = json.load(file)

In [5]:
# the unique member names
names = small_dataset['member_name'].unique()
names

array(['κρητικος νικολαου παναγιωτης', 'τσαλδαρης κωνσταντινου αθανασιος',
       'τζαννετακης πετρου τζαννης', ..., 'νικολαος χαρδαλιας',
       'δημητριος κρανης', 'γρηγοριος ζαριφοπουλος'], dtype=object)

In [6]:
# creates a string of the keywords list (else prob with TfidVectorizer)
words1 = []
for words in member_vector.values():
    words1.append(' '.join(words))

In [7]:
# tfidvectorizer as usual
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

tfidvectorizer = TfidfVectorizer(lowercase=False)
matrix = tfidvectorizer.fit_transform(words1)

In [8]:

from heapq import nlargest

# Cosine similarity for a member against all the other members and return top k 
def find_similar(member_name, matrix, k=10):
    similarity_per_member = {}
    
    ddsim_matrix = cosine_similarity(matrix[member_name,:],matrix)
    
    for i in range(len(names)):
        if ddsim_matrix[0,i] > 0:
            similarity_per_member[i] = ddsim_matrix[0,i] 
    
    top_k_items = nlargest(k+1, similarity_per_member.items(), key=lambda x: x[1])

    return [member[0] for member in top_k_items[1:]]



In [9]:
# create a dict with keys the members and values a list of the top k similar members 
pairs_similarity = {}

for i, member in enumerate(names):
    similar = find_similar(i,matrix)
    pairs_similarity[member] = [names[i] for i in similar]
    

In [10]:
pairs_similarity

{'κρητικος νικολαου παναγιωτης': ['τραγακης παναγιωτη ιωαννης',
  'φραγκος αναστασιου δημητριος',
  'τσαλδαρης κωνσταντινου αθανασιος',
  'σγουριδης σγουρη παναγιωτης',
  'αποστολιδης θωμα λουκας',
  'χατζηγακης μιχαηλ σωτηριος',
  'γειτονας ιωαννη κωνσταντινος',
  'κακλαμανης χρηστου αποστολος',
  'ξαρχας λαζαρου αθανασιος',
  'σουρλας ιωαννη γεωργιος'],
 'τσαλδαρης κωνσταντινου αθανασιος': ['φραγκος αναστασιου δημητριος',
  'ξαρχας λαζαρου αθανασιος',
  'κακλαμανης χρηστου αποστολος',
  'δρεττακης γεωργιου εμμανουηλ',
  'τραγακης παναγιωτη ιωαννης',
  'μπενακη-ψαρουδα ευαγγελου αννα',
  'χατζηγακης μιχαηλ σωτηριος',
  'σγουριδης σγουρη παναγιωτης',
  'κρητικος νικολαου παναγιωτης',
  'παπαδημητριου δημητριου ελισαβετ (ελσα)'],
 'τζαννετακης πετρου τζαννης': ['εβερτ αγγελου μιλτιαδης',
  'μητσοτακης κυριακου κωνσταντινος',
  'πρωτοπαπας ιωαννη χρηστος',
  'αδαμοπουλος αθανασιου γεωργιος',
  'σουφλιας αθανασιου γεωργιος',
  'φλωρακης ιωαννη χαριλαος',
  'πολατιδης χαραλαμπους ηλιας',
 

In [14]:
for name,value in pairs_similarity.items():
    print(name)

κρητικος νικολαου παναγιωτης
τσαλδαρης κωνσταντινου αθανασιος
τζαννετακης πετρου τζαννης
αλευρας νικολαου ιωαννης
κυρκος μιχαηλ λεωνιδας
φλωρακης ιωαννη χαριλαος
μητσοτακης κυριακου κωνσταντινος
πεπονης ιωαννη αναστασιος
γεννηματας θεοδωρου γεωργιος
κανελλοπουλος πετρου αθανασιος
στεφανοπουλος δημητριου κωνσταντινος
λεντακης βασιλειου ανδρεας
σαμαρας κωνσταντινου αντωνιος
τσοχατζοπουλος ευαγγελου αποστολος-αθανασιος
κεφαλογιαννης κωνσταντινου ιωαννης
nan
σκουλαρικης παναγιωτη ιωαννης
τσουδερου εμμανουηλ βιργινια
βαλυρακης ιωαν. ιωσηφ
νεστωρ ιγνατιου στυλιανος
τσοβολας κωνσταντινου δημητριος
κουβελας δημητριου σωτηριος
δρεττακης γεωργιου εμμανουηλ
κακλαμανης χρηστου αποστολος
κωστοπουλος βασιλειου δημητριος
ποττακης ανδρεα ιωαννης
βουγιουκλακης ιωαννη ηλιας
δαμανακη θεοδωρου μαρια
γιανναρος κωνσταντινου γρηγοριος
παπακωνσταντινου γεωργιου μιχαλης
γιαννοπουλος αργυριου ευαγγελος
ανδρουλακης γρηγοριου δημητριος (μιμης)
σουφλιας αθανασιου γεωργιος
νικολαος κωνσταντοπουλος
κεδικογλου συμεων

In [12]:
#save the inverted catalog to a json file
import json

# Specify the file path
file_path = "member_similarities.json"

# Save the dictionary to a file
with open(file_path, 'w') as file:
    json.dump(pairs_similarity, file)