In [None]:
# Task: Text Classification: classify the effect on members in 34 classes (No labels available)
# "Unsupervised classification" using informative text class labels as class prototypes in a vector space
# AI4Good Hackathon
# Alex Merritt
# Requires: https://github.com/facebookresearch/fastText/tree/master/python 
# and https://fasttext.cc/docs/en/crawl-vectors.html

In [7]:
from fastText import load_model
import csv
import numpy as np

model = load_model('cc.fr.300.bin')

In [13]:
with open('Indicators.csv') as f:
    indicators = f.readlines()
indicators = [x.strip() for x in indicators] 
  

print(indicators)

['Autonomie', "Bris de l'isolement", 'Communication', 'Compétences', 'Confiance en soi', 'Connaissance de soi', 'Connaissances', 'Conscientisation / Esprit critique', "Développement (de l'enfant)", 'Développement de pratiques démocratiques', 'Empowerment collectif', 'Empowerment individuel', 'Estime de soi', 'Habiletés cognitives', 'Habiletés dans la vie quotidienne', 'Habiletés sociales', 'Habitudes de vie', 'Identification des besoins', 'Intégration sociale', 'Lien de confiance', 'Liens familiaux', 'Mixité sociale et culturelle', 'Participation citoyenne', 'Plaisir', 'Prise de parole', 'Réciprocité', 'Répit', "Réseau d'entraide", 'Résultats scolaires', 'Sécurité', "Sentiment d'appartenance", 'Sentiment de valorisation', 'Socialisation', 'Soutien']


In [14]:
def similarity(v1, v2):
    n1 = np.linalg.norm(v1)
    n2 = np.linalg.norm(v2)
    return np.dot(v1, v2) / n1 / n2

In [23]:
def docIndicatorSimilarity(indicator, row): 
    indicator_words = indicator.split(' ')
    indicator_word_vecs = [model.get_word_vector(word) for word in indicator_words]
    indicator_avg_vec = np.mean(indicator_word_vecs, axis=0)
            
    row_words = row[8].split(' ')
    #print(row[8])
    row_word_vecs = [model.get_word_vector(word) for word in row_words]
    row_avg_vec = np.mean(row_word_vecs, axis=0)
    return similarity(indicator_avg_vec, row_avg_vec)

In [30]:
d = {}

with open('Baseresultats.csv', newline='') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    next(reader,None)
    for row in reader:
        similarities = [docIndicatorSimilarity(indicator, row) for indicator in indicators]        
        max_similarity = np.argmax(similarities)
        if ('Effet' in row[9]):
            
            d[row[0]] = indicators[max_similarity]
            print("ID: " + row[0] + " " + str(d[row[0]]))


ID: 7848 Développement de pratiques démocratiques
ID: 193624 Habiletés dans la vie quotidienne
ID: 163221 Développement de pratiques démocratiques
ID: 139813 Développement de pratiques démocratiques
ID: 118-09 Développement de pratiques démocratiques
ID: 9222 Développement de pratiques démocratiques
ID: 103 Identification des besoins
ID: 7895 Développement de pratiques démocratiques
ID: 7889 Développement de pratiques démocratiques
ID: 167196 Développement de pratiques démocratiques
ID: 7907 Développement de pratiques démocratiques
ID: 6611 Développement de pratiques démocratiques
ID: 7930 Conscientisation / Esprit critique
ID: 7810 Développement de pratiques démocratiques
ID: 8993 Développement de pratiques démocratiques
ID: 7874 Habiletés dans la vie quotidienne
ID: 6608 Développement de pratiques démocratiques
ID: 135613 Développement de pratiques démocratiques
ID: 9532 Développement de pratiques démocratiques
ID: 136483 Développement de pratiques démocratiques
ID: 674 Développement

ID: 228373 Développement de pratiques démocratiques
ID: 7374 Identification des besoins
ID: 245113 Identification des besoins
ID: 3026 Développement de pratiques démocratiques
ID: 262157 Développement de pratiques démocratiques
ID: 140417 Développement de pratiques démocratiques
ID: 342354 Développement de pratiques démocratiques
ID: 145848 Développement de pratiques démocratiques
ID: 244823 Développement de pratiques démocratiques
ID: 162178 Développement de pratiques démocratiques
ID: 3028 Développement de pratiques démocratiques
ID: 245009 Développement de pratiques démocratiques
ID: 135636 Développement de pratiques démocratiques
ID: 227914 Développement de pratiques démocratiques
ID: 142362 Développement de pratiques démocratiques
ID: 278352 Développement de pratiques démocratiques
ID: 9588 Sentiment de valorisation
ID: 715-03 Développement de pratiques démocratiques
ID: 162996 Développement de pratiques démocratiques
ID: 7830 Habitudes de vie
ID: 141087 Identification des besoins