In [128]:
import spacy
import pandas as pd
import numpy as np
import neuralcoref
import ast
from tqdm import tqdm

df=pd.read_csv("scores_freq.csv")
df1=pd.read_csv("scores1_freq.csv")
df.head()

Unnamed: 0,description,scores,freq
0,US-British actress Sienna Miller poses after u...,"{'US': 0.872340425, 'British': 0.489361702, 'S...","{'France': 0.16666666666666666, 'British': 0.1..."
1,People gather at a shopping mall in the Shatin...,"{'Hong Kong': 2.489361702, 'Shatin': 0.8297872...","{'Hong Kong': 0.5, 'Shatin': 0.5}"
2,AFP presents a photo essay of 19 images by pho...,"{'AFP': 1.0, 'Christof Stache': 0.829787234000...","{'AFP': 0.25, 'Slug GERMANY-AGRICULTURE-CATTLE..."
3,A Palestinian worker harvests dates in the Jor...,"{""the West Bank's"": 1.212765957, 'Netanyahu': ...","{'West Bank': 0.07142857142857142, ""the West B..."
4,Turkish Trade Minister Ruhsar Pekcan (R) and U...,"{'Turkish': 0.489361702, 'Ruhsar Pekcan': 0.93...","{'Commerce': 0.16666666666666666, 'Ruhsar Pekc..."


In [130]:
liste_scores=[]
for string in df.scores:
    liste_scores.append(ast.literal_eval(string))

liste_freq=[]
for string in df.freq:
    liste_freq.append(ast.literal_eval(string))

liste_scores1=[]
for string in df1.scores:
    liste_scores1.append(ast.literal_eval(string))   
    

In [131]:
#On importe le fichier contenant les scores de chaque fonction grammaticale

scoring = pd.read_csv('scoring.csv', delimiter = ";")
dict_val = {}

for i in range(48):
    dict_val[scoring['function'][i]] = scoring['score_norm'][i]

#On importe un modèle md pour avoir des mots vectorisés
nlp=spacy.load("en_core_web_md")  
neuralcoref.add_to_pipe(nlp,greedyness=0.5)

def dep_ent(ent, doc):
    """ Retourne la fonction grammaticale :  la 'dep', d'une entité. Cette fonction est nécessaire car elle permet d'affecter
    une dep à une entité composée de plusieurs mots ayant chacun une dep de base.
    Traite aussi le cas particulier des mots étant des conj ou des compound : leur vrai dep et celle du mot auxquels
    ils sont associés en tant que conj ou compound."""
    start= ent.start
    end=ent.end
    for k in range(start,end):
        if doc[k].head.text not in ent.text: 
            if doc[k].dep_=='conj':     
                tok=doc[k]            
                while tok.dep_=='conj':
                    tok=tok.head      
                return(tok.dep_)
            
            if doc[k].dep_=='compound':   
                tok=doc[k]            
                while tok.dep_=='compound':
                    tok=tok.head      
                return(tok.dep_)
            return(doc[k].dep_)    
    return doc[start].dep_

def ent_good_type(ent): #filtre les entités selon leur type
    return (ent.label_ == "PERSON"or ent.label_ == "NORP" or ent.label_ == "ORG" or ent.label_ == "GPE" or ent.label_ == "EVENT" or ent.label_ == "LOC")

def sort_ent(doc):
    """Retourne la liste des entités en les filtrant selon leur type et en les triant de manière à avoir au début de
    la liste les entités ayant des coréférences."""
    ent_coref=[ent for ent in doc.ents if ent._.is_coref and ent_good_type(ent)]
    ent_vanilla=[ent for ent in doc.ents if ent_good_type(ent) and not ent._.is_coref]
    return ent_coref + ent_vanilla

def scores_doc(doc):
    """Retourne le score de chaque entité pour la méthode sans neuralcoref."""
    res={}
    for ent in doc.ents:
        if ent.text not in res.keys():
            res[ent.text]=dict_val[dep_ent(ent,doc)]
        else:
            res[ent.text]+=dict_val[dep_ent(ent,doc)]
    return res

def scores_doc_coref1(doc):
    """Retourne le score de chaque entité pour la méthode de base opérée sur le document resolved.
    Le document resolved est le document de base dans lequel toutes les références à un groupe de mot sont remplacées
    par celui-ci.
    Par exemple : My dad is home. He watches TV devient My dad is home. My dad watches TV.
    En raisonnant avec le nlp sur le document resolved, le nlp va détecter beaucoup plus de fois la même entité.
    Le principal inconvénient est que toutes les références sont remplacées, y compris celles qui ne sont pas associées 
    à des entités mais plutôt à des très longs bouts de phrase qui sont repris par un pronom comme "it"  """
    
    doc=nlp(doc._.coref_resolved)
    res={}
    for ent in doc.ents:
        if ent.text not in res.keys():
            res[ent.text]=dict_val[dep_ent(ent,doc)]
        else:
            res[ent.text]+=dict_val[dep_ent(ent,doc)]
    return res

def is_in_cluster(ent,cluster):  #détermine si une entité est dans une des mentions d'un cluster
    for span in cluster.mentions:
        if ent.text in span.text:
            return True
    return False



def scores_doc_coref2(doc):
    """Cette méthode utilise neuralcoref mais au lieu d'agir sur le doc resolved, on va chercher a l'interieur des clusters
    associés au document. Pour rappel, un cluster contient un mot et ses références. Ce mot n'est pas forcément une entité.
    Un cluster est de la forme Trump : [Trump, he].
    Pour chaque entité, on va d'abord regarder si elle est coréférencée (donc mentionnée explicitement dans un cluster)
    ou pas.
    Si elle est coréférencée, on va chercher le cluster qui lui est associé.
    Une fois dans ce cluster, on va regarder pour chaque mention (réf à l'entité) si elle contient ou pas des entités.
    Si c'est le cas, on va alors indiquer que cette entité ne doit pas être retraitée par la suite car elle est traitée en
    tant qu'autre mention de l'entité que l'on traite actuellement.
    Par exemple, pour l'entité référencée Trump, on trouve le cluster suivant : Trump : [Trump, Donald Trump, he].
    Alors l'entité Donald Trump va être marquée comme traitée car elle est en fait équivalente à Trump.
    "he" n'étant pas une entité on a pas ce pb pour cette mention la.
    Ensuite on calcule le score de chaque mention (Trump, Donald Trump et he) en se basant sur leur fonction grammaticale.
    Puis on ajoute ces scores à celui de l'entité de base (Trump).
    
    Si l'entité de base n'est pas référencée, c'est un peu le même principe, la seule complexité en plus étant le fait que
    l'entité n'est pas forcément mentionnée telle quelle dans les mentions d'un cluster. 
    Par exemple, si notre entité de base est Sienna Miller, il est possible qu'on ait un cluster de la forme
    The british actress Sienna Miller : [The british actress Sienna Miller, she].
    Dans ce cas il faut rechercher si chaque mention contient l'entité de base avant de procéder comme pour les 
    entités référencées.
    
    """
    clusters=doc._.coref_clusters  #liste des clusters du doc. 
    res={} #le resultat sera un dictionnaire qui permet d'associer un score à chque entité
    ent_treated={} #dictionnaire pour différencier les entités traitées des autres
    ents_sorted=sort_ent(doc)  #on place les entités ayant une coref avant les autres
    for ent in ents_sorted:   
        ent_treated[ent.text]=0  #on initialise en affectant 0 à toutes les entités

    for ent in ents_sorted:     #pour chaque entité
        if ent_treated[ent.text]==0: #si elle n'est pas considérée comme "traitée"
            if ent._.is_coref:  #si elle est coréférencée (donc si elle apparait en tant que mention pour un cluster )
                #print(ent)
                for cluster in clusters:  #on va chercher le cluster associé à l'entité puisqu'elle est coref
                    if ent in cluster.mentions: # on regarde si l'entité est dans les mentions du cluster
                        for span in cluster.mentions: #Mtnt qu'on est dans le bon cluster, on regarde pour chaque span
                            if span.ents != [] : 
                                if ent.has_vector:
                                    max_sim=0
                                    max_span_ent=span.ents[0]
                                    for span_ent in span.ents: #on cherche l'entité dans le span la plus proche de ent
                                        if span_ent.has_vector:
                                            if ent.similarity(span_ent) > max_sim:
                                                max_span_ent=span_ent
                                                max_sim=ent.similarity(span_ent)
                                    ent_treated[max_span_ent.text]=1 #une fois qu'on l'a trouvé on la marque comme traitée
                            else:
                                max_span_ent=span        
                            if ent.text not in res.keys(): 
                                res[ent.text]=dict_val[dep_ent(max_span_ent,doc)]  #on affecte le score de l'entité
                            else:
                                res[ent.text] += dict_val[dep_ent(max_span_ent,doc)] 
            else: #si l'entité n'est pas exactement coréférencée par neuralcoref
                flag=0
                for cluster in clusters:
                    if is_in_cluster(ent,cluster) and ent.label_ != 'NORP': 
                        flag=1
                        for span in cluster.mentions:
                            #print(span)
                            if span.ents != [] :
                                if ent.has_vector:
                                    max_sim=0
                                    max_span_ent=span.ents[0]
                                    for span_ent in span.ents:
                                        if span_ent.has_vector:
                                            if ent.similarity(span_ent) > max_sim:
                                                max_span_ent=span_ent
                                                max_sim=ent.similarity(span_ent)
                                    ent_treated[max_span_ent.text]=1
                            else:
                                max_span_ent=span #on peut peut etre supprimer cette branche else et...
                            if ent.text not in res.keys():
                                res[ent.text]=dict_val[dep_ent(max_span_ent,doc)] #...replacer max_span_ent par span ici
                            else:
                                res[ent.text] += dict_val[dep_ent(max_span_ent,doc)]  #et ici
                if flag==0: #si l'entité n'est vraiment dans aucun cluster   
                    if ent.text not in res.keys():
                        res[ent.text]=dict_val[dep_ent(ent,doc)]
                    else:
                        res[ent.text]+=dict_val[dep_ent(ent,doc)] 
    return res


def freq_dict(L):
    n = len(L)
    L_unique = list(set(L))
    d = {}
    for a in L_unique:
        for b in L:
            if a == b:
                if a in d.keys():
                    d[a] += 1/n
                else:
                    d[a] = 1/n
    return(d)

In [156]:
def score_sim(doc,score_doc,k):
    res=0
    freq_doc=freq_dict([ent.text for ent in doc.ents])
    score_image=liste_scores[k]
    freq_image=liste_freq[k]
    for i in score_doc.keys():
        if i in score_image.keys():
            res += (score_doc[i]+score_image[i])/2 #- abs(freq_doc[i]-freq_image[i])/2
    return res

def score_sim1(doc,score_doc,k):
    res=0
    freq_doc=freq_dict([ent.text for ent in doc.ents])
    score_image=liste_scores[k]
    freq_image=liste_freq[k]
    for i in score_doc.keys():
        if i in score_image.keys():
            res += (score_doc[i]+score_image[i])/2 #- abs(freq_doc[i]-freq_image[i])/2
    return res

def related_descr(doc):
    index_list=[]
    for k in range(len(liste_scores)):
        for ent in doc.ents:
            if ent.text in liste_scores[k].keys():
                index_list.append(k)
                break
    return index_list
                
def best_image(doc):
    score_doc=scores_doc_coref2(doc)
    best_score=0
    best_descr=0
    for k in related_descr(doc):
        if score_sim(doc,score_doc,k) > best_score:
            best_score=score_sim(doc,score_doc,k)
            best_descr=k
    return best_descr #,df.description[best_descr],best_score

def best_image1(doc):
    best_score=0
    best_descr=0
    score_doc=scores_doc_coref1(doc)
    for k in related_descr(doc):
        if score_sim1(doc,score_doc,k) > best_score:
            best_score=score_sim1(doc,score_doc,k)
            best_descr=k
    return best_descr #,df.description[best_descr],best_score

In [152]:
doc=nlp(df1.description[0])
best_image1(doc)
#print(df.description[28], '\n',liste_scores[28], scores_doc_coref2(doc),'\n', df.description[11753],'\n',liste_scores[11753])















  0%|                                                                                        | 0/13775 [00:00<?, ?it/s]













 11%|███████▉                                                                  | 1471/13775 [00:00<00:00, 14578.11it/s]













 22%|████████████████▍                                                         | 3054/13775 [00:00<00:00, 14894.20it/s]













 33%|████████████████████████                                                  | 4480/13775 [00:00<00:00, 14656.85it/s]













 44%|████████████████████████████████▍                                         | 6040/13775 [00:00<00:00, 14888.90it/s]













 55%|████████████████████████████████████████▌                                 | 7559/13775 [00:00<00:00, 14937.96it/s]













 66%|████████████████████████████████████████████████▋                         | 9063/13775 [00:00<00:00, 14928.07it/s]













 77%|██████████████████████████████████████████████████

0

In [157]:
count=0
for k in tqdm(range(100)):
    if best_image(nlp(df.description[k]))==k:
        count+=1
    else:
        print(k)
print(str(count)+'succès sur les 100 premières images')
















  0%|                                                                                          | 0/100 [00:00<?, ?it/s]














  1%|▊                                                                                 | 1/100 [00:04<06:41,  4.06s/it]

1

















  2%|█▋                                                                                | 2/100 [00:06<05:43,  3.51s/it]














  3%|██▍                                                                               | 3/100 [00:08<05:14,  3.25s/it]














  4%|███▎                                                                              | 4/100 [00:15<06:51,  4.29s/it]














  5%|████                                                                              | 5/100 [00:18<06:01,  3.80s/it]














  6%|████▉                                                                             | 6/100 [00:21<05:51,  3.74s/it]














  7%|█████▋                                                                            | 7/100 [00:26<06:07,  3.95s/it]














  8%|██████▌                                                                           | 8/100 [00:33<07:39,  5.00s/it]














  9%|███████▍                                  

9

















 10%|████████                                                                         | 10/100 [00:44<07:58,  5.31s/it]














 11%|████████▉                                                                        | 11/100 [00:49<07:54,  5.33s/it]














 12%|█████████▋                                                                       | 12/100 [00:54<07:41,  5.25s/it]














 13%|██████████▌                                                                      | 13/100 [00:56<06:10,  4.26s/it]

13

















 14%|███████████▎                                                                     | 14/100 [01:00<05:58,  4.17s/it]














 15%|████████████▏                                                                    | 15/100 [01:02<04:47,  3.38s/it]

15

















 16%|████████████▉                                                                    | 16/100 [01:04<04:22,  3.12s/it]














 17%|█████████████▊                                                                   | 17/100 [01:09<04:49,  3.49s/it]














 18%|██████████████▌                                                                  | 18/100 [01:13<05:13,  3.82s/it]














 19%|███████████████▍                                                                 | 19/100 [01:18<05:28,  4.05s/it]














 20%|████████████████▏                                                                | 20/100 [01:22<05:25,  4.07s/it]

20

















 21%|█████████████████                                                                | 21/100 [01:26<05:18,  4.03s/it]

21

















 22%|█████████████████▊                                                               | 22/100 [01:30<05:15,  4.05s/it]














 23%|██████████████████▋                                                              | 23/100 [01:34<05:10,  4.04s/it]














 24%|███████████████████▍                                                             | 24/100 [01:38<05:03,  3.99s/it]














 25%|████████████████████▎                                                            | 25/100 [01:42<05:00,  4.00s/it]














 26%|█████████████████████                                                            | 26/100 [01:46<04:50,  3.93s/it]

26

















 27%|█████████████████████▊                                                           | 27/100 [01:49<04:31,  3.71s/it]














 28%|██████████████████████▋                                                          | 28/100 [01:53<04:47,  3.99s/it]

28

















 29%|███████████████████████▍                                                         | 29/100 [01:56<04:17,  3.62s/it]














 30%|████████████████████████▎                                                        | 30/100 [01:58<03:34,  3.07s/it]














 31%|█████████████████████████                                                        | 31/100 [02:02<03:57,  3.44s/it]














 32%|█████████████████████████▉                                                       | 32/100 [02:06<04:08,  3.65s/it]














 33%|██████████████████████████▋                                                      | 33/100 [02:09<03:45,  3.36s/it]














 34%|███████████████████████████▌                                                     | 34/100 [02:13<03:45,  3.41s/it]

34

















 35%|████████████████████████████▎                                                    | 35/100 [02:15<03:23,  3.13s/it]

35

















 36%|█████████████████████████████▏                                                   | 36/100 [02:18<03:07,  2.93s/it]














 37%|█████████████████████████████▉                                                   | 37/100 [02:21<03:10,  3.02s/it]














 38%|██████████████████████████████▊                                                  | 38/100 [02:32<05:33,  5.39s/it]














 39%|███████████████████████████████▌                                                 | 39/100 [02:34<04:36,  4.53s/it]














 40%|████████████████████████████████▍                                                | 40/100 [02:37<04:08,  4.15s/it]

40

















 41%|█████████████████████████████████▏                                               | 41/100 [02:41<03:49,  3.89s/it]














 42%|██████████████████████████████████                                               | 42/100 [02:44<03:38,  3.77s/it]

UnboundLocalError: local variable 'max_span_ent' referenced before assignment