# Courte analyse lexicale d'un article de vulgarisation scientifique

On se propose de mesurer analytiquement la distance lexicale des co-références liées aux termes "ISON", "Oort", et "Soleil", issus d'un article de Science et Vie daté de 2013 et disponible ici : https://www.science-et-vie.com/ciel-et-espace/comete-ison-que-va-t-il-se-passer-4865. L'analyse s'appuie sur la version française de WordNet developpée par Benoît Sagot et disponible ici : http://alpage.inria.fr/~sagot/wolf-en.html; ainsi que sur l'API FreNetic disponible ici :  https://github.com/hardik-vala/FreNetic.

In [125]:
from frenetic import * # chargement de l'API FreNetic

In [2]:
fwn = FreNetic("../wolf-1.0b4.xml") # chargement de WOLF

In [127]:
"""
La fonction suivante définit la notion de distance sémantique entre synsets.
L'idée est de trouver le plus petit synset contenant les deux synsets dont on
cherche la distance, et de compter la longueur des deux branches partant de ce
synset et aboutissant sur les deux synsets de départ. Cela équivaut donc à
trouver le plus court chemin entre deux noeuds de l'arbre formé par la relation
d'hyperonymie entre synsets.
"""


def semantic_distance(syn1, syn2):
    if syn1.sid() == syn2.sid():
        return 0, syn1
    else:
        hyp1 = syn1.hypernyms()
        hyp2 = syn2.hypernyms()
        if not hyp1:
            hyp2 = hyp2[0]
            return semantic_distance(syn1, hyp2)[0]+1, syn1
        if not hyp2:
            hyp1 = hyp1[0]
            return semantic_distance(hyp1, syn2)[0]+1, syn2
        hyp1 = hyp1[0]
        hyp2 = hyp2[0]
        d1, cl1 = semantic_distance(hyp1, syn2)
        d2, cl2 = semantic_distance(syn1, hyp2)
        if d1 <= d2:
            return d1+1, cl1
        else:
            return d2+1, cl2

In [128]:
comete = fwn.synsets("comète")[0]
astre = fwn.synsets("astre")[0]
vestige = fwn.synsets("vestige")[0]
nuage = fwn.synsets("nuage")[1]
nuage2 = fwn.synsets("nuage")[2]
corps = fwn.synsets("corps céleste")[0]
soleil = fwn.synsets("soleil")[0]
etoile = fwn.synsets("étoile")[4]
feu = fwn.synsets("feu")[0]

In [129]:
semantic_distance(astre, comete)

(3,
 Synset(Id: eng-30-00019128-n, Literals: [], Def.: an object occurring naturally; not made by man, Usages: [], POS: n, Hypernyms: ['eng-30-00003553-n']))

In [130]:
semantic_distance(comete, corps)

(3,
 Synset(Id: eng-30-00019128-n, Literals: [], Def.: an object occurring naturally; not made by man, Usages: [], POS: n, Hypernyms: ['eng-30-00003553-n']))

In [131]:
semantic_distance(corps, astre)

(0,
 Synset(Id: eng-30-09239740-n, Literals: [astre (0/1:frwiktionary;gwa2012(0.80298232052059870245);lrec12mllexwn(2.500);ManVal2012OK), corps céleste (0/1:enwiktionary;gwa2012(0.71068778227834916716);lrec12mllexwn(2.779);ManVal2012OK)], Def.: natural objects visible in the sky, Usages: [], POS: n, Hypernyms: ['eng-30-00019128-n']))

In [132]:
semantic_distance(soleil, feu)

(8,
 Synset(Id: eng-30-00003553-n, Literals: [ensemble (16/3:fr.csen,fr.rocsen,fr.roen;gwa2012(0.41692783094314717074);lrec12mllexwn(2.123);ManVal2012OK), totalité (lrec12mllexwn(2.351);ManVal2012OK), tout (gwa2012(0.39815607922990592371);lrec12mllexwn(2.405);ManVal2012OK), unité (gwa2012(0.12057048319353755317);ManVal2012AN)], Def.: an assemblage of parts that is regarded as a single entity, Usages: ['how big is that part compared to the whole?', 'the team is a unit'], POS: n, Hypernyms: ['eng-30-00002684-n']))

In [133]:
semantic_distance(nuage, vestige)

(11,
 Synset(Id: eng-30-00001930-n, Literals: [], Def.: an entity that has physical existence, Usages: [], POS: n, Hypernyms: ['eng-30-00001740-n']))