In [3]:
import json
import glob
import tools_compare as tc
import time
import warnings
warnings.filterwarnings("ignore")

**Recherche des entités les plus similaires au sein d'une liste classées par ordre décroissant de similarité.**

Attention le temps de calcul n'est pas linéaire en la taille des données, compter moins d'une seconde pour 
100 entités mais 15 secondes pour 500

NB: exemples pris sur des exttactions réalisées par Caroline Parfait : https://github.com/These-SCAI2023/NER_GEO_COMPAR/tree/master/DATA

In [7]:
liste_DATA = glob.glob("DATA/*")

path = liste_DATA[0]
print(path, "\n")
start = time.time()
echantillon = 100
with open(path) as f:
  liste_aimard_kraken = json.load(f)
  NBocc = len(liste_aimard_kraken)
  NBtyp = len(set(liste_aimard_kraken))
  print(f"{NBocc} occurrences ({NBtyp} entités uniques), test sur un échantillon de {echantillon} occurrences")
  
  out = tc.get_similar_in_list(liste_aimard_kraken[:echantillon])
  end = time.time()
  print("Results computed in %f seconds : \n"%(end-start))
  for entite, closest in out.items():        
    print(entite, closest[:5])
    break

DATA/AIMARD_les-trappeurs_Kraken-base.txt_lg_spacy.json 

976 occurrences (470 entités uniques), test sur un échantillon de 100 occurrences
Results computed in 0.507596 seconds : 

l'Amerique [[0.8660254037844387, 'Amerique'], [0.375, 'Americains'], [0.375, 'Americaine'], [0.316227766016838, 'Mexique'], [0.2672612419124244, 'Pacifique']]


**Une entité Vs une liste**

In [9]:
entite_cherchee = "amerique"
seuil = 0.5
print(f"recherche des entités les plus proches de \"{entite_cherchee}\" dans {path}")
tc.get_similar_entity_VS_list(entite_cherchee, liste_aimard_kraken)

recherche des entités les plus proches de "amerique" dans DATA/AIMARD_les-trappeurs_Kraken-base.txt_lg_spacy.json


{'amerique': [[1.0, 'Amerique'],
  [0.8660254037844386, "l'Amerique"],
  [0.7302967433402215, 'Aerique'],
  [0.6546536707079771, 'Amerique du Nord'],
  [0.4629100498862757, "l'Afrique"],
  [0.4330127018922193, 'Americains'],
  [0.4330127018922193, 'Americaine'],
  [0.408248290463863, 'Utique'],
  [0.408248290463863, 'Americaines'],
  [0.3651483716701107, 'Mexique'],
  [0.33333333333333337, 'Mlexique'],
  [0.3086066999241839, 'Pacifique'],
  [0.28867513459481287, 'Ame-'],
  [0.2357022603955159, 'mereI'],
  [0.20412414523193156, 'Quebec'],
  [0.18257418583505536, 'serieux'],
  [0.18257418583505536, 'Buluque'],
  [0.16666666666666674, 'memanque'],
  [0.16666666666666674, 'Azteques'],
  [0.14433756729740643, 'Linterieur'],
  [0.09622504486493766, 'couvent de la Merced'],
  [0.09622504486493766, 'Etats Barbaresques']]}

**Comparaison des entités d'un texte océrisé avec une version de référence**

*Attention au temps de calcul si vous augmentez la taille de l'échantillon*

In [10]:
path2 = liste_DATA[1]
print(f"{path2} VS \n{path}")

with open(path2) as f:
  liste_aimard_ref = json.load(f)

start = time.time()
out = tc.get_similar_two_lists(liste_aimard_ref[:200], liste_aimard_kraken[:200])
end = time.time()
print("Results computed in %f seconds : \n"%(end-start))
for entite, liste_similar in out.items():
    print(entite)
    for item in liste_similar[:10]:
        print("  ",item)

DATA/AIMARD_les-trappeurs_PP.txt_lg_spacy.json VS 
DATA/AIMARD_les-trappeurs_Kraken-base.txt_lg_spacy.json
Results computed in 1.564649 seconds : 

l'Amérique
   [0.625, "l'Amerique"]
   [0.4330127018922194, 'Amerique']
   [0.316227766016838, 'Mexique']
   [0.2672612419124244, 'Pacifique']
   [0.14433756729740643, 'Azteques']
Amérique
   [0.5, 'Amerique']
   [0.4330127018922194, "l'Amerique"]
   [0.3651483716701107, 'Mexique']
   [0.30860669992418377, 'Pacifique']
   [0.16666666666666663, 'Azteques']
Espagnols
   [1.0, 'Espagnols']
   [0.5714285714285714, "d'Espagne"]
   [0.1428571428571428, 'Ignorante']
Incas
   [1.0, 'Incas']
   [0.2357022603955159, 'Francais']
l'Europe
   [0.8164965809277259, 'Europe']
   [0.28867513459481287, 'Ceur']
   [0.23570226039551578, 'Caeur']
   [0.20412414523193145, 'meurtI']
   [0.16666666666666663, 'Malheurl']
   [0.15430334996209194, 'Belhumeur']
   [0.14433756729740643, 'Ceur Loyal']
   [0.13608276348795434, 'Caeur Loyal']
   [0.10910894511799618, 'Vot

In [11]:
print("test sur le temps de calcul")

for NB in [10, 50, 100, 500]:
  start = time.time()
  liste_filter = list(set(liste_aimard_kraken))[:NB]
  NBtyp = len(liste_filter)
  print(f"Calcul pour  {NBtyp} entités uniques")
  
  out = tc.get_similar_in_list(liste_filter)
  end = time.time()
  print("Results computed in %f seconds : \n"%(end-start))

test sur le temps de calcul
Calcul pour  10 entités uniques
Results computed in 0.020154 seconds : 

Calcul pour  50 entités uniques
Results computed in 0.162498 seconds : 

Calcul pour  100 entités uniques
Results computed in 0.629586 seconds : 

Calcul pour  470 entités uniques
Results computed in 14.486719 seconds : 

