# **Reconnaissance des Entités nommées (REN)**
Ce script permet la reconnaissance et l'extraction des entités nommées de documents. Il utilise la bibliothèque python SpaCy.

*Documents d'entrée* : fichiers .txt contenant les textes sur lesquels effectuer la reconnaissane des entités nommées.

*Documents de sortie* : pour chaque document, un fichier .txt par type d'entités (contenant la liste des entités nommées) :
- personnes
- lieux
- organisations
- divers (évènements, oeuvres d'art)

In [None]:
#@markdown # Connecter le notebook à son compte Google Drive et choix de la langue des documents

#@markdown - Lancer la cellule
#@markdown - Cliquer sur « Exécuter malgré tout » lors de l’apparition du message d’avertissement indiquant que le notebook n’a pas été créé par Google
#@markdown - Cliquer sur « Se connecter à Google Drive » lors de l’apparition du second message d’avertissement pour donner l’autorisation au notebook d’accéder à vos fichiers Google Drive
#@markdown - Choisir son compte Gmail puis cliquer sur « Autoriser »

#@markdown Choisir la langue des textes du corpus pour la reconnaissance des entités nommées :

Langue_de_reconnaissance = "Francais" #@param ["Anglais", "Italien", "Francais", "Allemand", "Espagnol"]

import glob
import os
from google.colab import drive
drive.mount('/content/drive/')
%cd /content/drive/My Drive/tutoriel_extraction_cartographie-main/
!pip install spacy==3.2

if Langue_de_reconnaissance == 'Anglais':
  !python -m spacy download en_core_web_lg
  a_importer = 'en_core_web_lg'
if Langue_de_reconnaissance == 'Allemand':
  !python -m spacy download de_core_news_lg
  a_importer = 'de_core_news_lg'
if Langue_de_reconnaissance == "Francais":
  !python -m spacy download fr_core_news_lg
  a_importer = 'fr_core_news_lg'
if Langue_de_reconnaissance == "Espagnol":
  !python -m spacy download es_core_news_lg
  a_importer = 'es_core_news_lg'
if Langue_de_reconnaissance == "Italien":
  !python -m spacy download it_core_news_lg
  a_importer = 'it_core_news_lg'

import spacy
nlp = spacy.load(a_importer)



In [None]:
#@markdown # Reconnaissance et extraction des entités nommées

#@markdown ####Indiquer le chemin absolu vers le dossier de travail sur le Google Drive :
chemin_vers_le_dossier_de_travail = '/content/drive/My Drive/scripts-main/guides_de_voyage/'#@param {type:"string"}
os.chdir(chemin_vers_le_dossier_de_travail)

#@markdown ####Indiquer le chemin absolu vers le dossier où sont stockés les fichiers textes :
chemin_vers_le_dossier_de_fichiers_txt = '/content/drive/My Drive/scripts-main/guides_de_voyage/dossier de fichiers textes/'#@param {type:"string"}
nlp.max_length = 150000000

#@markdown ####Indiquer le nom du dossier qui sera créé et dans lequel les listes d'entités vont être téléchargées :
nom_du_dossier_des_entites = "entites corpus" #@param {type:"string"}
if not os.path.exists(nom_du_dossier_des_entites):
  os.mkdir(nom_du_dossier_des_entites)
os.chdir(nom_du_dossier_des_entites)

#@markdown Télécharger : 
entites_lieux = True #@param {type:"boolean"}
entites_personnes = True #@param {type:"boolean"}
entites_organisations = True #@param {type:"boolean"}
entites_divers = True #@param {type:"boolean"}

nom_glob = ''.join(chemin_vers_le_dossier_de_fichiers_txt+"*.txt")
for element in glob.glob(nom_glob):
  with open (element, "r") as myfile:
    data=myfile.read()
    doc = nlp(data)
    nom_fichier = os.path.basename(element)

    if entites_lieux == True:
      nouveau_nom_lieux = ''.join("Lieux_" + nom_fichier)
      with open(nouveau_nom_lieux, 'w') as my_locs:
        for ent in doc.ents:
          if ent.label_ == 'LOC':
            entites_loc = "".join([str(ent.text),"\n"])
            my_locs.write(entites_loc)

    if entites_organisations == True:
      nouveau_nom_org = ''.join("Org_" + nom_fichier)
      with open(nouveau_nom_org, 'w') as my_orgs:
        for ent in doc.ents:
          if ent.label_ == 'ORG':
            entites_org = "".join([str(ent.text),"\n"])
            my_orgs.write(entites_org)

    if entites_divers == True:
      nouveau_nom_nat = ''.join("Div_" + nom_fichier)
      with open(nouveau_nom_nat, 'w') as my_nats:
        for ent in doc.ents:
          if ent.label_ == 'MISC':
            entites_nat = "".join([str(ent.text),"\n"])
            my_nats.write(entites_nat)

    if entites_personnes == True:
      nouveau_nom_pers = ''.join("Pers_" + nom_fichier)
      with open(nouveau_nom_pers, 'w') as my_pers:
        for ent in doc.ents:
          if ent.label_ == 'PER':
            entites_per = "".join([str(ent.text),"\n"])
            my_pers.write(entites_per)
