# **Procesamiento del Lenguaje Natural**
## *Práctica 5 - Reconocimiento de entidades*

## Objetivos

*   Aprender a identificar y clasificar las entidades de un texto haciendo uso de la librería ***spaCy***.





## Reconocimiento de entidades

El objetivo de un sistema de reconocimiento de entidades, también conocido como "NER system" (*Named Entity Recognition system*), es identificar y clasificar en categorías predefinidas (persona, organización, etc.) las entidades encontradas en un texto. El reconocimiento de entidades habitualmente se divide en dos subtareas: la detección de las entidades y la identificación del tipo de las entidades detectadas. 

Esta tarea, puede resultar de utilidad, entre otras cosas, para mejorar la precisión de los sistemas de Búsqueda de Respuestas, devolviendo al usuario el fragmento de texto que contiene una respuesta a su pregunta en lugar de devolver el texto completo, etc.

Para esta práctica vamos a hacer uso de la librería [***spaCy***](https://spacy.io/usage/linguistic-features#named-entities) y su reconocedor de entidades automático utilizando como siempre un modelo pre-entrenado:


In [None]:
import spacy
import en_core_web_sm

nlp = en_core_web_sm.load()



In [None]:
sentence = 'European authorities fined Google a record $5.1 billion on Wednesday for abusing its power in the mobile phone market and ordered the company to alter its practices.'

In [None]:
doc = nlp(sentence)

Podemos ver el tipo de cada entidad recorriendo el *doc*:

In [None]:
for word in doc:
    print(word.text, word.ent_type_)

European NORP
authorities 
fined 
Google ORG
a 
record 
$ MONEY
5.1 MONEY
billion MONEY
on 
Wednesday DATE
for 
abusing 
its 
power 
in 
the 
mobile 
phone 
market 
and 
ordered 
the 
company 
to 
alter 
its 
practices 
. 


Como podemos apreciar, la entidad *European* es de tipo **NORD** (nacionalidades o grupos religiosos o políticos), *Google* es una organización (**ORG**), *5.100 millones de dólares* es el valor monetario (**MONEY**) y el *miércoles* es un objeto de fecha (**DATE**).

Pero parece que no queda muy claro al tokenizar la sentencia puesto que una entidad puede estar compuesta por varias palabras ($5.1 billion). 

En el reconocimiento de entidades existe un esquema de etiquetado a nivel de palabra llamado BIO-tagging (Begin-Inside-Outside). Entonces, "B" significa que el token comienza una entidad, "I" significa que está dentro de una entidad, y "O" significa que está fuera de una entidad. Veamos un ejemplo:

In [None]:
for word in doc:
    print(word.text, word.ent_iob_, word.ent_type_)

European B NORP
authorities O 
fined O 
Google B ORG
a O 
record O 
$ B MONEY
5.1 I MONEY
billion I MONEY
on O 
Wednesday B DATE
for O 
abusing O 
its O 
power O 
in O 
the O 
mobile O 
phone O 
market O 
and O 
ordered O 
the O 
company O 
to O 
alter O 
its O 
practices O 
. O 


Para visualizar solamente las entidades y además ver las entidades compuestas por varias palabras, podemos utilizar el atributo **ents** del doc:

In [None]:
for ent in doc.ents:
    print(ent.text, ent.label_)

European NORP
Google ORG
$5.1 billion MONEY
Wednesday DATE


También, podemos ver a través del display las entidades de forma visual:

In [None]:
from spacy import displacy

In [None]:
displacy.render(doc, jupyter=True, style='ent')

Según el modelo utilizado, existen distintas categorías de entidad, por ejemplo, usando el modelo "*en_core_web_sm*", las entidades existentes son:


*   PERSON People, including fictional. 
*   NORP Nationalities or religious or political groups.
*   FAC Buildings, airports, highways, bridges, etc.
*   ORG Companies, agencies, institutions, etc.
*   GPE  Geopolitical entities including countries, cities, states.
*   LOC Non-GPE locations, mountain ranges, bodies of water.
*   PRODUCT Objects, vehicles, foods, etc. (Not services.)
*   EVENT Named hurricanes, battles, wars, sports events, etc.
*   WORK_OF_ART Titles of books, songs, etc.
*   LAW Named documents made into laws.
*   LANGUAGE Any named language.
*   DATE Absolute or relative dates or periods.
*   TIME Times smaller than a day.
*   etc...


## Ejercicios

El resultado de esta práctica deberá entregarse en PLATEA y tiene como límite de entrega las **23:59 horas del día 2 de abril de 2023**. Se entregará este mismo notebook de extensión *.ipynb* y se renombrará de la siguiente forma: pr5_usuario1_usuario2.ipynb. Sustituye "usuario1" y "usuario2" por el alias de vuestro correo.


Descargar el archivo "nyt.txt" que se encuentra disponibles en PLATEA (carpeta Material complementario) y llevar a cabo las siguientes tareas:

**Autores de la práctica:** Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es Marco Antonio Carrión Soriano macs0021@red.ujaen.es


### Ejercicio 1

Extraer para cada categoría las entidades presentes en el texto y su frecuencia de aparición (teniendo en cuenta las multi-palabras), y responder a las siguientes preguntas:
- A partir de las entidades extraídas, indicar de forma resumida sobre qué parece que trata la noticia.
- ¿Cuáles son las dos personas de las que más se habla en la noticia?
- ¿Cuáles son las tres entidades geopolíticas más referenciadas?

In [None]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/P5")
os.getcwd()

'/content/drive/MyDrive/PLN/P5'

In [None]:
# Calculamos el encoding del archivo con libería chardet
import chardet

with open('nyt.txt', 'rb') as f:
    resultado = chardet.detect(f.read())

print(resultado['encoding'])

Windows-1252


In [None]:
import glob   #Lectura y procesado de los archivos
archivosProcesados=[]
nombresArchivos=[]
for filename in glob.glob('*.txt'):  #Lectura de todos los archivos de la carpeta con la libreria glob
   with open(os.path.join(os.getcwd(), filename), 'r') as f:
     nombresArchivos.append(filename)
     fichero = open(f.name,encoding='Windows-1252')
     archivosProcesados.append(fichero.read());
j=0
print('Archivos leídos:')
for i in archivosProcesados: #Mostramos el nombre del archivo y el contenido leído
  print(nombresArchivos[j])
  #print(i)
  j=j+1

Archivos leídos:
nyt.txt


In [None]:
import spacy
import en_core_web_sm

nlp = en_core_web_sm.load()

In [None]:
doc = nlp(archivosProcesados[0])

In [None]:
map = {}  # Mapa para almacenar el número de veces que aparece cada entidad
mapCategorias = {} # Mapa almacenar el anterior map por categorías
for ent in doc.ents:  # Calculamos número de repeticiones
  if ent.text.lower() not  in map: # Si no existe el elemento en el map lo creamos a 1 repeticiones
    map[ent.text.lower()]=[ent.label_,1]
  else: # Si exite el elemento en el map, incrementamos repeticiones
    map[ent.text.lower()][1]=map[ent.text.lower()][1]+1

for elemento in map: # Insertamos cada elemento del map en su correspondiente categoría
  #print(ele,map[ele][0],map[ele][1])
  if map[elemento][0] not in mapCategorias: # Si no existe la categoría del elemento
    #print(map[elemento][0],elemento)
    mapAux={} # Mapa auxiliar con el numRepeticiones por cada elemento
    mapAux[elemento]=[map[elemento][1]]
    etiqueta=map[elemento][0] # Extraemos etiqueta del elemento
    mapCategorias[etiqueta]= mapAux # Insertamos en el mapaCategorías
  else:
    etiqueta=map[elemento][0] # Extraemos etiqueta del elemento
    #print(map[elemento][0],elemento)
    mapCategorias[etiqueta][elemento]=[map[elemento][1]] # Insertamos en el mapaCategorías

for etique in mapCategorias:
  listaOrdenada=list(mapCategorias[etique].items())
  listaOrdenada.sort(key=lambda elemento: elemento[1], reverse=True) # Función sort, ordenamos según número de repeticiones
  print(listaOrdenada)
 

[('egypt', [15]), ('cairo', [6]), ('the united states', [4]), ('washington', [3]), ('u.s.', [2]), ('america', [1]), ('russia', [1]), ('rome', [1]), ('mexico', [1]), ('china', [1]), ('turkey', [1]), ('united states', [1]), ('sinai', [1])]
[('monday', [3]), ('last year', [3]), ('the century', [2]), ('nearly four years ago', [1]), ('2009', [1]), ('the waning years', [1]), ('2011', [1]), ('two years later', [1]), ('september', [1]), ('december', [1]), ('five years', [1]), ('january 2015', [1]), ('recent months', [1]), ('2015', [1])]
[('trump', [23]), ('sisi', [22]), ('abdel fattah', [1]), ('el-sisi', [1]), ('barack obama', [1]), ('eric trager', [1]), ('hosni mubarak', [1]), ('mubarak', [1]), ('morsi', [1]), ('vladimir v. putin', [1]), ('giulio regeni', [1]), ('alessandra ballerini', [1]), ('aya hijazi', [1]), ('hijazi', [1]), ('wade mcmullen', [1]), ('amy hawthorne', [1]), ('hawthorne', [1])]
[('the white house', [3]), ('the washington institute for near east policy', [1]), ('sisi’s', [1])

- A partir de las entidades extraídas, indicar de forma resumida sobre qué parece que trata la noticia.
  - De una reunión de Donald Trump con Al Sisi en La Casa Blanca

- ¿Cuáles son las dos personas de las que más se habla en la noticia?
  - Trump y Sisi

In [None]:
listaOrdenada=list(mapCategorias['PERSON'].items())
listaOrdenada.sort(key=lambda elemento: elemento[1], reverse=True)
print(listaOrdenada)
print("Dos personas más repetidas: ",listaOrdenada[:2])

[('trump', [23]), ('sisi', [22]), ('abdel fattah', [1]), ('el-sisi', [1]), ('barack obama', [1]), ('eric trager', [1]), ('hosni mubarak', [1]), ('mubarak', [1]), ('morsi', [1]), ('vladimir v. putin', [1]), ('giulio regeni', [1]), ('alessandra ballerini', [1]), ('aya hijazi', [1]), ('hijazi', [1]), ('wade mcmullen', [1]), ('amy hawthorne', [1]), ('hawthorne', [1])]
Dos personas más repetidas:  [('trump', [23]), ('sisi', [22])]


- ¿Cuáles son las tres entidades geopolíticas más referenciadas?
  - Egypt, Cairo y The United States


In [None]:
listaOrdenada=list(mapCategorias['GPE'].items())
listaOrdenada.sort(key=lambda elemento: elemento[1], reverse=True)
print(listaOrdenada)
print("Tres GPE más repetidas: ",listaOrdenada[:3])

[('egypt', [15]), ('cairo', [6]), ('the united states', [4]), ('washington', [3]), ('u.s.', [2]), ('america', [1]), ('russia', [1]), ('rome', [1]), ('mexico', [1]), ('china', [1]), ('turkey', [1]), ('united states', [1]), ('sinai', [1])]
Tres GPE más repetidas:  [('egypt', [15]), ('cairo', [6]), ('the united states', [4])]


### Ejercicio 2

Teniendo en cuenta el sistema de etiquetado BIO, indicar cuantas entidades de tipo PERSONA aparecen solamente con una palabra.

In [None]:
import spacy
import en_core_web_sm

nlp = en_core_web_sm.load()

In [None]:
doc = nlp(archivosProcesados[0])

In [None]:
personas_una_palabra = []
for ent in doc.ents:
    if ent.label_ == "PERSON" and len(ent.text.split()) == 1:
      personas_una_palabra.append(ent.text);

In [None]:
print("PERSONA de una sola palabra: ", list(set(personas_una_palabra)))
print("Cantidad: ", len(list(set(personas_una_palabra))))

PERSONA de una sola palabra:  ['Hijazi', 'Morsi', 'Mubarak', 'Trump', 'el-Sisi', 'Hawthorne', 'Sisi']
Cantidad:  7
