**Universidad de las Fuerzas Armadas ESPE**
**Nombre: ** Angel Patiño

# 1.1. Librería Spacy

En este ejercicio, trabajaremos con la librería Spacy (https://spacy.io/).

Spacy es una librería de Python que nos permite realizar muchas tareas de PLN, como:
- tokenización,
- análisis morfosintáctico y de dependencias.
- reconocimiento de entidades.
- modelos de embeddings (vectores de palabras).

  


## Cómo instalar Spacy

Ejecuta la siguiente celda para instalar la librería de Spacy.

In [None]:
# Instala spaCy con salida silenciosa
!pip install -q spacy


In [None]:
import spacy
model = spacy.load('en_core_web_sm')  # Carga el modelo de lenguaje en inglés de spaCy

# Otra forma de cargar el mismo modelo:
# import en_core_web_sm  # Importa el módulo del modelo directamente
# nlp = en_core_web_sm.load()  # Carga el modelo utilizando el módulo importado


## Qué tareas podemos realizar con Spacy



### Cómo dividir un texto en sus oraciones.

Para dividir un texto en sus oraciones, simplemente debemos pasar el texto como parámetro al modelo.
El modelo devuelve un objeto documento. Dicho objeto documento almacena la lista de oraciones del texto en su atributo **sents**.

Ejecuta la siguiente celda para comprobar cómo el texto contenido en la variable *text* es dividido en sus oraciones:

In [None]:
text='''Pedro Sánchez Pérez-Castejón (born 29 February 1972) is a Spanish politician
who has been Prime Minister of Spain since June 2018.
He has also been Secretary-General of the Spanish Socialist Workers' Party (PSOE)
since June 2017, having previously held that office from 2014 to 2016.
Moreover, Sánchez is the current President of the Socialist International,
having been elected to that position in November 2022.'''

document = model(text)  # Procesa el texto con el modelo de spaCy

# Itera sobre las oraciones segmentadas por el modelo y las imprime con su índice
for i, s in enumerate(document.sents):
    print(i, s)


0 Pedro Sánchez Pérez-Castejón (born 29 February 1972) is a Spanish politician 
who has been Prime Minister of Spain since June 2018.

1 He has also been Secretary-General of the Spanish Socialist Workers' Party (PSOE) 
since June 2017, having previously held that office from 2014 to 2016. 

2 Moreover, Sánchez is the current President of the Socialist International, 
having been elected to that position in November 2022.


### Cómo tokenizar un texto

La tokenización consiste en dividir un texto en sus palabras y signos de puntuación.

Ejecuta la siguiente celda para ver cómo podemos mostrar los tokens de un texto. De cada token, se muestra las siguientes propiedades:

- texto original del token (orth_).
- palabra en minúsculas (lower_).
- lema de la palabra (lemma_).
- préfijos y sufijos de la palabra (prefix_ y sufix_).
- categoría gramatical de la palabra. También conocida como categoría morfosintáctica (en inglés PoS) ().
- patrón (shape_) que representa la forma de la palabra, distinguiendo entre letras (x) y números (d), y entre mayúsculas y minúsculas. También representa el número de carácteres.


Estas propiedades son muy útiles en la representación de los tokens para algunas tareas de PLN, como el reconocimiento de entidades.



In [None]:
text = 'Pedro Sánchez is the Prime Minister of Spain since June 2018.'
document = model(text)  # Procesa el texto con el modelo de spaCy

# Itera sobre cada token en el documento y extrae varias propiedades
for i, token in enumerate(document):
    print("original:", token.orth_)  # Texto original del token
    print("lowercased:", token.lower_)  # Token en minúsculas
    print("lemma:", token.lemma_)  # Lema del token (forma base)
    print("prefix:", token.prefix_)  # Prefijo (primeros caracteres) del token
    print("suffix:", token.suffix_)  # Sufijo (últimos caracteres) del token
    print("shape:", token.shape_)  # Forma del token (patrón de letras y números)
    print("PoS tag:", token.pos_)  # Etiqueta de parte de habla del token (verbo, sustantivo, etc.)

    print("----------------------------------------")  # Separador visual para cada token


original: Pedro
lowercased: pedro
lemma: Pedro
prefix: P
suffix: dro
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: Sánchez
lowercased: sánchez
lemma: Sánchez
prefix: S
suffix: hez
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: is
lowercased: is
lemma: be
prefix: i
suffix: is
shape: xx
PoS tag: AUX
----------------------------------------
original: the
lowercased: the
lemma: the
prefix: t
suffix: the
shape: xxx
PoS tag: DET
----------------------------------------
original: Prime
lowercased: prime
lemma: Prime
prefix: P
suffix: ime
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: Minister
lowercased: minister
lemma: Minister
prefix: M
suffix: ter
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: of
lowercased: of
lemma: of
prefix: o
suffix: of
shape: xx
PoS tag: ADP
----------------------------------------
original: Spain
lowercased: spain
lemma: Spain
prefix: S
su


En la siguiente página, https://spacy.io/api/token#attributes,  puedes encontrar la descripción de estas y otras propiedades de los tokens.


### Cómo obtener los sintagmas nominales de un textos (análisis superficial)

Spacy también proporciona la lista de sintagmas nominales en texto. Esta lista se almacena en la propiedad de **noun_chunks** del objeto document.

Para cada sintagma nominal, es posible obtener los siguientes atributos:
- el texto del sintagma nominal (text).
- el núcleo del sintagma nominal (root.text).
- la relación gramatical del sintagma nominal en el texto principal (root.dep_).  

Algunas de estas relaciones gramaticales son:
 - *nsubj*: es el sujeto sintáctico. Por ejemplo, 'Clinton defeated Dole', nsubj(derrotado,Clinton)
 - *dobj*: es el objeto directo de un VP. Por ejemplo, 'She gave me a raise' -> dobj (gave, raise).
 - *pobj*: es el objeto de una preposición (por ejemplo, 'I sit on the chair' -> pobj(on, chair)
- head: representa el núcleo del sintagama con el que guarda la relación gramatical. Por ejemplo, 'The boy' tiene una relación gramática del sujeto con 'ran'


Consulta el siguiente documento en https://nlp.stanford.edu/software/dependencies_manual.pdf, para encontrar más información sobre estas relaciones gramáticales.



In [None]:
text = "The boy with the spotted dog quickly ran after the firetruck."
doc = model(text)  # Procesa el texto con el modelo de spaCy

# Itera sobre los "noun chunks" (grupos nominales) en el documento
for chunk in doc.noun_chunks:
    print('text chunk:', chunk.text)  # Texto completo del grupo nominal
    print('root chunk:', chunk.root.text)  # Palabra raíz del grupo nominal
    print('grammatical dependency:', chunk.root.dep_)  # Dependencia gramatical de la raíz
    print('head chunk:', chunk.root.head.text)  # Cabeza de la raíz (palabra principal)
    print('---------------------------------')  # Separador visual para cada chunk


text chunk: The boy
root chunk: boy
grammatical dependency: nsubj
head chunk: ran
---------------------------------
text chunk: the spotted dog
root chunk: dog
grammatical dependency: pobj
head chunk: with
---------------------------------
text chunk: the firetruck
root chunk: firetruck
grammatical dependency: pobj
head chunk: after
---------------------------------


### Cómo obtener el análisis de dependencias de un texto

SpaCy proporciona un analizador de dependencias sintácticas rápido y preciso.

Para cada token, el modelo devuelve su relación gramátical con respecto a la oración (dep_).

Esta información es crucial para tareas de PLN como la extracción de relaciones.

Veamos algunos ejemplos:

In [None]:
example = "She buys materials for her studies."
doc = model(example)  # Procesa el texto con el modelo de spaCy

# Itera sobre cada token en el documento
for token in doc:
    print("word:", token.orth_)  # Texto original del token
    print("grammatical relation:", token.dep_)  # Relación gramatical del token
    print("connected word (head):", token.head.orth_)  # Palabra a la que está conectado (cabeza)
    print('------------------------------------------')  # Separador visual para cada token


word: She
grammatical relation: nsubj
connected word (head): buys
------------------------------------------
word: buys
grammatical relation: ROOT
connected word (head): buys
------------------------------------------
word: materials
grammatical relation: dobj
connected word (head): buys
------------------------------------------
word: for
grammatical relation: prep
connected word (head): buys
------------------------------------------
word: her
grammatical relation: poss
connected word (head): studies
------------------------------------------
word: studies
grammatical relation: pobj
connected word (head): for
------------------------------------------
word: .
grammatical relation: punct
connected word (head): buys
------------------------------------------


Spacy proporciona un paquete **displacy** que permite visualizar de forma gráfica las dependencias en una oración. Esta visualización te ayudará a comprender mejor estas relaciones de dependencias:

In [None]:
from spacy import displacy

# Renderiza el árbol de dependencias gramaticales en Jupyter
displacy.render(doc, jupyter=True, style='dep')


**El gráfico muestra la estructura gramatical de la oración "She buys materials for her studies." mediante un árbol de dependencias. Cada palabra está conectada a otra a través de flechas que indican la dirección de la relación gramatical. Por ejemplo, "She" es el sujeto que depende del verbo "buys" (la raíz de la oración), "materials" es el objeto directo de "buys", y "for" introduce la frase preposicional "for her studies", donde "her" es un posesivo relacionado con "studies". Estas conexiones revelan cómo las palabras de la oración están organizadas y relacionadas entre sí a nivel sintáctico.**

Veamos el análisis de dependencias para una oración compleja (tiene cláusulas subordinadas):

In [None]:
example = "The boy with the spotted dog quickly ran after the firetruck."
doc = model(example)  # Procesa el texto con el modelo de spaCy

# Itera sobre cada token en el documento
for token in doc:
    print("word:", token.orth_)  # Texto original del token
    print("grammatical relation:", token.dep_)  # Relación gramatical del token
    print("connected word (head):", token.head.orth_)  # Palabra a la que está conectado (cabeza)
    print('------------------------------------------')  # Separador visual para cada token


word: The
grammatical relation: det
connected word (head): boy
------------------------------------------
word: boy
grammatical relation: nsubj
connected word (head): ran
------------------------------------------
word: with
grammatical relation: prep
connected word (head): boy
------------------------------------------
word: the
grammatical relation: det
connected word (head): dog
------------------------------------------
word: spotted
grammatical relation: amod
connected word (head): dog
------------------------------------------
word: dog
grammatical relation: pobj
connected word (head): with
------------------------------------------
word: quickly
grammatical relation: advmod
connected word (head): ran
------------------------------------------
word: ran
grammatical relation: ROOT
connected word (head): ran
------------------------------------------
word: after
grammatical relation: prep
connected word (head): ran
------------------------------------------
word: the
grammatical re

In [None]:
# Renderiza el árbol de dependencias gramaticales en Jupyter
displacy.render(doc, jupyter=True, style='dep')


El gráfico muestra cómo se relacionan gramaticalmente las palabras en la oración "The boy with the spotted dog quickly ran after the firetruck." Cada flecha en el gráfico indica la dependencia gramatical entre las palabras, donde la palabra de origen es la "cabeza" y la palabra de destino es la "dependiente". Las etiquetas en las flechas describen el tipo de relación, como sujeto (nsubj), objeto (pobj), y modificadores (amod, advmod).

Por ejemplo, "The boy" es identificado como el sujeto que depende del verbo principal "ran", mientras que "with the spotted dog" es un modificador que proporciona más información sobre "the boy". El gráfico ayuda a visualizar la estructura sintáctica de la oración, mostrando cómo cada palabra está conectada y su función en la oración completa. **texto en negrita**


Para comparar el análisis proporcionado por Spacy, puedes usar el analizador sintáctico online proporcionado por Standford: http://nlp.stanford.edu:8080/corenlp/process

### Cómo reconocer entidades nombradas en un texto


Una entidad nombrada suelen ser nombres propios, como por ejemplo, nombres de personas, de organizaciones, lugares, etc. En un dominio clínico, los principales tipos de entidades serían: nombres de enfermedades, nombres de medicamentos, etc.

Dado un objeto documento, resultado del análisis de un texto con un modelo Spacy, las entidades de dicho texto están contenidas en la propiedad **ents** del objeto documento.

Por cada entidad, es posible acceder a las siguientes propiedades:
- text: contiene la mención completa de la entidad nombrada.
- label_: es el tipo de entidad.
- start_char y end_char indican la posición del primer y último carácter de la entidad en el texto, respectivamente.

Ejecuta la siguiente celda para ver las entidades del documento procesado en la celda anterior:

In [None]:
for i, s in enumerate(document.sents):
    print("Sentence:", s)  # Imprime la oración completa
    print("Entities:")  # Indica el inicio de la lista de entidades en la oración
    for e in s.ents:
        # Imprime la entidad, su etiqueta, y las posiciones de inicio y fin en la oración
        print('\t', e.text, e.label_, e.start_char, e.end_char)
    print()  # Imprime una línea en blanco para separar las oraciones


Sentence:  Pedro Sánchez is the Prime Minister of Spain since June 2018.
Entities:
	 Pedro Sánchez PERSON 0 13
	 Spain GPE 39 44
	 June 2018 DATE 51 60



El paquete displacy también permite resaltar las entidades en el texto:

In [None]:
# Renderiza las entidades nombradas en el documento dentro de Jupyter
displacy.render(document, jupyter=True, style='ent')