# 1.1. Librería Spacy

En este ejercicio, trabajaremos con la librería Spacy (spacy.io).

Spacy es una librería de Python que nos permite realizar muchas tareas de PLN, como:
- tokenización,
- análisis morfosintáctico y de dependencias.
- reconocimiento de entidades.
- modelos de embeddings (vectores de palabras).

  


## Cómo instalar Spacy

Ejecuta la siguiente celda para instalar la librería de Spacy.

In [3]:
!pip install -q spacy
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


## Cómo cargar alguno de los modelos de Spacy

A continuación debemos cargar alguno de los modelos que proporciona Spacy.

En la siguiente página, spacy.io/usage/models, puedes revisar los principales modelos de Spacy y conocer sus características.

 En este ejercicio, vamos a cargar el modelo **en_core_web_sm**. Es el modelo más pequeño, y por tanto, más rápido en cargar, aunque también el menos preciso.



In [4]:
import spacy

model = spacy.load('en_core_web_sm')

# Otra alternativa para cargar el mismo modelo, sería el código:
#import en_core_web_sm
#nlp = en_core_web_sm.load()


## Qué tareas podemos realizar con Spacy



### Cómo dividir un texto en sus oraciones.

Para dividir un texto en sus oraciones, simplemente debemos pasar el texto como parámetro al modelo.
El modelo devuelve un objeto documento. Dicho objeto documento almacena la lista de oraciones del texto en su atributo **sents**.

Ejecuta la siguiente celda para comprobar cómo el texto contenido en la variable *text* es dividido en sus oraciones:

In [5]:
text='''Pedro Sánchez Pérez-Castejón (born 29 February 1972) is a Spanish politician
who has been Prime Minister of Spain since June 2018.
He has also been Secretary-General of the Spanish Socialist Workers' Party (PSOE)
since June 2017, having previously held that office from 2014 to 2016.
Moreover, Sánchez is the current President of the Socialist International,
having been elected to that position in November 2022.'''

document = model(text)

for i,s in enumerate(document.sents):
    print(i,s)


0 Pedro Sánchez Pérez-Castejón (born 29 February 1972) is a Spanish politician
who has been Prime Minister of Spain since June 2018.

1 He has also been Secretary-General of the Spanish Socialist Workers' Party (PSOE)
since June 2017, having previously held that office from 2014 to 2016.

2 Moreover, Sánchez is the current President of the Socialist International,
having been elected to that position in November 2022.


### Cómo tokenizar un texto

La tokenización consiste en dividir un texto en sus palabras y signos de puntuación.

Ejecuta la siguiente celda para ver cómo podemos mostrar los tokens de un texto. De cada token, se muestra las siguientes propiedades:

- texto original del token (orth_).
- palabra en minúsculas (lower_).
- lema de la palabra (lemma_).
- préfijos y sufijos de la palabra (prefix_ y sufix_).
- categoría gramatical de la palabra. También conocida como categoría morfosintáctica (en inglés PoS) ().
- patrón (shape_) que representa la forma de la palabra, distinguiendo entre letras (x) y números (d), y entre mayúsculas y minúsculas. También representa el número de carácteres.


Estas propiedades son muy útiles en la representación de los tokens para algunas tareas de PLN, como el reconocimiento de entidades.



In [6]:
text = 'Pedro Sánchez is the Prime Minister of Spain since June 2018.'
document = model(text)
for i, token in enumerate(document):
    print("original:", token.orth_)
    print("lowercased:", token.lower_)
    print("lemma:", token.lemma_)
    print("prefix:", token.prefix_)
    print("suffix:", token.suffix_)
    print("shape:", token.shape_)
    print("PoS tag:", token.pos_)

    print("----------------------------------------")


original: Pedro
lowercased: pedro
lemma: Pedro
prefix: P
suffix: dro
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: Sánchez
lowercased: sánchez
lemma: Sánchez
prefix: S
suffix: hez
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: is
lowercased: is
lemma: be
prefix: i
suffix: is
shape: xx
PoS tag: AUX
----------------------------------------
original: the
lowercased: the
lemma: the
prefix: t
suffix: the
shape: xxx
PoS tag: DET
----------------------------------------
original: Prime
lowercased: prime
lemma: Prime
prefix: P
suffix: ime
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: Minister
lowercased: minister
lemma: Minister
prefix: M
suffix: ter
shape: Xxxxx
PoS tag: PROPN
----------------------------------------
original: of
lowercased: of
lemma: of
prefix: o
suffix: of
shape: xx
PoS tag: ADP
----------------------------------------
original: Spain
lowercased: spain
lemma: Spain
prefix: S
su


En la siguiente página, spacy.io/api/token#attributes,  puedes encontrar la descripción de estas y otras propiedades de los tokens.


### Cómo obtener los sintagmas nominales de un textos (análisis superficial)

Spacy también proporciona la lista de sintagmas nominales en texto. Esta lista se almacena en la propiedad de **noun_chunks** del objeto document.

Para cada sintagma nominal, es posible obtener los siguientes atributos:
- el texto del sintagma nominal (text).
- el núcleo del sintagma nominal (root.text).
- la relación gramatical del sintagma nominal en el texto principal (root.dep_).  

Algunas de estas relaciones gramaticales son:
 - *nsubj*: es el sujeto sintáctico. Por ejemplo, 'Clinton defeated Dole', nsubj(derrotado,Clinton)
 - *dobj*: es el objeto directo de un VP. Por ejemplo, 'She gave me a raise' -> dobj (gave, raise).
 - *pobj*: es el objeto de una preposición (por ejemplo, 'I sit on the chair' -> pobj(on, chair)
- head: representa el núcleo del sintagama con el que guarda la relación gramatical. Por ejemplo, 'The boy' tiene una relación gramática del sujeto con 'ran'


Consulta el siguiente documento en nlp.stanford.edu/software/dependencies_manual.pdf, para encontrar más información sobre estas relaciones gramáticales.



In [7]:
text= "The boy with the spotted dog quickly ran after the firetruck."
doc = model(text)

for chunk in doc.noun_chunks:
    print('text chunk:',chunk.text)
    print('root chunk:',chunk.root.text)
    print('grammatical dependency:',chunk.root.dep_)
    print('head chunk:',chunk.root.head.text)
    print('---------------------------------')


text chunk: The boy
root chunk: boy
grammatical dependency: nsubj
head chunk: ran
---------------------------------
text chunk: the spotted dog
root chunk: dog
grammatical dependency: pobj
head chunk: with
---------------------------------
text chunk: the firetruck
root chunk: firetruck
grammatical dependency: pobj
head chunk: after
---------------------------------


### Cómo obtener el análisis de dependencias de un texto

SpaCy proporciona un analizador de dependencias sintácticas rápido y preciso.

Para cada token, el modelo devuelve su relación gramátical con respecto a la oración (dep_).

Esta información es crucial para tareas de PLN como la extracción de relaciones.

Veamos algunos ejemplos:

In [14]:
example = "She buys materials for her studies."
doc = model(example)
for token in doc:
    print("word:",token.orth_)
    print("grammatical relation:", token.dep_)
    print("connected word (head):", token.head.orth_)
    print('------------------------------------------')


word: She
grammatical relation: nsubj
connected word (head): buys
------------------------------------------
word: buys
grammatical relation: ROOT
connected word (head): buys
------------------------------------------
word: materials
grammatical relation: dobj
connected word (head): buys
------------------------------------------
word: for
grammatical relation: prep
connected word (head): buys
------------------------------------------
word: her
grammatical relation: poss
connected word (head): studies
------------------------------------------
word: studies
grammatical relation: pobj
connected word (head): for
------------------------------------------
word: .
grammatical relation: punct
connected word (head): buys
------------------------------------------


Spacy proporciona un paquete **displacy** que permite visualizar de forma gráfica las dependencias en una oración. Esta visualización te ayudará a comprender mejor estas relaciones de dependencias:

In [15]:
from spacy import displacy
displacy.render(doc, jupyter=True, style='dep')


Veamos el análisis de dependencias para una oración compleja (tiene cláusulas subordinadas):

In [16]:
example = "The boy with the spotted dog quickly ran after the firetruck."
doc = model(example)

for token in doc:
    print("word:",token.orth_)
    print("grammatical relation:", token.dep_)
    print("connected word (head):", token.head.orth_)
    print('------------------------------------------')

word: The
grammatical relation: det
connected word (head): boy
------------------------------------------
word: boy
grammatical relation: nsubj
connected word (head): ran
------------------------------------------
word: with
grammatical relation: prep
connected word (head): boy
------------------------------------------
word: the
grammatical relation: det
connected word (head): dog
------------------------------------------
word: spotted
grammatical relation: amod
connected word (head): dog
------------------------------------------
word: dog
grammatical relation: pobj
connected word (head): with
------------------------------------------
word: quickly
grammatical relation: advmod
connected word (head): ran
------------------------------------------
word: ran
grammatical relation: ROOT
connected word (head): ran
------------------------------------------
word: after
grammatical relation: prep
connected word (head): ran
------------------------------------------
word: the
grammatical re

In [17]:
displacy.render(doc, jupyter=True, style='dep')



Para comparar el análisis proporcionado por Spacy, puedes usar el analizador sintáctico online proporcionado por Standford: nlp.stanford.edu:8080/corenlp/process

### Cómo reconocer entidades nombradas en un texto


Una entidad nombrada suelen ser nombres propios, como por ejemplo, nombres de personas, de organizaciones, lugares, etc. En un dominio clínico, los principales tipos de entidades serían: nombres de enfermedades, nombres de medicamentos, etc.

Dado un objeto documento, resultado del análisis de un texto con un modelo Spacy, las entidades de dicho texto están contenidas en la propiedad **ents** del objeto documento.

Por cada entidad, es posible acceder a las siguientes propiedades:
- text: contiene la mención completa de la entidad nombrada.
- label_: es el tipo de entidad.
- start_char y end_char indican la posición del primer y último carácter de la entidad en el texto, respectivamente.

Ejecuta la siguiente celda para ver las entidades del documento procesado en la celda anterior:

In [18]:
for i,s in enumerate(document.sents):
  print("Sentence: ", s)
  print("Entities:")
  for e in s.ents:
    print('\t',e.text,e.label_,e.start_char, e.end_char)
  print()



Sentence:  Pedro Sánchez is the Prime Minister of Spain since June 2018.
Entities:
	 Pedro Sánchez PERSON 0 13
	 Spain GPE 39 44
	 June 2018 DATE 51 60



El paquete displacy también permite resaltar las entidades en el texto:

In [19]:
displacy.render(document, jupyter=True, style='ent')