<a href="https://colab.research.google.com/github/isegura/PLN-tema1/blob/main/practica_spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pr√°ctica: Procesamiento de Lenguaje Natural con spaCy

**Asignatura:** Procesamiento de Lenguaje Natural con Aprendizaje Profundo (UC3M)

En esta pr√°ctica se trabajar√° con **spaCy**, una librer√≠a moderna de PLN orientada a la construcci√≥n de **pipelines eficientes**.

El objetivo es comprender c√≥mo spaCy permite realizar an√°lisis ling√º√≠stico y sem√°ntico de forma integrada.

üìå **Entrega sugerida**: notebook completado (celdas marcadas como `TODO`).

## 0. Preparaci√≥n del entorno

In [14]:
# Si spaCy no est√° instalado, descomenta la siguiente l√≠nea
# !pip install -q spacy

import spacy

print('spaCy version:', spacy.__version__)

spaCy version: 3.8.11


## 1. Carga del modelo de lenguaje

In [15]:

# Descarga del modelo en espa√±ol (ejecutar solo una vez)
!python -m spacy download es_core_news_sm


Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m12.9/12.9 MB[0m [31m89.0 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [16]:
# Cargamos el modelo peque√±o de espa√±ol
nlp = spacy.load('es_core_news_sm')

text = "Juan compr√≥ un libro en Madrid y lo ley√≥ durante el fin de semana."
doc = nlp(text)

print(doc)

Juan compr√≥ un libro en Madrid y lo ley√≥ durante el fin de semana.


## 2. Tokenizaci√≥n
spaCy tokeniza el texto autom√°ticamente al procesarlo.

**Tarea:** muestra los tokens del texto junto con su √≠ndice.

In [17]:
# TODO: imprime √≠ndice y token
for i, token in enumerate(doc):
    print(i, token.text)

0 Juan
1 compr√≥
2 un
3 libro
4 en
5 Madrid
6 y
7 lo
8 ley√≥
9 durante
10 el
11 fin
12 de
13 semana
14 .


## 3. Informaci√≥n ling√º√≠stica b√°sica
spaCy proporciona informaci√≥n morfosint√°ctica a nivel de token.

**Tarea:** para cada token, muestra:
- forma
- lema
- categor√≠a gramatical (POS)


In [18]:
# TODO: imprime token, lema y POS
for token in doc:
    print(f"{token.text:10} {token.lemma_:10} {token.pos_}")

Juan       Juan       PROPN
compr√≥     comprar    VERB
un         uno        DET
libro      libro      NOUN
en         en         ADP
Madrid     Madrid     PROPN
y          y          CCONJ
lo         √©l         PRON
ley√≥       leer       VERB
durante    durante    ADP
el         el         DET
fin        fin        NOUN
de         de         ADP
semana     semana     NOUN
.          .          PUNCT


## 4. An√°lisis de dependencias sint√°cticas
spaCy analiza la estructura sint√°ctica mediante dependencias.

**Tarea:** muestra para cada token:
- token
- su cabeza sint√°ctica
- tipo de dependencia


In [19]:
# TODO: imprime dependencias sint√°cticas
for token in doc:
    print(f"{token.text:10} -> {token.head.text:10} ({token.dep_})")

Juan       -> compr√≥     (nsubj)
compr√≥     -> compr√≥     (ROOT)
un         -> libro      (det)
libro      -> compr√≥     (obj)
en         -> Madrid     (case)
Madrid     -> compr√≥     (obl)
y          -> ley√≥       (cc)
lo         -> ley√≥       (obj)
ley√≥       -> compr√≥     (conj)
durante    -> fin        (case)
el         -> fin        (det)
fin        -> ley√≥       (obl)
de         -> semana     (case)
semana     -> fin        (nmod)
.          -> compr√≥     (punct)


En un an√°lisis de dependencias:

- Cada palabra (token) depende de otra (su cabeza). La relaci√≥n entre ambas se etiqueta con un tipo de dependencia
- Hay un verbo ra√≠z (ROOT) que organiza la estructura de la oraci√≥n

En el ejemplo anterior:
- compr√≥ es el verbo principal. Es el n√∫cleo sint√°ctico de toda la oraci√≥n. Todo lo dem√°s depende directa o indirectamente de √©l.

- Juan es el sujeto nominal (nominal subject). Responde a: ¬øqui√©n compr√≥? ‚Üí Juan

- Madrid es un complemento oblicuo (obl), aqu√≠ de lugar.
- en es la marca de caso (case), es decir, la preposici√≥n. La preposici√≥n depende del sustantivo, no del verbo.
- y es una conjunci√≥n coordinante. Introduce una segunda acci√≥n coordinada
- ley√≥ es un verbo coordinado con compr√≥. Depende del verbo principal mediante la relaci√≥n conj. Comparte impl√≠citamente el sujeto (Juan)
- lo es el objeto directo de ley√≥. Retoma anaf√≥ricamente a libro
- fin es un complemento oblicuo de ley√≥. Funciona como n√∫cleo del sintagma temporal.
- durante ‚Üí preposici√≥n (case)
- el ‚Üí determinante
- semana ‚Üí modificador nominal de fin
- de ‚Üí preposici√≥n que introduce el complemento


## 5. Reconocimiento de entidades nombradas (NER)
spaCy permite detectar entidades como personas, lugares u organizaciones.

**Tarea:** extrae todas las entidades del texto y su tipo.

In [20]:
# TODO: muestra entidades nombradas
for ent in doc.ents:
    print(ent.text, ent.label_)

Juan PER
Madrid LOC


## 6. Representaci√≥n sem√°ntica y similitud
spaCy asigna vectores a documentos y tokens (si el modelo los incluye).

**Tarea:** calcula la similitud sem√°ntica entre dos frases.

In [21]:
text1 = "Juan compr√≥ un libro"
text2 = "Mar√≠a ley√≥ una novela"

doc1 = nlp(text1)
doc2 = nlp(text2)

# TODO: calcula la similitud
print('Similitud:', doc1.similarity(doc2))

Similitud: 0.7111495733261108


  print('Similitud:', doc1.similarity(doc2))


## 7. Pipeline de spaCy
Un pipeline est√° formado por varios componentes (tokenizador, tagger, parser, NER...).

**Tarea:** muestra los componentes del pipeline del modelo cargado.

In [22]:
# TODO: imprime los componentes del pipeline
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']



### 1: An√°lisis ling√º√≠stico
- Introduce un texto de al menos 3 oraciones.
- Muestra tokens, lemas, POS y dependencias.

### 2: An√°lisis de entidades
- Recolecta 5 textos de noticias.
- Extrae y clasifica las entidades nombradas.

### 3: Comparaci√≥n sem√°ntica
- Define 5 pares de oraciones.
- Calcula su similitud y comenta los resultados.


In [23]:
# TODO: implementa aqu√≠ tu soluci√≥n
pass

---
### Preguntas de reflexi√≥n
1. ¬øQu√© ventajas ofrece spaCy frente a NLTK?
2. ¬øQu√© limitaciones tiene el uso de embeddings en spaCy?
