**Másteres Universitarios en Ciencia de Datos, Ingeniería Informática, e Innovación en Inteligencia Computacional y Sistemas Interactivos, UAM**
## **Procesamiento del Lenguaje Natural**
# **Práctica de laboratorio 1: Tareas de procesamiento del lenguaje natural**


---



En la esta práctica, se explorarán tareas de análisis gramatical y sintáctico utilizando la librería CoreNLP (https://stanfordnlp.github.io/CoreNLP/) y su cliente en Python, Stanza (https://stanfordnlp.github.io/stanza/).

CoreNLP es una toolkit desarrollada por la Universidad de Stanford para realizar diversas tareas de PLN. Ofrece funcionalidades como el etiquetado gramatical (PoS tagging), el análisis sintáctico (tanto de constituyentes como de dependencias), el análisis de sentimientos, y el reconocimiento de entidades nombradas, entre otras. CoreNLP se destaca por su alta precisión y capacidad de análisis profundo del texto en varios idiomas, lo que la convierte en una herramienta muy utilizada en aplicaciones de PLN avanzadas.

Stanza es una biblioteca en Python que actúa como un cliente para acceder a los modelos de CoreNLP. Simplifica el proceso de integración con CoreNLP, proporcionando una interfaz amigable y optimizada para realizar las tareas de PLN. A través de Stanza, es posible utilizar modelos entrenados por CoreNLP en distintos lenguajes para las citadas tareas.

En la práctica, se abordarán las siguientes tareas de PLN:

- Análisis gramatical: Asignar una categoría gramatical (sustantivo, verbo, adjetivo, etc.) a cada palabra de un texto.
- Análisis sintáctico de constituyentes: Identificar los grupos o constituyentes dentro de una oración (por ejemplo, frases nominales, verbales, adjetivales, etc.), que son componentes clave para comprender la estructura de la oración.
- Análisis sintáctico de dependencias: Identificar las relaciones de dependencia entre las palabras de una oración, es decir, cómo las palabras se conectan entre sí a través de enlaces sintácticos.
- Aplicación de minería de opinión a partir de resultados de las tareas anteriores. Especificamente, la extracción de opiniones sobre aspectos, tales como atributos y elementos de productos, servicios o eventos.

Mediante el uso de categorías gramaticales y dependencias sintácticas (como las relaciones de “modificación” entre adjetivos y sustantivos), será posible identificar opiniones expresadas sobre ciertos aspectos en reseñas, por ejemplo, en la oración "El teléfono móvil tiene una excelente cámara" se descompondrá para identificar la opinión sobre la calidad de la cámara de un teléfono.

### Etiquetado gramatical y análisis sintáctico con CoreNLP

***Carga de modelo y pipeline de procesamiento***

In [2]:
# Importamos Stanza, cliente de acceso a la librería CoreNLP
import stanza

# Si no se ha hecho previamente, descargamos el modelo de CoreNLP preentrenado en inglés
stanza.download('en')  # Descomentar solo la primera vez

  from .autonotebook import tqdm as notebook_tqdm
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 162MB/s]                     
2025-02-09 21:27:47 INFO: Downloaded file to /Users/mac/stanza_resources/resources.json
2025-02-09 21:27:47 INFO: Downloading default packages for language: en (English) ...
2025-02-09 21:27:48 INFO: File exists: /Users/mac/stanza_resources/en/default.zip
2025-02-09 21:27:51 INFO: Finished downloading models and saved to /Users/mac/stanza_resources


In [3]:
# Cargamos el modelo y lo encapsulamos en un pipeline de procesadores de lenguaje natural:
# - tokenize, mwt: sentence and word tokenizers
# - pos: part-of-speech tagger
# - lemma: lemmatizer
# - constituency, depparse: constituency and dependency parsers
# - sentiment: sentiment analyzer
# - ner: name entity recognizer
nlp = stanza.Pipeline('en')

2025-02-09 21:27:51 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 59.1MB/s]                    
2025-02-09 21:27:51 INFO: Downloaded file to /Users/mac/stanza_resources/resources.json
2025-02-09 21:27:52 INFO: Loading these models for language: en (English):
| Processor    | Package                   |
--------------------------------------------
| tokenize     | combined                  |
| mwt          | combined                  |
| pos          | combined_charlm           |
| lemma        | combined_nocharlm         |
| constituency | ptb3-revised_charlm       |
| depparse     | combined_charlm           |
| sentiment    | sstplus_charlm            |
| ner          | ontonotes-ww-multi_charlm |

2025-02-09 21:27:52 INFO:

In [4]:
# Establecemos el texto a analizar: una reseña sobre un teléfono móvil
review = """
        The phone is okay, but it doesn't meet all my expectations. 
        Its camera is not as good as I expected; in low light, the photos come out blurry. 
        The price is too high for the features it offers. What disappoints me the most is the battery, which doesn't last long. 
        Its design, on the other hand, is quite nice and comfortable to use."
        """

***Etiquetado gramatical - Part-of-Speech (PoS) tagging***

In [5]:
# Preprocesamos la review (si se considera necesario)
#review = review.lower()

# Procesar la review con Stanza (cliente CoreNLP)
doc = nlp(review)

for sentence in doc.sentences:
    print(f"Sentence: '{sentence.text}'")

Sentence: 'The phone is okay, but it doesn't meet all my expectations.'
Sentence: 'Its camera is not as good as I expected; in low light, the photos come out blurry.'
Sentence: 'The price is too high for the features it offers.'
Sentence: 'What disappoints me the most is the battery, which doesn't last long.'
Sentence: 'Its design, on the other hand, is quite nice and comfortable to use."'


In [6]:
# Imprimimos por pantalla tablas con los etiquetados gramaticales de las oraciones de la reseña
for sentence in doc.sentences:
    print("\n*** PoS tags ***")
    print(f"Sentence: '{sentence.text}'")
    
    print(f"{'ID':<5} {'Word':<15} {'PoS Tag':<15} {'XPOS Tag':<15}")
    print("-" * 50)
    
    for word in sentence.words:
        print(f"{word.id:<5} {word.text:<15} {word.upos:<15} {word.xpos:<15}")


*** PoS tags ***
Sentence: 'The phone is okay, but it doesn't meet all my expectations.'
ID    Word            PoS Tag         XPOS Tag       
--------------------------------------------------
1     The             DET             DT             
2     phone           NOUN            NN             
3     is              AUX             VBZ            
4     okay            ADJ             JJ             
5     ,               PUNCT           ,              
6     but             CCONJ           CC             
7     it              PRON            PRP            
8     does            AUX             VBZ            
9     n't             PART            RB             
10    meet            VERB            VB             
11    all             DET             PDT            
12    my              PRON            PRP$           
13    expectations    NOUN            NNS            
14    .               PUNCT           .              

*** PoS tags ***
Sentence: 'Its camera is not as

***PREGUNTA 1***. ¿Cuál es el significado y posibles valores de word.upos y word.xpos?

Pos_tags is the national word's label, all of the language you can use that, it will like ADJ,ADV,VERB.
https://universaldependencies.org/u/pos/

XPos_tags is the Origen POS tags, so when in different language, the XPos_tag is differnet, the XPos_tags can't be cross-language.
https://stanfordnlp.github.io/stanza/pos.html

***Análisis de constituyentes - Constituency parsing***

In [7]:
# Función recursiva para imprimir por pantalla un árbol de constituyentes
def print_constituency_tree(constituency, level):
    node_text = constituency.label
    children = constituency.children
    
    indent = "  " * level
    print(f"{indent}{node_text}")
    
    for child in children:
        if isinstance(child, str):
            print(f"{indent}  {child}")
        else:
            print_constituency_tree(child, level + 1)

# Imprimimos por pantalla el análisis de constituyentes de las oraciones de la reseña
for sentence in doc.sentences:
    print("\n*** Constituency parse ***")
    print(f"Sentence: '{sentence.text}'")

    constituency = sentence.constituency
    print(f"Parse (bracket notation):\n{constituency}")
    
    # Ahora, imprimimos la estructura en formato de taxonomía o directorio
    print("Parse (tree format):")
    print_constituency_tree(constituency, 0)



*** Constituency parse ***
Sentence: 'The phone is okay, but it doesn't meet all my expectations.'
Parse (bracket notation):
(ROOT (S (S (NP (DT The) (NN phone)) (VP (VBZ is) (ADJP (JJ okay)))) (, ,) (CC but) (S (NP (PRP it)) (VP (VBZ does) (RB n't) (VP (VB meet) (NP (PDT all) (PRP$ my) (NNS expectations))))) (. .)))
Parse (tree format):
ROOT
  S
    S
      NP
        DT
          The
        NN
          phone
      VP
        VBZ
          is
        ADJP
          JJ
            okay
    ,
      ,
    CC
      but
    S
      NP
        PRP
          it
      VP
        VBZ
          does
        RB
          n't
        VP
          VB
            meet
          NP
            PDT
              all
            PRP$
              my
            NNS
              expectations
    .
      .

*** Constituency parse ***
Sentence: 'Its camera is not as good as I expected; in low light, the photos come out blurry.'
Parse (bracket notation):
(ROOT (S (S (NP (NP (PRP It)) (POS s) (NN came

***PREGUNTA 2***. ¿Qué tipos de información aportan los valores de los nodos de los árboles sintácticos anteriores?

They show the "Phrasal Categories", "Part of Speech Tags" and show the level of the words.

***Análisis de dependencias - Dependency parsing***

In [8]:
# Imprimimos por pantalla tablas con las depedencias en cada oración de la reseña
for sentence in doc.sentences:
    print("\n*** Dependency parse ***")
    print(f"Sentence: '{sentence.text}'")

    print(f"{'ID':<5} {'Word':<15} {'Head ID':<10} {'Head Word':<15} {'Deprel':<15}")
    print("-" * 60)
    
    for word in sentence.words:
        head_word = sentence.words[word.head - 1] if word.head > 0 else None
        print(f"{word.id:<5} {word.text:<15} {word.head:<10} {head_word.text if head_word else 'None':<15} {word.deprel:<15}")


*** Dependency parse ***
Sentence: 'The phone is okay, but it doesn't meet all my expectations.'
ID    Word            Head ID    Head Word       Deprel         
------------------------------------------------------------
1     The             2          phone           det            
2     phone           4          okay            nsubj          
3     is              4          okay            cop            
4     okay            0          None            root           
5     ,               10         meet            punct          
6     but             10         meet            cc             
7     it              10         meet            nsubj          
8     does            10         meet            aux            
9     n't             10         meet            advmod         
10    meet            4          okay            conj           
11    all             13         expectations    det:predet     
12    my              13         expectations    nmod:poss   

In [9]:
# Imprimimos por pantalla tablas con las depedencias en cada oración de la reseña, acompañadas con los PoS del word (dependent) y head de cada dependencia.
for sentence in doc.sentences:
    print("\n*** Dependency parse with POS tags ***")
    print(f"Sentence: '{sentence.text}'")
    
    print(f"{'ID':<5} {'Word':<15} {'Word POS':<10} {'Head ID':<10} {'Head Word':<15} {'Head POS':<10} {'Deprel':<15}")
    print("-" * 80)
    
    for word in sentence.words:
        head_word = sentence.words[word.head - 1] if word.head > 0 else None
        head_pos = head_word.upos if head_word else 'None'
        print(f"{word.id:<5} {word.text:<15} {word.upos:<10} {word.head:<10} {head_word.text if head_word else 'None':<15} {head_pos:<10} {word.deprel:<15}")


*** Dependency parse with POS tags ***
Sentence: 'The phone is okay, but it doesn't meet all my expectations.'
ID    Word            Word POS   Head ID    Head Word       Head POS   Deprel         
--------------------------------------------------------------------------------
1     The             DET        2          phone           NOUN       det            
2     phone           NOUN       4          okay            ADJ        nsubj          
3     is              AUX        4          okay            ADJ        cop            
4     okay            ADJ        0          None            None       root           
5     ,               PUNCT      10         meet            VERB       punct          
6     but             CCONJ      10         meet            VERB       cc             
7     it              PRON       10         meet            VERB       nsubj          
8     does            AUX        10         meet            VERB       aux            
9     n't             PA

***PREGUNTA 3***. ¿Qué significan las relaciones 'nsubj', 'amod', 'advmod' y 'conj'? Al definir cada relación, incluye ejemplos (word, deprel, head) de las tablas anteriores en las que la relación aparece.

***Nsubj***
Nsubj 是名词主语，表示名词作为句子的主语
'The phone is okay, but it doesn't meet all my expectations.'中的phone和okay存在nsubj的关系，表示phone是okay的主语
 (phone, nsubj, okay)

***Amod***
Amod是形容词的修饰语，用来修饰形容词
'Its camera is not as good as I expected; in low light, the photos come out blurry.'中low和light存在amod的关系
(low,amod,light)

***Advmod***
Advmod是副词的修饰语，用来修饰副词
'The phone is okay, but it doesn't meet all my expectations."n't"和"meet"存在avdmod的关系
(n't,advmod,meet)

***Conj***
conj表示并联的连词，表示多个词或者短语之间的并联关系
'Its design, on the other hand, is quite nice and comfortable to use."'中的nice和confortable存在conj的关系
(nice,conj,confortable)

### Extracción de opiniones sobre aspectos (de un producto) en una reseña.

In [10]:
def extract_aspect_opinion_pairs(review):
    doc = nlp(review)
    pairs = []

    for sentence in doc.sentences:
        for word in sentence.words:
            head_word = sentence.words[word.head - 1] if word.head > 0 else None
            head_pos = head_word.upos if head_word else 'None'
            
            if word.upos in {"NOUN", "PROPN"}:
                if head_word and head_word.upos == "ADJ":
                    pair = (word.text, head_word.text)
                    if pair not in pairs:
                        pairs.append(pair)
                        print(f"1. {pair}")

            if word.upos == "ADJ":
                if head_word and head_word.upos in {"NOUN", "PROPN"}:
                    pair = (word.text, head_word.text)
                    if pair not in pairs:
                        pairs.append(pair)
                        print(f"2. {pair}")

    return pairs


print(review)
pairs = extract_aspect_opinion_pairs(review)
#print(pairs)


        The phone is okay, but it doesn't meet all my expectations. 
        Its camera is not as good as I expected; in low light, the photos come out blurry. 
        The price is too high for the features it offers. What disappoints me the most is the battery, which doesn't last long. 
        Its design, on the other hand, is quite nice and comfortable to use."
        
1. ('phone', 'okay')
1. ('camera', 'good')
2. ('low', 'light')
1. ('price', 'high')
1. ('features', 'high')
2. ('most', 'battery')
1. ('design', 'nice')
2. ('other', 'hand')
1. ('hand', 'nice')


***PREGUNTA 4***. ¿Cuál es el propósito de la función extract_aspect_opinion_pairs? ¿Qué errores observas en los resultados? ¿Cómo se podrían abordar dichos errores?

Función extract_aspect_opinion_pairs 是用来找到名词(Noun和Propn)和形容词(ADJ)的配对

代码中存在的问题
1. 有一行代码没有被使用，head_pos = head_word.upos if head_word else 'None'，原本用于显示 head_word 的词性标签，但实际上并没有在逻辑中用到
    解决方案：（可以删除）
2. head_word可能超出索引的范围，word.head-1可能超过sentence.word的长度
    解决方案：确保 0 < word.head <= len(sentence.words)，这样可以避免索引错误
3. 代码默认了名词和形容词之间存在了依赖关系，但是有时候形容词可能并不直接依赖于名词,而是依赖于其他的词性
    解决方案：可以通过依存关系的标签，像是amod这种类型进行进一步的筛选，确保形容词是直接形容名词的

***PREGUNTA 5***. Extiende el código de la función extract_aspect_opinion_pairs para encontrar más resultados potencialmente válidos. Si es necesario, modifica/extiende el texto de la reseña analizada.

In [21]:
def extract_aspect_opinion_pairs(review):
    doc = nlp(review)
    pairs = []

    for sentence in doc.sentences:
        for word in sentence.words:
            head_word = sentence.words[word.head - 1] if 0 < word.head <= len(sentence.words) else None
            head_pos = head_word.upos if head_word else 'None'
            
            #For Test
            #print(f"Word: {word.text} ({word.upos}), Head: {head_word.text if head_word else 'ROOT'} ({head_pos}), Deprel: {word.deprel}")

            if word.upos in {"NOUN", "PROPN"}:
                if head_word and head_word.upos == "ADJ":
                    pair = (word.text, head_word.text)
                    if pair not in pairs:
                        pairs.append(pair)
                        print(f"1. {pair}")

            if word.upos == "ADJ":
                if head_word and head_word.upos in {"NOUN", "PROPN"}:
                    pair = (word.text, head_word.text)
                    if pair not in pairs:
                        pairs.append(pair)
                        print(f"2. {pair}")
            
            if word.deprel == "amod":
                if head_word and head_word.upos in {"NOUN", "PROPN"}:
                    pair = (word.text, head_word.text)
                    if pair not in pairs:
                        pairs.append(pair)
                        print(f"3. {pair}")

    return pairs


print(review)
pairs = extract_aspect_opinion_pairs(review)
#print(pairs)




        The phone is okay, but it doesn't meet all my expectations. 
        Its camera is not as good as I expected; in low light, the photos come out blurry. 
        The price is too high for the features it offers. What disappoints me the most is the battery, which doesn't last long. 
        Its design, on the other hand, is quite nice and comfortable to use."
        
1. ('phone', 'okay')
1. ('camera', 'good')
2. ('low', 'light')
1. ('price', 'high')
1. ('features', 'high')
2. ('most', 'battery')
1. ('design', 'nice')
2. ('other', 'hand')
1. ('hand', 'nice')


***PREGUNTA 6***. ¿Faltarían más casos por abordar en la función extract_aspect_opinion_pairs? En caso afirmativo, descríbelos brevemente.

是的在extract_aspect_opinion_pairs函数中还有更多的情况需要处理
- 无法处理系动词，例如 "Your cars seems expensive",使用了seems进行连接，当前情况就无法识别
- 无法识别负面的结构，例如 "This car is not good",这里无法识别
- 比较复杂的复合句，多层依赖关系是无法进行处理的，例如 "The supercar, which was usually speedy, seemed to have some problems today."，这里也会出现识别错误

下面我进行了测试

In [22]:
testing = """The restaurant seems expensive.
             This car is not good
             The supercar, which was usually speedy, seemed to have some problems today."""
new_testing= extract_aspect_opinion_pairs(testing)
#print (new_testing)

1. ('car', 'good')
2. ('speedy', 'supercar')


***PREGUNTA 7***. ¿Con lo anterior se podría determinar la polaridad (positiva, negativa) de las opiniones? ¿Cómo se haría? ¿Habría alguna complicación al respecto (en base a los resultados mostrados en la versión original de la función extract_aspect_opinion_pairs?

Si, lo anterior se podría determinar la polaridad (positiva, negativa) de las opiniones
但是前提是要在句子判断的准确的情况下，他会有一定的帮助，但是在原始版本的函数中他目前的判断并不准确，需要引入更多的判断辅助，才能够正确的反应结果