## Pre-procesamiento

**Normalización:**

In [1]:
import re

# Diccionario para la conversión de siglas en español
SIGLAS = {
    "ONU": "Organización de las Naciones Unidas",
    "OMS": "Organización Mundial de la Salud",
    "NASA": "Administración Nacional de Aeronáutica y del Espacio",
    "UE": "Unión Europea"
}

# Diccionario para la expansión de contracciones en español
CONTRACTIONS = {
    "al": "a el",
    "del": "de el",
    "pa": "para",
    "pal": "para el"
}


# Función para convertir a minúsculas
def to_lowercase(text):
    return text.lower()

# Función para normalizar números
# Util para enfoques de análisis donde los números específicos no son relevantes o para evitar sesgos en el análisis de texto.
def normalize_numbers(text):
    # Convertir números a su forma escrita o eliminarlos, según sea necesario
    normalized_text = re.sub(r'\d+', '<número>', text)
    return normalized_text

# Función para expandir contracciones en español
def expand_contractions(text):
    contractions_pattern = re.compile(r'\b(' + '|'.join(CONTRACTIONS.keys()) + r')\b', re.IGNORECASE)
    expanded_text = contractions_pattern.sub(lambda x: CONTRACTIONS[x.group().lower()], text)
    return expanded_text

# Función para convertir siglas a su forma completa
def expand_acronyms(text):
    acronyms_pattern = re.compile(r'\b(' + '|'.join(SIGLAS.keys()) + r')\b', re.IGNORECASE)
    expanded_text = acronyms_pattern.sub(lambda x: SIGLAS[x.group().upper()], text)
    return expanded_text

# Ejemplo de uso
sample_text = "La NASA y la ONU lanzaron un cohete pa la Luna. La misión tuvo un costo de 3,5 millones de dólares."
print("INPUT: ", sample_text,"\n")

# Conversión de siglas
noacronyms_text = expand_acronyms(sample_text)
print("Conversión de siglas:", noacronyms_text, "\n")

# Conversión a minúsculas
lowercase_text = to_lowercase(noacronyms_text)
print("Conversión a minúsculas:", lowercase_text, "\n")

# Expansión de contracciones
expanded_text = expand_contractions(lowercase_text)
print("Expansión de contracciones:", expanded_text, "\n")

# Normalización de números
normalized_text = normalize_numbers(expanded_text)
print("Normalización de números:", normalized_text)

INPUT:  La NASA y la ONU lanzaron un cohete pa la Luna. La misión tuvo un costo de 3,5 millones de dólares. 

Conversión de siglas: La Administración Nacional de Aeronáutica y del Espacio y la Organización de las Naciones Unidas lanzaron un cohete pa la Luna. La misión tuvo un costo de 3,5 millones de dólares. 

Conversión a minúsculas: la administración nacional de aeronáutica y del espacio y la organización de las naciones unidas lanzaron un cohete pa la luna. la misión tuvo un costo de 3,5 millones de dólares. 

Expansión de contracciones: la administración nacional de aeronáutica y de el espacio y la organización de las naciones unidas lanzaron un cohete para la luna. la misión tuvo un costo de 3,5 millones de dólares. 

Normalización de números: la administración nacional de aeronáutica y de el espacio y la organización de las naciones unidas lanzaron un cohete para la luna. la misión tuvo un costo de <número>,<número> millones de dólares.


**Manejo de Emoticones:**

In [None]:
# %pip install emoji

Collecting emoji
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Downloading emoji-2.14.1-py3-none-any.whl (590 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m590.6/590.6 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m-:--:--[0m
[?25hInstalling collected packages: emoji
Successfully installed emoji-2.14.1


In [3]:
import re
from emoji import demojize


# Función para traducir emoticones a texto
def translate_emoticons(text):
    text = demojize(text)  # Convertir emoticones a sus descripciones textuales
    emoticon_translation = {
        ":sonriente:": "feliz",
        ":triste:": "triste",
        ":corazón:": "amor",
        ":pulgar_hacia_arriba:": "aprobación",
        ":pulgar_hacia_abajo:": "desaprobación"
    }
    for emoticon, meaning in emoticon_translation.items():
        text = text.replace(emoticon, meaning)
    return text

# Función para eliminar emoticones no relevantes
def remove_irrelevant_emoticons(text):
    text = demojize(text)
    text = re.sub(r':[^:]+:', '', text)  # Eliminar todas las descripciones de emoticones
    return text

# Ejemplo de uso
sample_text = "Voy al mercado pal almuerzo. Estoy tan feliz hoy! 😄 No puedo creerlo, aunque mi amigo está triste 😢."
print("INPUT: ", sample_text,"\n")

# Traducción de emoticones
translated_text = translate_emoticons(sample_text)
print("Traducción de emoticones:", translated_text, "\n")

# Eliminación de emoticones no relevantes (si es necesario)
clean_text = remove_irrelevant_emoticons(translated_text)
print("Eliminación de emoticones no relevantes:", clean_text)

INPUT:  Voy al mercado pal almuerzo. Estoy tan feliz hoy! 😄 No puedo creerlo, aunque mi amigo está triste 😢. 

Traducción de emoticones: Voy al mercado pal almuerzo. Estoy tan feliz hoy! :grinning_face_with_smiling_eyes: No puedo creerlo, aunque mi amigo está triste :crying_face:. 

Eliminación de emoticones no relevantes: Voy al mercado pal almuerzo. Estoy tan feliz hoy!  No puedo creerlo, aunque mi amigo está triste .


**Limpieza de Texto:**

In [None]:
# %pip install nltk

Collecting nltk
  Downloading nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting click (from nltk)
  Downloading click-8.1.8-py3-none-any.whl.metadata (2.3 kB)
Collecting joblib (from nltk)
  Downloading joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2024.11.6-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (40 kB)
Collecting tqdm (from nltk)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Downloading nltk-3.9.1-py3-none-any.whl (1.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading regex-2024.11.6-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (796 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m796.9/796.9 kB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading click-8.1.8-py3-none-any.whl (98 kB)
Downloading joblib-1.4.2-py3-none-any.whl (301 kB)
Downloading tq

In [5]:
import re
import string
import nltk
from nltk.corpus import stopwords

# Descargar las stop words en español
nltk.download('stopwords')

# Inicialización
stop_words = set(stopwords.words('spanish'))

# Función para eliminar puntuación
def remove_punctuation(text):
    return text.translate(str.maketrans('', '', string.punctuation))

# Función para eliminar stop words
def remove_stop_words(text):
    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return ' '.join(filtered_words)

# Función para eliminar espacios en blanco adicionales
def remove_extra_whitespace(text):
    return re.sub(r'\s+', ' ', text).strip()

# Ejemplo de uso
sample_text = "\nHola,, esttoy aprendiendo procesamiento de lenguaje natural.    Interesánte, eh!!"
print("INPUT: ", sample_text,"\n")

# 1. Eliminación de Puntuación
text_no_punct = remove_punctuation(sample_text)
print("Texto sin puntuación:", text_no_punct, "\n")

# 2. Eliminación de Stop Words
text_no_stop_words = remove_stop_words(text_no_punct)
print("Texto sin stop words:", text_no_stop_words, "\n")

# 3. Eliminación de Espacios en Blanco Adicionales
clean_text = remove_extra_whitespace(text_no_stop_words)
print("Texto limpio final:", clean_text)

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/gonzadzz/nltk_data...


INPUT:  
Hola,, esttoy aprendiendo procesamiento de lenguaje natural.    Interesánte, eh!! 

Texto sin puntuación: 
Hola esttoy aprendiendo procesamiento de lenguaje natural    Interesánte eh 

Texto sin stop words: Hola esttoy aprendiendo procesamiento lenguaje natural Interesánte eh 

Texto limpio final: Hola esttoy aprendiendo procesamiento lenguaje natural Interesánte eh


[nltk_data]   Unzipping corpora/stopwords.zip.


**ADICIONAL**: investigar librerías para corrección ortográfica

In [None]:
# %pip install pyspellchecker

from spellchecker import SpellChecker

spell = SpellChecker(language='es')

def correct_spelling(text):
  corrected_text = []
  misspelled = spell.unknown(text.split())
  for word in text.split():
    if word in misspelled:
      corrected_word = spell.correction(word)
      corrected_text.append(corrected_word)
    else:
      corrected_text.append(word)
  return " ".join(corrected_text)

corrected_text = correct_spelling(clean_text)
print("Texto con corrección ortográfica:", corrected_text)


Collecting pyspellchecker
  Downloading pyspellchecker-0.8.2-py3-none-any.whl.metadata (9.4 kB)
Downloading pyspellchecker-0.8.2-py3-none-any.whl (7.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.1/7.1 MB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellchecker-0.8.2
Texto con corrección ortográfica: Hola esto aprendiente procesamiento lenguaje natural Interesánte eh


## Tokenización

**Librería NLTK:**

In [7]:
# Import NLTK and download required data
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /home/gonzadzz/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/gonzadzz/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [8]:
# Define NLTK
nltk_definition = """
NTLK (Natural Language Toolkit) es una biblioteca de procesamiento de lenguaje natural en Python.
Proporciona herramientas para trabajar con datos textuales, incluyendo tokenización, análisis gramatical,
etiquetado de partes del discurso, entre otros.
"""

# Print definition
print("\nDefinición de NLTK:")
print(nltk_definition)

# Tokenization example
sentence = "Apple está buscando comprar una startup del Reino Unido por mil millones de dólares."
tokens = nltk.word_tokenize(sentence)

# Print results
print("\nEjemplo de Tokenización:")
print(f"Oración original: {sentence}")
print(f"Tokens: {tokens}")



Definición de NLTK:

NTLK (Natural Language Toolkit) es una biblioteca de procesamiento de lenguaje natural en Python.
Proporciona herramientas para trabajar con datos textuales, incluyendo tokenización, análisis gramatical,
etiquetado de partes del discurso, entre otros.


Ejemplo de Tokenización:
Oración original: Apple está buscando comprar una startup del Reino Unido por mil millones de dólares.
Tokens: ['Apple', 'está', 'buscando', 'comprar', 'una', 'startup', 'del', 'Reino', 'Unido', 'por', 'mil', 'millones', 'de', 'dólares', '.']


In [9]:
cuento = "En una noche tormentosa, Clara escuchó pasos en el ático, aunque vivía sola. \
  Subió las escaleras temblorosa, y al abrir la puerta, encontró una muñeca antigua mirándola fijamente. \
  De repente, la muñeca sonrió y susurró: 'Te estaba esperando.'"

# EJERCICIO: tokenizar palabras, frases, mostrar cantidad de tokens de ambas categorías

**Librería SpaCy:**

In [None]:
# %pip install spacy

Collecting spacy
  Downloading spacy-3.8.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Downloading spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Downloading spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.12-cp312-cp312-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.1 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.11-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.5 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.9-cp312-cp312-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.2 kB)
Collecting thinc<8.4.0,>=8.3.4 (from spacy)
  Downloading thinc-8.3.4-cp312-cp312-manylinux_2_17_x86

In [None]:
# Descarga un modelo de lenguaje para el español en la biblioteca de PLN SpaCy,
# optimizado para noticias ("core_news") y es de tamaño pequeño ("sm" para "small")
# !python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [12]:
# Import SpaCy
import spacy

# Define SpaCy
spacy_definition = """
SpaCy es una biblioteca de procesamiento de lenguaje natural en Python, optimizada para rendimiento.
Proporciona herramientas para trabajar con datos textuales, incluyendo tokenización, etiquetado de entidades,
análisis sintáctico, entre otros.
"""

# Print SpaCy definition
print("\nDefinición de SpaCy:")
print(spacy_definition)

# model loading
nlp = spacy.load("es_core_news_sm")
print("Modelo cargado:", nlp.meta["name"])

# Frase de prueba
doc = nlp("Apple está buscando comprar una startup del Reino Unido por mil millones de dólares.")

# Print SpaCy results
print("\nEjemplo de Tokenización con SpaCy:")
print(f"Oración original: {doc.text}")
print("Tokens:", [token.text for token in doc])

# Advantages of SpaCy
spacy_advantages = """
Ventajas de SpaCy:
- Rápido: SpaCy está optimizado para un rendimiento rápido, lo que lo hace adecuado para aplicaciones en tiempo real.
- Extensible: SpaCy permite la creación de pipelines personalizadas y la integración con otras bibliotecas.
- Soporte para múltiples idiomas: SpaCy proporciona modelos para varios idiomas, facilitando el procesamiento de texto multilingüe.
"""
print(spacy_advantages)


Definición de SpaCy:

SpaCy es una biblioteca de procesamiento de lenguaje natural en Python, optimizada para rendimiento.
Proporciona herramientas para trabajar con datos textuales, incluyendo tokenización, etiquetado de entidades,
análisis sintáctico, entre otros.

Modelo cargado: core_news_sm

Ejemplo de Tokenización con SpaCy:
Oración original: Apple está buscando comprar una startup del Reino Unido por mil millones de dólares.
Tokens: ['Apple', 'está', 'buscando', 'comprar', 'una', 'startup', 'del', 'Reino', 'Unido', 'por', 'mil', 'millones', 'de', 'dólares', '.']

Ventajas de SpaCy:
- Rápido: SpaCy está optimizado para un rendimiento rápido, lo que lo hace adecuado para aplicaciones en tiempo real.
- Extensible: SpaCy permite la creación de pipelines personalizadas y la integración con otras bibliotecas.
- Soporte para múltiples idiomas: SpaCy proporciona modelos para varios idiomas, facilitando el procesamiento de texto multilingüe.



## Lematización

El lema es la forma base o raíz de una palabra. Por ejemplo, "comprar" es el lema de "comprando".

La lematización permite normalizar diferentes formas de una palabra a su forma básica.

In [13]:
import spacy

# Cargar el modelo en español de spaCy
nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
texto = "corriendo"

# Procesar el texto con spaCy
doc = nlp(texto)

# Extraer y mostrar el lema
for token in doc:
    print(f"Palabra: {token.text}, Lema: {token.lemma_}")

Palabra: corriendo, Lema: correr


## Radicalización

In [20]:
from nltk.stem import PorterStemmer, SnowballStemmer

# Ejemplos de palabras para radicalizar
words = ['corriendo', 'corredor', 'corrí', 'cocinero', 'cocina', 'cocinada', 'nacionalidad']

# Porter Stemmer
stemmer = PorterStemmer() # only English!!!
# Aplicar el Porter Stemmer
stemmed_words_porter = [stemmer.stem(word) for word in words]

# Instanciar el Snowball Stemmer para español
stemmer = SnowballStemmer('spanish') # Snowball: extensión del Porter para multilenguaje
# Aplicar el Snowball Stemmer
stemmed_words_snowball = [stemmer.stem(word) for word in words]

print("Palabras original:", words)
print("Radicalización Porter  :", stemmed_words_porter)
print("Radicalización Snowball:", stemmed_words_snowball)

Palabras original: ['corriendo', 'corredor', 'corrí', 'cocinero', 'cocina', 'cocinada', 'nacionalidad']
Radicalización Porter  : ['corriendo', 'corredor', 'corrí', 'cocinero', 'cocina', 'cocinada', 'nacionalidad']
Radicalización Snowball: ['corr', 'corredor', 'corr', 'cociner', 'cocin', 'cocin', 'nacional']


¿Qué podemos analizar de estos resultados?

Veamos ahora un ejemplo en inglés:

In [21]:
# ENGLISH example

# Ejemplos de palabras para radicalizar
words = ['running', 'runner', 'run', 'cooking', 'cookbook', 'cookery', 'generalization']

# Porter Stemmer
stemmer = PorterStemmer() # only English!!!
# Aplicar el Porter Stemmer
stemmed_words_porter = [stemmer.stem(word) for word in words]

# Instanciar el Snowball Stemmer
stemmer = SnowballStemmer('english')
# Aplicar el Snowball Stemmer
stemmed_words_snowball = [stemmer.stem(word) for word in words]

print("Palabras original:", words)
print("Radicalización Porter  :", stemmed_words_porter)
print("Radicalización Snowball:", stemmed_words_snowball)

Palabras original: ['running', 'runner', 'run', 'cooking', 'cookbook', 'cookery', 'generalization']
Radicalización Porter  : ['run', 'runner', 'run', 'cook', 'cookbook', 'cookeri', 'gener']
Radicalización Snowball: ['run', 'runner', 'run', 'cook', 'cookbook', 'cookeri', 'general']


## Etiquetado de Partes del Discurso (POS)

La etiqueta de parte del discurso (POS) indica la categoría gramatical de la palabra, algunas de las cuales son:
- PROPN: Nombre propio.
- AUX: Verbo auxiliar.
- VERB: Verbo.
- DET: Determinante.
- NOUN: Sustantivo.
- ADP: Preposición.
- NUM: Número.
- PUNCT: Signo de puntuación.

In [26]:
# 1): usando spaCy

import spacy

# Cargar el modelo en español
nlp = spacy.load('es_core_news_sm')

# Procesar el texto
text = "El gato está debajo de la mesa."
doc = nlp(text)

# Mostrar las etiquetas de partes del discurso
print("Etiquetado POS del SpaCy:\n")
for token in doc:
    print(f"{token.text}: {token.pos_}")


Etiquetado POS del SpaCy:

El: DET
gato: NOUN
está: AUX
debajo: ADV
de: ADP
la: DET
mesa: NOUN
.: PUNCT


In [27]:
# 2): usando NLTK

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import cess_esp

# Descargar los datos necesarios
nltk.download('cess_esp')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger') # modelo pre-entrenado sólo para English!!!

# TEXTO
text = "El gato Felipe está en el tejado. Parece que va a saltar."

# Tokenización de oraciones
oraciones = sent_tokenize(text, language='spanish')
print("Oraciones tokenizadas:")
print(oraciones)

# Tokenización de palabras
palabras = word_tokenize(text, language='spanish') # The tokenized words are stored in the variable 'palabras'
print("\nPalabras tokenizadas:")
print(palabras,"\n")

# Etiquetar partes del discurso
tagged = nltk.pos_tag(palabras, lang='spa') # Change 'tokens' to 'palabras' to use the correct variable
print("Etiquetado POS del NLTK:\n")
print(tagged)

Oraciones tokenizadas:
['El gato Felipe está en el tejado.', 'Parece que va a saltar.']

Palabras tokenizadas:
['El', 'gato', 'Felipe', 'está', 'en', 'el', 'tejado', '.', 'Parece', 'que', 'va', 'a', 'saltar', '.'] 



[nltk_data] Downloading package cess_esp to
[nltk_data]     /home/gonzadzz/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!
[nltk_data] Downloading package punkt to /home/gonzadzz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/gonzadzz/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


LookupError: 
**********************************************************************
  Resource [93maveraged_perceptron_tagger_eng[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('averaged_perceptron_tagger_eng')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtaggers/averaged_perceptron_tagger_eng/[0m

  Searched in:
    - '/home/gonzadzz/nltk_data'
    - '/home/gonzadzz/GitHub/dl_istea/.venv/nltk_data'
    - '/home/gonzadzz/GitHub/dl_istea/.venv/share/nltk_data'
    - '/home/gonzadzz/GitHub/dl_istea/.venv/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


Podemos ver que el español no está soportado todavía...

Probemos otra aproximación: entrenar un etiquetador POS en español

In [28]:
# Cargar el corpus de oraciones etiquetadas
oraciones = cess_esp.tagged_sents()

# Entrenar un etiquetador basado en unigramas y bigramas
from nltk.tag import UnigramTagger, BigramTagger

unigram_tagger = UnigramTagger(oraciones)
bigram_tagger = BigramTagger(oraciones, backoff=unigram_tagger)

In [29]:
oraciones

[[('El', 'da0ms0'), ('grupo', 'ncms000'), ('estatal', 'aq0cs0'), ('Electricité_de_France', 'np00000'), ('-Fpa-', 'Fpa'), ('EDF', 'np00000'), ('-Fpt-', 'Fpt'), ('anunció', 'vmis3s0'), ('hoy', 'rg'), (',', 'Fc'), ('jueves', 'W'), (',', 'Fc'), ('la', 'da0fs0'), ('compra', 'ncfs000'), ('del', 'spcms'), ('51_por_ciento', 'Zp'), ('de', 'sps00'), ('la', 'da0fs0'), ('empresa', 'ncfs000'), ('mexicana', 'aq0fs0'), ('Electricidad_Águila_de_Altamira', 'np00000'), ('-Fpa-', 'Fpa'), ('EAA', 'np00000'), ('-Fpt-', 'Fpt'), (',', 'Fc'), ('creada', 'aq0fsp'), ('por', 'sps00'), ('el', 'da0ms0'), ('japonés', 'aq0ms0'), ('Mitsubishi_Corporation', 'np00000'), ('para', 'sps00'), ('poner_en_marcha', 'vmn0000'), ('una', 'di0fs0'), ('central', 'ncfs000'), ('de', 'sps00'), ('gas', 'ncms000'), ('de', 'sps00'), ('495', 'Z'), ('megavatios', 'ncmp000'), ('.', 'Fp')], [('Una', 'di0fs0'), ('portavoz', 'nccs000'), ('de', 'sps00'), ('EDF', 'np00000'), ('explicó', 'vmis3s0'), ('a', 'sps00'), ('EFE', 'np00000'), ('que', 'c

In [30]:
len(oraciones)

6030

In [31]:
# Prueba del etiquetador
text = "El gato Felipe está en el tejado. Parece que va a saltar."
tokens = nltk.word_tokenize(text, language='spanish')
etiquetas = bigram_tagger.tag(tokens)
print(etiquetas)

[('El', 'da0ms0'), ('gato', 'ncms000'), ('Felipe', 'np0000p'), ('está', 'vmip3s0'), ('en', 'sps00'), ('el', 'da0ms0'), ('tejado', None), ('.', 'Fp'), ('Parece', 'vmip3s0'), ('que', 'cs'), ('va', 'vmip3s0'), ('a', 'sps00'), ('saltar', 'vmn0000'), ('.', 'Fp')]


El corpus cess_esp contiene oraciones en español con sus respectivas etiquetas POS.

Las etiquetas morfosintácticas están en el formato EAGLES (Expert Advisory Group on Language Engineering Standards), un estándar ampliamente usado en lingüística computacional para la anotación gramatical.

Cada etiqueta es un código alfanumérico que describe la categoría gramatical de la palabra y algunas de sus propiedades morfosintácticas:

Primera letra: Categoría gramatical principal.

- n = Sustantivo (noun)
- v = Verbo (verb)
- a = Adjetivo (adjective)
- d = Determinante (determiner)
- s = Preposición o contracción (preposition)
- c = Conjunción (conjunction)
- p = Pronombre (pronoun)
- f = Signo de puntuación (punctuation)

Segunda letra: Tipo o subtipo de la categoría.

- Para sustantivos (n), indica si es común (c) o propio (p).
- Para verbos (v), se refiere al modo (indicativo, subjuntivo, etc.).

Tercera letra y siguientes:
- Características adicionales como género, número, tiempo verbal, etc.


**Consideraciones**:

El etiquetador entrenado con el corpus CESS-ESP puede no ser tan preciso para textos fuera de su dominio.

Para un etiquetado POS más robusto en español, se recomiendan herramientas como spaCy o Stanza, que tienen modelos entrenados específicamente para español.

In [32]:
# Frase fuera del contexto de entrenamiento
text = "Kubernetes sirve para automatizar la orquestación de contenedores."
tokens = nltk.word_tokenize(text, language='spanish')
etiquetas = bigram_tagger.tag(tokens)
print(etiquetas)

[('Kubernetes', None), ('sirve', 'vmip3s0'), ('para', 'sps00'), ('automatizar', None), ('la', 'da0fs0'), ('orquestación', None), ('de', 'sps00'), ('contenedores', 'ncmp000'), ('.', 'Fp')]


Veamos un ejemplo en inglés:

In [33]:
text = "Kubernetes is a portable, extensible, open source platform for managing containerized workloads and services."
tokens = word_tokenize(text, language='english')

# Mostrar las etiquetas de partes del discurso usando Penn Treebank
tagged = nltk.pos_tag(tokens, lang='eng')
print(tagged)

LookupError: 
**********************************************************************
  Resource [93maveraged_perceptron_tagger_eng[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('averaged_perceptron_tagger_eng')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtaggers/averaged_perceptron_tagger_eng/[0m

  Searched in:
    - '/home/gonzadzz/nltk_data'
    - '/home/gonzadzz/GitHub/dl_istea/.venv/nltk_data'
    - '/home/gonzadzz/GitHub/dl_istea/.venv/share/nltk_data'
    - '/home/gonzadzz/GitHub/dl_istea/.venv/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


Vemos que los códigos son diferentes. Aquí el NLTK usa el conjunto Penn Treebank, que es uno de los más comunes para etiquetado POS en inglés.

Explicación de algunos códigos:
- NNS: Sustantivo en plural (e.g., "workloads", "services").
- VBZ: Verbo en tercera persona del singular en presente (e.g., "is").
- DT: Determinante o artículo (e.g., "a").
- JJ: Adjetivo (e.g., "portable", "extensible", "containerized", "open").
- ,: Signo de puntuación (coma).
- NN: Sustantivo en singular (e.g., "source", "platform").
- IN: Preposición o conjunción subordinante (e.g., "for").
- VBG: Verbo en gerundio o participio presente (e.g., "managing").
- CC: Conjunción de coordinación (e.g., "and").


In [None]:
# 3): usando TextBlob
# %pip install textBlob

from textblob import TextBlob
from textblob.download_corpora import download_all

# Descargar recursos necesarios
download_all()

# Crear un objeto TextBlob
text = "El gato está debajo de la mesa."
blob = TextBlob(text)

# Etiquetar partes del discurso
print("TextBlob POS Tagging:")
for word, tag in blob.tags:
    print(f"{word}: {tag}")

Collecting textBlob
  Downloading textblob-0.19.0-py3-none-any.whl.metadata (4.4 kB)
Downloading textblob-0.19.0-py3-none-any.whl (624 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m624.3/624.3 kB[0m [31m10.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: textBlob
Successfully installed textBlob-0.19.0


[nltk_data] Downloading package brown to /home/gonzadzz/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/gonzadzz/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /home/gonzadzz/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /home/gonzadzz/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package conll2000 to
[nltk_data]     /home/gonzadzz/nltk_data...
[nltk_data]   Unzipping corpora/conll2000.zip.
[nltk_data] Downloading package movie_reviews to
[nltk_data]     /home/gonzadzz/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.


TextBlob POS Tagging:
El: NNP
gato: NN
está: NN
debajo: NN
de: IN
la: FW
mesa: FW


¿Qué tal el resultado...?

Veamos ahora un ejemplo en inglés:

In [36]:
# English example

# Tokenizar el texto
text = "The cat is under the table."

# Mostrar las etiquetas de partes del discurso
blob = TextBlob(text)

# Etiquetar partes del discurso
print("TextBlob POS Tagging:")
for word, tag in blob.tags:
    print(f"{word}: {tag}")

TextBlob POS Tagging:
The: DT
cat: NN
is: VBZ
under: IN
the: DT
table: NN


NOTAS:

- NLTK: Ofrece flexibilidad y permite personalizar modelos, pero requiere configuraciones adicionales y puede no ser tan preciso en el español.

- SpaCy: Proporciona modelos preentrenados precisos y fáciles de usar para múltiples idiomas.

- TextBlob: Es una opción más sencilla y ligera, pero con soporte limitado para idiomas distintos del inglés.

#### Un poco más de información!

*Dependencia (Dependency Parsing)*:

La dependencia describe la relación sintáctica entre la palabra y su palabra "padre" (head). Las etiquetas de dependencia indican el papel gramatical de la palabra en la oración. Algunos ejemplos comunes son:
- nsubj: Sujeto nominal.
- aux: Auxiliar.
- ROOT: Raíz de la oración.
- xcomp: Complemento de objeto abierto.
- det: Determinante.
- obj: Objeto.
- case: Preposición o palabra relacionada con la marca de caso.
- nmod: Modificador nominal.
- flat: Dependencia plana (usualmente para nombres propios compuestos).
- nummod: Modificador numérico.
- obl: Objeto oblicuo.
- nmod: Modificador nominal.
- punct: Puntuación.

*Padre (Head)*:

La palabra padre es el token principal al que está relacionado un token dado en la estructura sintáctica de la oración. En un árbol de dependencias, cada palabra está conectada a otra palabra (su padre) hasta llegar a la raíz de la oración.

In [37]:
# imprimir el análisis sintáctico, una entidad por línea
print("\nAnálisis Sintáctico:")
for token in doc:
    print(f"Texto: {token.text}, Lema: {token.lemma_}, POS: {token.pos_}, Dependencia: {token.dep_}, Padre: {token.head.text}")


Análisis Sintáctico:
Texto: El, Lema: el, POS: DET, Dependencia: det, Padre: gato
Texto: gato, Lema: gato, POS: NOUN, Dependencia: nsubj, Padre: debajo
Texto: está, Lema: estar, POS: AUX, Dependencia: cop, Padre: debajo
Texto: debajo, Lema: debajo, POS: ADV, Dependencia: ROOT, Padre: debajo
Texto: de, Lema: de, POS: ADP, Dependencia: case, Padre: mesa
Texto: la, Lema: el, POS: DET, Dependencia: det, Padre: mesa
Texto: mesa, Lema: mesa, POS: NOUN, Dependencia: obl, Padre: debajo
Texto: ., Lema: ., POS: PUNCT, Dependencia: punct, Padre: debajo


In [39]:
from spacy import displacy

# Visualizar el análisis sintáctico
displacy.render(doc,style = 'dep', options = {'font':'Areal','distance':100,'compact' : True,}, jupyter =True)

ImportError: cannot import name 'display' from 'IPython.core.display' (/home/gonzadzz/GitHub/dl_istea/.venv/lib/python3.12/site-packages/IPython/core/display.py)

## Reconocimiento de entidades nombradas

In [40]:
# Modelo de lenguaje para el español en la biblioteca de PLN SpaCy,
# optimizado para noticias ("core_news") y es de tamaño grande ("lg")
!python -m spacy download es_core_news_lg #md

Collecting es-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_lg-3.8.0/es_core_news_lg-3.8.0-py3-none-any.whl (568.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.0/568.0 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:02[0m
[?25hInstalling collected packages: es-core-news-lg
Successfully installed es-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_lg')


In [None]:
%pip install transformers 

import spacy
from spacy import displacy
from textblob import TextBlob
from transformers import pipeline

# Cargar el modelo de SpaCy para español
nlp_spacy = spacy.load("es_core_news_lg")

# Texto a analizar
texto = "Raúl Alfonsín, abogado nacido en Buenos Aires, fue presidente de Argentina, entre 1983 y 1989."

# 1. Reconocimiento de Entidades Nombradas con SpaCy
doc_spacy = nlp_spacy(texto)
entidades_spacy = [(ent.text, ent.label_) for ent in doc_spacy.ents]
print("\nEntidades Nombradas con SpaCy --español--:")
print(entidades_spacy)
displacy.render(doc_spacy, style="ent")


texto = "Raúl Alfonsín, a lawyer born in Buenos Aires, was the President of Argentina between 1983 and 1989."
nlp_spacy = spacy.load("en_core_web_sm")
doc_spacy = nlp_spacy(texto)
entidades_spacy = [(ent.text, ent.label_) for ent in doc_spacy.ents]
print("\nEntidades Nombradas con SpaCy --inglés--:")
print(entidades_spacy)
displacy.render(doc_spacy, style="ent")


# 2. Reconocimiento de Entidades Nombradas con TextBlob
# TextBlob no tiene un modelo preentrenado para NER en español, por lo que no es adecuado para este propósito
# Para demostrar el uso de TextBlob en inglés, el siguiente código sería un ejemplo:
blob = TextBlob("Raúl Alfonsín, a lawyer born in Buenos Aires, was the President of Argentina between 1983 and 1989.")
entidades_textblob = blob.noun_phrases
print("\nEntidades Nombradas con TextBlob (Inglés):")
print(entidades_textblob)

Collecting transformers
  Downloading transformers-4.50.3-py3-none-any.whl.metadata (39 kB)
Collecting filelock (from transformers)
  Downloading filelock-3.18.0-py3-none-any.whl.metadata (2.9 kB)
Collecting huggingface-hub<1.0,>=0.26.0 (from transformers)
  Downloading huggingface_hub-0.29.3-py3-none-any.whl.metadata (13 kB)
Collecting pyyaml>=5.1 (from transformers)
  Downloading PyYAML-6.0.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.1 kB)
Collecting tokenizers<0.22,>=0.21 (from transformers)
  Downloading tokenizers-0.21.1-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.8 kB)
Collecting safetensors>=0.4.3 (from transformers)
  Downloading safetensors-0.5.3-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
Collecting fsspec>=2023.5.0 (from huggingface-hub<1.0,>=0.26.0->transformers)
  Downloading fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Downloading transformers-4.50.3-py3-none-any.whl (10.2 MB)
[2K  

  from .autonotebook import tqdm as notebook_tqdm
None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.



Entidades Nombradas con SpaCy --español--:
[('Raúl Alfonsín', 'PER'), ('Buenos Aires', 'LOC'), ('Argentina', 'LOC')]


ImportError: cannot import name 'display' from 'IPython.core.display' (/home/gonzadzz/GitHub/dl_istea/.venv/lib/python3.12/site-packages/IPython/core/display.py)

¿Qué diferencias se pueden apreciar en los resultados?

## Ejercicio: Análisis de Texto en Español con NLTK y SpaCy

Objetivos:
- Aprender a tokenizar texto utilizando NLTK y SpaCy.
- Comparar los resultados de tokenización entre ambas librerías.
- Utilizar SpaCy para realizar el reconocimiento de entidades nombradas.
- Realizar el análisis sintáctico de una oración con SpaCy.

In [43]:
# Texto a analizar
texto = "El presidente Barack Obama visitó París en julio de 2023 para una cumbre internacional."
#texto = "El Dr. Juan Pérez, un reconocido neurocirujano de Nueva York, intervino exitosamente a la Sra. Julia González."

# Tokenización con NLTK
tokens_nltk = nltk.word_tokenize(texto)

# Tokenización con SpaCy
nlp = spacy.load("es_core_news_sm")
doc = nlp(texto)
tokens_spacy = [token.text for token in doc]

# Comparación de Tokenización
print("\nComparación de tokenizaciones:")
print("NTLK :", tokens_nltk)
print("SpaCy:", tokens_spacy)


# Reconocimiento de Entidades Nombradas con SpaCy
entidades = [(ent.text, ent.label_) for ent in doc.ents]
print("\nEntidades Nombradas con SpaCy:")
print(entidades)

# Análisis Sintáctico con SpaCy
print("\nAnálisis sintáctico completo con SpaCy:")
for token in doc:
    print(f"Texto: {token.text}, Lema: {token.lemma_}, POS: {token.pos_}, Dependencia: {token.dep_}, Padre: {token.head.text}")


Comparación de tokenizaciones:
NTLK : ['El', 'presidente', 'Barack', 'Obama', 'visitó', 'París', 'en', 'julio', 'de', '2023', 'para', 'una', 'cumbre', 'internacional', '.']
SpaCy: ['El', 'presidente', 'Barack', 'Obama', 'visitó', 'París', 'en', 'julio', 'de', '2023', 'para', 'una', 'cumbre', 'internacional', '.']

Entidades Nombradas con SpaCy:
[('Barack Obama visitó París', 'PER')]

Análisis sintáctico completo con SpaCy:
Texto: El, Lema: el, POS: DET, Dependencia: det, Padre: presidente
Texto: presidente, Lema: presidente, POS: NOUN, Dependencia: nsubj, Padre: visitó
Texto: Barack, Lema: Barack, POS: PROPN, Dependencia: appos, Padre: presidente
Texto: Obama, Lema: Obama, POS: PROPN, Dependencia: flat, Padre: Barack
Texto: visitó, Lema: visitar, POS: VERB, Dependencia: ROOT, Padre: visitó
Texto: París, Lema: París, POS: PROPN, Dependencia: obj, Padre: visitó
Texto: en, Lema: en, POS: ADP, Dependencia: case, Padre: julio
Texto: julio, Lema: julio, POS: NOUN, Dependencia: obl, Padre: v

Discusión para los resultados con ambras frases:

- ¿Qué diferencias notaste en la tokenización entre NLTK y SpaCy?
- ¿Qué ventajas ofrece SpaCy en términos de rendimiento y capacidades adicionales?

Discusión general:

- ¿Cómo puede el reconocimiento de entidades nombradas ayudar en el análisis de texto?
- ¿Qué información útil puedes obtener del análisis sintáctico realizado con SpaCy?

1) La tokenización de SpaCy es más precisa y maneja mejor los signos de puntuación y las entidades compuestas en comparación con NLTK.

2) SpaCy ofrece un rendimiento superior y capacidades adicionales como el reconocimiento de entidades nombradas y el análisis sintáctico, haciéndolo más adecuado para aplicaciones en tiempo real.

3) El reconocimiento de entidades nombradas facilita la identificación de elementos clave en el texto, como nombres de personas, lugares y organizaciones, mejorando la comprensión y el análisis contextual.

4) El análisis sintáctico con SpaCy proporciona información detallada sobre las relaciones gramaticales entre las palabras, lo que ayuda a entender la estructura y el significado subyacente de las oraciones.

#### Ejemplo de análisis de sentimiento usando NLTK

Fuente:
https://www.datacamp.com/es/tutorial/text-analytics-beginners-nltk

In [None]:
# Start codiimport pandas as pd 
%pip install pandas
%pip install pandas
 

import pandas as pd
import nltk
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# download nltk corpus
import nltk
nltk.download('all')

# Load the amazon review dataset
df = pd.read_csv('https://raw.githubusercontent.com/pycaret/pycaret/master/datasets/amazon.csv')
df

In [None]:
# imprimir 5 filas con columna Positive igual a 0
df[df['Positive'] == 0].head()

In [None]:
def preprocess_text(text):
    # Tokenize the text
    tokens = word_tokenize(text.lower())

    # Remove stop words

    filtered_tokens = [token for token in tokens if token not in stopwords.words('english')]

    # Lemmatize the tokens
    lemmatizer = WordNetLemmatizer()
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in filtered_tokens]

    # Join the tokens back into a string
    processed_text = ' '.join(lemmatized_tokens)

    return processed_text

df['reviewText'] = df['reviewText'].apply(preprocess_text)
df.head()

In [None]:
# imprimir 5 filas con columna Positive igual a 0
df[df['Positive'] == 0].head()

In [None]:
# Perform sentiment analysis using NLTK Vader
analyzer = SentimentIntensityAnalyzer()

def get_sentiment(text):
    scores = analyzer.polarity_scores(text)
    sentiment = 1 if scores['pos'] > 0 else 0
    return sentiment

df['sentiment'] = df['reviewText'].apply(get_sentiment)
df.head()

In [None]:
# Ejemplo del análisis con 1 frase, para ver la salida del analizador

texto = df['reviewText'][1]
print(texto)
analyzer.polarity_scores(texto)

In [None]:
# imprimir 5 filas de df donde el sentimiento sea 0
df[df['sentiment'] == 0].head()

In [None]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(df['Positive'], df['sentiment']))

In [None]:
from sklearn.metrics import classification_report
print(classification_report(df['Positive'], df['sentiment']))

## ANEXO

La librería SpaCy contiene un conjunto de frases ya disponibles para pruebas, accesibles a través de la estructura de datos 'sentences':

In [None]:
# Frases de ejemplo disponibles en SpaCy:

import spacy
from spacy.lang.es.examples import sentences

# imprimir el contenido de sentences, una frase por línea
nlp = spacy.load("es_core_news_sm")
doc = nlp(sentences[0])
print(doc.text)
for token in doc:
    #print(token.text, token.pos_, token.dep_)
    print(f"Texto: {token.text}, Lema: {token.lemma_}, POS: {token.pos_}, Dependencia: {token.dep_}, Padre: {token.head.text}")
entidades = [(ent.text, ent.label_) for ent in doc.ents]
print("\nEntidades nombradas:")
print(entidades)