# Textacy & Spacy
Librerias de procesado de NLP

In [None]:
# Actualizamos pip a la última versión
# pip es el gestor de paquetes de Python
# Comando desactivado (comentado con #) - ejecutar solo si es necesario
#!pip install --user  --upgrade pip 

In [None]:
# ========================================
# INSTALACIÓN DE SPACY Y MODELOS DE LENGUAJE
# ========================================

# Instalamos la librería spacy
# Comando desactivado - ejecutar solo en la primera instalación
#!pip install -U spacy

# Descargamos el modelo pequeño de inglés
# 'sm' = small (modelo pequeño, más rápido pero menos preciso)
#!python -m spacy download en_core_web_sm

In [None]:
# Instalamos textacy, una librería que complementa spacy con funcionalidades adicionales
# Comando desactivado - ejecutar solo en la primera instalación
#%pip install textacy

In [None]:
# Descargamos el modelo GRANDE de inglés
# 'lg' = large (modelo grande con mejor precisión y vectores de palabras)
# Este modelo es más pesado pero tiene mejor rendimiento
#!python -m spacy download en_core_web_lg

In [None]:
# Descargamos el modelo GRANDE de español
# Este modelo permite procesar textos en español con alta precisión
#!python -m spacy download es_core_news_lg

In [None]:
# ========================================
# INSTRUCCIONES DE INSTALACIÓN
# ========================================

'''
Versiones compatibles
Despues hay que reiniciar el entorno de ejecución
'''

# Instalamos spacy y textacy
# Estos comandos están desactivados - solo ejecutar una vez
# !pip install spacy
# !pip install textacy

# Para siguientes ejecuciones, solo ejecutar estos comandos para descargar los modelos
# Después de ejecutar, REINICIAR el entorno de ejecución (Runtime > Restart Runtime)
# !python -m spacy download en_core_web_lg  # Modelo grande de inglés
# !python -m spacy download es_core_news_lg  # Modelo grande de español

# Spacy
https://spacy.io/

NOTA: Recuerda reiniciar el entorno de ejecucion despues de la instalacion

In [None]:
# Importamos la librería spacy, que es una de las mejores herramientas de NLP
import spacy

# Cargamos el modelo pre-entrenado para inglés (large = modelo grande con mejor precisión)
# 'en_core_web_lg' incluye vectores de palabras, reconocimiento de entidades, POS tagging, etc.
nlp = spacy.load('en_core_web_lg')

## Text basics
Veamos como trabajar cn estos primeros ejemplos con la libreria ´spacy´. Cosas que podemos hacer:
1. Tokenizar en frases
2. Tokenizar en palabras
3. Acceder a los atributos de cada token
4. Acceder a las entidades del texto
5. Visualizar las entidades del texto

In [None]:
# ========================================
# EJEMPLO 1: TOKENIZACIÓN DE FRASES
# ========================================

# Definimos el texto que queremos analizar
# Este texto habla sobre Londres y será nuestro ejemplo de entrada
text = """
London is the capital and most populous city of England and 
the United Kingdom.  Standing on the River Thames in the south east 
of the island of Great Britain, London has been a major settlement 
for two millennia. It was founded by the Romans, who named it Londinium.
"""

# Procesamos el texto con spacy
# Al aplicar nlp(text), spacy realiza automáticamente:
# - Tokenización (división en palabras)
# - POS tagging (etiquetado gramatical)
# - Reconocimiento de entidades
# - Análisis de dependencias sintácticas
doc = nlp(text)

# Imprimimos el documento completo
print(doc)

# Iteramos sobre cada frase detectada automáticamente por spacy
# spacy usa el modelo de lenguaje para identificar dónde termina cada frase
for num, sentence in enumerate(doc.sents):
  print(num, sentence)

In [None]:
# Contamos cuántas frases tiene nuestro documento
# doc.sents es un generador, por eso lo convertimos a lista
# Resultado esperado: 4 frases
len(list(doc.sents))

In [None]:
# ========================================
# EJEMPLO 2: ANÁLISIS DE TOKENS (PALABRAS)
# ========================================

# Iteramos sobre las primeras 20 palabras del documento
# Cada token (palabra) tiene múltiples atributos útiles:
for word in doc[:20]:
  # word.text = la palabra original tal como aparece en el texto
  # word.lemma_ = forma base de la palabra (ej: "running" -> "run")
  # word.pos_ = Part Of Speech, la categoría gramatical (NOUN, VERB, ADJ, etc.)
  # word.is_stop = True si es una stopword (palabras comunes como "the", "is", "a")
  print(word.text, word.lemma_, word.pos_, word.is_stop)

In [None]:
# Verificamos el tipo de objeto que devuelve spacy
# Es un objeto de tipo Doc (documento procesado) que contiene toda la información lingüística
type(doc)

## Syntactic analysis
Doing the school homework

In [None]:
# ========================================
# EJEMPLO 3: ANÁLISIS SINTÁCTICO (DEPENDENCY PARSING)
# ========================================

# Importamos displacy para visualizaciones interactivas
from spacy import displacy

# Creamos un nuevo documento con una frase más simple para visualizar mejor
doc2 = nlp("London is the capital and most populous city of England and the United Kingdom")

# Visualizamos el árbol de dependencias sintácticas
# style="dep" muestra las relaciones gramaticales entre palabras
# (sujeto, verbo, objeto, modificadores, etc.)
# jupyter=True permite que se muestre correctamente en Jupyter Notebook
displacy.render(doc2, jupyter=True, style="dep")

## Entities in text

In [None]:
# ========================================
# EJEMPLO 4: RECONOCIMIENTO DE ENTIDADES (NER)
# ========================================

# Iteramos sobre todas las entidades nombradas que spacy ha detectado automáticamente
# Las entidades son cosas como nombres de lugares, personas, fechas, organizaciones, etc.
for entity in doc.ents:
  # entity.text = el texto de la entidad
  # entity.label_ = el tipo de entidad (GPE, PERSON, DATE, etc.)
  # spacy.explain() nos da una descripción humana del tipo de entidad
  print(entity.text, entity.label_, spacy.explain(entity.label_))

In [None]:
# Si tenemos dudas sobre qué significa alguna etiqueta, podemos usar explain()
# Por ejemplo, ¿qué es 'ORG'?
spacy.explain('ORG')

In [None]:
# Visualizamos las entidades de forma gráfica y coloreada
# style='ent' muestra las entidades resaltadas con diferentes colores según su tipo
# Esto es muy útil para presentaciones y para verificar visualmente el NER
displacy.render(doc, style='ent', jupyter=True)

## Replacing names
Hide names for GDPR

In [None]:
# ========================================
# EJEMPLO 5: ANONIMIZACIÓN DE DATOS (GDPR COMPLIANCE)
# ========================================

# Esta función reemplaza un token individual si es un nombre de persona
def replace_name_with_placeholder(token):
    # token.ent_iob indica si el token es parte de una entidad (0 = no es parte)
    # token.ent_type_ indica el tipo de entidad (PERSON, GPE, ORG, etc.)
    if token.ent_iob != 0 and token.ent_type_ == "PERSON":
        # Si es una persona, la reemplazamos por "GDPR" para proteger la privacidad
        return "GDPR"
    else:
        # Si no es una persona, devolvemos el texto original
        return token.text

# Esta función procesa un texto completo y oculta todos los nombres de personas
def scrub(text):
    # Procesamos el texto con spacy
    doc = nlp(text)
    
    # Retokenizamos para fusionar las entidades multi-palabra en un solo token
    # Por ejemplo: "Alan Turing" se convierte en un solo token en lugar de dos
    with doc.retokenize() as retokenizer:
        for ent in doc.ents:
            retokenizer.merge(ent)
    
    # Aplicamos la función de reemplazo a cada token
    tokens = map(replace_name_with_placeholder, doc)
    
    # Unimos todos los tokens de vuelta en un string
    return " ".join(tokens)

# Texto de prueba con nombres de personas famosas
s = """
In 1950, Alan Turing published his famous article "Computing Machinery and Intelligence". In 1957, Noam Chomsky's 
Syntactic Structures revolutionized Linguistics with 'universal grammar', a rule based system of syntactic structures.
"""

# Aplicamos la anonimización y mostramos el resultado
# Resultado esperado: "Alan Turing" y "Noam Chomsky" serán reemplazados por "GDPR"
print(scrub(s))

## Lematize

In [None]:
# ========================================
# EJEMPLO 6: LEMATIZACIÓN
# ========================================

# La lematización convierte las palabras a su forma base/diccionario
# Ejemplos:
# - "running" -> "run"
# - "better" -> "good"
# - "was" -> "be"

# Iteramos sobre cada palabra del documento
for w in doc:
  # w.text = palabra original
  # w.lemma_ = forma base de la palabra (lema)
  # w.pos_ = categoría gramatical
  print(w.text, w.lemma_, w.pos_)

## Stopwords

In [None]:
# ========================================
# EJEMPLO 7: STOPWORDS (PALABRAS VACÍAS)
# ========================================

# Las stopwords son palabras muy comunes que generalmente no aportan mucho significado
# Ejemplos: "the", "is", "a", "an", "in", "to", "for", etc.

# Importamos la lista de stopwords en inglés
from spacy.lang.en.stop_words import STOP_WORDS

# Mostramos las primeras 20 stopwords de la lista
# Spacy tiene ~300+ stopwords en inglés
print(list(STOP_WORDS)[:20])

In [None]:
# Creamos una lista limpia removiendo stopwords y puntuación
# Esta es una técnica común en NLP para reducir el ruido en el análisis

# List comprehension que filtra:
# - not palabra.is_stop: elimina stopwords (the, is, a, etc.)
# - not palabra.is_punct: elimina signos de puntuación (. , ! ?)
lista_clean = [palabra for palabra in doc if not palabra.is_stop and not palabra.is_punct]

# Resultado: solo palabras con significado relevante
print(lista_clean)

# Spanish
## Spacy  and entities

In [None]:
# ========================================
# EJEMPLO 8: PROCESAMIENTO EN ESPAÑOL
# ========================================

# Cargamos el modelo pre-entrenado para español (large)
nlp_es = spacy.load('es_core_news_lg')

# Texto de ejemplo en español (artículo sobre Londres de Wikipedia)
text = '''Londres (en inglés, London, pronunciado /ˈlʌndən/ ( escuchar)) es la capital y mayor ciudad de Inglaterra y del Reino Unido.2​3​ Situada a orillas del río Támesis, Londres es un importante asentamiento humano desde que fue fundada por los romanos con el nombre de Londinium hace casi dos milenios.4​ El núcleo antiguo de la urbe, la City de Londres, conserva básicamente su perímetro medieval de una milla cuadrada. Desde el siglo XIX el nombre «Londres» también hace referencia a toda la metrópolis desarrollada alrededor de este núcleo.5​ El grueso de esta conurbación forma la región de Londres y el área administrativa del Gran Londres,6​ gobernado por el alcalde y la asamblea de Londres.7​
Londres es una ciudad global, uno de los centros neurálgicos en el ámbito de las artes, el comercio, la educación, el entretenimiento, la moda, las finanzas, los medios de comunicación, la investigación, el turismo o el transporte.8​ Es el principal centro financiero del mundo9​10​11​ y una de las áreas metropolitanas con mayor PIB.12​13​ Londres es también una capital cultural mundial,14​15​16​17​ la ciudad más visitada considerando el número de visitas internacionales18​ y tiene el mayor sistema aeroportuario del mundo según el tráfico de pasajeros.19​ Asimismo, las 43 universidades de la ciudad conforman la mayor concentración de centros de estudios superiores de toda Europa.20​ En el año 2012 Londres se convirtió en la única ciudad en albergar la celebración de tres Juegos Olímpicos de Verano.21​
En esta ciudad multirracial convive gente de un gran número de culturas que hablan más de trescientos idiomas distintos.22​ La Autoridad del Gran Londres estima que en 2015 la ciudad tiene 8,63 millones de habitantes,23​ que supone el 12,5 % del total de habitantes del Reino Unido.24​ El área urbana del Gran Londres, con 10 470 00025​ habitantes, es la segunda más grande de Europa, pero su área metropolitana, con una población estimada de entre 12 y 14 millones,26​27​ es la mayor del continente. Desde 1831 a 1925 Londres, como capital del Imperio británico, fue la ciudad más poblada del mundo.'''

# Procesamos el texto en español
doc = nlp_es(text)

# Extraemos y mostramos todas las entidades nombradas detectadas
# En español, las etiquetas pueden ser: LOC (lugar), PER (persona), ORG (organización), MISC (misceláneo)
for entity in doc.ents:
    print(f"{entity.text} ({entity.label_})")

In [None]:
# Verificamos qué significa la etiqueta 'MISC' en el modelo de español
# MISC = Miscellaneous (eventos, nacionalidades, productos, obras de arte, etc.)
spacy.explain('MISC')

## Most frequent words
In a Wikipedia page

In [None]:
# Instalamos la librería wikipedia para obtener contenido de artículos
# Comando desactivado - ejecutar solo si no está instalada
#%pip install wikipedia

In [None]:
# Importamos las stopwords en español
# Similar al inglés, pero adaptadas al español
from spacy.lang.es.stop_words import STOP_WORDS

In [None]:
# Mostramos las primeras 20 stopwords en español
# Ejemplos: "el", "la", "de", "que", "en", "y", etc.
list(STOP_WORDS)[:20]

In [None]:
# ========================================
# EJEMPLO 9: ANÁLISIS DE PALABRAS FRECUENTES CON WIKIPEDIA
# ========================================

# Importamos la librería wikipedia para obtener contenido de artículos
import wikipedia

# Configuramos el idioma a inglés
wikipedia.set_lang("en")

# Obtenemos el artículo completo sobre "Data Science"
wiki = wikipedia.page(title="Data Science")

# Extraemos el contenido del artículo
text = wiki.content

# Mostramos los primeros 1000 caracteres como muestra
text[0:1000]

In [None]:
# Extraemos solo los SUSTANTIVOS del texto
# Filtramos:
# - Que NO sean stopwords
# - Que NO sean signos de puntuación
# - Que SÍ sean sustantivos (NOUN)

# List comprehension con múltiples condiciones
nombres = [w.text.lower() for w in nlp(text) if ((not w.is_stop) and (not w.is_punct) and (w.pos_ == 'NOUN'))]

# Mostramos los primeros 10 sustantivos encontrados
nombres[:10]

In [None]:
# Contamos la frecuencia de cada palabra usando Counter
# Counter es una estructura de datos que cuenta automáticamente elementos
from collections import Counter

# Creamos un contador con todas las palabras
word_freq = Counter(nombres)

# Mostramos las 10 palabras más comunes (excluyendo la primera con [1:])
# most_common(10) devuelve una lista de tuplas (palabra, frecuencia)
word_freq.most_common(10)[1:]

In [None]:
# ========================================
# EJEMPLO 10: ANÁLISIS DE ADJETIVOS EN ESPAÑOL
# ========================================

# Cambiamos el idioma de wikipedia a español
wikipedia.set_lang("es")

# Obtenemos el artículo sobre "Regresión Lineal" en español
wiki = wikipedia.page(title="Regresión Lineal")

# Extraemos el contenido
text = wiki.content

# Mostramos los primeros 1000 caracteres
text[0:1000]

In [None]:
# Ahora extraemos ADJETIVOS en lugar de sustantivos
# Usamos el lema (lemma_) en lugar del texto para normalizar las palabras
# Por ejemplo: "lineal", "lineales", "linealmente" -> todos se convierten a "lineal"

# Filtramos por:
# - NO stopwords
# - NO puntuación  
# - SÍ adjetivos (ADJ)
nombres = [w.lemma_ for w in nlp_es(text) if ((not w.is_stop) and (not w.is_punct) and (w.pos_ == 'ADJ'))]

# Mostramos los primeros 10 adjetivos
nombres[:10]

In [None]:
# Contamos la frecuencia de los adjetivos
from collections import Counter

# Creamos el contador
word_freq = Counter(nombres)

# Mostramos los 10 adjetivos más frecuentes (excluyendo el primero)
# Esto nos ayuda a entender qué características se mencionan más en el artículo
word_freq.most_common(10)[1:]

## Textacy London text
Now we want to know things about London, from our previous text

In [None]:
# Instalamos una versión específica de numpy compatible con textacy
# numpy 1.26.4 es necesario para evitar conflictos de versiones
# Después de instalar, REINICIAR el entorno de ejecución
#%pip install numpy==1.26.4
# then restart

In [None]:
# Instalamos textacy versión 0.12.0 específicamente
# Esta versión es compatible con las versiones actuales de spacy y numpy
!pip install textacy==0.12.0

In [None]:
# Si hay problemas de compatibilidad, instalar numpy 1.26.4
# Comando desactivado - ejecutar solo si es necesario
#%pip install numpy==1.26.4

In [None]:
# ========================================
# EJEMPLO 11: EXTRACCIÓN DE INFORMACIÓN CON TEXTACY
# ========================================

# Textacy es una capa sobre spacy que facilita tareas más avanzadas
import textacy.extract

# Definimos un texto con múltiples afirmaciones sobre Londres
text = """London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia. London was founded by the Romans, 
who named it Londinium. London is a huge city. London has a lot of cute restaurants. Jaimito is my best friend.
"""

# Procesamos el texto con spacy
doc = nlp(text)

# Extraemos AFIRMACIONES SEMIESTRUCTURADAS sobre "London"
# Buscamos frases donde "London" es el sujeto y el verbo es "be" (ser/estar)
# Esto nos permite extraer hechos específicos sobre Londres
statements = textacy.extract.semistructured_statements(doc, entity="London", cue='be')

# Mostramos los resultados
print("Here are the things I know about London:")

# Cada statement es una tupla de (sujeto, verbo, hecho)
for statement in statements:
    subject, verb, fact = statement
    # Imprimimos solo el hecho extraído
    print(f" - {fact}")

## Textacy with Wikipedia API
We don't want the most frequent words, we want sentences about London

In [None]:
# ========================================
# EJEMPLO 12: EXTRACCIÓN DE INFORMACIÓN DE WIKIPEDIA
# ========================================

# Configuramos el idioma a inglés
wikipedia.set_lang("en")

# Obtenemos el artículo completo de Londres
london = wikipedia.page("London")

# Extraemos el contenido del artículo
text = london.content

In [None]:
# Procesamos el artículo de Wikipedia sobre Londres
doc = nlp(text)

# Ahora buscamos información específica sobre "London Underground" (el metro de Londres)
# Extraemos afirmaciones donde "London Underground" es el sujeto y "be" es el verbo
statements = textacy.extract.semistructured_statements(doc, entity="London Underground", cue='be')

# Mostramos los resultados
print("Here are the things I know about London:")

# Iteramos sobre cada afirmación encontrada
for statement in statements:
    subject, verb, fact = statement
    # Imprimimos solo el hecho extraído
    # Por ejemplo: "London Underground is the world's oldest rapid transit system"
    print(f" - {fact}")