# Capítulo 1

## Introducción 

In [1]:
# Importa spaCy
import spacy

# Crea un objeto nlp vacío para procesar español
nlp = spacy.blank("es")
# Creado al procesar un string de texto con el objeto nlp
doc = nlp("¡Hola Mundo!")

# Itera sobre los tokens en un Doc
for token in doc:
    print(token.text)
    doc = nlp("¡Hola Mundo!")

# Usa el índice del Doc para obtener un solo Token
token = doc[2]

# Obtén el texto del token a través del atributo .text
print(token.text)

doc = nlp("¡Hola Mundo!")

# Un slice de un Doc en un objeto Span
span = doc[2:4]

# Obtén el texto del span a través del atributo .text
print(span.text)

doc = nlp("Eso cuesta €5.")
print("Índice:   ", [token.i for token in doc])
print("Texto:    ", [token.text for token in doc])

print("is_alpha:", [token.is_alpha for token in doc])
print("is_punct:", [token.is_punct for token in doc])
print("like_num:", [token.like_num for token in doc])

¡
Hola
Mundo
!
Mundo
Mundo!
Índice:    [0, 1, 2, 3, 4]
Texto:     ['Eso', 'cuesta', '€', '5', '.']
is_alpha: [True, True, False, False, False]
is_punct: [False, False, False, False, True]
like_num: [False, False, False, True, False]


## Para empezar

In [2]:
# Español
# Importa spaCy
import spacy

# Crea el objeto nlp para procesar español
nlp = spacy.blank("es")

# Procesa un texto
doc = nlp("¿Cómo estás?")
# Imprime en pantalla el texto del documento
print(doc.text)

# Inglés
# Importa spaCy
import spacy

# Crea el objeto nlp para procesar inglés
nlp = spacy.blank("en")

# Procesa un texto (aquí dice "Esta es una oración" en inglés)
doc = nlp("This is a sentence.")

# Imprime en pantalla el texto del documento
print(doc.text)
# Alemán
# Importa spaCy
import spacy

# Crea el objeto nlp para procesar alemán
nlp = spacy.blank('de')

# Procesa un texto (aquí dice "Saludos cordiales!" en alemán)
doc = nlp("Liebe Grüße!")

# Imprime en pantalla el texto del documento
print(doc.text)

¿Cómo estás?
This is a sentence.
Liebe Grüße!


## Documentos, spans y tokens

In [3]:
# Paso 1
# Importa spaCy y crea el objeto nlp para procesar español
import spacy

nlp = spacy.blank("es")

# Procesa el texto
doc = nlp("Me gustan las panteras negras y los leones.")

# Selecciona el primer token
first_token = doc[0]

# Imprime en pantalla el texto del token
print(first_token.text)

# Paso 2

# Importa spaCy y crea el objeto nlp para procesar español
import spacy

nlp = spacy.blank("es")

# Procesa el texto
doc = nlp("Me gustan las panteras negras y los leones.")

# Un slice del Doc para "panteras negras"
panteras_negras = doc[3:5]
print(panteras_negras.text)

# Un slice del Doc para "panteras negras y los leones" (sin el ".")
panteras_negras_y_leones = doc[3:8]
print(panteras_negras_y_leones.text)

Me
panteras negras
panteras negras y los leones


## Atributos léxicos


In [4]:
import spacy

nlp = spacy.blank("es")

# Procesa el texto
doc = nlp(
    "En 1990, más del 60 % de las personas en Asia del Este se encontraban "
    "en extrema pobreza. Ahora, menos del 4 % lo están."
)

# Itera sobre los tokens en el doc
for token in doc:
    # Revisa si el token parece un número
    if token.like_num:
        # Obtén el próximo token en el documento
        next_token = doc[token.i + 1]
        # Revisa si el texto del siguiente token es igual a '%'
        if next_token.text == "%":
            print("Porcentaje encontrado:", token.text)

Porcentaje encontrado: 60
Porcentaje encontrado: 4


## Pipelines entrenados

In [None]:
#python -m spacy download es_core_news_sm

import spacy

# Carga el pipeline pequeño de español
nlp = spacy.load("es_core_news_sm")

# Procesa un texto
doc = nlp("Ella comió pizza")

# Itera sobre los tokens
for token in doc:
    # Imprime en pantalla el texto y la etiqueta gramatical predicha
    print(token.text, token.pos_)

for token in doc:
    print(token.text, token.pos_, token.dep_, token.head.text)

# Procesa un texto
doc = nlp(
    "Apple es la marca que más satisfacción genera en EE.UU., "
    "pero el iPhone, fue superado por el Galaxy Note 9"
)

# Itera sobre las entidades predichas
for ent in doc.ents:
    # Imprime en pantalla el texto y la etiqueta de la entidad
    print(ent.text, ent.label_)

spacy.explain("LOC")
spacy.explain("NNP")
spacy.explain("MISC")


Ella PRON
comió VERB
pizza PROPN
Ella PRON nsubj comió
comió VERB ROOT comió
pizza PROPN obj comió
Apple ORG
EE.UU. LOC
iPhone MISC
Galaxy Note 9 MISC


'Miscellaneous entities, e.g. events, nationalities, products or works of art'

## Cargando modelos

In [6]:
import spacy

# Carga el modelo "es_core_news_sm"
nlp = spacy.load("es_core_news_sm")

text = (
    "De acuerdo con la revista Fortune, Apple fue la empresa "
    "más admirada en el mundo entre 2008 y 2012."
)

# Procesa el texto
doc = nlp(text)

# Imprime en pantalla el texto del documento
print(doc.text)

De acuerdo con la revista Fortune, Apple fue la empresa más admirada en el mundo entre 2008 y 2012.


## Prediciendo anotaciones lingüísticas

In [7]:
# Parte 1
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "De acuerdo con la revista Fortune, Apple fue la empresa "
    "más admirada en el mundo entre 2008 y 2012."
)

# Procesa el texto
doc = nlp(text)

for token in doc:
    # Obtén el texto del token, el part-of-speech tag y el dependency label
    token_text = token.text
    token_pos = token.pos_
    token_dep = token.dep_
    # Esto es solo por formato
    print(f"{token_text:<12}{token_pos:<10}{token_dep:<10}")

# Parte 2
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "De acuerdo con la revista Fortune, Apple fue la empresa "
    "más admirada en el mundo entre 2008 y 2012."
)

# Procesa el texto
doc = nlp(text)

# Itera sobre las entidades predichas
for ent in doc.ents:
    # Imprime en pantalla el texto de la entidad y su etiqueta
    print(ent.text, ent.label_)

De          ADP       case      
acuerdo     NOUN      fixed     
con         ADP       fixed     
la          DET       det       
revista     NOUN      obl       
Fortune     PROPN     appos     
,           PUNCT     punct     
Apple       PROPN     nsubj     
fue         AUX       cop       
la          DET       det       
empresa     NOUN      ROOT      
más         ADV       advmod    
admirada    ADJ       amod      
en          ADP       case      
el          DET       det       
mundo       NOUN      obl       
entre       ADP       case      
2008        NOUN      nmod      
y           CCONJ     cc        
2012        NOUN      conj      
.           PUNCT     punct     
revista Fortune ORG
Apple ORG


## Prediciendo entidades nombradas en contexto

In [8]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "Los Olímpicos de Tokio 2020 son la inspiración para la nueva "
    "colección de zapatillas adidas zx."
)

# Procesa el texto
doc = nlp(text)


# Itera sobre las entidades
for ent in doc.ents:
    # Imprime en pantalla el texto de la entidad y su etiqueta
    print(ent.text, ent.label_)

# Obtén el span para "adidas zx"
adidas_zx = doc[14:16]

# Imprime en pantalla el texto del span
print("Entidad faltante:", adidas_zx.text)

Olímpicos de Tokio 2020 MISC
adidas zx ORG
Entidad faltante: adidas zx


## Encontrando patrones basados en reglas

In [9]:
import spacy

# Importa el Matcher
from spacy.matcher import Matcher

# Carga el modelo y crea un objeto nlp
nlp = spacy.load("es_core_news_sm")

# Inicializa el matcher con el vocabulario compartido
matcher = Matcher(nlp.vocab)

# Añade el patrón al matcher
pattern = [{"TEXT": "adidas"}, {"TEXT": "zx"}]
matcher.add("ADIDAS_PATTERN", [pattern])

# Procesa un texto
doc = nlp("Nuevos diseños de zapatillas en la colección adidas zx")

# Llama al matcher sobre el doc
matches = matcher(doc)

# Llama al matcher sobre el doc
doc = nlp("Nuevos diseños de zapatillas en la colección adidas zx")
matches = matcher(doc)

# Itera sobre los resultados
for match_id, start, end in matches:
    # Obtén el span resultante
    matched_span = doc[start:end]
    print(matched_span.text)

pattern = [
    {"IS_DIGIT": True},
    {"LOWER": "copa"},
    {"LOWER": "mundial"},
    {"LOWER": "fifa"},
    {"IS_PUNCT": True}
]
doc = nlp("2014 Copa Mundial FIFA: Alemania ganó!")


pattern = [
    {"LEMMA": "comer", "POS": "VERB"},
    {"POS": "NOUN"}
]
doc = nlp("Camila prefería comer sushi. Pero ahora está comiendo pasta.")


pattern = [
    {"LEMMA": "comprar"},
    {"POS": "DET", "OP": "?"},  # opcional: encuentra 0 o 1 ocurrencias
    {"POS": "NOUN"}
]
doc = nlp("Me compré un smartphone. Ahora le estoy comprando aplicaciones.")

adidas zx


## Usando el Matcher

In [10]:
import spacy

# Importa el Matcher
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
doc = nlp(
    "Los Olímpicos de Tokio 2020 son la inspiración para la nueva "
    "colección de zapatillas adidas zx."
)

# Inicializa el matcher con el vocabulario compartido
matcher = Matcher(nlp.vocab)

# Crea un patrón que encuentre dos tokens: "adidas" y "zx"
pattern = [{"TEXT": "adidas"}, {"TEXT": "zx"}]

# Añade el patrón al matcher
matcher.add("ADIDAS_ZX_PATTERN", [pattern])

# Usa al matcher sobre el doc
matches = matcher(doc)
print("Resultados:", [doc[start:end].text for match_id, start, end in matches])

Resultados: ['adidas zx']


## Describiendo patrones

In [11]:
# Parte 1
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
matcher = Matcher(nlp.vocab)


doc = nlp(
    "Después de hacer la actualización de iOS no notarás un rediseño "
    "radical del sistema: no se compara con los cambios estéticos que "
    "tuvimos con el iOS 7. La mayoría de las funcionalidades del iOS 11 "
    "siguen iguales en el iOS 10."
)

# Escribe un patrón para las versiones de iOS enteras
# ("iOS 7", "iOS 11", "iOS 10")
pattern = [{"TEXT": "iOS"}, {"IS_DIGIT": True}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("IOS_VERSION_PATTERN", [pattern])
matches = matcher(doc)
print("Total de resultados encontrados:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Resultado encontrado:", doc[start:end].text)

# Parte 2
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "descargué Fortnite en mi computadora, pero no puedo abrir el juego. "
    "Ayuda? Cuando estaba descargando Minecraft, conseguí la versión de Windows "
    "donde tiene una carpeta '.zip' y usé el programa por defecto para "
    "descomprimirlo…así que también tengo que descargar Winzip?"
)

# Escribe un patrón que encuentre una forma de "descargar" más un nombre propio
pattern = [{"LEMMA": "descargar"}, {"POS": "PROPN"}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("DOWNLOAD_THINGS_PATTERN", [pattern])
matches = matcher(doc)
print("Total de resultados encontrados:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Resultado encontrado:", doc[start:end].text)

# Parte 3
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "El gigante tecnológico IBM está ofreciendo lecciones virtuales "
    "sobre tecnologías avanzadas gratuitas en español."
)

# Escribe un patrón para un sustantivo más uno o dos adjetivos
pattern = [{"POS": "NOUN"}, {"POS": "ADJ"}, {"POS": "ADJ", "OP": "?"}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("NOUN_ADJ_PATTERN", [pattern])
matches = matcher(doc)
print("Total de resultados encontrados:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Resultado encontrado:", doc[start:end].text)

Total de resultados encontrados: 3
Resultado encontrado: iOS 7
Resultado encontrado: iOS 11
Resultado encontrado: iOS 10
Total de resultados encontrados: 3
Resultado encontrado: descargué Fortnite
Resultado encontrado: descargando Minecraft
Resultado encontrado: descargar Winzip
Total de resultados encontrados: 4
Resultado encontrado: gigante tecnológico
Resultado encontrado: lecciones virtuales
Resultado encontrado: tecnologías avanzadas
Resultado encontrado: tecnologías avanzadas gratuitas


# Capítulo 2

## Estructuras de datos

In [12]:
nlp.vocab.strings.add("café")
cafe_hash = nlp.vocab.strings["café"]
cafe_string = nlp.vocab.strings[cafe_hash]
# Arroja un error si no hemos visto el string antes
string = nlp.vocab.strings[32833993555699147]

oc = nlp("Ines toma café")
print("hash value:", nlp.vocab.strings["café"])
print("string value:", nlp.vocab.strings[32833993555699147])

doc = nlp("Ines toma café")
print("hash value:", doc.vocab.strings["café"])

doc = nlp("Ines toma café")
lexeme = nlp.vocab["café"]

# Imprime en pantalla los atributos léxicos
print(lexeme.text, lexeme.orth, lexeme.is_alpha)

hash value: 32833993555699147
string value: café
hash value: 32833993555699147
café 32833993555699147 True


## De strings a hashes

In [13]:
# parte 1
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Yo tengo un gato")

# Busca el hash para la palabra "gato"
gato_hash = nlp.vocab.strings["gato"]
print(gato_hash)

# Busca el gato_hash para obtener el string
gato_string = nlp.vocab.strings[gato_hash]
print(gato_string)

# parte 2
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("David Bowie tiene el label PER")

# Busca el hash para el label del string "PER"
person_hash = nlp.vocab.strings["PER"]
print(person_hash)

# Busca el person_hash para obtener el string
person_string = nlp.vocab.strings[person_hash]
print(person_string)

9565357104409163886
gato
4317129024397789502
PER


# Doc, Span y Token

In [14]:
# Crea un objeto nlp
import spacy
nlp = spacy.blank("es")

# Importa la clase Doc
from spacy.tokens import Doc

# Las palabras y espacios que usaremos para crear el doc
words = ["¡", "Hola", "Mundo", "!"]
spaces = [False, True, False, False]

# Crea un doc manualmente
doc = Doc(nlp.vocab, words=words, spaces=spaces)
# Importa las clases Doc y Span
from spacy.tokens import Doc, Span

# Las palabras y espacios que usaremos para crear el doc
words = ["¡", "Hola", "Mundo", "!"]
spaces = [False, True, False, False]

# Crea un doc manualmente
doc = Doc(nlp.vocab, words=words, spaces=spaces)

# Crea un span manualmente
span = Span(doc, 1, 3)

# Crea un span con un label
span_with_label = Span(doc, 1, 3, label="SALUDO")

# Añade el span a los doc.ents
doc.ents = [span_with_label]


## Creando un Doc   

In [15]:
# parte 1
import spacy

nlp = spacy.load("es_core_news_sm")

# Importa la clase Doc
from spacy.tokens import Doc

# El texto deseado: "spaCy es divertido!"
words = ["spaCy", "es", "divertido", "!"]
spaces = [True, True, False, False]

# Crea un Doc a partir de las palabras y los espacios
doc = Doc(nlp.vocab, words=words, spaces=spaces)
print(doc.text)
# parte 2
import spacy

nlp = spacy.load("es_core_news_sm")

# Importa la clase Doc
from spacy.tokens import Doc

# El texto deseado: "¡Vamos, empieza!"
words = ["¡", "Vamos", ",", "empieza", "!"]
spaces = [False, False, True, False, False]

# Crea un Doc a partir de las palabras y los espacios
doc = Doc(nlp.vocab, words=words, spaces=spaces)
print(doc.text)
# parte 3

import spacy

nlp = spacy.load("es_core_news_sm")

# Importa la clase Doc
from spacy.tokens import Doc

# El texto deseado: "¡¿En serio?!"
words = ["¡", "¿", "En", "serio", "?", "!"]
spaces = [False, False, True, False, False, False]

# Crea un Doc a partir de las palabras y los espacios
doc = Doc(nlp.vocab, words=words, spaces=spaces)
print(doc.text)

spaCy es divertido!
¡Vamos, empieza!
¡¿En serio?!


## Doc, spans y entidades desde 0

In [16]:
import spacy

nlp = spacy.blank("es")

# Importa las clases Doc y Span
from spacy.tokens import Doc, Span

words = ["Me", "gusta", "David", "Bowie"]
spaces = [True, True, True, False]

# Crea un Doc a partir de las palabras y los espacios
doc = Doc(nlp.vocab, words=words, spaces=spaces)
print(doc.text)

# Crea un span para "David Bowie" a partir del doc y asígnalo al label "PERSON"
span = Span(doc, 2, 4, label="PERSON")
print(span.text, span.label_)

# Añade el span a las entidades del doc
doc.ents = [span]

# Imprime en pantalla el texto y los labels de las entidades
print([(ent.text, ent.label_) for ent in doc.ents])

Me gusta David Bowie
David Bowie PERSON
[('David Bowie', 'PERSON')]


## Buenas prácticas en las estructuras de datos

In [17]:
import spacy
nlp = spacy.load("es_core_news_sm")
doc = nlp("Por Berlín fluye el río Esprea.")

# Itera sobre los tokens
for token in doc:
    # Revisa si el token actual es un nombre propio
    if token.pos_ == "PROPN":
        # Revisa si el siguiente token es un verbo
        if doc[token.i + 1].pos_ == "VERB":
            print("Encontré un nombre propio antes de un verbo:", token.text)

Encontré un nombre propio antes de un verbo: Berlín


## Word vectors y similitud semántica

In [18]:
# Carga uno de los modelos más grandes que contiene vectores
nlp = spacy.load("es_core_news_md")

# Compara dos documentos
doc1 = nlp("Me gusta la comida rápida")
doc2 = nlp("Me gusta la pizza")
print(doc1.similarity(doc2))

# Compara dos tokens
doc = nlp("Me gustan la pizza y las hamburguesas")
token1 = doc[3]
token2 = doc[6]
print(token1.similarity(token2))

# Compara un documento con un token
doc = nlp("Me gusta la pizza")
token = nlp("jabón")[0]

print(doc.similarity(token))

# Compara un span con un documento
span = nlp("Me gustan los perros calientes")[3:5]
doc = nlp("McDonalds vende hamburguesas")

print(span.similarity(doc))

# Carga uno de los modelos más grandes que contiene vectores
nlp = spacy.load("es_core_news_md")

doc = nlp("Tengo una manzana")
# Accede al vector a través del atributo token.vector
print(doc[2].vector)

doc1 = nlp("Me gustan los gatos")
doc2 = nlp("Me desagradan los gatos")

print(doc1.similarity(doc2))


OSError: [E050] Can't find model 'es_core_news_md'. It doesn't seem to be a Python package or a valid path to a data directory.

## Inspeccionando los word vectors

In [None]:
import spacy

# Carga el modelo es_core_news_md
nlp = spacy.load("es_core_news_md")

# Procesa un texto
doc = nlp("Hoy hice pan de banano")

# Obtén el vector para el token "banano"
banano_vector = doc[4].vector
print(banano_vector)

## Prediciendo similitudes

In [None]:
# parte 1
import spacy

nlp = spacy.load("es_core_news_md")

doc1 = nlp("Es un cálido día de verano")
doc2 = nlp("Hay sol afuera")

# Obtén la similitud entre el doc1 y el doc2
similarity = doc1.similarity(doc2)
print(similarity)

# parte 2
import spacy

nlp = spacy.load("es_core_news_md")

doc = nlp("TV y libros")
token1, token2 = doc[0], doc[2]

# Obtén la similitud entre los tokens "TV" y "libros"
similarity = token1.similarity(token2)
print(similarity)
# parte 3
import spacy

nlp = spacy.load("es_core_news_md")

doc = nlp(
    "Estuvimos en un restaurante genial. Luego, fuimos a un bar muy divertido."
)

# Crea los spans para "restaurante genial" y "bar muy divertido"
span1 = doc[3:5]
span2 = doc[11:14]

# Obtén la similitud entre los dos spans
similarity = span1.similarity(span2)
print(similarity)

## Combinando modelos y reglas

In [None]:
# Inicializa con el vocabulario compartido
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

# Los patrones son listas de diccionarios que describen los tokens
pattern = [{"LEMMA": "comer", "POS": "VERB"}, {"LOWER": "pizza"}]
matcher.add("PIZZA", [pattern])

# Los operadores pueden especificar qué tan seguido puede
# ser buscado un token
pattern = [{"TEXT": "muy", "OP": "+"}, {"TEXT": "feliz"}]
matcher.add("MUY_FELIZ", [pattern])

# Llamar al matcher sobre un doc devuelve una lista de
# tuples con (match_id, inicio, final)
doc = nlp("Me gusta comer pizza y estoy muy muy feliz")
matches = matcher(doc)

matcher = Matcher(nlp.vocab)
matcher.add("PERRO", [[{"LOWER": "labrador"}, {"LOWER": "dorado"}]])
doc = nlp("Tengo un labrador dorado")

for match_id, start, end in matcher(doc):
    span = doc[start:end]
    print("span encontrado:", span.text)
    # Obtén el token raíz del span y el token raíz cabeza (head)
    print("Token raíz:", span.root.text)
    print("Token raíz cabeza:", span.root.head.text)
    # Obtén el token anterior y su POS tag
    print("Token anterior:", doc[start - 1].text, doc[start - 1].pos_)

    from spacy.matcher import PhraseMatcher

matcher = PhraseMatcher(nlp.vocab)

pattern = nlp("labrador dorado")
matcher.add("PERRO", [pattern])
doc = nlp("Tengo un labrador dorado")

# Itera sobre los resultados
for match_id, start, end in matcher(doc):
    # Obtén el span resultante
    span = doc[start:end]
    print("span resultante:", span.text)

## Debugging de patrones 

In [None]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
doc = nlp(
    "Cuando pac-man debutó en Tokio, en 1980, nadie podría haber predicho "
    "que se convertiría en el videojuego más exitoso de todos los tiempos. "
    "Hoy, 40 años después, aun sigue sorprendiendo. Su desarrolladora, "
    "Bandai Namco, ha anunciado novedades en el marco del aniversario del "
    "juego. La celebración del 40 aniversario de pac-Man en 2020 incluirá "
    "el debut de una nueva canción temática, compuesta por el famoso artista "
    "japonés de Techno Ken Ishii. Además de estas novedades, Bandai Namco "
    "publicará nuevas versiones del videojuego. La primera será pac-man Live "
    "Studio, en Twitch, en colaboración con Amazon Games."
)

# Crea los patrones
pattern1 = [{"LIKE_NUM": True}, {"POS": "NOUN"}]
pattern2 = [{"LOWER": "pac-man"}, {"IS_TITLE": True}]

# Inicializa el Matcher y añade los patrones
matcher = Matcher(nlp.vocab)
matcher.add("PATTERN1", [pattern1])
matcher.add("PATTERN2", [pattern2])

# Itera sobre los resultados
for match_id, start, end in matcher(doc):
    # Imprime en pantalla el nombre en string del patrón
    # y el texto del span encontrado
    print(doc.vocab.strings[match_id], doc[start:end].text)

## Encontrando frases eficientemente, 'phrase matching'

In [None]:
import json
import spacy

with open("exercises/es/countries.json", encoding="utf8") as f:
    COUNTRIES = json.loads(f.read())

nlp = spacy.blank("es")
doc = nlp(
    "La Unión Europea fue fundada por seis países de Europa occidental "
    "(Francia, Alemania, Italia, Bélgica, Países Bajos, y Luxemburgo) y "
    "se amplió en seis ocasiones."
)

# Importa el PhraseMatcher e inicialízalo
from spacy.matcher import PhraseMatcher

matcher = PhraseMatcher(nlp.vocab)

# Crea objetos Doc patrón y añádelos al matcher
# Esta es una versión más rápida de: [nlp(country) for country in COUNTRIES]
patterns = list(nlp.pipe(COUNTRIES))
matcher.add("COUNTRY", None, *patterns)

# Llama al matcher sobre el documento de prueba e imprime el resultado en pantalla
matches = matcher(doc)
print([doc[start:end] for match_id, start, end in matches])

## Extrayendo países y relaciones

In [None]:
import spacy
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span
import json

with open("exercises/es/countries.json", encoding="utf8") as f:
    COUNTRIES = json.loads(f.read())
with open("exercises/es/country_text.txt", encoding="utf8") as f:
    TEXT = f.read()

nlp = spacy.load("es_core_news_sm")
matcher = PhraseMatcher(nlp.vocab)
patterns = list(nlp.pipe(COUNTRIES))
matcher.add("COUNTRY", None, *patterns)

# Crea un doc y restablece las entidades existentes
doc = nlp(TEXT)
doc.ents = []

# Itera sobre los resultados
for match_id, start, end in matcher(doc):
    # Crea un Span con la etiqueta para "LOC"
    span = Span(doc, start, end, label="LOC")

    # Sobrescribe el doc.ents y añade el span
    doc.ents = list(doc.ents) + [span]

    # Obtén el token cabeza de la raíz del span
    span_root_head = span.root.head
    # Imprime en pantalla el texto del token cabeza de
    # la raíz del span y el texto del span
    print(span_root_head.text, "-->", span.text)

# Imprime en pantalla las entidades del documento
print([(ent.text, ent.label_) for ent in doc.ents if ent.label_ == "LOC"])

# Capítulo 3

## Pipelines de procesamiento

In [None]:
import spacy

# Carga el modelo es_core_news_sm
nlp = spacy.load("es_core_news_sm")

# Imprime en pantalla los nombres de los componentes del pipeline
print(nlp.pipe_names)

# Imprime en pantalla el pipeline entero de tuples (name, component)
print(nlp.pipeline)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x000001BC186B8D00>), ('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x000001BC18818D60>), ('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x000001BC1872F890>), ('attribute_ruler', <spacy.pipeline.attributeruler.AttributeRuler object at 0x000001BC1881BC40>), ('lemmatizer', <spacy.lang.es.lemmatizer.SpanishLemmatizer object at 0x000001BC1880FF00>), ('ner', <spacy.pipeline.ner.EntityRecognizer object at 0x000001BC1872F820>)]


## Componentes personalizados del pipeline

In [None]:
from spacy.language import Language

@Language.component("custom_component")
def custom_component_function(doc):
    # Haz algo con el doc aquí
    return doc

#nlp.add_pipe(custom_component)
@Language.component("custom_component")
def custom_component_function(doc):
    # Haz algo con el doc aquí
    return doc

nlp.add_pipe("custom_component")

# Crea el objeto nlp
nlp = spacy.load("es_core_news_sm")

# Define un componente personalizado
@Language.component("custom_component")
def custom_component_function(doc):
    # Imprime la longitud del doc en pantalla
    print("longitud del Doc:", len(doc))
    # Devuelve el objeto doc
    return doc

# Añade el componente al primer lugar del pipeline
nlp.add_pipe("custom_component", first=True)

# Imprime los nombres de los componentes del pipeline
print("Pipeline:", nlp.pipe_names)

# Crea el objeto nlp
nlp = spacy.load("es_core_news_sm")

# Define un componente personalizado
@Language.component("custom_component")
def custom_component_function(doc):
    # Imprime la longitud del doc en pantalla
    print("longitud del Doc:", len(doc))
    # Devuelve el objeto doc
    return doc

# Añade el componente al primer lugar del pipeline
nlp.add_pipe("custom_component", first=True)

# Procesa un texto
doc = nlp("¡Hola Mundo!")

## Componentes simples

In [None]:
import spacy
from spacy.language import Language

# Define el componente personalizado
@Language.component("length_component")
def length_component_function(doc):
    # Obtén la longitud del doc
    doc_length = len(doc)
    print(f"Este documento tiene {doc_length} tokens.")
    # Devuelve el doc
    return doc


# Carga el modelo pequeño de español
nlp = spacy.load("es_core_news_sm")

# Añade el componente en el primer lugar del pipeline e imprime
# los nombres de los pipes en pantalla
nlp.add_pipe("length_component", first=True)
print(nlp.pipe_names)

# Procesa un texto
doc = nlp("Esto es una frase.")

## Componentes complejos


In [None]:
import spacy
from spacy.language import Language
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span

nlp = spacy.load("es_core_news_sm")
animals = ["labrador dorado", "gato", "tortuga", "oso de anteojos"]
animal_patterns = list(nlp.pipe(animals))
print("patrones_de_animales:", animal_patterns)
matcher = PhraseMatcher(nlp.vocab)
matcher.add("ANIMAL", None, *animal_patterns)

# Define el componente personalizado
@Language.component("animal_component")
def animal_component_function(doc):
    # Aplica el matcher al doc
    matches = matcher(doc)
    # Crea un Span para cada resultado y asígnales el label "ANIMAL"
    spans = [Span(doc, start, end, label="ANIMAL") for match_id, start, end in matches]
    # Sobrescribe los doc.ents con los spans resultantes
    doc.ents = spans
    return doc


# Añade el componente al pipeline después del componente "ner"
nlp.add_pipe("animal_component", after="ner")
print(nlp.pipe_names)

# Procesa el texto e imprime en pantalla el texto y el label
# de los doc.ents
doc = nlp("Hoy vimos una tortuga y un oso de anteojos en nuestra caminata")
print([(ent.text, ent.label_) for ent in doc.ents])

## Extensión de atributos

In [None]:
# Importa las clases globales
from spacy.tokens import Doc, Token, Span

# Añade extensiones para el Doc, Token y Span
Doc.set_extension("title", default=None)
Token.set_extension("is_color", default=False)
Span.set_extension("has_color", default=False)

from spacy.tokens import Token

# Añade una extensión en el Token con un valor por defecto
Token.set_extension("is_color", default=False)

doc = nlp("El cielo es azul.")

# Sobrescribe el valor de la extensión de atributo
doc[3]._.is_color = True

from spacy.tokens import Token

# Define la función getter
def get_is_color(token):
    colors = ["rojo", "amarillo", "azul"]
    return token.text in colors

# Añade una extensión en el Token con getter
Token.set_extension("is_color", getter=get_is_color)

doc = nlp("El cielo es azul.")
print(doc[3]._.is_color, "-", doc[3].text)

from spacy.tokens import Span

# Define la función getter
def get_has_color(span):
    colors = ["rojo", "amarillo", "azul"]
    return any(token.text in colors for token in span)

# Añade una extensión en el Span con getter
Span.set_extension("has_color", getter=get_has_color)

doc = nlp("El cielo es azul.")
print(doc[1:4]._.has_color, "-", doc[1:4].text)
print(doc[0:2]._.has_color, "-", doc[0:2].text)

from spacy.tokens import Doc

# Define un método con argumentos
def has_token(doc, token_text):
    in_doc = token_text in [token.text for token in doc]
    return in_doc

# Añade una extensión en el Doc con el método
Doc.set_extension("has_token", method=has_token)

doc = nlp("El cielo es azul.")
print(doc._.has_token("azul"), "- azul")
print(doc._.has_token("nube"), "- nube")



## Añadiendo extensiones de atributos

In [None]:
from spacy.lang.es import Spanish
from spacy.tokens import Token

nlp = Spanish()

# Registra la extensión de atributo del Token, "is_country",
# con el valor por defecto False
Token.set_extension("is_country", default=False)

# Procesa el texto y pon True para el atributo "is_country"
# para el token "España"
doc = nlp("Vivo en España.")
doc[2]._.is_country = True

# Imprime en pantalla el texto del token y el atributo "is_country"
# para todos los tokens
print([(token.text, token._.is_country) for token in doc])

from spacy.lang.es import Spanish
from spacy.tokens import Token

nlp = Spanish()

# Define la función getter que toma un token y devuelve su texto al revés
def get_reversed(token):
    return token.text[::-1]


# Registra la extensión de propiedad del Token, "reversed", con
# el getter get_reversed
Token.set_extension("reversed", getter=get_reversed)

# Procesa el texto e imprime en pantalla el atributo "reversed"
# para cada token
doc = nlp("Todas las generalizaciones son falsas, incluyendo esta.")
for token in doc:
    print("invertido:", token._.reversed)


from spacy.lang.es import Spanish
from spacy.tokens import Doc

nlp = Spanish()

# Define la función getter
def get_has_number(doc):
    # Devuelve si alguno de los tokens en el doc devuelve True
    # para token.like_num
    return any(token.like_num for token in doc)


# Registra la extensión de propiedad del Doc, "has_number",
# con el getter get_has_number
Doc.set_extension("has_number", getter=get_has_number)

# Procesa el texto y revisa el atributo personalizado "has_number"
doc = nlp("El museo cerró por cinco años en el 2012.")
print("has_number:", doc._.has_number)


from spacy.lang.es import Spanish
from spacy.tokens import Span

nlp = Spanish()

# Define el método
def to_html(span, tag):
    # Envuelve el texto del span en un HTML tag y devuélvelo
    return f"<{tag}>{span.text}</{tag}>"


# Registra la extensión de propiedad del Span, "to_html",
# con el método "to_html"
Span.set_extension("to_html", method=to_html)

# Procesa el texto y llama el método "to_html"en el span
# con el nombre de tag "strong"
doc = nlp("Hola mundo, esto es una frase.")
span = doc[0:2]
print(span._.to_html("strong"))

## Entidades y extensiones

In [None]:
import spacy
from spacy.tokens import Span

nlp = spacy.load("es_core_news_sm")


def get_wikipedia_url(span):
    # Obtén la URL de Wikipedia si el span tiene uno de los siguientes labels
    if span.label_ in ("PER", "ORG", "LOC"):
        entity_text = span.text.replace(" ", "_")
        return "https://es.wikipedia.org/w/index.php?search=" + entity_text


# Añade la extensión del Span, wikipedia_url, usando el getter get_wikipedia_url
Span.set_extension("wikipedia_url", getter=get_wikipedia_url)

doc = nlp(
    "Antes de finalizar 1976, el interés de David Bowie en la "
    "floreciente escena musical alemana, le llevó a mudarse a "
    "Alemania para revitalizar su carrera."
)
for ent in doc.ents:
    # Imprime en pantalla el texto y la URL de Wikipedia de la entidad
    print(ent.text, ent._.wikipedia_url)

## Componentes con extensiones

In [None]:
import json
import spacy
from spacy.language import Language
from spacy.tokens import Span
from spacy.matcher import PhraseMatcher

with open("exercises/es/countries.json", encoding="utf8") as f:
    COUNTRIES = json.loads(f.read())

with open("exercises/es/capitals.json", encoding="utf8") as f:
    CAPITALS = json.loads(f.read())

nlp = spacy.blank("es")
matcher = PhraseMatcher(nlp.vocab)
matcher.add("COUNTRY", list(nlp.pipe(COUNTRIES)))

@Language.component("countries_component")
def countries_component(doc):
    # Crea un Span de entidades con el label "LOC" para todos los resultados
    matches = matcher(doc)
    doc.ents = [Span(doc, start, end, label="LOC") for match_id, start, end in matches]
    return doc


# Añade el componente al pipeline
nlp.add_pipe("countries_component")
print(nlp.pipe_names)

# El getter que busca el texto del span en un diccionario de ciudades
# capitales de países
get_capital = lambda span: CAPITALS.get(span.text)

# Registra la extensión de atributo del Span, "capital", con el 
# getter get_capital
Span.set_extension("capital", getter=get_capital)

# Procesa el texto e imprime en pantalla el texto de la entidad,
# el label y los atributos "capital"
doc = nlp(
    "La República Checa podría ayudar a la República Eslovaca "
    "a proteger su espacio aéreo"
)
print([(ent.text, ent.label_, ent._.capital) for ent in doc.ents])

## Aumentando la escala y desempeño

In [None]:
data = [
    ("Esto es un texto", {"id": 1, "numero_pagina": 15}),
    ("y otro texto", {"id": 2, "numero_pagina": 16}),
]

for doc, context in nlp.pipe(data, as_tuples=True):
    print(doc.text, context["numero_pagina"])

# Desactiva el tagger y el parser
with nlp.select_pipes(disable=["tagger", "parser"]):
    # Procesa el texto e imprime las entidades en pantalla
    doc = nlp(text)
    print(doc.ents)


## Procesando streams

In [None]:
import json
import spacy

nlp = spacy.load("es_core_news_sm")

with open("exercises/es/tweets.json", encoding="utf8") as f:
    TEXTS = json.loads(f.read())

# Procesa los textos e imprime los verbos en pantalla
for doc in nlp.pipe(TEXTS):
    print([token.text for token in doc if token.pos_ == "VERB"])

import json
import spacy

nlp = spacy.load("es_core_news_sm")

with open("exercises/es/tweets.json", encoding="utf8") as f:
    TEXTS = json.loads(f.read())

# Procesa los textos e imprime las entidades en pantalla
docs = list(nlp.pipe(TEXTS))
entities = [doc.ents for doc in docs]
print(*entities)


from spacy.lang.es import Spanish

nlp = Spanish()

people = ["David Bowie", "Angela Merkel", "Lady Gaga"]

# Crea una lista de patrones para el PhraseMatcher
patterns = list(nlp.pipe(people))

## Procesando datos con contexto

In [None]:
import json
from spacy.lang.es import Spanish
from spacy.tokens import Doc

with open("exercises/es/bookquotes.json", encoding="utf8") as f:
    DATA = json.loads(f.read())
nlp = Spanish()

# Registra la extensión del Doc, "author" (por defecto None)
Doc.set_extension("author", default=None)
# Registra la extensión del Doc, "book" (por defecto None)
Doc.set_extension("book", default=None)

for doc, context in nlp.pipe(DATA, as_tuples=True):
    # Añade los atributos doc._.book y doc._.author desde el contexto
    doc._.book = context["book"]
    doc._.author = context["author"]

    # Imprime en pantalla el texto y los datos del atributo personalizado
    print(f"{doc.text}\n — '{doc._.book}' by {doc._.author}\n")

## Procesamiento selectivo

In [None]:
import spacy

nlp = spacy.load("es_core_news_sm")
text = (
    "Chick-fil-A es una cadena de restaurantes de comida rápida "
    "americana con sede en la ciudad de College Park, Georgia, "
    "especializada en sándwiches de pollo."
)

# Únicamente convierte el texto en tokens
doc = nlp.make_doc(text)
print([token.text for token in doc])

import spacy

nlp = spacy.load("es_core_news_sm")
text = (
    "Chick-fil-A es una cadena de restaurantes de comida rápida "
    "americana con sede en la ciudad de College Park, Georgia, "
    "especializada en sándwiches de pollo."
)

# Deshabilita el parser
with nlp.select_pipes(disable=["parser"]):
    # Procesa el texto
    doc = nlp(text)
    # Imprime las entidades del doc en pantalla
    print(doc.ents)

# Entrenando un modelo de red neuronal

## Entrenando y actualizando modelos

In [None]:
import spacy
import random
from spacy.tokens import DocBin, Span

nlp = spacy.blank("es")

# Crea un Doc con spans de entidades
doc1 = nlp("el iPhone X está por salir")
doc1.ents = [Span(doc1, 1, 2, label="GADGET")]
# Crea otro Doc sin spans de entidades
doc2 = nlp("¡Necesito un nuevo teléfono! ¿Alguien tiene recomendaciones?")

docs = [doc1, doc2]  # y así sucesivamente...
random.shuffle(docs)
train_docs = docs[:len(docs) // 2]
dev_docs = docs[len(docs) // 2:]

# Crea y guarda una colección de docs para entrenamiento
train_docbin = DocBin(docs=train_docs)
train_docbin.to_disk("./train.spacy")
# Crea y guarda una colección de docs para evaluación
dev_docbin = DocBin(docs=dev_docs)
dev_docbin.to_disk("./dev.spacy")

## Creando datos de entrenamiento

In [None]:
import json
import spacy
from spacy.matcher import Matcher
from spacy.tokens import Span

with open("exercises/es/adidas.json", encoding="utf8") as f:
    TEXTS = json.loads(f.read())

nlp = spacy.blank("es")
matcher = Matcher(nlp.vocab)

# Dos tokens que en minúsculas encuentran "adidas" y "zx"
pattern1 = [{"LOWER": "adidas"}, {"LOWER": "zx"}]

# Token que en minúsculas encuentra "adidas" y un dígito
pattern2 = [{"LOWER": "adidas"}, {"IS_DIGIT": True}]

# Añade los patrones al matcher y revisa el resultado
matcher.add("ROPA", [pattern1, pattern2])
docs = []
for doc in nlp.pipe(TEXTS):
    matches = matcher(doc)
    spans = [Span(doc, start, end, label=match_id) for match_id, start, end in matches]
    print(spans)
    doc.ents = spans
    docs.append(doc)

import json
import spacy
from spacy.matcher import Matcher
from spacy.tokens import Span, DocBin

with open("exercises/es/adidas.json", encoding="utf8") as f:
    TEXTS = json.loads(f.read())

nlp = spacy.blank("es")
matcher = Matcher(nlp.vocab)
# Agrega patrones al matcher
pattern1 = [{"LOWER": "adidas"}, {"LOWER": "zx"}]
pattern2 = [{"LOWER": "adidas"}, {"IS_DIGIT": True}]
matcher.add("ROPA", [pattern1, pattern2])
docs = []
for doc in nlp.pipe(TEXTS):
    matches = matcher(doc)
    spans = [Span(doc, start, end, label=match_id) for match_id, start, end in matches]
    doc.ents = spans
    docs.append(doc)

doc_bin = DocBin(docs=docs)
doc_bin.to_disk("./train.spacy")

## Configurar y correr el entrenamiento

In [None]:
!python -m spacy init config ./config.cfg --lang es --pipeline ner

[38;5;3m⚠ To generate a more effective transformer-based config (GPU-only),
install the spacy-transformers package and re-run this command. The config
generated now does not use transformers.[0m
[38;5;4mℹ Generated config template specific for your use case[0m
- Language: es
- Pipeline: ner
- Optimize for: efficiency
- Hardware: CPU
- Transformer: None
[38;5;2m✔ Auto-filled config with all values[0m
[38;5;2m✔ Saved config[0m
config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


In [None]:
!cat ./config.cfg

"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


## Cómo utilizar el CLI de entrenamiento

In [None]:
!python -m spacy train ./exercises/en/config_gadget.cfg --output ./output --paths.train ./exercises/en/train_gadget.spacy --paths.dev ./exercises/en/dev_gadget.spacy

## Buenas prácticas para entrenar modelos de Spacy

In [None]:
import spacy
from spacy.tokens import Span

nlp = spacy.blank("es")

doc1 = nlp("El año pasado fuí a Venecie y los canales estaban hermosos")
doc1.ents = [Span(doc1, 5, 6, label="LOC")]

doc2 = nlp("Deberías visitar Madrid una vez en tu vida, "
           "pero el museo prado es aburrido")
doc2.ents = [Span(doc2, 2, 3, label="LOC"),
             Span(doc2, 11, 13, label="LOC")]

doc3 = nlp("Yo sé que también hay un Madrid en Colombia, jaja")
doc3.ents = [Span(doc3, 6, 7, label="LOC"), Span(doc3, 8, 9, label="LOC")]

doc4 = nlp("Una ciudad como Berlín es perfecta para las vacaciones de verano: "
           "muchos, parques, gran vida nocturna, cerveza barata!")
doc4.ents = [Span(doc4, 3, 4, label="LOC")]

In [None]:
import spacy
from spacy.tokens import Span

nlp = spacy.blank("es")

doc1 = nlp("Reddit hizo una alianza con Patreon para ayudar a los creadores",)
doc1.ents = [
    Span(doc1, 0, 1, label="WEBSITE"),
    Span(doc1, 5, 6, label="WEBSITE"),
]

doc2 = nlp("PewDiePie rompe el record de YouTube")
doc2.ents = [Span(doc2, 5, 6, label="WEBSITE")]

doc3 = nlp("El fundador de Reddit, Alexis Ohanian, regaló dos tiquetes de Metallica")
doc3.ents = [Span(doc3, 3, 4, label="WEBSITE")]


#multietiqueta

import spacy
from spacy.tokens import Span

nlp = spacy.blank("es")

doc1 = nlp("Reddit hizo una alianza con Patreon para ayudar a los creadores",)
doc1.ents = [
    Span(doc1, 0, 1, label="WEBSITE"),
    Span(doc1, 5, 6, label="WEBSITE"),
]

doc2 = nlp("PewDiePie rompe el record de YouTube")
doc2.ents = [Span(doc2, 0, 1, label="PER"), Span(doc2, 5, 6, label="WEBSITE")]

doc3 = nlp("El fundador de Reddit, Alexis Ohanian, regaló dos tiquetes de Metallica")
doc3.ents = [Span(doc3, 3, 4, label="WEBSITE"), Span(doc3, 5, 7, label="PER")]
