# Tema 2: Análisis textual con spaCy

In [1]:
import spacy
from pathlib import Path

nlp = spacy.load('es_core_news_sm')
nlp_md = spacy.load('es_core_news_md')

PATH_DATA = Path.cwd().parent / 'data'

## Ejercicio 1
Tokenizar un texto en español y extraer información de cada token.

In [2]:
texto = """Meta, la empresa antes conocida como Facebook, tendrá este año la supercomputadora más potente del mundo dedicada a tareas de inteligencia artificial. La máquina, conocida como AI Research SuperCluster, o RSC, está ya en funcionamiento, aunque no con su capacidad final de cálculo, y se empleará para generar modelos de aprendizaje máquina capaces de funcionar en todo tipo de escenarios, desde la moderación de comentarios hasta el diseño de entornos virtuales."""

doc = nlp(texto)

### Apartado a
Mostrar cada token en una línea diferente.

In [3]:
for token in doc:
    print(token)

Meta
,
la
empresa
antes
conocida
como
Facebook
,
tendrá
este
año
la
supercomputadora
más
potente
del
mundo
dedicada
a
tareas
de
inteligencia
artificial
.
La
máquina
,
conocida
como
AI
Research
SuperCluster
,
o
RSC
,
está
ya
en
funcionamiento
,
aunque
no
con
su
capacidad
final
de
cálculo
,
y
se
empleará
para
generar
modelos
de
aprendizaje
máquina
capaces
de
funcionar
en
todo
tipo
de
escenarios
,
desde
la
moderación
de
comentarios
hasta
el
diseño
de
entornos
virtuales
.


### Apartado b
Añadir los tokens a una lista y mostrarla.

In [4]:
tokens = [token for token in doc]
print(tokens)

[Meta, ,, la, empresa, antes, conocida, como, Facebook, ,, tendrá, este, año, la, supercomputadora, más, potente, del, mundo, dedicada, a, tareas, de, inteligencia, artificial, ., La, máquina, ,, conocida, como, AI, Research, SuperCluster, ,, o, RSC, ,, está, ya, en, funcionamiento, ,, aunque, no, con, su, capacidad, final, de, cálculo, ,, y, se, empleará, para, generar, modelos, de, aprendizaje, máquina, capaces, de, funcionar, en, todo, tipo, de, escenarios, ,, desde, la, moderación, de, comentarios, hasta, el, diseño, de, entornos, virtuales, .]


### Apartado c
Mostrar para cada token: texto, categoría gramatical y lema.

In [5]:
for token in doc:
    print(token.text, token.pos_, token.lemma_)

Meta PROPN Meta
, PUNCT ,
la DET el
empresa NOUN empresa
antes ADV antes
conocida ADJ conocido
como SCONJ como
Facebook PROPN Facebook
, PUNCT ,
tendrá VERB tener
este DET este
año NOUN año
la DET el
supercomputadora NOUN supercomputadora
más ADV más
potente ADJ potente
del ADP del
mundo NOUN mundo
dedicada ADJ dedicado
a ADP a
tareas NOUN tarea
de ADP de
inteligencia NOUN inteligencia
artificial ADJ artificial
. PUNCT .
La DET el
máquina NOUN máquina
, PUNCT ,
conocida ADJ conocido
como SCONJ como
AI PROPN AI
Research PROPN Research
SuperCluster PROPN SuperCluster
, PUNCT ,
o CCONJ o
RSC PROPN RSC
, PUNCT ,
está AUX estar
ya ADV ya
en ADP en
funcionamiento NOUN funcionamiento
, PUNCT ,
aunque SCONJ aunque
no ADV no
con ADP con
su DET su
capacidad NOUN capacidad
final ADJ final
de ADP de
cálculo NOUN cálculo
, PUNCT ,
y CCONJ y
se PRON él
empleará VERB emplear
para ADP para
generar VERB generar
modelos NOUN modelo
de ADP de
aprendizaje NOUN aprendizaje
máquina ADJ máquina
capaces ADJ c

### Apartado d
Contar las palabras vacías (stop words).

In [6]:
count = 0
stopWords = set()
for token in doc:
    if token.is_stop:
        count += 1
        stopWords.add(token.text)

print("Número de stopwords:", count)
print("Número de stopwords (sin repeticiones):", len(stopWords))
print(stopWords)

Número de stopwords: 36
Número de stopwords (sin repeticiones): 26
{'para', 'su', 'final', 'más', 'con', 'tendrá', 'no', 'todo', 'antes', 'en', 'y', 'como', 'de', 'se', 'aunque', 'del', 'ya', 'este', 'la', 'hasta', 'o', 'a', 'está', 'desde', 'el', 'La'}


### Apartado e
Mostrar los adjetivos del texto.

In [7]:
print("Adjetivos en el texto:")
for token in doc:
    if token.pos_ == "ADJ":
        print(token)

Adjetivos en el texto:
conocida
potente
dedicada
artificial
conocida
final
máquina
capaces
virtuales


### Apartado f
Mostrar los nombres del texto.

In [8]:
print("Nombres en el texto:")
for token in doc:
    if token.pos_ == "NOUN":
        print(token)

Nombres en el texto:
empresa
año
supercomputadora
mundo
tareas
inteligencia
máquina
funcionamiento
capacidad
cálculo
modelos
aprendizaje
tipo
escenarios
moderación
comentarios
diseño
entornos


### Apartado g
Mostrar categoría gramatical con explicación usando `spacy.explain()`.

In [9]:
for token in doc:
    print(token.text, token.pos_, spacy.explain(token.pos_))

Meta PROPN proper noun
, PUNCT punctuation
la DET determiner
empresa NOUN noun
antes ADV adverb
conocida ADJ adjective
como SCONJ subordinating conjunction
Facebook PROPN proper noun
, PUNCT punctuation
tendrá VERB verb
este DET determiner
año NOUN noun
la DET determiner
supercomputadora NOUN noun
más ADV adverb
potente ADJ adjective
del ADP adposition
mundo NOUN noun
dedicada ADJ adjective
a ADP adposition
tareas NOUN noun
de ADP adposition
inteligencia NOUN noun
artificial ADJ adjective
. PUNCT punctuation
La DET determiner
máquina NOUN noun
, PUNCT punctuation
conocida ADJ adjective
como SCONJ subordinating conjunction
AI PROPN proper noun
Research PROPN proper noun
SuperCluster PROPN proper noun
, PUNCT punctuation
o CCONJ coordinating conjunction
RSC PROPN proper noun
, PUNCT punctuation
está AUX auxiliary
ya ADV adverb
en ADP adposition
funcionamiento NOUN noun
, PUNCT punctuation
aunque SCONJ subordinating conjunction
no ADV adverb
con ADP adposition
su DET determiner
capacidad 

## Ejercicio 2
Trabajar con oraciones del texto.

### Apartado a
Imprimir el número de oraciones y cada una de ellas.

In [10]:
sentences = list(doc.sents)
print("Número de oraciones:", len(sentences))
for sentence in sentences:
    print(sentence)
    print("Longitud:", len(sentence))

Número de oraciones: 2
Meta, la empresa antes conocida como Facebook, tendrá este año la supercomputadora más potente del mundo dedicada a tareas de inteligencia artificial.
Longitud: 25
La máquina, conocida como AI Research SuperCluster, o RSC, está ya en funcionamiento, aunque no con su capacidad final de cálculo, y se empleará para generar modelos de aprendizaje máquina capaces de funcionar en todo tipo de escenarios, desde la moderación de comentarios hasta el diseño de entornos virtuales.
Longitud: 56


### Apartado b
Para cada oración, eliminar las palabras vacías.

In [11]:
for sent in doc.sents:
    print(f"Oración original:\n{sent}\n")

    # Keep original spacing/punctuation automatically
    filtered_sentence = ''.join(token.text_with_ws for token in sent if not token.is_stop).strip()

    print(f"Oración filtrada:\n{filtered_sentence}\n")
    print("-" * 80)


Oración original:
Meta, la empresa antes conocida como Facebook, tendrá este año la supercomputadora más potente del mundo dedicada a tareas de inteligencia artificial.

Oración filtrada:
Meta, empresa conocida Facebook, año supercomputadora potente mundo dedicada tareas inteligencia artificial.

--------------------------------------------------------------------------------
Oración original:
La máquina, conocida como AI Research SuperCluster, o RSC, está ya en funcionamiento, aunque no con su capacidad final de cálculo, y se empleará para generar modelos de aprendizaje máquina capaces de funcionar en todo tipo de escenarios, desde la moderación de comentarios hasta el diseño de entornos virtuales.

Oración filtrada:
máquina, conocida AI Research SuperCluster, RSC, funcionamiento, capacidad cálculo, empleará generar modelos aprendizaje máquina capaces funcionar tipo escenarios, moderación comentarios diseño entornos virtuales.

---------------------------------------------------------

## Ejercicio 3
Calcular frecuencias de palabras del texto.

### Apartado a
Obtener la frecuencia de cada palabra (sin stop words ni puntuación).

In [12]:
words = [token.text for token in doc if not token.is_stop and not token.is_punct]

frecuencias = [words.count(w) for w in words]

print("Palabras:", words)
print("Frecuencias:", frecuencias)

pairList = list(zip(words, frecuencias))
print("Pares palabra-frecuencia:", pairList)
print("Pares únicos:", len(set(pairList)))

Palabras: ['Meta', 'empresa', 'conocida', 'Facebook', 'año', 'supercomputadora', 'potente', 'mundo', 'dedicada', 'tareas', 'inteligencia', 'artificial', 'máquina', 'conocida', 'AI', 'Research', 'SuperCluster', 'RSC', 'funcionamiento', 'capacidad', 'cálculo', 'empleará', 'generar', 'modelos', 'aprendizaje', 'máquina', 'capaces', 'funcionar', 'tipo', 'escenarios', 'moderación', 'comentarios', 'diseño', 'entornos', 'virtuales']
Frecuencias: [1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Pares palabra-frecuencia: [('Meta', 1), ('empresa', 1), ('conocida', 2), ('Facebook', 1), ('año', 1), ('supercomputadora', 1), ('potente', 1), ('mundo', 1), ('dedicada', 1), ('tareas', 1), ('inteligencia', 1), ('artificial', 1), ('máquina', 2), ('conocida', 2), ('AI', 1), ('Research', 1), ('SuperCluster', 1), ('RSC', 1), ('funcionamiento', 1), ('capacidad', 1), ('cálculo', 1), ('empleará', 1), ('generar', 1), ('modelos', 1), ('aprendizaje', 1), ('m

### Apartado b
Mostrar palabras con frecuencia mayor que 1.

In [13]:
setPairList = set(pairList)
unique_words = [word for (word, freq) in setPairList if freq > 1]
print("Palabras con frecuencia superior a 1:", unique_words)

Palabras con frecuencia superior a 1: ['conocida', 'máquina']


## Ejercicio 4
Implementar una función de preprocesamiento de texto.

In [14]:
def remove_stopwords_punctuation(doc):
    return [token for token in doc if not token.is_stop and not token.is_punct]

def lemmatize(tokens):
    return [token.lemma_.lower() for token in tokens]

def process_text(text):
    doc = nlp(text)
    tokens = remove_stopwords_punctuation(doc)
    return lemmatize(tokens)

print(process_text(texto))

['meta', 'empresa', 'conocido', 'facebook', 'año', 'supercomputadora', 'potente', 'mundo', 'dedicado', 'tarea', 'inteligencia', 'artificial', 'máquina', 'conocido', 'ai', 'research', 'supercluster', 'rsc', 'funcionamiento', 'capacidad', 'cálculo', 'emplear', 'generar', 'modelo', 'aprendizaje', 'máquina', 'capaz', 'funcionar', 'tipo', 'escenario', 'moderación', 'comentario', 'diseño', 'entorno', 'virtual']


## Ejercicio 5
Calcular similitud entre documentos.

In [15]:
with open(PATH_DATA / 'openAustralia1.txt', 'r', encoding="utf8") as f:
    text1 = f.read()

with open(PATH_DATA / 'openAustralia2.txt', 'r', encoding="utf8") as f:
    text2 = f.read()

with open(PATH_DATA / 'crisisUcrania.txt', 'r', encoding="utf8") as f:
    text3 = f.read()

doc1 = nlp_md(text1)
doc2 = nlp_md(text2)
doc3 = nlp_md(text3)

### Apartado a
Similitud sin preprocesamiento.

In [16]:
print("Similitud sin preprocesamiento:")
print(f"doc1-doc2: {doc1.similarity(doc2):.4f}")
print(f"doc1-doc3: {doc1.similarity(doc3):.4f}")
print(f"doc2-doc3: {doc2.similarity(doc3):.4f}")

Similitud sin preprocesamiento:
doc1-doc2: 0.8897
doc1-doc3: 0.8817
doc2-doc3: 0.7522


### Apartado b
Similitud con filtrado (sin puntuación, espacios, stop words ni tokens cortos).

In [17]:
def token_filtered(token):
    return not (token.is_punct | token.is_space | token.is_stop | len(token.text) < 4)

def spacy_processing(doc, filtering, lematization):
    if filtering and lematization:
        tokens = [token.lemma_ for token in doc if token_filtered(token)]
    elif lematization:
        tokens = [token.lemma_ for token in doc]
    elif filtering:
        tokens = [token.text for token in doc if token_filtered(token)]
    else:
        tokens = [token.text for token in doc]
    return " ".join(tokens)

In [18]:
new_doc1 = nlp_md(spacy_processing(doc1, True, False))
new_doc2 = nlp_md(spacy_processing(doc2, True, False))
new_doc3 = nlp_md(spacy_processing(doc3, True, False))

print("Similitud con filtrado:")
print(f"doc1-doc2: {new_doc1.similarity(new_doc2):.4f}")
print(f"doc1-doc3: {new_doc1.similarity(new_doc3):.4f}")
print(f"doc2-doc3: {new_doc2.similarity(new_doc3):.4f}")

Similitud con filtrado:
doc1-doc2: 0.9234
doc1-doc3: 0.6596
doc2-doc3: 0.5495


### Apartado c
Similitud con filtrado y lematización.

In [19]:
new_doc1 = nlp_md(spacy_processing(doc1, True, True))
new_doc2 = nlp_md(spacy_processing(doc2, True, True))
new_doc3 = nlp_md(spacy_processing(doc3, True, True))

print("Similitud con filtrado y lematización:")
print(f"doc1-doc2: {new_doc1.similarity(new_doc2):.4f}")
print(f"doc1-doc3: {new_doc1.similarity(new_doc3):.4f}")
print(f"doc2-doc3: {new_doc2.similarity(new_doc3):.4f}")

Similitud con filtrado y lematización:
doc1-doc2: 0.9372
doc1-doc3: 0.7290
doc2-doc3: 0.6333


## Ejercicio 6
Extraer información usando el Matcher de spaCy.

In [20]:
from spacy.matcher import Matcher

with open(PATH_DATA / 'atp.txt', 'r', encoding="utf8") as f:
    sample = f.read()

doc = nlp(sample)
matcher = Matcher(nlp.vocab)

### Apartado a
Patrón para obtener la cadena "(ATP)".

In [21]:
pattern = [{"IS_PUNCT": True}, {"TEXT": "ATP"}, {"IS_PUNCT": True}]
matcher.add("ATP", [pattern])

matches = matcher(doc)
print('Matches:', [doc[start:end].text for match_id, start, end in matches])

Matches: ['(ATP)']


### Apartado b
Patrón para obtener la cadena "Súper challengers".

In [22]:
# Crear nuevo matcher para este patrón
matcher_super = Matcher(nlp.vocab)
pattern = [{"TEXT": "Súper"}, {"TEXT": "challengers"}]
matcher_super.add("SuperChallengers", [pattern])

matches = matcher_super(doc)
print('Matches:', [doc[start:end].text for match_id, start, end in matches])

Matches: ['Súper challengers']


### Apartado c
Patrón para obtener secuencias de sustantivo seguido de adjetivo.

In [23]:
matcher_noun_adj = Matcher(nlp.vocab)
pattern = [{"POS": "NOUN"}, {"POS": "ADJ"}]
matcher_noun_adj.add("NounAdj", [pattern])

matches = matcher_noun_adj(doc)
print('Matches:', [doc[start:end].text for match_id, start, end in matches])

Matches: ['torneos gobernados', 'jugadores emergentes', 'ránking inferior', 'categoría menor', 'días previo', 'días previos', 'días previos', 'torneos conocidos', 'status especial', 'torneos grandes', 'jugadores eliminados', 'instancias iniciales', 'torneos grandes', 'veces mejores']


## Ejercicio 7
Extraer patrones de la colección completa de textos en español.

### Apartado a
Extraer secuencias de sustantivo seguido de adjetivo en todos los documentos.

In [24]:
def read_file(file):
    with open(file, 'r', encoding="utf8") as f:
        return f.read()

files = [PATH_DATA / 'atp.txt', PATH_DATA / 'openAustralia1.txt', PATH_DATA / 'openAustralia2.txt', PATH_DATA / 'crisisUcrania.txt']

In [25]:
from spacy.matcher import Matcher

matcher = Matcher(nlp.vocab)
pattern = [{"POS": "NOUN"}, {"POS": "ADJ"}]
matcher.add("NounAdj", [pattern])

for f in files:
    text = read_file(f)
    doc = nlp(text)
    matches = matcher(doc)
    print(f"Archivo: {f.name}")
    print('Matches:', [doc[start:end].text for match_id, start, end in matches])
    print()

Archivo: atp.txt
Matches: ['torneos gobernados', 'jugadores emergentes', 'ránking inferior', 'categoría menor', 'días previo', 'días previos', 'días previos', 'torneos conocidos', 'status especial', 'torneos grandes', 'jugadores eliminados', 'instancias iniciales', 'torneos grandes', 'veces mejores']

Archivo: openAustralia1.txt
Matches: ['sofocón final', 'vigesimoprimer major']

Archivo: openAustralia2.txt
Matches: ['achuchón sufrido', 'arreón final', 'pista dura', 'empate histórico']

Archivo: crisisUcrania.txt
Matches: ['punto muerto', 'autoproclamadas repúblicas', 'línea firme', 'mesa redonda', 'medios rusos', 'regiones separatistas']



### Apartado b
Extraer secuencias de número seguido de sustantivo.

In [26]:
matcher = Matcher(nlp.vocab)
pattern = [{"POS": "NUM"}, {"POS": "NOUN"}]
matcher.add("NumNoun", [pattern])

for f in files:
    text = read_file(f)
    doc = nlp(text)
    matches = matcher(doc)
    print(f"Archivo: {f.name}")
    print('Matches:', [doc[start:end].text for match_id, start, end in matches])
    print()

Archivo: atp.txt
Matches: ['mil dólares', '21 días', '21 días', '21 días', '2 semanas']

Archivo: openAustralia1.txt
Matches: ['dos horas', '55 minutos', 'cinco títulos']

Archivo: openAustralia2.txt
Matches: ['500 días', 'tres jornadas', '55m.', '500 victorias', '20 majors', '30m']

Archivo: crisisUcrania.txt
Matches: ['siete años', 'nueve días']



### Apartado c
Extraer secuencias de nombre propio seguido de adjetivo.

In [27]:
matcher = Matcher(nlp.vocab)
pattern = [{"POS": "PROPN"}, {"POS": "ADJ"}]
matcher.add("PropnAdj", [pattern])

for f in files:
    text = read_file(f)
    doc = nlp(text)
    matches = matcher(doc)
    print(f"Archivo: {f.name}")
    print('Matches:', [doc[start:end].text for match_id, start, end in matches])
    print()

Archivo: atp.txt
Matches: ['Jugadores rankeados', 'Card otorgado', 'Jugadores rankeados']

Archivo: openAustralia1.txt
Matches: []

Archivo: openAustralia2.txt
Matches: []

Archivo: crisisUcrania.txt
Matches: ['Gobierno ruso', 'Exteriores ruso']



### Apartado d
Extraer todas las cadenas que contengan el lema "tener".

In [28]:
matcher = Matcher(nlp.vocab)
pattern = [{"LEMMA": "tener"}]
matcher.add("Tener", [pattern])

for f in files:
    text = read_file(f)
    doc = nlp(text)
    matches = matcher(doc)
    print(f"Archivo: {f.name}")
    print('Matches:', [doc[start:end].text for match_id, start, end in matches])
    print()

Archivo: atp.txt
Matches: ['tienen', 'tienen']

Archivo: openAustralia1.txt
Matches: []

Archivo: openAustralia2.txt
Matches: []

Archivo: crisisUcrania.txt
Matches: []



### Apartado e
Usar PhraseMatcher para buscar frases exactas en todos los documentos.

In [29]:
from spacy.matcher import PhraseMatcher

matcher = PhraseMatcher(nlp.vocab)

phrases = ["actividad física", "cuerpo saludable", "gobierno federal", "Grand Slam"]
patterns = [nlp.make_doc(text) for text in phrases]
matcher.add("TerminologyList", patterns)

def matching(matcher, doc):
    matches = matcher(doc)
    print('Matches:', [doc[start:end].text for match_id, start, end in matches])

for f in files:
    text = read_file(f)
    doc = nlp(text)
    print(f"Archivo: {f.name}")
    matching(matcher, doc)

Archivo: atp.txt
Matches: ['Grand Slam']
Archivo: openAustralia1.txt
Matches: ['Grand Slam']
Archivo: openAustralia2.txt
Matches: ['Grand Slam']
Archivo: crisisUcrania.txt
Matches: []


## Ejercicio 8
Combinar patrones con expresiones regulares.

In [30]:
matcher = Matcher(nlp.vocab)

# Buscar texto que empiece por 'a' seguido de un adjetivo
pattern = [{"TEXT": {"REGEX": "^a"}}, {"POS": "ADJ"}]
matcher.add("RegEx", [pattern])

for f in files:
    text = read_file(f)
    doc = nlp(text)
    matches = matcher(doc)
    print(f"Archivo: {f.name}")
    print('Matches:', [doc[start:end].text for match_id, start, end in matches])

Archivo: atp.txt
Matches: []
Archivo: openAustralia1.txt
Matches: []
Archivo: openAustralia2.txt
Matches: ['achuchón sufrido', 'arreón final']
Archivo: crisisUcrania.txt
Matches: ['autoproclamadas repúblicas']
