In [5]:
import spacy

---
- **Ejercicio 1:** Dado el texto siguiente, debemos tokenizarlo y:
    - Mostrar cada token en una línea diferente.
    - Añadir los diferentes tokens a una lista y mostrar la lista.
    - Mostrar para cada token y en una línea diferente, el texto del token, la categoría gramatical y el lema.
    - Contar el número de palabras vacías que se encuentran en el texto. Imprimir el número de palabras vacías y luego imprimir el número y las palabras vacías sin repeticiones.
    - Mostrar los adjetivos que aparecen en el texto.
    - Mostrar los nombres que aparecen en el texto. 
    - Mostrar para cada token su categoría gramatical y la explicación asociada a dicha categoría. Para ello se puede utilizar spacy.explain, que da una descripción acerca del tag particular del token.


In [6]:
# Texto de ejemplo
text = "El 2025 viene cargado de innovaciones que repercutirán en nuestro modo de vida y de trabajo diario. Este año, las tendencias apuestan por los avances en inteligencia artificial (IA), automatización, conectividad y sostenibilidad. No sólo prometen una mayor eficiencia en el trabajo y una optimización de los procesos de decisión, sino también la superación de muchos de los retos actuales. Estas tendencias brindarán nuevas oportunidades tanto a empresas como a particulares. Echa un vistazo a las 5 tendencias tecnológicas más importantes, que marcarán el 2025."

# Cargamos el modelo
nlp = spacy.load("es_core_news_sm")
doc = nlp(text)

In [7]:
print("*** Mostrar cada token en una línea diferente ***")
for token in doc:
    print(token.text)

*** Mostrar cada token en una línea diferente ***
El
2025
viene
cargado
de
innovaciones
que
repercutirán
en
nuestro
modo
de
vida
y
de
trabajo
diario
.
Este
año
,
las
tendencias
apuestan
por
los
avances
en
inteligencia
artificial
(
IA
)
,
automatización
,
conectividad
y
sostenibilidad
.
No
sólo
prometen
una
mayor
eficiencia
en
el
trabajo
y
una
optimización
de
los
procesos
de
decisión
,
sino
también
la
superación
de
muchos
de
los
retos
actuales
.
Estas
tendencias
brindarán
nuevas
oportunidades
tanto
a
empresas
como
a
particulares
.
Echa
un
vistazo
a
las
5
tendencias
tecnológicas
más
importantes
,
que
marcarán
el
2025
.


In [8]:
print("*** Añadir los tokens a una lista y mostrarla ***")
tokens = []
for token in doc:
    tokens.append(token.text)
print(tokens)

*** Añadir los tokens a una lista y mostrarla ***
['El', '2025', 'viene', 'cargado', 'de', 'innovaciones', 'que', 'repercutirán', 'en', 'nuestro', 'modo', 'de', 'vida', 'y', 'de', 'trabajo', 'diario', '.', 'Este', 'año', ',', 'las', 'tendencias', 'apuestan', 'por', 'los', 'avances', 'en', 'inteligencia', 'artificial', '(', 'IA', ')', ',', 'automatización', ',', 'conectividad', 'y', 'sostenibilidad', '.', 'No', 'sólo', 'prometen', 'una', 'mayor', 'eficiencia', 'en', 'el', 'trabajo', 'y', 'una', 'optimización', 'de', 'los', 'procesos', 'de', 'decisión', ',', 'sino', 'también', 'la', 'superación', 'de', 'muchos', 'de', 'los', 'retos', 'actuales', '.', 'Estas', 'tendencias', 'brindarán', 'nuevas', 'oportunidades', 'tanto', 'a', 'empresas', 'como', 'a', 'particulares', '.', 'Echa', 'un', 'vistazo', 'a', 'las', '5', 'tendencias', 'tecnológicas', 'más', 'importantes', ',', 'que', 'marcarán', 'el', '2025', '.']


In [9]:
print("*** Mostrar cada token en una línea junto a su categoría gramatical y su lema ***")
for token in doc:
    print(f"Token: {token.text}; Categ. gramatical: {token.tag_}; Lema: {token.lemma_}")

*** Mostrar cada token en una línea junto a su categoría gramatical y su lema ***
Token: El; Categ. gramatical: DET; Lema: el
Token: 2025; Categ. gramatical: NOUN; Lema: 2025
Token: viene; Categ. gramatical: VERB; Lema: venir
Token: cargado; Categ. gramatical: ADJ; Lema: cargado
Token: de; Categ. gramatical: ADP; Lema: de
Token: innovaciones; Categ. gramatical: NOUN; Lema: innovación
Token: que; Categ. gramatical: PRON; Lema: que
Token: repercutirán; Categ. gramatical: VERB; Lema: repercutir
Token: en; Categ. gramatical: ADP; Lema: en
Token: nuestro; Categ. gramatical: DET; Lema: nuestro
Token: modo; Categ. gramatical: NOUN; Lema: modo
Token: de; Categ. gramatical: ADP; Lema: de
Token: vida; Categ. gramatical: NOUN; Lema: vida
Token: y; Categ. gramatical: CCONJ; Lema: y
Token: de; Categ. gramatical: ADP; Lema: de
Token: trabajo; Categ. gramatical: NOUN; Lema: trabajo
Token: diario; Categ. gramatical: ADJ; Lema: diario
Token: .; Categ. gramatical: PUNCT; Lema: .
Token: Este; Categ. gram

In [10]:
print("*** Número de palabras vacías ***")
stopwords = []
for token in doc:
    if token.is_stop:
        stopwords.append(token.text)
print(len(stopwords))
print(f"Sin repeticiones: {len(set(stopwords))}")

*** Número de palabras vacías ***
45
Sin repeticiones: 27


In [11]:
print("*** Adjetivos del texto ***")
for token in doc:
    if token.tag_ == "ADJ":
        print(token.text)

*** Adjetivos del texto ***
cargado
diario
artificial
mayor
actuales
nuevas
tecnológicas
importantes


In [12]:
print("*** Nombres del texto ***")
for token in doc:
    if token.tag_ == "NOUN":
        print(token.text)

*** Nombres del texto ***
2025
innovaciones
modo
vida
trabajo
año
tendencias
avances
inteligencia
automatización
conectividad
sostenibilidad
eficiencia
trabajo
optimización
procesos
decisión
también
superación
retos
tendencias
oportunidades
empresas
particulares
vistazo
tendencias
2025


In [13]:
print("*** Mostrar la categ. gramatical de cada token junto a su explicación ***")
for token in doc:
    print(f"Token: {token.text};\nCateg. gramatical: {token.tag_};\nExplicación: {spacy.explain(token.tag_)}\n")

*** Mostrar la categ. gramatical de cada token junto a su explicación ***
Token: El;
Categ. gramatical: DET;
Explicación: determiner

Token: 2025;
Categ. gramatical: NOUN;
Explicación: noun

Token: viene;
Categ. gramatical: VERB;
Explicación: verb

Token: cargado;
Categ. gramatical: ADJ;
Explicación: adjective

Token: de;
Categ. gramatical: ADP;
Explicación: adposition

Token: innovaciones;
Categ. gramatical: NOUN;
Explicación: noun

Token: que;
Categ. gramatical: PRON;
Explicación: pronoun

Token: repercutirán;
Categ. gramatical: VERB;
Explicación: verb

Token: en;
Categ. gramatical: ADP;
Explicación: adposition

Token: nuestro;
Categ. gramatical: DET;
Explicación: determiner

Token: modo;
Categ. gramatical: NOUN;
Explicación: noun

Token: de;
Categ. gramatical: ADP;
Explicación: adposition

Token: vida;
Categ. gramatical: NOUN;
Explicación: noun

Token: y;
Categ. gramatical: CCONJ;
Explicación: coordinating conjunction

Token: de;
Categ. gramatical: ADP;
Explicación: adposition

Toke

---
- **Ejercicio 2:** dado el mismo texto en español del ejercicio anterior, se pide lo siguiente:
    - Imprimir el número de oraciones que hay en el párrafo e imprimir cada una de ellas.
    - Para cada oración, eliminar las palabras vacías y formar la oración de nuevo sin ellas.

In [14]:
print("*** Imprimir oraciones y núm. oraciones ***")
num_sents = 0
for sent in doc.sents:
    num_sents += 1
    print(sent)
print(f"Número de oraciones: {num_sents}")

*** Imprimir oraciones y núm. oraciones ***
El 2025 viene cargado de innovaciones que repercutirán en nuestro modo de vida y de trabajo diario.
Este año, las tendencias apuestan por los avances en inteligencia artificial (IA), automatización, conectividad y sostenibilidad.
No sólo prometen una mayor eficiencia en el trabajo y una optimización de los procesos de decisión, sino también la superación de muchos de los retos actuales.
Estas tendencias brindarán nuevas oportunidades tanto a empresas como a particulares.
Echa un vistazo a las 5 tendencias tecnológicas más importantes, que marcarán el 2025.
Número de oraciones: 5


In [19]:
print("*** Eliminar palabras vacías de cada oración ***")
sents_without_sw = []
for sent in doc.sents:
    sents_without_sw.append([token for token in sent if not token.is_stop])
print(sents_without_sw)

*** Eliminar palabras vacías de cada oración ***
[[2025, viene, cargado, innovaciones, repercutirán, vida, trabajo, diario, .], [año, ,, tendencias, apuestan, avances, inteligencia, artificial, (, IA, ), ,, automatización, ,, conectividad, sostenibilidad, .], [prometen, eficiencia, trabajo, optimización, procesos, decisión, ,, superación, retos, actuales, .], [tendencias, brindarán, oportunidades, empresas, particulares, .], [Echa, vistazo, 5, tendencias, tecnológicas, importantes, ,, marcarán, 2025, .]]


---
- **Ejercicio 3:** Dado el mismo texto en español de los ejercicios anteriores se quieren calcular estadísticas sobre frecuencias de las palabras del texto. Para ello, primero eliminar las palabras vacías y los signos de puntuación y sobre el listado de palabras resultante se pide:
    - Obtener la frecuencia de cada palabra, imprimiendo el par palabra-frecuencia.
    - Mostrar sólo aquellas palabras cuya frecuencia sea mayor que 1.

In [29]:
tokens = []
for token in doc:
    tokens.append(token) if (not token.is_stop and not token.is_punct) else None
freq_keys = set(tokens)

{2025,
 viene,
 cargado,
 innovaciones,
 repercutirán,
 vida,
 trabajo,
 diario,
 año,
 tendencias,
 apuestan,
 avances,
 inteligencia,
 artificial,
 IA,
 automatización,
 conectividad,
 sostenibilidad,
 prometen,
 eficiencia,
 trabajo,
 optimización,
 procesos,
 decisión,
 superación,
 retos,
 actuales,
 tendencias,
 brindarán,
 oportunidades,
 empresas,
 particulares,
 Echa,
 vistazo,
 5,
 tendencias,
 tecnológicas,
 importantes,
 marcarán,
 2025}