In [1]:
import spacy
from collections import Counter
import pandas as pd

# El Ramo Azul

In [13]:
nlp = spacy.load("es_core_news_sm")

# Leer el archivo de texto
with open("ramoAzul.txt", "r", encoding="utf-8") as f:
    texto = f.read()

doc = nlp(texto)

1. Tokeniza el texto. ¿Cuántas palabras hay? (sin símbolos de puntuación).

In [5]:
tokens = [t for t in doc if not t.is_punct and not t.is_space]
num_palabras = len(tokens)
print(f"Número total de palabras: {num_palabras}")

Número total de palabras: 826


2. Para cada palabra, da el lema y la raíz.

In [6]:
lemmas_roots = [(t.text, t.lemma_, t.pos_) for t in tokens]
print(f"Ejemplo de lema y raíz (primeros 20): {lemmas_roots[:20]}")

Ejemplo de lema y raíz (primeros 20): [('El', 'el', 'DET'), ('ramo', 'ramo', 'NOUN'), ('azul', 'azul', 'ADJ'), ('un', 'uno', 'DET'), ('cuento', 'cuento', 'NOUN'), ('de', 'de', 'ADP'), ('Octavio', 'Octavio', 'PROPN'), ('Paz', 'Paz', 'PROPN'), ('Desperté', 'Desperté', 'PROPN'), ('cubierto', 'cubierto', 'ADJ'), ('de', 'de', 'ADP'), ('sudor', 'sudor', 'NOUN'), ('Del', 'del', 'ADP'), ('piso', 'piso', 'NOUN'), ('de', 'de', 'ADP'), ('ladrillos', 'ladrillo', 'NOUN'), ('rojos', 'rojo', 'ADJ'), ('recién', 'recién', 'ADV'), ('regados', 'regado', 'ADJ'), ('subía', 'subir', 'VERB')]


3. ¿Cuántas palabras diferentes hay?

In [7]:
palabras_unicas = set([t.text.lower() for t in tokens])
num_palabras_unicas = len(palabras_unicas)
print(f"Número de palabras diferentes: {num_palabras_unicas}")

Número de palabras diferentes: 442


4. Después de lematizar las palabras, ¿cuántas palabras diferentes hay?

In [8]:
palabras_lematizadas = set([t.lemma_.lower() for t in tokens if t.is_alpha])
num_palabras_lematizadas = len(palabras_lematizadas)
print(f"Número de palabras diferentes (lematizadas): {num_palabras_lematizadas}")

Número de palabras diferentes (lematizadas): 377


5. ¿Cuál es la diversidad léxica del texto dado? (relación de palabras únicas con respecto al número total de palabras)

In [9]:
diversidad = num_palabras_unicas / num_palabras
print(f"Diversidad léxica: {diversidad:.3f}")

Diversidad léxica: 0.535


6. ¿Cuáles son las 20 palabras léxicas más frecuentes en el texto? ¿Cuál es su frecuencia?

In [10]:
frecuencia = Counter([t.lemma_.lower() for t in tokens if t.is_alpha])
top20 = frecuencia.most_common(20)
df_top20 = pd.DataFrame(top20, columns=["Palabra", "Frecuencia"])
print("\nTop 20 palabras más frecuentes:")
print(df_top20)


Top 20 palabras más frecuentes:
   Palabra  Frecuencia
0       el          76
1       de          37
2      uno          29
3       yo          26
4       él          23
5        y          20
6       no          16
7      ojo          14
8        a          13
9      ser          12
10     con          11
11      mi          11
12     que          10
13      al           9
14      en           7
15    azul           6
16     del           6
17   señor           6
18   tener           6
19   entre           5


7. ¿Cuál es el número promedio de palabras por oración?

In [11]:
num_oraciones = len(list(doc.sents))
promedio_palabras_oracion = num_palabras / num_oraciones
print(f"\nPromedio de palabras por oración: {promedio_palabras_oracion:.2f}")


Promedio de palabras por oración: 8.18


8. ¿Cuál  es la frecuencia de de sustantivos, adjetivos y verbos en el texto?.

In [12]:
pos_counts = Counter([t.pos_ for t in tokens])
sustantivos = pos_counts.get("NOUN", 0)
adjetivos = pos_counts.get("ADJ", 0)
verbos = pos_counts.get("VERB", 0)
print(f"Frecuencia - Sustantivos: {sustantivos}, Adjetivos: {adjetivos}, Verbos: {verbos}")

Frecuencia - Sustantivos: 180, Adjetivos: 64, Verbos: 132
