In [1]:
# =========================================
# Conteo de tokens y types (sin librerías)
# =========================================
# Reglas de tokenización:
# - Un token es toda secuencia continua de letras (incluye acentos) o dígitos.
# - Todo lo demás (espacios, signos, guiones, comillas, etc.) separa tokens.
# - Los "types" se cuentan en minúsculas (no se quitan acentos).
#
# Cómo usar:
# 1) Pega el contenido de cada texto en las variables text_pizarnik y text_loynaz.
# 2) Ejecuta este archivo. Verás el total de tokens y types por cada texto.

# ====== Pega aquí los textos ======
text_pizarnik = """[PEGA AQUÍ el poema "La última inocencia" de Alejandra Pizarnik]"""

text_loynaz = """[PEGA AQUÍ el fragmento del poema XXVI de Dulce María Loynaz]"""
# ==================================


def tokenize(s):
    """
    Devuelve la lista de tokens de s usando la regla:
    secuencias de letras (Unicode) o dígitos -> token.
    Todo lo demás es separador.
    """
    tokens = []
    current = []

    for ch in s:
        if ch.isalpha() or ch.isdigit():
            current.append(ch)
        else:
            if current:
                tokens.append("".join(current))
                current = []
    # Si quedó algo al final, añadirlo
    if current:
        tokens.append("".join(current))
    return tokens


def count_tokens_and_types(s):
    tokens = tokenize(s)
    # normalizamos a minúsculas para el conteo de types
    types = set(t.lower() for t in tokens if t != "")
    return len(tokens), len(types)


def report_for(title, text):
    n_tokens, n_types = count_tokens_and_types(text)
    print("=========================================")
    print(title)
    print("Tokens (N):", n_tokens)
    print("Types  (V):", n_types)


def main():
    report_for("LA ÚLTIMA INOCENCIA — Alejandra Pizarnik", text_pizarnik)
    report_for("Fragmento del poema XXVI — Dulce María Loynaz", text_loynaz)

    # (Opcional) Reporte combinado
    both = text_pizarnik + "\n" + text_loynaz
    n_tokens, n_types = count_tokens_and_types(both)
    print("=========================================")
    print("Ambos textos (combinado)")
    print("Tokens (N):", n_tokens)
    print("Types  (V):", n_types)


if __name__ == "__main__":
    main()

LA ÚLTIMA INOCENCIA — Alejandra Pizarnik
Tokens (N): 10
Types  (V): 10
Fragmento del poema XXVI — Dulce María Loynaz
Tokens (N): 11
Types  (V): 11
Ambos textos (combinado)
Tokens (N): 21
Types  (V): 16


In [None]:
# =========================================
# Conteo de tokens y types (sin librerías)
# Lee los textos desde archivo
# =========================================

# Función para tokenizar
def tokenize(s):
    tokens = []
    current = []
    for ch in s:
        if ch.isalpha() or ch.isdigit():
            current.append(ch)
        else:
            if current:
                tokens.append("".join(current))
                current = []
    if current:
        tokens.append("".join(current))
    return tokens


def count_tokens_and_types(s):
    tokens = tokenize(s)
    types = set(t.lower() for t in tokens if t != "")
    return len(tokens), len(types)


def report_for(file_path, title):
    with open(file_path, "r", encoding="utf-8") as f:
        text = f.read()

    n_tokens, n_types = count_tokens_and_types(text)
    print("=========================================")
    print(title)
    print("Tokens (N):", n_tokens)
    print("Types  (V):", n_types)


def main():
    report_for("ultimaInocencia.txt", "LA ÚLTIMA INOCENCIA — Alejandra Pizarnik")
    report_for("DulceMaríaLoynaz.txt", "Fragmento del poema XXVI — Dulce María Loynaz")

    # Opcional: conteo combinado
    with open("ultimaInocencia.txt", "r", encoding="utf-8") as f1, \
         open("DulceMaríaLoynaz.txt", "r", encoding="utf-8") as f2:
        both = f1.read() + "\n" + f2.read()

    n_tokens, n_types = count_tokens_and_types(both)
    print("=========================================")
    print("Ambos textos (combinado)")
    print("Tokens (N):", n_tokens)
    print("Types  (V):", n_types)


if __name__ == "__main__":
    main()


LA ÚLTIMA INOCENCIA — Alejandra Pizarnik
Tokens (N): 42
Types  (V): 30
Fragmento del poema XXVI — Dulce María Loynaz
Tokens (N): 92
Types  (V): 49
Ambos textos (combinado)
Tokens (N): 134
Types  (V): 71


In [None]:
import spacy
from collections import Counter
# Cargar modelo de spaCy en español
nlp = spacy.load("es_core_news_sm")

# Función auxiliar
def procesar_texto(ruta_archivo, titulo):
    with open(ruta_archivo, "r", encoding="utf-8") as f:
        texto = f.read()
    
    doc = nlp(texto)
    
    # Extraer tokens, lemas y POS
    tokens = [token.text for token in doc if not token.is_space]
    lemas = [token.lemma_ for token in doc if not token.is_space]
    pos_tags = [token.pos_ for token in doc if not token.is_space]
    
    # Contar categorías POS
    conteo_pos = Counter(pos_tags)
    
    # Reporte
    print("===================================")
    print(f"TEXTO: {titulo}")
    print("Tokens totales:", len(tokens))
    print("Lemas totales :", len(set(lemas)))
    print("Distribución POS:")
    for cat, freq in conteo_pos.items():
        print(f"  {cat}: {freq}")
    
    return tokens, lemas, conteo_pos


# VEamos en los dos archivos
procesar_texto("ultimaInocencia.txt", "La última inocencia — Alejandra Pizarnik")
procesar_texto("DulceMaríaLoynaz.txt", "Poema XXVI — Dulce María Loynaz")


TEXTO: La última inocencia — Alejandra Pizarnik
Tokens totales: 47
Lemas totales : 31
Distribución POS:
  NOUN: 13
  ADP: 7
  CCONJ: 2
  PUNCT: 5
  VERB: 5
  DET: 3
  ADJ: 3
  PRON: 1
  AUX: 2
  ADV: 6
TEXTO: Poema XXVI — Dulce María Loynaz
Tokens totales: 106
Lemas totales : 50
Distribución POS:
  PUNCT: 14
  AUX: 6
  ADP: 25
  VERB: 8
  PRON: 7
  SCONJ: 4
  DET: 14
  NOUN: 21
  ADV: 5
  CCONJ: 1
  ADJ: 1


(['“',
  'He',
  'de',
  'amoldarme',
  'a',
  'ti',
  'como',
  'el',
  'río',
  'a',
  'su',
  'cauce',
  ',',
  'como',
  'el',
  'mar',
  'a',
  'su',
  'playa',
  ',',
  'como',
  'la',
  'espada',
  'a',
  'su',
  'vaina',
  '.',
  'He',
  'de',
  'correr',
  'en',
  'ti',
  ',',
  'he',
  'de',
  'cantar',
  'en',
  'ti',
  ',',
  'he',
  'de',
  'guardarme',
  'en',
  'ti',
  'ya',
  'para',
  'siempre',
  '.',
  'Fuera',
  'de',
  'ti',
  'ha',
  'de',
  'sobrarme',
  'el',
  'mundo',
  'como',
  'le',
  'sobra',
  'al',
  'río',
  'el',
  'aire',
  ',',
  'al',
  'mar',
  'la',
  'tierra',
  ',',
  'a',
  'la',
  'espada',
  'la',
  'mesa',
  'del',
  'convite',
  '.',
  'Dentro',
  'de',
  'ti',
  'no',
  'ha',
  'de',
  'faltarme',
  'blandura',
  'de',
  'limo',
  'para',
  'mi',
  'corriente',
  ',',
  'perfil',
  'de',
  'viento',
  'para',
  'mis',
  'olas',
  ',',
  'ceñidura',
  'y',
  'reposo',
  'para',
  'mi',
  'acero',
  '.',
  '”'],
 ['“',
  'haber',
  'de',
  '