In [22]:

import nltk
from nltk.corpus import cess_esp
from nltk import UnigramTagger
from nltk.tokenize import word_tokenize
import pprint

nltk.download('punkt')
nltk.download('cess_esp')


print("Entrenando modelo de etiquetado morfosintáctico en español...")
tagged_sentences = cess_esp.tagged_sents()
tagger = UnigramTagger(tagged_sentences)
print("Modelo entrenado correctamente ✅\n")


def analisis_morfologico(oracion):
    """
    Realiza análisis morfológico completo de una oración en español.

    Args:
        oracion (str): Texto en español a analizar

    Returns:
        dict: Diccionario con total_tokens, total_tipos, ratio_tt y pos_tags
    """

    tokens = word_tokenize(oracion, language='spanish')


    tags = tagger.tag(tokens)


    total_tokens = len(tokens)
    total_tipos = len(set(tokens))
    ratio_tt = round(total_tipos / total_tokens, 3) if total_tokens > 0 else 0


    pos_tags = [(palabra, etiqueta if etiqueta else "UNK") for palabra, etiqueta in tags]

    return {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }


oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."
resultado = analisis_morfologico(oracion_ejemplo)


print("=== RESULTADO DEL ANÁLISIS MORFOLÓGICO ===")
pp = pprint.PrettyPrinter(indent=2)
pp.pprint(resultado)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


Entrenando modelo de etiquetado morfosintáctico en español...
Modelo entrenado correctamente ✅

=== RESULTADO DEL ANÁLISIS MORFOLÓGICO ===
{ 'pos_tags': [ ('El', 'da0ms0'),
                ('gato', 'ncms000'),
                ('negro', 'aq0ms0'),
                ('salta', 'UNK'),
                ('alto', 'aq0ms0'),
                ('y', 'cc'),
                ('el', 'da0ms0'),
                ('perro', 'ncms000'),
                ('corre', 'vmip3s0'),
                ('rápido', 'aq0ms0'),
                ('por', 'sps00'),
                ('el', 'da0ms0'),
                ('parque', 'ncms000'),
                ('.', 'Fp')],
  'ratio_tt': 0.929,
  'total_tipos': 13,
  'total_tokens': 14}
