In [7]:
import nltk

# Descargamos los recursos necesarios de NLTK
nltk.download('punkt')
# Downloading resources for CoNLL2002 Spanish tagger
nltk.download('spanish_grammars')
nltk.download('conll2002')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package spanish_grammars to /root/nltk_data...
[nltk_data]   Unzipping grammars/spanish_grammars.zip.
[nltk_data] Downloading package conll2002 to /root/nltk_data...
[nltk_data]   Unzipping corpora/conll2002.zip.


True

In [8]:
import nltk
from nltk.tag import pos_tag, StanfordTagger
from nltk.corpus import conll2002

def analisis_morfologico(oracion):
    """
    Realiza un análisis morfológico completo de una oración en español utilizando el tagger CoNLL2002.

    Args:
        oracion (str): Cadena de texto en español que se desea analizar.

    Returns:
        dict: Diccionario con la siguiente información:
              - total_tokens: Número total de tokens en la oración
              - total_tipos: Número de tipos únicos (vocabulario)
              - ratio_tt: Ratio tipo-token (tipos / tokens) redondeado a 3 decimales
              - pos_tags: Lista de tuplas (palabra, etiqueta_POS)
    """
    # ======================================
    # Paso 1: Tokenización
    # ======================================
    tokens = nltk.word_tokenize(oracion, language='spanish')

    # ======================================
    # Paso 2: Conteo de tokens y tipos
    # ======================================
    total_tokens = len(tokens)
    total_tipos = len(set(tokens))

    # ======================================
    # Paso 3: Calcular ratio tipo-token
    # ======================================
    ratio_tt = round(total_tipos / total_tokens, 3)

    # ======================================
    # Paso 4: Etiquetado POS (Part-of-Speech)
    # ======================================
    # Train a tagger using the Spanish CoNLL2002 corpus
    train_sents = conll2002.tagged_sents('esp.train')
    tagger = nltk.HiddenMarkovModelTagger.train(train_sents) # Using HMM Tagger as an example, other taggers can be used as well.

    pos_tags = tagger.tag(tokens)


    # ======================================
    # Paso 5: Devolver resultados
    # ======================================
    resultado = {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }

    return resultado

In [5]:
# Definimos una oración de prueba
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."

# Llamamos a la función
resultado = analisis_morfologico(oracion_ejemplo)

# Mostramos resultados generales
print("=== RESULTADOS DEL ANÁLISIS MORFOLÓGICO ===\n")
print(f"Total de Tokens: {resultado['total_tokens']}")
print(f"Total de Tipos: {resultado['total_tipos']}")
print(f"Ratio Tipo-Token (TT): {resultado['ratio_tt']}\n")

# Mostramos etiquetas POS
print("Etiquetas POS (palabra, categoría):\n")
for palabra, etiqueta in resultado['pos_tags']:
    print(f"{palabra:>10}  -->  {etiqueta}")

LookupError: 
**********************************************************************
  Resource [93maveraged_perceptron_tagger_eng[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('averaged_perceptron_tagger_eng')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtaggers/averaged_perceptron_tagger_eng/[0m

  Searched in:
    - '/root/nltk_data'
    - '/usr/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************
