In [13]:
# CELDA 1: Preparaci√≥n del entorno (comprobaci√≥n/descarga segura de recursos NLTK)
import nltk

def asegurar_recurso(recurso_path, nombre_paquete):
    """
    Comprueba si existe el recurso en nltk.data; si no, lo descarga.
    recurso_path: ruta usada por nltk.data.find (ej: 'tokenizers/punkt')
    nombre_paquete: nombre usado en nltk.download (ej: 'punkt')
    """
    import nltk.data
    try:
        nltk.data.find(recurso_path)
        # recurso ya disponible
        # print(f"Recurso '{nombre_paquete}' ya disponible.")
    except LookupError:
        print(f"Descargando recurso NLTK: {nombre_paquete} ...")
        nltk.download(nombre_paquete, quiet=False)

# Aseguramos tokenizador y tagger (se descargan solo si faltan)
asegurar_recurso('tokenizers/punkt', 'punkt')
asegurar_recurso('taggers/averaged_perceptron_tagger', 'averaged_perceptron_tagger')

print("‚úÖ Recursos NLTK comprobados/descargados si fue necesario.")

‚úÖ Recursos NLTK comprobados/descargados si fue necesario.


In [14]:
# CELDA 2: Importaciones
from nltk import word_tokenize, pos_tag
from pprint import pprint

print("‚úÖ Importaciones completadas.")

‚úÖ Importaciones completadas.


In [15]:
# CELDA 3: Implementaci√≥n de analisis_morfologico (robusta)
def analisis_morfologico(oracion):
    """
    Realiza an√°lisis morfol√≥gico (tokens, tipos, ratio tipo/token, POS tags).
    Implementaci√≥n robusta: comprueba recursos NLTK, maneja errores y devuelve resultado parcial si hace falta.

    Args:
        oracion (str): oraci√≥n en espa√±ol (cadena)

    Returns:
        dict: {
            'total_tokens': int,
            'total_tipos': int,
            'ratio_tt': float (3 decimales),
            'pos_tags': [(token, etiqueta), ...]
        }
    """
    import nltk
    # Asegurar recursos por si se llam√≥ a la funci√≥n en otro entorno sin ejecutar la celda 1
    try:
        nltk.data.find('tokenizers/punkt')
    except LookupError:
        nltk.download('punkt', quiet=False)
    try:
        nltk.data.find('taggers/averaged_perceptron_tagger')
    except LookupError:
        nltk.download('averaged_perceptron_tagger', quiet=False)

    resultado = {
        'total_tokens': 0,
        'total_tipos': 0,
        'ratio_tt': 0.0,
        'pos_tags': []
    }

    if not isinstance(oracion, str):
        raise ValueError("El argumento 'oracion' debe ser una cadena de texto.")

    try:
        # Tokenizaci√≥n (sin language param)
        tokens = word_tokenize(oracion)
    except Exception as e:
        # fallback: split simple si tokenizaci√≥n falla (no ideal, pero evita crash)
        print("‚ö†Ô∏è Error en word_tokenize():", str(e))
        print("Usando fallback con simple split() para tokens.")
        tokens = oracion.split()

    # Conteos
    total_tokens = len(tokens)
    total_tipos = len(set(tokens))
    ratio_tt = round(total_tipos / total_tokens, 3) if total_tokens > 0 else 0.0

    # Etiquetado POS (intentamos usar averaged_perceptron_tagger)
    try:
        pos_tags = pos_tag(tokens, tagset='universal')
    except Exception as e:
        # Si falla, devolvemos tokens sin etiquetas y avisamos
        print("‚ö†Ô∏è Error en pos_tag():", str(e))
        print("Devolviendo tokens sin etiquetas POS.")
        pos_tags = [(t, None) for t in tokens]

    resultado['total_tokens'] = total_tokens
    resultado['total_tipos'] = total_tipos
    resultado['ratio_tt'] = ratio_tt
    resultado['pos_tags'] = pos_tags

    return resultado

In [16]:
# CELDA 4: Pruebas con oraciones de ejemplo
oracion_ejemplo = "El gato negro salta alto y el perro corre r√°pido por el parque."

res = analisis_morfologico(oracion_ejemplo)
pprint(res)

# Pruebas adicionales
print("\nPrueba adicional 1:")
pprint(analisis_morfologico("Los estudiantes estudian programaci√≥n en la universidad cada ma√±ana."))

print("\nPrueba adicional 2:")
pprint(analisis_morfologico("Hoy llueve, pero ma√±ana saldr√° el sol."))

‚ö†Ô∏è Error en word_tokenize(): 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - '/root/nltk_data'
    - '/usr/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************

Usando fallback con simple split() para tokens.
‚ö†Ô∏è Error en pos_tag(): 
**********************************************************************
  Resource [93maveraged_perceptron_tagger_eng[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nlt

In [17]:
# ============================================================
# üîπ CELDA 5: An√°lisis breve de resultados
# ============================================================

"""
üîç AN√ÅLISIS DE RESULTADOS:

1Ô∏è‚É£ Los valores de 'total_tokens' indican la cantidad de palabras (y signos) detectados por el tokenizador.
2Ô∏è‚É£ 'total_tipos' representa cu√°ntas palabras diferentes hay en la oraci√≥n.
3Ô∏è‚É£ El 'ratio_tt' (tipos/tokens) mide la diversidad l√©xica:
    - Valores cercanos a 1 indican una oraci√≥n con muchas palabras √∫nicas.
    - Valores m√°s bajos indican repeticiones o vocabulario limitado.
4Ô∏è‚É£ Las etiquetas POS proporcionan la categor√≠a gramatical de cada palabra (sustantivo, verbo, adjetivo, etc.).

En general, el an√°lisis morfol√≥gico permite observar la estructura gramatical y la variedad del vocabulario de un texto.
"""

"\nüîç AN√ÅLISIS DE RESULTADOS:\n\n1Ô∏è‚É£ Los valores de 'total_tokens' indican la cantidad de palabras (y signos) detectados por el tokenizador.\n2Ô∏è‚É£ 'total_tipos' representa cu√°ntas palabras diferentes hay en la oraci√≥n.\n3Ô∏è‚É£ El 'ratio_tt' (tipos/tokens) mide la diversidad l√©xica: \n    - Valores cercanos a 1 indican una oraci√≥n con muchas palabras √∫nicas.\n    - Valores m√°s bajos indican repeticiones o vocabulario limitado.\n4Ô∏è‚É£ Las etiquetas POS proporcionan la categor√≠a gramatical de cada palabra (sustantivo, verbo, adjetivo, etc.).\n\nEn general, el an√°lisis morfol√≥gico permite observar la estructura gramatical y la variedad del vocabulario de un texto.\n"