# Examen Parcial - Análisis Morfológico con NLTK
### Descripción
Implementar una función `analisis_morfologico(oracion)` que reciba una cadena de texto en español y retorne un diccionario con:
- total_tokens: número total de tokens en la oración
- total_tipos: número de tipos únicos
- ratio_tt: relación tipos/tokens redondeada a 3 decimales
- pos_tags: lista de tuplas (palabra, etiqueta_POS)

In [None]:
import nltk

# ---------------------------------------------------------------------
# Descarga de recursos NLTK necesarios.
# Comentario:
# - 'punkt' es el paquete clásico de tokenización; en versiones recientes
#   puede aparecer 'punkt_tab' como reemplazo seguro
# - 'universal_tagset' es un conjunto de mapeos que facilita trabajar con
# ---------------------------------------------------------------------
# Descargamos ambos por compatibilidad: si 'punkt_tab' está disponible se usará;
# si no, al menos tendremos 'punkt'.
nltk.download('punkt_tab')       # nueva variante en algunas versiones de NLTK
nltk.download('punkt')           # fallback por compatibilidad
nltk.download('universal_tagset')  # mapeos a un tagset universal (opcional)

def analisis_morfologico(oracion):
    """
    Realiza un análisis morfológico muy simple de una oración en español.
    Args:
        oracion (str): Texto en español a analizar
    Returns:
        dict: Diccionario con:
            - total_tokens: número total de tokens
            - total_tipos: número de tipos distintos (vocabulario)
            - ratio_tt: ratio tipos/tokens (diversidad léxica)
            - pos_tags: lista de tuplas (token, etiqueta_simplificada)
    NOTA: Este etiquetador es un ejemplo rule-based (reglas simples) y NO
    sustituye a un POS-tagger entrenado para español (p. ej. spaCy).
    """

    # -----------------------
    # 1) Tokenización (palabras y signos de puntuación)
    # -----------------------
    # nltk.word_tokenize usa por debajo el tokenizer recomendado y puede aceptar
    # el argumento language='spanish' para usar los modelos Punkt entrenados
    # para ese idioma (necesita que 'punkt' o 'punkt_tab' estén descargados).
    tokens = nltk.word_tokenize(oracion, language='spanish')

    # -----------------------
    # 2) Etiquetado simple por reglas
    # -----------------------
    # Vamos a asignar etiquetas simplificadas tipo Universal POS: DET, CCONJ,
    # ADP, ADV, ADJ, VERB, PUNCT, NOUN.
    # Reglas:
    #  - determinantes comunes -> 'DET'
    #  - conjunciones coordinantes comunes -> 'CCONJ'
    #  - preposiciones comunes -> 'ADP'
    #  - palabras con sufijo 'mente' consideradas adverbios -> 'ADV'
    #  - algunas palabras concretas etiquetadas manualmente para ejemplo
    #  - signos de puntuación -> 'PUNCT'
    #  - resto -> 'NOUN' por defecto
    etiquetas = []
    for palabra in tokens:
        p = palabra.lower()  # comparación en minúsculas para las reglas
        if p in ['el', 'la', 'los', 'las', 'un', 'una', 'unos', 'unas', 'lo']:
            etiquetas.append((palabra, 'DET'))            # determinante
        elif p in ['y', 'o', 'u', 'pero', 'aunque', 'sin', 'embargo', 'ni']:
            etiquetas.append((palabra, 'CCONJ'))          # conjunción coordinante
        elif p in ['de', 'a', 'por', 'para', 'en', 'con', 'sobre', 'sin', 'hacia']:
            etiquetas.append((palabra, 'ADP'))            # preposición (ADP = adposition)
        elif p.endswith('mente') or p in ['ahora', 'ayer', 'hoy', 'siempre', 'nunca']:
            etiquetas.append((palabra, 'ADV'))            # adverbio
        elif p in ['negro', 'rápido', 'grande', 'pequeño', 'pequeña', 'alto', 'alta']:
            etiquetas.append((palabra, 'ADJ'))            # adjetivo (ejemplos)
        elif p in ['salta', 'salto', 'salte', 'corre', 'correr', 'comió', 'come']:
            etiquetas.append((palabra, 'VERB'))           # verbo (ejemplos)
        elif p in ['.', ',', ';', ':', '!', '?', '¿', '¡', '...']:
            etiquetas.append((palabra, 'PUNCT'))          # puntuación
        else:
            # Si ninguna regla coincide, asumimos 'NOUN' (sustantivo) por defecto.
            etiquetas.append((palabra, 'NOUN'))

    # -----------------------
    # 3) Medidas simples de tipo/token
    # -----------------------
    total_tokens = len(tokens)
    total_tipos = len(set(tokens)) if total_tokens > 0 else 0
    # Evitamos división por cero y redondeamos a 3 decimales
    ratio_tt = round(total_tipos / total_tokens, 3) if total_tokens > 0 else 0.0

    # Resultado en un diccionario claro
    return {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': etiquetas
    }



[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


In [None]:
# Ejemplo de prueba
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."
resultado = analisis_morfologico(oracion_ejemplo)
print(resultado)

{'total_tokens': 14, 'total_tipos': 13, 'ratio_tt': 0.929, 'pos_tags': [('El', 'DET'), ('gato', 'NOUN'), ('negro', 'ADJ'), ('salta', 'VERB'), ('alto', 'ADJ'), ('y', 'CCONJ'), ('el', 'DET'), ('perro', 'NOUN'), ('corre', 'VERB'), ('rápido', 'ADJ'), ('por', 'ADP'), ('el', 'DET'), ('parque', 'NOUN'), ('.', 'PUNCT')]}
