In [11]:
# ================================
# Examen Parcial - Procesamiento de Lenguaje Natural
# Alumno: RUSSELL EDWIN ROCHA RICALDEZ
# Ejercicio: Analisis Morfologico con NLTK (español usando CESS-ESP)
# ================================

import nltk
from nltk.corpus import cess_esp
from nltk.tag import UnigramTagger, DefaultTagger
from nltk.tokenize import word_tokenize

# Descargas necesarias
nltk.download('punkt')       # Tokenizador
nltk.download('cess_esp')    # Corpus (datos) anotado en español

# Entrenamiento del etiquetador POS en español ya que NLTK NO tiene un etiquetador
# en español como tal solo en ingles y es la unica forma de cumplir con los requisitos del examen
tagged_sents = cess_esp.tagged_sents()

# Dividir corpus en entrenamiento (80%) y prueba (20%)
train_size = int(len(tagged_sents) * 0.8)
train_sents = tagged_sents[:train_size]
test_sents = tagged_sents[train_size:]

# Etiquetador por defecto (si no conoce la palabra, asigna 'NC')
default_tagger = DefaultTagger('NOUN')  # NOUN = sustantivo común por defecto

# Entrenar UnigramTagger
tagger = UnigramTagger(train_sents, backoff=default_tagger)

# ----------------------------
# Diccionario de mapeo a etiquetas simples ya que las devolvia en un formato
# diferente al requerido en las especificaciones del examen
# ----------------------------
mapping = {
    'NC': 'NOUN', 'NP': 'NOUN',
    'VM': 'VERB', 'VMI': 'VERB', 'VMIP': 'VERB', 'VMIS': 'VERB', 'VMG': 'VERB', 'VMS': 'VERB',
    'AQ': 'ADJ', 'aq': 'ADJ',
    'DA': 'DET', 'da': 'DET',
    'CC': 'CCONJ', 'cc': 'CCONJ',
    'SP': 'ADP', 'sps': 'ADP',
    'Fp': 'PUNCT'
}

def simplificar_tag(tag):
    """
    Convierte una etiqueta del corpus CESS-ESP a una etiqueta simple tipo universal
    """
    # Tomar las primeras letras significativas del tag y convertir a mayus
    tag_prefix = tag[:2].upper()
    return mapping.get(tag_prefix, tag)

# ----------------------------
# Función de análisis morfológico final
# ----------------------------
def analisis_morfologico(oracion):
    """
    Realiza análisis morfológico completo de una oración en español
    usando el corpus CESS-ESP y devuelve etiquetas simplificadas.

    Args:
        oracion (str): Texto en español a analizar.

    Returns:
        dict: Diccionario con:
            - total_tokens: número total de tokens
            - total_tipos: número de tipos únicos
            - ratio_tt: relación tipo/token (redondeada a 3 decimales)
            - pos_tags: lista de tuplas (palabra, etiqueta_POS simplificada)
    """

    # Tokenización
    tokens = word_tokenize(oracion, language='spanish')

    # Etiquetado POS con el UnigramTagger
    pos_tags_raw = tagger.tag(tokens)

    # Simplificar etiquetas
    pos_tags = [(w, simplificar_tag(tag)) for w, tag in pos_tags_raw]

    # Estadísticas
    total_tokens = len(tokens)
    total_tipos = len(set(tokens))
    ratio_tt = round(total_tipos / total_tokens, 3)

    return {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }

# ----------------------------
# Prueba de la función
# ----------------------------
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."
resultado = analisis_morfologico(oracion_ejemplo)
print(resultado)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


{'total_tokens': 14, 'total_tipos': 13, 'ratio_tt': 0.929, 'pos_tags': [('El', 'DET'), ('gato', 'NOUN'), ('negro', 'ADJ'), ('salta', 'NOUN'), ('alto', 'ADJ'), ('y', 'CCONJ'), ('el', 'DET'), ('perro', 'NOUN'), ('corre', 'VERB'), ('rápido', 'ADJ'), ('por', 'ADP'), ('el', 'DET'), ('parque', 'NOUN'), ('.', 'Fp')]}
