In [18]:
# ===========================================================
# EXAMEN PARCIAL - Procesamiento de Lenguaje Natural
# Alumno: Quelali Gastón
# Tema: Análisis Morfológico con NLTK
# ===========================================================

import nltk
from nltk.corpus import cess_esp
from nltk import UnigramTagger
from nltk.tokenize import word_tokenize

# =========================
# Descarga de recursos NLTK
# =========================
nltk.download('punkt')       # Tokenizador de palabras
nltk.download('cess_esp')    # Corpus en español para etiquetado POS

# ===========================================================
# Entrenamiento del etiquetador POS para español
# ===========================================================
# El corpus 'cess_esp' contiene oraciones etiquetadas en español
tagged_sentences = cess_esp.tagged_sents()

# Entrenamos un etiquetador unigram para español
tagger = UnigramTagger(tagged_sentences)

# ===========================================================
# Función principal
# ===========================================================
def analisis_morfologico(oracion):
    """
    Realiza análisis morfológico de una oración en español usando NLTK.

    Args:
        oracion (str): Texto en español a analizar

    Returns:
        dict: Diccionario con:
            - total_tokens: número total de tokens
            - total_tipos: número de tipos únicos
            - ratio_tt: relación tipos/tokens redondeada a 3 decimales
            - pos_tags: lista de tuplas (palabra, etiqueta POS)
    """

    # 1️⃣ Tokenización de la oración
    tokens = word_tokenize(oracion, language='spanish')

    # 2️⃣ Etiquetado POS usando el tagger entrenado en español
    pos_tags = tagger.tag(tokens)

    # 3️⃣ Cálculos de métricas
    total_tokens = len(tokens)         # Total de tokens
    total_tipos = len(set(tokens))     # Tokens únicos (vocabulario)
    ratio_tt = round(total_tipos / total_tokens, 3) if total_tokens > 0 else 0.0

    # 4️⃣ Retornar los resultados en un diccionario
    return {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }

# ===========================================================
# Prueba con la oración de ejemplo
# ===========================================================
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."
resultado = analisis_morfologico(oracion_ejemplo)

print("=== RESULTADO DEL ANÁLISIS MORFOLÓGICO ===")
print(resultado)

# ===========================================================
# Breve análisis de los resultados
# ===========================================================
print("\n=== ANÁLISIS ===")
print(f"Total de tokens: {resultado['total_tokens']}")
print(f"Total de tipos únicos: {resultado['total_tipos']}")
print(f"Ratio tipo/token (TT): {resultado['ratio_tt']}")
print("\nEtiquetas POS asignadas:")
for palabra, etiqueta in resultado['pos_tags']:
    print(f"{palabra:15} → {etiqueta}")


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


=== RESULTADO DEL ANÁLISIS MORFOLÓGICO ===
{'total_tokens': 14, 'total_tipos': 13, 'ratio_tt': 0.929, 'pos_tags': [('El', 'da0ms0'), ('gato', 'ncms000'), ('negro', 'aq0ms0'), ('salta', None), ('alto', 'aq0ms0'), ('y', 'cc'), ('el', 'da0ms0'), ('perro', 'ncms000'), ('corre', 'vmip3s0'), ('rápido', 'aq0ms0'), ('por', 'sps00'), ('el', 'da0ms0'), ('parque', 'ncms000'), ('.', 'Fp')]}

=== ANÁLISIS ===
Total de tokens: 14
Total de tipos únicos: 13
Ratio tipo/token (TT): 0.929

Etiquetas POS asignadas:
El              → da0ms0
gato            → ncms000
negro           → aq0ms0
salta           → None
alto            → aq0ms0
y               → cc
el              → da0ms0
perro           → ncms000
corre           → vmip3s0
rápido          → aq0ms0
por             → sps00
el              → da0ms0
parque          → ncms000
.               → Fp


In [None]:
from google.colab import files
uploaded = files.upload()

