# 🧠 Análisis Morfológico en Español (versión mejorada)
Este notebook realiza un análisis morfológico básico en español usando reglas manuales y NLTK. Incluye una solución al error `punkt_tab` y un etiquetador gramatical propio.

In [1]:
# -----------------------------
# 🔹 IMPORTACIÓN DE LIBRERÍAS
# -----------------------------
import nltk
import re

# ✅ Descarga los recursos necesarios
nltk.download('punkt')
nltk.download('punkt_tab')  # Nuevo recurso necesario desde NLTK 3.8


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [2]:
# -----------------------------
# 🔹 ETIQUETADOR BÁSICO EN ESPAÑOL
# -----------------------------
def etiquetar_espanol(tokens):
    """
    Asigna etiquetas gramaticales simples (heurísticas) al español.
    No usa modelos estadísticos, solo reglas básicas.
    """
    etiquetas = []
    for token in tokens:
        palabra = token.lower()

        # Reglas simples de identificación
        if re.match(r'^[.!?,;:¿¡]$', palabra):
            etiqueta = 'PUNCT'
        elif palabra in ['el', 'la', 'los', 'las', 'un', 'una', 'unos', 'unas']:
            etiqueta = 'DET'
        elif palabra in ['y', 'o', 'pero', 'aunque', 'sino']:
            etiqueta = 'CCONJ'
        elif palabra in ['en', 'a', 'de', 'con', 'por', 'para', 'sin', 'sobre']:
            etiqueta = 'ADP'
        elif palabra.endswith('mente'):
            etiqueta = 'ADV'
        elif palabra.endswith(('ar', 'er', 'ir')):
            etiqueta = 'VERB'
        elif palabra.endswith(('ado', 'ada', 'ido', 'ida', 'ando', 'iendo')):
            etiqueta = 'VERB'
        elif palabra.endswith(('o', 'a', 'os', 'as')):
            etiqueta = 'NOUN'
        elif palabra.endswith(('al', 'ble', 'nte')):
            etiqueta = 'ADJ'
        else:
            etiqueta = 'X'  # Desconocido

        etiquetas.append((token, etiqueta))
    return etiquetas


In [3]:
# -----------------------------
# 🔹 FUNCIÓN PRINCIPAL
# -----------------------------
def analisis_morfologico(oracion):
    """
    Realiza análisis morfológico completo con reglas en español.
    """
    # 1️⃣ Tokenización
    tokens = nltk.word_tokenize(oracion, language='spanish')

    # 2️⃣ Conteo
    total_tokens = len(tokens)
    total_tipos = len(set(tokens))
    ratio_tt = round(total_tipos / total_tokens, 3)

    # 3️⃣ Etiquetado manual
    pos_tags = etiquetar_espanol(tokens)

    # 4️⃣ Resultado
    return {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }


In [4]:
# -----------------------------
# 🔹 PRUEBA
# -----------------------------
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."

resultado = analisis_morfologico(oracion_ejemplo)

print("🔍 RESULTADO DEL ANÁLISIS MORFOLÓGICO:\n")
print(f"Total de tokens: {resultado['total_tokens']}")
print(f"Total de tipos únicos: {resultado['total_tipos']}")
print(f"Ratio tipo-token: {resultado['ratio_tt']}\n")

print("Etiquetas gramaticales (POS tags):")
for palabra, etiqueta in resultado['pos_tags']:
    print(f"{palabra:10} → {etiqueta}")


🔍 RESULTADO DEL ANÁLISIS MORFOLÓGICO:

Total de tokens: 14
Total de tipos únicos: 13
Ratio tipo-token: 0.929

Etiquetas gramaticales (POS tags):
El         → DET
gato       → NOUN
negro      → NOUN
salta      → NOUN
alto       → NOUN
y          → CCONJ
el         → DET
perro      → NOUN
corre      → X
rápido     → VERB
por        → ADP
el         → DET
parque     → X
.          → PUNCT


# 🔍 Análisis de Resultados
- **total_tokens**: número total de palabras y signos.
- **total_tipos**: número de palabras únicas.
- **ratio_tt**: mide la diversidad léxica.
- **pos_tags**: muestra las etiquetas gramaticales generadas por las reglas.

**Ejemplo de etiquetas comunes:**
- DET → Determinante
- NOUN → Sustantivo
- ADJ → Adjetivo
- VERB → Verbo
- ADV → Adverbio
- ADP → Preposición
- CCONJ → Conjunción
- PUNCT → Signo de puntuación
- X → Desconocido