# üß† An√°lisis Morfol√≥gico en Espa√±ol (versi√≥n mejorada)
Este notebook realiza un an√°lisis morfol√≥gico b√°sico en espa√±ol usando reglas manuales y NLTK. Incluye una soluci√≥n al error `punkt_tab` y un etiquetador gramatical propio.

In [1]:
# -----------------------------
# üîπ IMPORTACI√ìN DE LIBRER√çAS
# -----------------------------
import nltk
import re

# ‚úÖ Descarga los recursos necesarios
nltk.download('punkt')
nltk.download('punkt_tab')  # Nuevo recurso necesario desde NLTK 3.8


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [2]:
# -----------------------------
# üîπ ETIQUETADOR B√ÅSICO EN ESPA√ëOL
# -----------------------------
def etiquetar_espanol(tokens):
    """
    Asigna etiquetas gramaticales simples (heur√≠sticas) al espa√±ol.
    No usa modelos estad√≠sticos, solo reglas b√°sicas.
    """
    etiquetas = []
    for token in tokens:
        palabra = token.lower()

        # Reglas simples de identificaci√≥n
        if re.match(r'^[.!?,;:¬ø¬°]$', palabra):
            etiqueta = 'PUNCT'
        elif palabra in ['el', 'la', 'los', 'las', 'un', 'una', 'unos', 'unas']:
            etiqueta = 'DET'
        elif palabra in ['y', 'o', 'pero', 'aunque', 'sino']:
            etiqueta = 'CCONJ'
        elif palabra in ['en', 'a', 'de', 'con', 'por', 'para', 'sin', 'sobre']:
            etiqueta = 'ADP'
        elif palabra.endswith('mente'):
            etiqueta = 'ADV'
        elif palabra.endswith(('ar', 'er', 'ir')):
            etiqueta = 'VERB'
        elif palabra.endswith(('ado', 'ada', 'ido', 'ida', 'ando', 'iendo')):
            etiqueta = 'VERB'
        elif palabra.endswith(('o', 'a', 'os', 'as')):
            etiqueta = 'NOUN'
        elif palabra.endswith(('al', 'ble', 'nte')):
            etiqueta = 'ADJ'
        else:
            etiqueta = 'X'  # Desconocido

        etiquetas.append((token, etiqueta))
    return etiquetas


In [3]:
# -----------------------------
# üîπ FUNCI√ìN PRINCIPAL
# -----------------------------
def analisis_morfologico(oracion):
    """
    Realiza an√°lisis morfol√≥gico completo con reglas en espa√±ol.
    """
    # 1Ô∏è‚É£ Tokenizaci√≥n
    tokens = nltk.word_tokenize(oracion, language='spanish')

    # 2Ô∏è‚É£ Conteo
    total_tokens = len(tokens)
    total_tipos = len(set(tokens))
    ratio_tt = round(total_tipos / total_tokens, 3)

    # 3Ô∏è‚É£ Etiquetado manual
    pos_tags = etiquetar_espanol(tokens)

    # 4Ô∏è‚É£ Resultado
    return {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }


In [4]:
# -----------------------------
# üîπ PRUEBA
# -----------------------------
oracion_ejemplo = "El gato negro salta alto y el perro corre r√°pido por el parque."

resultado = analisis_morfologico(oracion_ejemplo)

print("üîç RESULTADO DEL AN√ÅLISIS MORFOL√ìGICO:\n")
print(f"Total de tokens: {resultado['total_tokens']}")
print(f"Total de tipos √∫nicos: {resultado['total_tipos']}")
print(f"Ratio tipo-token: {resultado['ratio_tt']}\n")

print("Etiquetas gramaticales (POS tags):")
for palabra, etiqueta in resultado['pos_tags']:
    print(f"{palabra:10} ‚Üí {etiqueta}")


üîç RESULTADO DEL AN√ÅLISIS MORFOL√ìGICO:

Total de tokens: 14
Total de tipos √∫nicos: 13
Ratio tipo-token: 0.929

Etiquetas gramaticales (POS tags):
El         ‚Üí DET
gato       ‚Üí NOUN
negro      ‚Üí NOUN
salta      ‚Üí NOUN
alto       ‚Üí NOUN
y          ‚Üí CCONJ
el         ‚Üí DET
perro      ‚Üí NOUN
corre      ‚Üí X
r√°pido     ‚Üí VERB
por        ‚Üí ADP
el         ‚Üí DET
parque     ‚Üí X
.          ‚Üí PUNCT


# üîç An√°lisis de Resultados
- **total_tokens**: n√∫mero total de palabras y signos.
- **total_tipos**: n√∫mero de palabras √∫nicas.
- **ratio_tt**: mide la diversidad l√©xica.
- **pos_tags**: muestra las etiquetas gramaticales generadas por las reglas.

**Ejemplo de etiquetas comunes:**
- DET ‚Üí Determinante
- NOUN ‚Üí Sustantivo
- ADJ ‚Üí Adjetivo
- VERB ‚Üí Verbo
- ADV ‚Üí Adverbio
- ADP ‚Üí Preposici√≥n
- CCONJ ‚Üí Conjunci√≥n
- PUNCT ‚Üí Signo de puntuaci√≥n
- X ‚Üí Desconocido