# ================================================================
# Examen Parcial - Procesamiento de Lenguaje Natural
## Alumno: Mamani Zapata Samuel
## Tema: Análisis Morfológico con NLTK (adaptado con spaCy)
## Herramientas: Python, NLTK, spaCy, Google Colab
# ================================================================

# Nota: El modelo POS original de NLTK para español no está disponible,
# por lo tanto se utiliza spaCy para el análisis morfológico.

    Realiza un análisis morfológico completo de una oración en español.

    Args:
        oracion (str): Texto en español a analizar.

    Returns:
        dict: Diccionario con:
            - total_tokens: número total de tokens
            - total_tipos: número de tipos únicos
            - ratio_tt: relación tipo-token (tipos/tokens)
            - pos_tags: lista de tuplas (palabra, etiqueta_POS)
  


# ------------------------------------------------------------
# Instalación y configuración del entorno
# ------------------------------------------------------------

In [8]:
# Instalación de dependencias
!pip install -q spacy

# Descarga del modelo en español
!python -m spacy download es_core_news_sm

# Importación de librerías
import nltk
import spacy

# Descarga de recursos de tokenización de NLTK
nltk.download('punkt')
nltk.download('punkt_tab')

# Carga del modelo en español de spaCy
nlp = spacy.load("es_core_news_sm")

print("✅ Entorno configurado correctamente.")


Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/12.9 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.6/12.9 MB[0m [31m140.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━[0m [32m11.6/12.9 MB[0m [31m180.9 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m12.9/12.9 MB[0m [31m182.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m104.2 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are 

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


✅ Entorno configurado correctamente.


# ------------------------------------------------------------
# Implementación de la función principal
# ------------------------------------------------------------

In [9]:
def analisis_morfologico(oracion):


    # Procesamiento del texto con spaCy
    doc = nlp(oracion)

    # Tokenización
    tokens = [token.text for token in doc]

    # Cálculos básicos
    total_tokens = len(tokens)
    total_tipos = len(set(tokens))
    ratio_tt = round(total_tipos / total_tokens, 3)

    # Etiquetado gramatical (POS)
    pos_tags = [(token.text, token.pos_) for token in doc]

    # Diccionario de salida
    resultado = {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }

    return resultado


# ------------------------------------------------------------
# Prueba con ejemplo
# ------------------------------------------------------------

In [10]:
# Oración de ejemplo
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."

# Ejecución de la función
resultado = analisis_morfologico(oracion_ejemplo)

# Presentación de resultados
print("=== RESULTADOS DEL ANÁLISIS MORFOLÓGICO ===")
print(f"Total de tokens: {resultado['total_tokens']}")
print(f"Total de tipos: {resultado['total_tipos']}")
print(f"Ratio tipo-token: {resultado['ratio_tt']}")
print("\nEtiquetas POS:")
for palabra, etiqueta in resultado['pos_tags']:
    print(f"{palabra:10} --> {etiqueta}")


=== RESULTADOS DEL ANÁLISIS MORFOLÓGICO ===
Total de tokens: 14
Total de tipos: 13
Ratio tipo-token: 0.929

Etiquetas POS:
El         --> DET
gato       --> NOUN
negro      --> ADJ
salta      --> NOUN
alto       --> ADJ
y          --> CCONJ
el         --> DET
perro      --> PROPN
corre      --> VERB
rápido     --> ADV
por        --> ADP
el         --> DET
parque     --> NOUN
.          --> PUNCT


# ------------------------------------------------------------
# Análisis de resultados
# ------------------------------------------------------------

In [11]:


print("=== ANÁLISIS DE RESULTADOS ===\n")

print(f"La oración analizada contiene un total de {resultado['total_tokens']} tokens, "
      f"de los cuales {resultado['total_tipos']} son tipos únicos (palabras diferentes).")

print(f"El ratio tipo-token (TTR) obtenido es de {resultado['ratio_tt']}, "
      "lo que indica el grado de diversidad léxica del texto.\n")

print("El análisis morfológico también asignó correctamente las etiquetas gramaticales (POS),")
print("identificando categorías como sustantivos (NOUN), verbos (VERB), adjetivos (ADJ),")
print("adverbios (ADV), determinantes (DET), conjunciones (CCONJ) y preposiciones (ADP).")

print("\nEn resumen:")
print(f"- Total de palabras analizadas (tokens): {resultado['total_tokens']}")
print(f"- Palabras únicas (tipos): {resultado['total_tipos']}")
print(f"- Ratio tipo-token: {resultado['ratio_tt']}")
print("\nEl modelo spaCy para español demuestra un desempeño adecuado para la tarea de análisis morfológico, "
      "ya que detecta correctamente las partes del discurso en la oración proporcionada.")


=== ANÁLISIS DE RESULTADOS ===

La oración analizada contiene un total de 14 tokens, de los cuales 13 son tipos únicos (palabras diferentes).
El ratio tipo-token (TTR) obtenido es de 0.929, lo que indica el grado de diversidad léxica del texto.

El análisis morfológico también asignó correctamente las etiquetas gramaticales (POS),
identificando categorías como sustantivos (NOUN), verbos (VERB), adjetivos (ADJ),
adverbios (ADV), determinantes (DET), conjunciones (CCONJ) y preposiciones (ADP).

En resumen:
- Total de palabras analizadas (tokens): 14
- Palabras únicas (tipos): 13
- Ratio tipo-token: 0.929

El modelo spaCy para español demuestra un desempeño adecuado para la tarea de análisis morfológico, ya que detecta correctamente las partes del discurso en la oración proporcionada.
