# Examen: Análisis Morfológico con NLTK

## Instrucciones Generales
1. Implemente la función solicitada en Google Colab
2. Use únicamente las bibliotecas especificadas
3. Comente su código adecuadamente
4. Pruebe con los casos de prueba proporcionados
5. Prepare un breve análisis de los resultados

## Ejercicio practico: Análisis Morfológico

### Enunciado Completo
Implemente una función `analisis_morfologico(oracion)` que reciba una cadena de texto en español y retorne un diccionario con la siguiente información:


- **total_tokens**: número total de tokens en la oración
- **total_tipos**: número de tipos únicos (vocabulario)
- **ratio_tt**: ratio tipo-token (tipos/tokens) redondeado a 3 decimales
- **pos_tags**: lista de tuplas (palabra, etiqueta_POS) para cada token

### Ejemplo de Entrada y Salida

#### Entrada:
```python
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."
```

#### Salida esperada:
```python
{
    'total_tokens': 13,
    'total_tipos': 11,
    'ratio_tt': 0.846,
    'pos_tags': [
        ('El', 'DET'), ('gato', 'NOUN'), ('negro', 'ADJ'),
        ('salta', 'VERB'), ('alto', 'ADV'), ('y', 'CCONJ'),
        ('el', 'DET'), ('perro', 'NOUN'), ('corre', 'VERB'),
        ('rápido', 'ADJ'), ('por', 'ADP'), ('el', 'DET'),
        ('parque', 'NOUN'), ('.', 'PUNCT')
    ]
}
```

1. Preparacion de entorno
```
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger_esp')
```

In [10]:
import nltk

# Descargas necesarias
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

In [11]:
from nltk import word_tokenize, pos_tag

def analisis_morfologico(oracion):
    tokens = word_tokenize(oracion, language="spanish")
    pos_tags = pos_tag(tokens)  # usa el modelo en inglés

    total_tokens = len(tokens)
    total_tipos = len(set(tokens))
    ratio_tt = round(total_tipos / total_tokens, 3)

    return {
        'total_tokens': total_tokens,
        'total_tipos': total_tipos,
        'ratio_tt': ratio_tt,
        'pos_tags': pos_tags
    }


In [12]:
oracion_ejemplo = "El gato negro salta alto y el perro corre rápido por el parque."
resultado = analisis_morfologico(oracion_ejemplo)
print(resultado)

{'total_tokens': 14, 'total_tipos': 13, 'ratio_tt': 0.929, 'pos_tags': [('El', 'NNP'), ('gato', 'NN'), ('negro', 'NN'), ('salta', 'NN'), ('alto', 'VBP'), ('y', 'NN'), ('el', 'NN'), ('perro', 'NN'), ('corre', 'NN'), ('rápido', 'NN'), ('por', 'NN'), ('el', 'NN'), ('parque', 'NN'), ('.', '.')]}


### Análisis de Resultados

- La oración se partió en **14 tokens** (contando el punto al final).
- De esos, **13 son diferentes** porque la palabra "el" se repite varias veces.
- El **ratio tipo-token** salió **0.929**, lo que básicamente significa que casi todas las palabras son distintas.
- El etiquetador POS de NLTK funciona, pero ojo: las etiquetas están en inglés (ej: NN = sustantivo, VB = verbo, JJ = adjetivo).
- No es perfecto para español, pero igual sirve para practicar cómo se hace un análisis morfológico.
- el código hace que podamos ver tokens, tipos y etiquetas POS.
