### Ejemplo 2: Contar la frecuencia de cada palabra
Podemos usar un diccionario para contar cuántas veces aparece cada palabra en un texto:

In [None]:
texto = "la casa azul es grande y la casa azul es bonita"
palabras = texto.split()
frecuencias = {}
for palabra in palabras:
    if palabra in frecuencias:
        frecuencias[palabra] += 1
    else:
        frecuencias[palabra] = 1
print(frecuencias)

### Ejemplo 3: Crear un array con la longitud de cada palabra
Si queremos analizar la longitud de las palabras en un texto:

In [None]:
import numpy as np
palabras = ['morfema', 'fonema', 'sílaba', 'palabra', 'texto']
longitudes = np.array([len(p) for p in palabras])
print('Longitud de cada palabra:', longitudes)

### Ejercicio práctico
Toma la siguiente oración: "El análisis morfosintáctico es fundamental en lingüística."
- Divide la oración en palabras.
- Crea una lista con la longitud de cada palabra.
- Imprime ambas listas.

## 12. Introducción a Word2Vec

**Word2Vec** es una técnica computacional que convierte palabras en vectores de números, representando el significado y relaciones entre ellas. Si dos palabras aparecen en contextos similares, sus vectores también serán similares.

### Ejemplo práctico con gensim

In [None]:
# Si no tienes gensim instalado, ejecuta esto:
# !pip install gensim

In [None]:
# Corpus sencillo tokenizado
corpus = [
    ["el", "gato", "se", "sentó", "en", "la", "alfombra"],
    ["el", "perro", "se", "echó", "en", "la", "alfombra"],
    ["la", "reina", "y", "el", "rey", "viven", "en", "el", "castillo"],
    ["el", "gato", "y", "el", "perro", "son", "amigos"],
    ["la", "princesa", "es", "hija", "de", "la", "reina"]
]

In [None]:
from gensim.models import Word2Vec

modelo = Word2Vec(corpus, vector_size=50, window=2, min_count=1, sg=1)

### Palabras similares a 'reina'

In [None]:
similares = modelo.wv.most_similar("reina")
print("Palabras similares a 'reina':")
for palabra, similitud in similares:
    print(palabra, "->", similitud)

### Analogías: rey - hombre + mujer ≈ reina

In [None]:
resultado = modelo.wv.most_similar(positive=["rey", "mujer"], negative=["hombre"])
print("Resultado de la analogía rey - hombre + mujer:", resultado[0][0])

### Vector numérico de una palabra ('gato')

In [None]:
print("Vector de 'gato':")
print(modelo.wv["gato"])

### Visualización de palabras en el espacio semántico
Ahora vamos a graficar cómo Word2Vec ubicó cada palabra en un espacio de 2 dimensiones usando PCA.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

palabras = list(modelo.wv.index_to_key)
vectores = np.array([modelo.wv[palabra] for palabra in palabras])

pca = PCA(n_components=2)
vectores_2d = pca.fit_transform(vectores)

plt.figure(figsize=(10, 7))
plt.scatter(vectores_2d[:, 0], vectores_2d[:, 1])
for i, palabra in enumerate(palabras):
    plt.annotate(palabra, (vectores_2d[i, 0], vectores_2d[i, 1]), fontsize=12)
plt.title("Visualización de palabras en el espacio de Word2Vec (PCA)")
plt.xlabel("Componente 1")
plt.ylabel("Componente 2")
plt.grid(True)
plt.show()

Este gráfico muestra cómo las palabras se agrupan según su significado/contexto en el espacio de Word2Vec.