<a href="https://colab.research.google.com/github/SAGODev17/COMPUTACI-N-BIOINSPIRADA/blob/main/Embeddings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



##🧮 Embeddings
Un embedding convierte un texto en un vector numérico (lista de floats) que captura su significado semántico. Esto permite comparar textos, hacer búsquedas semánticas, clustering, clasificación, etc.


## 🧠 Funcionamiento de los Embeddings

## 📋 Proceso Principal

```
📝 TEXTO DE ENTRADA
"El gato está muy feliz"
          ⬇️
🔧 PREPROCESAMIENTO
Limpieza • Normalización • Minúsculas
          ⬇️
✂️ TOKENIZACIÓN  
["el", "gato", "está", "muy", "feliz"]
          ⬇️
🤖 MODELO DE EMBEDDING
BERT | Word2Vec | OpenAI | Sentence-BERT
          ⬇️
📊 VECTOR NUMÉRICO
[0.2, -0.5, 0.8, 0.1, ..., 0.3]
Dimensiones: 50-4096
          ⬇️
💾 BASE DE DATOS DE VECTORES
Almacenamiento para búsquedas futuras
          ⬇️
🎯 APLICACIONES
```

---

## 💡 Puntos Clave

> **🎯 Idea Principal**: Los embeddings convierten texto en números que preservan el significado, permitiendo operaciones matemáticas con lenguaje natural.

### ✅ **Ventajas**
- Capturan relaciones semánticas
- Permiten búsquedas por significado
- Funcionan con algoritmos de ML
- Escalan a grandes volúmenes

### ⚠️ **Consideraciones**
- Requieren gran cantidad de datos
- Los modelos son específicos al dominio
- Pueden tener sesgos del entrenamiento
- Dimensionalidad alta = más recursos


## 🚀 Aplicaciones Principales

### 🔍 **Búsqueda por Similitud**
```
Vector Consulta → Comparar → Calcular Similitud → Resultados Ordenados
                    ↓
            Base de Vectores
```

### 🏷️ **Clasificación**
```
Vector Embedding → Red Neuronal → Categoría Predicha
```

### 🔗 **Clustering**
```
Múltiples Vectores → Algoritmo Agrupamiento → Grupos Temáticos
                        (K-means, DBSCAN)
```

### 💡 **Recomendaciones**
```
Vector Usuario → Buscar Similares → Filtrar → Items Recomendados
```

---


## 🛠️ Modelos Populares

| `task_type`             | ¿Cuándo usarlo?                                                                                               | Algoritmos típicos usados                      |
| ----------------------- | ------------------------------------------------------------------------------------------------------------- | ---------------------------------------------- |
| `"retrieval_document"`  | Cuando el texto será almacenado para luego hacerle búsqueda (indexación).                                     | `FAISS`, `pgvector`, `Annoy`, `ScaNN`          |
| `"retrieval_query"`     | Cuando el texto es una **consulta del usuario** que se usará para buscar en documentos previamente embebidos. | `Cosine similarity`, `dot-product search`      |
| `"semantic_similarity"` | Cuando quieres comparar dos textos y ver qué tan **semánticamente similares** son.                            | `Cosine similarity`, `Euclidean distance`      |
| `"classification"`      | Cuando usas embeddings como entrada para un **modelo de clasificación supervisada**.                          | `LogisticRegression`, `SVM`, `XGBoost`, `NN`   |
| `"clustering"`          | Cuando planeas **agrupar textos similares** sin etiquetas.                                                    | `KMeans`, `DBSCAN`, `HDBSCAN`, `t-SNE`, `UMAP` |

---

## 📊 Ejemplo Visual

### Similitud entre Palabras
```
    Animales        Vehículos       Emociones
      🐱              🚗             😊
   "gato"           "auto"         "feliz"
      🐶              🚲             😢  
   "perro"        "bicicleta"     "triste"

Distancia en el espacio vectorial:
• gato ↔ perro = 0.85 (MUY similar)
• gato ↔ auto = 0.12 (poco similar)
• feliz ↔ triste = 0.23 (opuestos)
```

---

## 🔢 Cálculo de Similitud

### Similitud Coseno
```python
import numpy as np

# Vectores ejemplo (simplificado a 4 dimensiones)
gato = [0.2, -0.5, 0.8, 0.1]
perro = [0.3, -0.4, 0.7, 0.2]

# Fórmula: cos(θ) = (A·B) / (|A|×|B|)
similitud = np.dot(gato, perro) / (np.linalg.norm(gato) * np.linalg.norm(perro))
print(f"Similitud: {similitud:.3f}")  # → 0.891 (muy similar)
```

---

## 🎯 Casos de Uso Reales

### 1. **Búsqueda Semántica**
```
Consulta: "mascotas peludas"
    ⬇️
[0.4, -0.2, 0.9, ...]
    ⬇️
Buscar vectores similares
    ⬇️
Resultados: "gatos", "perros", "conejos"
```

### 2. **Clasificación de Sentimientos**
```
Texto: "Me encanta este producto"
    ⬇️
Vector: [0.8, 0.3, -0.1, ...]
    ⬇️
Red Neuronal
    ⬇️
Resultado: POSITIVO (95% confianza)
```

### 3. **Sistema de Recomendación**
```
Usuario le gusta: "Harry Potter"
    ⬇️
Vector libro: [0.5, -0.3, 0.7, ...]
    ⬇️
Buscar libros similares
    ⬇️
Recomendar: "El Señor de los Anillos"
```

---

## 🔧 Implementación Rápida

In [None]:
!pip install -q google-generativeai

In [None]:
import google.generativeai as genai
from google.colab import userdata

In [None]:
# Configura tu API Key directamente (quemada)
genai.configure(api_key=userdata.get('api_key'))

In [None]:
# Obtener el modelo de embeddings
model = genai.get_model("models/embedding-001")

In [None]:

# Texto de ejemplo
texto = "Este es un texto de ejemplo para probar Gemini Embeddings."

In [None]:
response = genai.embed_content(
    model="models/embedding-001",
    content=texto,
    task_type="retrieval_document"  # Puedes cambiar según tu caso de uso
)

In [None]:
# Obtener el vector
embedding = response['embedding']

In [None]:

# Mostrar los resultados
print(f"✅ Longitud del vector: {len(embedding)} dimensiones")
print("🔹 Primeras 10 dimensiones:", embedding[:10])


✅ Longitud del vector: 768 dimensiones
🔹 Primeras 10 dimensiones: [0.035021175, -0.012195336, -0.057214644, 0.023686739, 0.05417177, 0.0070224833, -0.007199279, -0.0465323, 0.0009668815, 0.055569224]


## 📚 Recursos Adicionales

- **OpenAI Embeddings**: `text-embedding-ada-002`
- **Hugging Face**: Miles de modelos pre-entrenados
- **Sentence Transformers**: Fácil de usar para embeddings de oraciones
- **FAISS/Pinecone**: Bases de datos vectoriales para búsqueda rápida

---

*💡 **Tip**: Empieza con modelos pequeños como `all-MiniLM-L6-v2` para prototipos rápidos, luego escala a modelos más grandes según necesites mejor precisión.*