<a href="https://colab.research.google.com/github/SAGODev17/COMPUTACI-N-BIOINSPIRADA/blob/main/Embeddings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



##üßÆ Embeddings
Un embedding convierte un texto en un vector num√©rico (lista de floats) que captura su significado sem√°ntico. Esto permite comparar textos, hacer b√∫squedas sem√°nticas, clustering, clasificaci√≥n, etc.


## üß† Funcionamiento de los Embeddings

## üìã Proceso Principal

```
üìù TEXTO DE ENTRADA
"El gato est√° muy feliz"
          ‚¨áÔ∏è
üîß PREPROCESAMIENTO
Limpieza ‚Ä¢ Normalizaci√≥n ‚Ä¢ Min√∫sculas
          ‚¨áÔ∏è
‚úÇÔ∏è TOKENIZACI√ìN  
["el", "gato", "est√°", "muy", "feliz"]
          ‚¨áÔ∏è
ü§ñ MODELO DE EMBEDDING
BERT | Word2Vec | OpenAI | Sentence-BERT
          ‚¨áÔ∏è
üìä VECTOR NUM√âRICO
[0.2, -0.5, 0.8, 0.1, ..., 0.3]
Dimensiones: 50-4096
          ‚¨áÔ∏è
üíæ BASE DE DATOS DE VECTORES
Almacenamiento para b√∫squedas futuras
          ‚¨áÔ∏è
üéØ APLICACIONES
```

---

## üí° Puntos Clave

> **üéØ Idea Principal**: Los embeddings convierten texto en n√∫meros que preservan el significado, permitiendo operaciones matem√°ticas con lenguaje natural.

### ‚úÖ **Ventajas**
- Capturan relaciones sem√°nticas
- Permiten b√∫squedas por significado
- Funcionan con algoritmos de ML
- Escalan a grandes vol√∫menes

### ‚ö†Ô∏è **Consideraciones**
- Requieren gran cantidad de datos
- Los modelos son espec√≠ficos al dominio
- Pueden tener sesgos del entrenamiento
- Dimensionalidad alta = m√°s recursos


## üöÄ Aplicaciones Principales

### üîç **B√∫squeda por Similitud**
```
Vector Consulta ‚Üí Comparar ‚Üí Calcular Similitud ‚Üí Resultados Ordenados
                    ‚Üì
            Base de Vectores
```

### üè∑Ô∏è **Clasificaci√≥n**
```
Vector Embedding ‚Üí Red Neuronal ‚Üí Categor√≠a Predicha
```

### üîó **Clustering**
```
M√∫ltiples Vectores ‚Üí Algoritmo Agrupamiento ‚Üí Grupos Tem√°ticos
                        (K-means, DBSCAN)
```

### üí° **Recomendaciones**
```
Vector Usuario ‚Üí Buscar Similares ‚Üí Filtrar ‚Üí Items Recomendados
```

---


## üõ†Ô∏è Modelos Populares

| `task_type`             | ¬øCu√°ndo usarlo?                                                                                               | Algoritmos t√≠picos usados                      |
| ----------------------- | ------------------------------------------------------------------------------------------------------------- | ---------------------------------------------- |
| `"retrieval_document"`  | Cuando el texto ser√° almacenado para luego hacerle b√∫squeda (indexaci√≥n).                                     | `FAISS`, `pgvector`, `Annoy`, `ScaNN`          |
| `"retrieval_query"`     | Cuando el texto es una **consulta del usuario** que se usar√° para buscar en documentos previamente embebidos. | `Cosine similarity`, `dot-product search`      |
| `"semantic_similarity"` | Cuando quieres comparar dos textos y ver qu√© tan **sem√°nticamente similares** son.                            | `Cosine similarity`, `Euclidean distance`      |
| `"classification"`      | Cuando usas embeddings como entrada para un **modelo de clasificaci√≥n supervisada**.                          | `LogisticRegression`, `SVM`, `XGBoost`, `NN`   |
| `"clustering"`          | Cuando planeas **agrupar textos similares** sin etiquetas.                                                    | `KMeans`, `DBSCAN`, `HDBSCAN`, `t-SNE`, `UMAP` |

---

## üìä Ejemplo Visual

### Similitud entre Palabras
```
    Animales        Veh√≠culos       Emociones
      üê±              üöó             üòä
   "gato"           "auto"         "feliz"
      üê∂              üö≤             üò¢  
   "perro"        "bicicleta"     "triste"

Distancia en el espacio vectorial:
‚Ä¢ gato ‚Üî perro = 0.85 (MUY similar)
‚Ä¢ gato ‚Üî auto = 0.12 (poco similar)
‚Ä¢ feliz ‚Üî triste = 0.23 (opuestos)
```

---

## üî¢ C√°lculo de Similitud

### Similitud Coseno
```python
import numpy as np

# Vectores ejemplo (simplificado a 4 dimensiones)
gato = [0.2, -0.5, 0.8, 0.1]
perro = [0.3, -0.4, 0.7, 0.2]

# F√≥rmula: cos(Œ∏) = (A¬∑B) / (|A|√ó|B|)
similitud = np.dot(gato, perro) / (np.linalg.norm(gato) * np.linalg.norm(perro))
print(f"Similitud: {similitud:.3f}")  # ‚Üí 0.891 (muy similar)
```

---

## üéØ Casos de Uso Reales

### 1. **B√∫squeda Sem√°ntica**
```
Consulta: "mascotas peludas"
    ‚¨áÔ∏è
[0.4, -0.2, 0.9, ...]
    ‚¨áÔ∏è
Buscar vectores similares
    ‚¨áÔ∏è
Resultados: "gatos", "perros", "conejos"
```

### 2. **Clasificaci√≥n de Sentimientos**
```
Texto: "Me encanta este producto"
    ‚¨áÔ∏è
Vector: [0.8, 0.3, -0.1, ...]
    ‚¨áÔ∏è
Red Neuronal
    ‚¨áÔ∏è
Resultado: POSITIVO (95% confianza)
```

### 3. **Sistema de Recomendaci√≥n**
```
Usuario le gusta: "Harry Potter"
    ‚¨áÔ∏è
Vector libro: [0.5, -0.3, 0.7, ...]
    ‚¨áÔ∏è
Buscar libros similares
    ‚¨áÔ∏è
Recomendar: "El Se√±or de los Anillos"
```

---

## üîß Implementaci√≥n R√°pida

In [None]:
!pip install -q google-generativeai

In [None]:
import google.generativeai as genai
from google.colab import userdata

In [None]:
# Configura tu API Key directamente (quemada)
genai.configure(api_key=userdata.get('api_key'))

In [None]:
# Obtener el modelo de embeddings
model = genai.get_model("models/embedding-001")

In [None]:

# Texto de ejemplo
texto = "Este es un texto de ejemplo para probar Gemini Embeddings."

In [None]:
response = genai.embed_content(
    model="models/embedding-001",
    content=texto,
    task_type="retrieval_document"  # Puedes cambiar seg√∫n tu caso de uso
)

In [None]:
# Obtener el vector
embedding = response['embedding']

In [None]:

# Mostrar los resultados
print(f"‚úÖ Longitud del vector: {len(embedding)} dimensiones")
print("üîπ Primeras 10 dimensiones:", embedding[:10])


‚úÖ Longitud del vector: 768 dimensiones
üîπ Primeras 10 dimensiones: [0.035021175, -0.012195336, -0.057214644, 0.023686739, 0.05417177, 0.0070224833, -0.007199279, -0.0465323, 0.0009668815, 0.055569224]


## üìö Recursos Adicionales

- **OpenAI Embeddings**: `text-embedding-ada-002`
- **Hugging Face**: Miles de modelos pre-entrenados
- **Sentence Transformers**: F√°cil de usar para embeddings de oraciones
- **FAISS/Pinecone**: Bases de datos vectoriales para b√∫squeda r√°pida

---

*üí° **Tip**: Empieza con modelos peque√±os como `all-MiniLM-L6-v2` para prototipos r√°pidos, luego escala a modelos m√°s grandes seg√∫n necesites mejor precisi√≥n.*