In [1]:
!pip install sentence-transformers

Collecting sentence-transformers
  Obtaining dependency information for sentence-transformers from https://files.pythonhosted.org/packages/bb/a6/a607a737dc1a00b7afe267b9bfde101b8cee2529e197e57471d23137d4e5/sentence_transformers-5.1.2-py3-none-any.whl.metadata
  Downloading sentence_transformers-5.1.2-py3-none-any.whl.metadata (16 kB)
Collecting transformers<5.0.0,>=4.41.0 (from sentence-transformers)
  Obtaining dependency information for transformers<5.0.0,>=4.41.0 from https://files.pythonhosted.org/packages/6a/6b/2f416568b3c4c91c96e5a365d164f8a4a4a88030aa8ab4644181fdadce97/transformers-4.57.3-py3-none-any.whl.metadata
  Downloading transformers-4.57.3-py3-none-any.whl.metadata (43 kB)
     ---------------------------------------- 0.0/44.0 kB ? eta -:--:--
     ----------------------------------- -- 41.0/44.0 kB 991.0 kB/s eta 0:00:01
     ---------------------------------------- 44.0/44.0 kB 1.1 MB/s eta 0:00:00
Collecting torch>=1.11.0 (from sentence-transformers)
  Obtaining depen


[notice] A new release of pip is available: 23.2.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
from sentence_transformers import SentenceTransformer, util

# 1. Cargar modelo ligero
model = SentenceTransformer('all-MiniLM-L6-v2')

# 2. Definir oraciones
sentences = [
    "El perro corre en el parque",    # Base
    "Un canino juega en el jardín",   # Semánticamente igual, palabras distintas
    "El gato duerme en el sofá",      # Diferente
    "The dog runs in the park"        # Mismo significado, diferente idioma
]

# 3. Generar Embeddings
embeddings = model.encode(sentences)

# 4. Calcular similitud (Coseno)
# Comparamos la primera frase con las demás
results = util.cos_sim(embeddings[0], embeddings)

for i, score in enumerate(results[0]):
    print(f"Similitud con '{sentences[i]}': {score:.4f}")

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


Similitud con 'El perro corre en el parque': 1.0000
Similitud con 'Un canino juega en el jardín': 0.4409
Similitud con 'El gato duerme en el sofá': 0.5455
Similitud con 'The dog runs in the park': 0.0457


aunque "perro" y "canino" son palabras distintas, sus vectores están cerca en el espacio latente. Muestra cómo el modelo en inglés falla con la frase en español si no es multilingüe

# Diferencia con vectores

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 1. Definimos dos frases con el mismo significado pero palabras diferentes
frases = [
    "El perro come carne",      # Frase A
    "El canino ingiere proteína" # Frase B (Semánticamente igual a A)
]

# 2. Vectorización Clásica (Bag of Words)
# Esto crea vectores del tamaño del vocabulario total
vectorizer = CountVectorizer()
vectores_bow = vectorizer.fit_transform(frases)

# 3. Visualizar los vectores "escasos" (llenos de ceros)
print("Vocabulario aprendido:", vectorizer.get_feature_names_out())
df_bow = pd.DataFrame(vectores_bow.toarray(), columns=vectorizer.get_feature_names_out(), index=["Frase A", "Frase B"])
print("\nRepresentación One-Hot/BoW:")
print(df_bow)

# 4. Calcular similitud
similitud_bow = cosine_similarity(vectores_bow)[0][1]
print(f"\nSimilitud (Enfoque Clásico): {similitud_bow:.4f}")