In [2]:
!pip install sentence_transformers
!pip install pyarrow fastparquet

Collecting sentence_transformers
  Downloading sentence_transformers-3.2.1-py3-none-any.whl (255 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m255.8/255.8 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting torch>=1.11.0
  Downloading torch-2.4.1-cp38-cp38-manylinux2014_aarch64.whl (89.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.7/89.7 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting huggingface-hub>=0.20.0
  Downloading huggingface_hub-0.36.0-py3-none-any.whl (566 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m566.1/566.1 kB[0m [31m14.9 MB/s[0m eta [36m0:00:00[0m00:01[0m
Collecting transformers<5.0.0,>=4.41.0
  Downloading transformers-4.46.3-py3-none-any.whl (10.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.0/10.0 MB[0m [31m16.5 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
Collecting fsspec>=2023.5.0
  Downloading fssp

In [3]:
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
import os

  from tqdm.autonotebook import tqdm, trange


In [4]:
RUTA_CSV = 'data/grados.csv'                 # ← Cambia por tu archivo CSV
COLUMNA_DESC = 'descripcion'                # ← Nombre de la columna con la descripción
COLUMNA_SALIDAS = 'salidas'                 # ← Nombre de la columna con las salidas
RUTA_SALIDA_PARQUET = 'datos_con_embeddings.parquet'
RUTA_SALIDA_NPY = 'embeddings.npy'

In [5]:
print("Cargando modelo 'all-mpnet-base-v2'...")
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

Cargando modelo 'all-mpnet-base-v2'...


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [6]:
if not os.path.exists(RUTA_CSV):
    raise FileNotFoundError(f"No se encontró el archivo: {RUTA_CSV}")

df = pd.read_csv(RUTA_CSV)
print(f"Archivo leído: {len(df)} filas, {len(df.columns)} columnas.")

# Verificar columnas necesarias
for col in [COLUMNA_DESC, COLUMNA_SALIDAS]:
    if col not in df.columns:
        raise ValueError(f"Falta la columna '{col}' en el CSV.")

Archivo leído: 10 filas, 5 columnas.


In [7]:
df

Unnamed: 0,id,nombre,id_area,descripcion,salidas
0,1,Grado en Ingeniería Informática,1,"Formación en programación, sistemas y redes","Desarrollador, analista, consultor IT"
1,2,Grado en Matemáticas,2,Formación avanzada en álgebra y estadística,"Docencia, investigación, finanzas"
2,3,Grado en Biología,3,Estudio de organismos vivos y ecosistemas,"Investigador, docente, técnico de laboratorio"
3,4,Grado en Derecho,4,Formación jurídica en distintas ramas del Derecho,"Abogacía, judicatura, asesoría legal"
4,5,Grado en Economía,5,Análisis económico y financiero,"Economista, analista, consultor"
5,6,Grado en Arquitectura,6,Diseño y construcción de edificaciones,"Arquitecto, urbanista, diseñador"
6,7,Grado en Psicología,7,Estudio del comportamiento humano,"Psicólogo clínico, educativo o laboral"
7,8,Grado en Filología Hispánica,8,Estudio de la lengua y literatura española,"Docencia, edición, investigación"
8,9,Grado en Magisterio,9,Formación de docentes para educación primaria,"Profesor, orientador educativo"
9,10,Grado en Periodismo,10,Comunicación informativa en medios,"Periodista, redactor, comunicador"


In [8]:
print("Preparando textos...")
textos = (df[COLUMNA_DESC].astype(str) + ' ' + df[COLUMNA_SALIDAS].astype(str)).tolist()

# ==========================
# GENERAR EMBEDDINGS
# ==========================
print("Generando embeddings...")
embeddings = model.encode(
    textos,
    show_progress_bar=True,
    convert_to_numpy=True,
    normalize_embeddings=True
)

Preparando textos...
Generando embeddings...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

In [11]:
print(f"Embeddings generados con forma: {embeddings.shape} (filas, dimensiones)")

# ==========================
# GUARDAR RESULTADOS
# ==========================
print("Guardando resultados...")

# Guardar solo los embeddings en un .npy
np.save(RUTA_SALIDA_NPY, embeddings)

# Guardar el dataframe con embeddings (cada fila tiene su vector)
df['embedding'] = embeddings.tolist()
df.to_parquet(RUTA_SALIDA_PARQUET, index=False)

print("✅ Proceso completado con éxito.")
print(f"- Embeddings guardados en: {RUTA_SALIDA_NPY}")
print(f"- DataFrame con embeddings guardado en: {RUTA_SALIDA_PARQUET}")

Embeddings generados con forma: (10, 768) (filas, dimensiones)
Guardando resultados...
✅ Proceso completado con éxito.
- Embeddings guardados en: embeddings.npy
- DataFrame con embeddings guardado en: datos_con_embeddings.parquet


In [12]:
import pandas as pd

df = pd.read_parquet('data/datos_con_embeddings.parquet')

print(df.head())

   id                           nombre  id_area  \
0   1  Grado en Ingeniería Informática        1   
1   2             Grado en Matemáticas        2   
2   3                Grado en Biología        3   
3   4                 Grado en Derecho        4   
4   5                Grado en Economía        5   

                                         descripcion  \
0        Formación en programación, sistemas y redes   
1        Formación avanzada en álgebra y estadística   
2          Estudio de organismos vivos y ecosistemas   
3  Formación jurídica en distintas ramas del Derecho   
4                    Análisis económico y financiero   

                                         salidas  \
0          Desarrollador, analista, consultor IT   
1              Docencia, investigación, finanzas   
2  Investigador, docente, técnico de laboratorio   
3           Abogacía, judicatura, asesoría legal   
4                Economista, analista, consultor   

                                           

In [13]:
df["embedding"]

0    [0.007266493979841471, -0.03948598727583885, -...
1    [-0.05513596534729004, -0.018993012607097626, ...
2    [0.0069703650660812855, 0.005313877481967211, ...
3    [0.031181154772639275, 0.02918730489909649, 0....
4    [-0.04425458610057831, 0.010148578323423862, -...
5    [-0.031093794852495193, 0.0627623125910759, 0....
6    [0.021680137142539024, 0.017133494839072227, -...
7    [0.02266928367316723, -0.019846677780151367, -...
8    [0.05559873953461647, -0.057717952877283096, -...
9    [0.03496009483933449, 0.052129603922367096, -0...
Name: embedding, dtype: object