## Загрузка эмбеддингов в DataFrame

In [4]:
def load_embeddings_to_dataframe(filepath):
    """
    Загружает данные эмбеддингов из JSON или CSV файла в pandas DataFrame
    
    Args:
        filepath (str): Путь к файлу с данными
        
    Returns:
        pd.DataFrame: DataFrame с загруженными данными
    """
    import pandas as pd
    import json
    import os
    
    try:
        # Определяем расширение файла
        file_extension = os.path.splitext(filepath)[1].lower()
        
        if file_extension == '.json':
            # Загружаем данные из JSON файла
            with open(filepath, 'r', encoding='utf-8') as f:
                records = json.load(f)
            # Преобразуем список словарей в DataFrame
            df = pd.DataFrame(records)
            
        elif file_extension == '.csv':
            # Загружаем данные из CSV файла
            df = pd.read_csv(filepath)
            
        else:
            raise ValueError(f"Неподдерживаемый формат файла: {file_extension}. Поддерживаются только .json и .csv")
        
        print(f"Загружено {len(df)} записей из файла {filepath}")
        return df
            
    except Exception as e:
        print(f"Произошла ошибка при загрузке данных: {e}")
        return None

In [11]:
df = load_embeddings_to_dataframe("arxiv_embeddings202505211515.csv")


Загружено 50000 записей из файла arxiv_embeddings202505211515.csv


## Конфигурация OpenAI для доступа к API

In [7]:
from openai import OpenAI
# Конфигурация OpenAI клиента
client = OpenAI(
    api_key="ZmJhMjUwZTItMDg0ZC00N2E3LWIyNDktYjA4MTQyZGFmMGE4.97f6d089a16317c3aa93b365eda739a8",
    base_url="https://foundation-models.api.cloud.ru/v1"
)

## Получение эмбеддингов

In [8]:
def get_embedding(text: str, model="BAAI/bge-m3") -> list:
    """Получает эмбеддинг текста"""
    response = client.embeddings.create(
        input=[text],
        model=model
    )
    return response.data[0].embedding


In [9]:
get_embedding("Как написать хороший код?")

[-0.06525962054729462,
 0.007914295420050621,
 -0.013960456475615501,
 -0.034601207822561264,
 0.0007356929127126932,
 -0.030630791559815407,
 -0.004108139779418707,
 -0.02416471391916275,
 -0.018195414915680885,
 0.0008972485666163266,
 -0.00529785081744194,
 0.018957732245326042,
 -0.033970389515161514,
 0.01712278090417385,
 0.0046671852469444275,
 -0.012978942133486271,
 -0.01019713468849659,
 -0.0018112808465957642,
 0.017396826297044754,
 -0.01562492735683918,
 -0.009508956223726273,
 -0.0004737261333502829,
 0.0013728328049182892,
 0.024571102112531662,
 0.015879366546869278,
 0.017524171620607376,
 -0.019711248576641083,
 -0.015392095781862736,
 0.06260963529348373,
 -0.0008200673619285226,
 -0.0049664718098938465,
 0.032674264162778854,
 -0.0015933874528855085,
 -0.02456367015838623,
 -0.007107514422386885,
 0.004260846879333258,
 0.018145039677619934,
 -0.020206088200211525,
 -0.021040095016360283,
 -0.004939950071275234,
 -0.007343289442360401,
 0.03355436772108078,
 0.02052