# Load Vectors Example

## Использование

Запустите ячейки по порядку.

In [None]:
"""
Пример загрузки и использования векторизованных данных
"""



In [None]:
import numpy as np
import pandas as pd
import joblib
from scipy.sparse import csr_matrix
import os

# Пример 1: Загрузка sparse векторов


In [None]:
def load_sparse_vectors(vector_file):
    """Загрузка sparse матрицы из .npz файла"""
    print(f"Загрузка векторов из {vector_file}...")
    loaded = np.load(vector_file, allow_pickle=True)
    vectors = csr_matrix((loaded['data'], loaded['indices'], loaded['indptr']), 
                        shape=loaded['shape'])
    print(f"Загружено: {vectors.shape}")
    return vectors

# Пример 2: Загрузка dense векторов
def load_dense_vectors(vector_file):
    """Загрузка dense матрицы из .npy файла"""
    print(f"Загрузка векторов из {vector_file}...")
    vectors = np.load(vector_file)
    print(f"Загружено: {vectors.shape}")
    return vectors

# Пример 3: Загрузка векторизатора
def load_vectorizer(vectorizer_file):
    """Загрузка сохранённого векторизатора"""
    print(f"Загрузка векторизатора из {vectorizer_file}...")
    vectorizer = joblib.load(vectorizer_file)
    print("Векторизатор загружен")
    return vectorizer

# Пример 4: Векторизация нового текста
def vectorize_new_text(text, vectorizer):
    """Векторизация нового текста с помощью загруженного векторизатора"""
    vector = vectorizer.transform([text])
    return vector

# Пример использования
if __name__ == "__main__":
    # Путь к файлам
    vectorized_dir = "vectorized"
    method = "tfidf"
    
    # 1. Загрузка векторов
    sparse_file = os.path.join(vectorized_dir, f"vectors_{method}_sparse.npz")
    if os.path.exists(sparse_file):
        vectors = load_sparse_vectors(sparse_file)
        print(f"Первые 5 векторов (первые 10 признаков):")
        print(vectors[:5, :10].toarray())
        print()
    
    # 2. Загрузка метаданных
    metadata_file = os.path.join(vectorized_dir, f"metadata_{method}.csv")
    if os.path.exists(metadata_file):
        metadata = pd.read_csv(metadata_file)
        print(f"Метаданные: {len(metadata)} строк")
        print(metadata.head())
        print()
    
    # 3. Загрузка векторизатора для новых текстов
    vectorizer_file = os.path.join(vectorized_dir, f"vectorizer_{method}.pkl")
    if os.path.exists(vectorizer_file):
        vectorizer = load_vectorizer(vectorizer_file)
        
        # Векторизация нового текста
        new_text = "получить посылку из постамата"
        new_vector = vectorize_new_text(new_text, vectorizer)
        print(f"\nВекторизация нового текста: '{new_text}'")
        print(f"Размерность вектора: {new_vector.shape}")
        print(f"Количество ненулевых элементов: {new_vector.nnz}")
        print()

