In [1]:
!pip install pandas langchain langchain-community sentence-transformers faiss-cpu openpyxl

Collecting langchain-community
  Downloading langchain_community-0.3.20-py3-none-any.whl.metadata (2.4 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.8.1-py3-none-any.whl.metadata (3.5 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-set

In [2]:
import pandas as pd
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.docstore.document import Document
import os

# --- Константы ---
CSV_FILE_PATH = "historical_events.csv" # Убедитесь, что имя файла совпадает с загруженным
EMBEDDING_MODEL_NAME = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
INDEX_SAVE_PATH = "faiss_index_historical" # Папка, куда будет сохранен индекс

In [3]:
def load_documents_from_csv(file_path):
    """Загружает данные из CSV и преобразует в документы LangChain."""
    if not os.path.exists(file_path):
        raise FileNotFoundError(f"Файл данных не найден: {file_path}")
    try:
        df = pd.read_csv(file_path)
        documents = []
        for index, row in df.iterrows():
            content = f"Дата: {row['date']}. Событие: {row['event_description']}"
            if pd.notna(row.get('location')):
                 content += f". Место: {row['location']}"
            if pd.notna(row.get('category')):
                 content += f". Категория: {row['category']}"

            metadata = {"date": str(row['date']), "source": file_path}
            if pd.notna(row.get('location')):
                metadata["location"] = row['location']
            if pd.notna(row.get('category')):
                metadata["category"] = row['category']

            documents.append(Document(page_content=content, metadata=metadata))
        print(f"Загружено {len(documents)} документов из {file_path}")
        return documents
    except Exception as e:
        print(f"Ошибка при чтении или обработке CSV файла {file_path}: {e}")
        raise

# Загружаем документы
try:
    print("Загрузка документов из CSV...")
    documents = load_documents_from_csv(CSV_FILE_PATH)
except FileNotFoundError as fnf:
    print(f"Ошибка: {fnf}. Убедитесь, что файл CSV загружен в Colab.")
    # Остановить выполнение, если файла нет
    raise SystemExit("Остановка: CSV файл не найден.")
except Exception as e:
    print(f"Непредвиденная ошибка при загрузке документов: {e}")
    raise SystemExit("Остановка: Ошибка загрузки документов.")

if not documents:
    raise SystemExit("Остановка: Документы не были загружены или файл CSV пуст.")

Загрузка документов из CSV...
Загружено 80 документов из historical_events.csv


In [4]:
print(f"Инициализация модели эмбеддингов: {EMBEDDING_MODEL_NAME}...")
try:
    embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL_NAME)
    print("Модель эмбеддингов загружена.")
except Exception as e:
    print(f"Ошибка загрузки модели эмбеддингов: {e}")
    raise SystemExit("Остановка: Ошибка модели эмбеддингов.")


print("Создание эмбеддингов для документов и индекса FAISS...")
# Это может занять некоторое время в зависимости от размера CSV
try:
    vector_store = FAISS.from_documents(documents, embeddings)
    print("Индекс FAISS успешно создан в памяти.")
except Exception as e:
    print(f"Ошибка при создании индекса FAISS: {e}")
    raise SystemExit("Остановка: Ошибка создания индекса.")

Инициализация модели эмбеддингов: sentence-transformers/paraphrase-multilingual-mpnet-base-v2...


  embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL_NAME)


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.90k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Модель эмбеддингов загружена.
Создание эмбеддингов для документов и индекса FAISS...
Индекс FAISS успешно создан в памяти.


In [5]:
print(f"Сохранение индекса FAISS в папку: {INDEX_SAVE_PATH}...")
try:
    vector_store.save_local(folder_path=INDEX_SAVE_PATH)
    print(f"Индекс успешно сохранен. В папке '{INDEX_SAVE_PATH}' должны быть файлы 'index.faiss' и 'index.pkl'.")
except Exception as e:
    print(f"Ошибка при сохранении индекса FAISS: {e}")
    raise SystemExit("Остановка: Ошибка сохранения индекса.")

Сохранение индекса FAISS в папку: faiss_index_historical...
Индекс успешно сохранен. В папке 'faiss_index_historical' должны быть файлы 'index.faiss' и 'index.pkl'.
