In [92]:
from dotenv import load_dotenv
import os

load_dotenv()

LLAMA_PARSE_API = os.getenv("LLAMA_PARSE_API")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [93]:
from llama_parse import LlamaParse

parser = LlamaParse(
    api_key=LLAMA_PARSE_API,
    parse_mode="parse_page_with_llm",
    result_type="markdown",
    high_res_ocr=True,
)

In [94]:
from langchain_core.prompts import PromptTemplate
from langchain.agents import create_agent
from langchain_openai import ChatOpenAI, OpenAI

llm = ChatOpenAI(
    model="gpt-4o-mini",
    api_key=OPENAI_API_KEY
)

In [95]:
# Вариант 6: Использование LlamaParse + LangChain
from llama_parse import LlamaParse
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.documents import Document
from pathlib import Path
import os

# Получаем текущую директорию notebook и строим путь к data/
notebook_dir = Path(os.getcwd())
pdf_path = notebook_dir.parent / "data" / "Әшекей Нұрмұхамед-5-1.pdf"

print(f"Путь к файлу: {pdf_path}")
print(f"Файл существует: {pdf_path.exists()}")

# Парсим PDF через LlamaParse (лучшее качество извлечения текста)
if pdf_path.exists():
    print("Парсинг PDF через LlamaParse...")
    parsed_documents = parser.load_data(str(pdf_path))  # Конвертируем Path в строку

else:
    print(f"Ошибка: файл не найден - {pdf_path}")


Путь к файлу: /Users/nurma/vscode_projects/Bank_Home_Credit_Task/data/Әшекей Нұрмұхамед-5-1.pdf
Файл существует: False
Ошибка: файл не найден - /Users/nurma/vscode_projects/Bank_Home_Credit_Task/data/Әшекей Нұрмұхамед-5-1.pdf


In [96]:
parsed_documents

[Document(id_='89bc9fa9-f735-4a90-ae31-cd09568c6872', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='\n# Резюме\n\n# Әшекей Нұрмұхамед\n\nМужчина, 22 года, родился 30 апреля 2003\n\nКонтактная информация:\n\n- Телефон: +7 (701) 1187021 — предпочитаемый способ связи\n- Github: https://github.com/NurmukhamedKZ\n- LinkedIn: https://www.linkedin.com/in/nurmukhamed-ashekey-3031a3369/\n- Telegram: @nureke3445\n- Email: ashekeinureke@gmail.com\n\nПроживает: Алматы\n\nГражданство: Казахстан, есть разрешение на работу: Казахстан\n\nНе готов к переезду, готов к командировкам\n\n# Желаемая должность и зарплата\n\nAI-инженер\n\nСпециализации:\n\n- Дата-сайентист\n- Программист, разработчик\n\nТип занятости: полная занятость, частичная занятость, проектная работа/разовое задание, стажировка\n\nФормат работы: на мес

In [97]:
print(parsed_documents[0].text)


# Резюме

# Әшекей Нұрмұхамед

Мужчина, 22 года, родился 30 апреля 2003

Контактная информация:

- Телефон: +7 (701) 1187021 — предпочитаемый способ связи
- Github: https://github.com/NurmukhamedKZ
- LinkedIn: https://www.linkedin.com/in/nurmukhamed-ashekey-3031a3369/
- Telegram: @nureke3445
- Email: ashekeinureke@gmail.com

Проживает: Алматы

Гражданство: Казахстан, есть разрешение на работу: Казахстан

Не готов к переезду, готов к командировкам

# Желаемая должность и зарплата

AI-инженер

Специализации:

- Дата-сайентист
- Программист, разработчик

Тип занятости: полная занятость, частичная занятость, проектная работа/разовое задание, стажировка

Формат работы: на месте работодателя, гибрид, удалённо

Желательное время в пути до работы: не имеет значения

# Опыт работы — 1 год 4 месяца

# Сентябрь 2025 — настоящее время

# Slideble (Slideshow generator) — AI Engineer

6 месяцев

- Сократил операционные расходы на генерацию слайд-шоу за счет оптимизации потребления токенов LLM на 30

In [98]:
full_cv = ""
for doc in parsed_documents:
    full_cv += doc.text

print(full_cv)


# Резюме

# Әшекей Нұрмұхамед

Мужчина, 22 года, родился 30 апреля 2003

Контактная информация:

- Телефон: +7 (701) 1187021 — предпочитаемый способ связи
- Github: https://github.com/NurmukhamedKZ
- LinkedIn: https://www.linkedin.com/in/nurmukhamed-ashekey-3031a3369/
- Telegram: @nureke3445
- Email: ashekeinureke@gmail.com

Проживает: Алматы

Гражданство: Казахстан, есть разрешение на работу: Казахстан

Не готов к переезду, готов к командировкам

# Желаемая должность и зарплата

AI-инженер

Специализации:

- Дата-сайентист
- Программист, разработчик

Тип занятости: полная занятость, частичная занятость, проектная работа/разовое задание, стажировка

Формат работы: на месте работодателя, гибрид, удалённо

Желательное время в пути до работы: не имеет значения

# Опыт работы — 1 год 4 месяца

# Сентябрь 2025 — настоящее время

# Slideble (Slideshow generator) — AI Engineer

6 месяцев

- Сократил операционные расходы на генерацию слайд-шоу за счет оптимизации потребления токенов LLM на 30

In [99]:
from typing import List, Optional
from pydantic import BaseModel, Field

# 1. Структура для места работы
class WorkExperience(BaseModel):
    role: str = Field(description="Job title, e.g. 'Senior Python Developer'")
    company: str = Field(description="Company name")
    start_date: str = Field(description="Start date usually in YYYY-MM format")
    end_date: str = Field(description="End date in YYYY-MM format or 'Present'")
    description: str = Field(description="Short summary of responsibilities and achievements")
    technologies: List[str] = Field(description="Specific tools used in this role")

# 2. Структура для образования
class Education(BaseModel):
    institution: str
    degree: str = Field(description="Degree, e.g. 'Bachelor in Computer Science'")
    year: str = Field(description="Year of graduation")

# 3. Основная модель
class CVOutput(BaseModel):
    full_name: str = Field(description="Candidate's full name")
    email: Optional[str] = Field(description="Email address")
    phone: Optional[str] = Field(description="Phone number")
    links: List[str] = Field(description="URLs to LinkedIn, GitHub, Portfolio")
    location: List[str] = Field(description="Location of the candidate")
    
    summary: str = Field(description="A brief professional summary of the candidate")
    
    total_experience_months: int = Field(description="Total work experience in months")
    
    # Вложенные сложные структуры
    work_history: List[WorkExperience] = Field(description="List of work experiences")
    education: List[Education]
    
    skills: List[str] = Field(description="List of technical/hard skills")
    languages: List[str] = Field(description="Languages spoken and proficiency level")

# Обновляем промпт
system_prompt = """
You are an expert technical recruiter and CV parser.
Your task is to extract structured data from the provided resume text.

CRITICAL RULES:
1. Be precise with dates and names.
2. If a specific field is missing, leave it as None or an empty list.
3. For 'work_history', try to split distinct roles even if they are in the same company.
4. Extract ALL technical skills mentioned.
5. In 'total_experience_months', calculate the sum of all work durations.
"""

In [100]:
from langchain_core.prompts import ChatPromptTemplate

llm = ChatOpenAI(
    model="gpt-4o-mini",
    api_key=OPENAI_API_KEY,
    temperature=0
)

# Создаем LLM со структурированным выводом
structured_llm = llm.with_structured_output(CVOutput)

# Создаем промпт
prompt = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("user", "Resume:\n\n{text}")
])

# Создаем цепочку
chain = prompt | structured_llm

# Анализируем CV
response = chain.invoke({
    "text": full_cv
})
response

CVOutput(full_name='Әшекей Нұрмұхамед', email='ashekeinureke@gmail.com', phone='+7 (701) 1187021', links=['https://github.com/NurmukhamedKZ', 'https://www.linkedin.com/in/nurmukhamed-ashekey-3031a3369/', '@nureke3445'], location=['Алматы'], summary='Я AI инженер с фокусом на разработку масштабируемых RAG систем и автономных AI агентов которые решают реальные задачи бизнеса.', total_experience_months=16, work_history=[WorkExperience(role='AI Engineer', company='Slideble (Slideshow generator)', start_date='2025-09', end_date='Present', description='Сократил операционные расходы на генерацию слайд-шоу за счет оптимизации потребления токенов LLM на 30% через внедрение стратегий кэширования и продвинутого промпт-инжиниринга. Ускорил процесс отладки и итерации промптов на 40% и значительно повысил надежность системы инициировав и интегрировав пайплайнo bservability на базе LangSmith. Исключил 100% ошибок рендеринга сцен вызванных некорректными ответами моделей спроектировав архитектуру пайпл

In [101]:
response

CVOutput(full_name='Әшекей Нұрмұхамед', email='ashekeinureke@gmail.com', phone='+7 (701) 1187021', links=['https://github.com/NurmukhamedKZ', 'https://www.linkedin.com/in/nurmukhamed-ashekey-3031a3369/', '@nureke3445'], location=['Алматы'], summary='Я AI инженер с фокусом на разработку масштабируемых RAG систем и автономных AI агентов которые решают реальные задачи бизнеса.', total_experience_months=16, work_history=[WorkExperience(role='AI Engineer', company='Slideble (Slideshow generator)', start_date='2025-09', end_date='Present', description='Сократил операционные расходы на генерацию слайд-шоу за счет оптимизации потребления токенов LLM на 30% через внедрение стратегий кэширования и продвинутого промпт-инжиниринга. Ускорил процесс отладки и итерации промптов на 40% и значительно повысил надежность системы инициировав и интегрировав пайплайнo bservability на базе LangSmith. Исключил 100% ошибок рендеринга сцен вызванных некорректными ответами моделей спроектировав архитектуру пайпл

In [102]:
response.__dict__

{'full_name': 'Әшекей Нұрмұхамед',
 'email': 'ashekeinureke@gmail.com',
 'phone': '+7 (701) 1187021',
 'links': ['https://github.com/NurmukhamedKZ',
  'https://www.linkedin.com/in/nurmukhamed-ashekey-3031a3369/',
  '@nureke3445'],
 'location': ['Алматы'],
 'summary': 'Я AI инженер с фокусом на разработку масштабируемых RAG систем и автономных AI агентов которые решают реальные задачи бизнеса.',
 'total_experience_months': 16,
 'work_history': [WorkExperience(role='AI Engineer', company='Slideble (Slideshow generator)', start_date='2025-09', end_date='Present', description='Сократил операционные расходы на генерацию слайд-шоу за счет оптимизации потребления токенов LLM на 30% через внедрение стратегий кэширования и продвинутого промпт-инжиниринга. Ускорил процесс отладки и итерации промптов на 40% и значительно повысил надежность системы инициировав и интегрировав пайплайнo bservability на базе LangSmith. Исключил 100% ошибок рендеринга сцен вызванных некорректными ответами моделей спро

In [103]:
def create_searchable_text(cv: CVOutput) -> str:
    # 1. Собираем заголовок (Роль + Навыки)
    main_info = f"Candidate for {cv.work_history[0].role if cv.work_history else 'Professional'}. "
    skills = f"Main Skills: {', '.join(cv.skills)}. "
    
    # 2. Добавляем суммаризацию опыта (только суть задач)
    exp_descriptions = []
    for work in cv.work_history[:3]: # Берем последние 3 места работы
        exp_descriptions.append(f"{work.role} at {work.company}: {work.description}")
    
    experience_text = " Experience summary: " + " | ".join(exp_descriptions)
    
    # 3. Финальный текст для вектора
    # Мы сознательно исключаем email, телефон и мелкие детали
    search_text = main_info + skills + cv.summary + experience_text
    
    return search_text.lower() # Приводим к нижнему регистру для стабильности


cv_text = create_searchable_text(response)

In [104]:
from pprint import pprint
pprint(cv_text)

('candidate for ai engineer. main skills: python, sql, postgresql, git, mysql, '
 'langchain, nlp, llm, pytorch, pandas, scikit-learn, docker, fastapi, rag, '
 'ml, mlflow, ai agent, matplotlib, seaborn, ai, tensorflow, api, deep '
 'learning, chatgpt, promt, numpy. я ai инженер с фокусом на разработку '
 'масштабируемых rag систем и автономных ai агентов которые решают реальные '
 'задачи бизнеса. experience summary: ai engineer at slideble (slideshow '
 'generator): сократил операционные расходы на генерацию слайд-шоу за счет '
 'оптимизации потребления токенов llm на 30% через внедрение стратегий '
 'кэширования и продвинутого промпт-инжиниринга. ускорил процесс отладки и '
 'итерации промптов на 40% и значительно повысил надежность системы '
 'инициировав и интегрировав пайплайнo bservability на базе langsmith. '
 'исключил 100% ошибок рендеринга сцен вызванных некорректными ответами '
 'моделей спроектировав архитектуру пайплайна структурированного вывода данных '
 'с жестким собл

In [105]:
cv_emb_docs = [cv_text]
cv_full_docs = [full_cv]

In [106]:
from qdrant_client import QdrantClient, models

QDRANT_API = os.getenv("QDRANT_API")
QDRANT_URL = os.getenv("QDRANT_URL")

collection_name = "HCB"

client = QdrantClient(url=QDRANT_URL, api_key=QDRANT_API)

# 1. Создание коллекции (Hybrid)
if not client.collection_exists(collection_name):
    client.create_collection(
        collection_name=collection_name,
        vectors_config={
            "default": models.VectorParams(
                size=1024,
                distance=models.Distance.COSINE
            )
        },
        sparse_vectors_config={
            "sparse": models.SparseVectorParams(
                index=models.SparseIndexParams(on_disk=True)
            )
        }
    )
    print(f"Collection '{collection_name}' created.")
else:
    print(f"Collection '{collection_name}' already exists.")


Collection 'HCB' already exists.


In [None]:
# Note the "metadata." prefix
nested_fields = ["metadata.location", "metadata.experience"]

for field in nested_fields:
    client.create_payload_index(
        collection_name=collection_name,
        field_name=field,
        field_schema=models.PayloadSchemaType.KEYWORD
    )
    print(f"Index created for nested field: '{field}'")

Index created for nested field: 'metadata.location'
Index created for nested field: 'metadata.experience'


In [107]:
from FlagEmbedding import BGEM3FlagModel
from langchain_voyageai import VoyageAIEmbeddings

VOYAGE_API = os.getenv("VOYAGE_API")

# Initialize Voyage Large
dense_model = VoyageAIEmbeddings(
    voyage_api_key=VOYAGE_API, 
    model="voyage-4-large",
    output_dimension=1024
)

sparse_model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)


# EMBEDDING FUNCTIONS
def sparse_documents(corpus, batch_size=32):
    all_keys = []
    all_vals = []
    
    # Process in small batches
    for i in range(0, len(corpus), batch_size):
        batch_text = corpus[i : i + batch_size]
        output = sparse_model.encode(
            batch_text,
            return_dense=False, 
            return_sparse=True, 
            return_colbert_vecs=False
        )
        
        for batch in output["lexical_weights"]:
            all_keys.append([int(k) for k in batch.keys()])
            all_vals.append([float(v) for v in batch.values()])
            
    return all_keys, all_vals

# Генерация векторов (Dense + Sparse)
print("Dense embedding...")
dense_vectors = dense_model.embed_documents(cv_emb_docs)

print("Sparse embedding...")
s_indices_batch, s_values_batch = sparse_documents(cv_emb_docs)


  from .autonotebook import tqdm as notebook_tqdm


ImportError: cannot import name 'is_torch_fx_available' from 'transformers.utils.import_utils' (/Users/nurma/vscode_projects/Bank_Home_Credit_Task/.venv/lib/python3.13/site-packages/transformers/utils/import_utils.py)

In [None]:
def cv_to_payload(cv: CVOutput, full_text: str) -> dict:
    """Преобразует CVOutput в payload для Qdrant"""
    
    # Преобразуем вложенные объекты work_history в словари
    work_history_dicts = [
        {
            "role": work.role,
            "company": work.company,
            "start_date": work.start_date,
            "end_date": work.end_date,
            "description": work.description,
            "technologies": work.technologies
        }
        for work in cv.work_history
    ]
    
    # Преобразуем education
    education_dicts = [
        {
            "institution": edu.institution,
            "degree": edu.degree,
            "year": edu.year
        }
        for edu in cv.education
    ]
    
    payload = {
        "full_content": full_text,
        "full_name": cv.full_name,
        "email": cv.email,
        "phone": cv.phone,
        "links": cv.links,
        "location": cv.location,
        "summary": cv.summary,
        "total_experience_months": cv.total_experience_months,
        "work_history": work_history_dicts,
        "education": education_dicts,
        "skills": cv.skills,
        "languages": cv.languages
    }
    
    return payload

# Создаем payload
payload = cv_to_payload(response, full_cv)

# Проверяем структуру
print("Пример payload:")
print(f"Full name: {payload['full_name']}")
print(f"Email: {payload['email']}")
print(f"Phone: {payload['phone']}")
print(f"Total experience: {payload['total_experience_months']} months")
print(f"Skills count: {len(payload['skills'])}")
print(f"Work history entries: {len(payload['work_history'])}")
print(f"\nПервая позиция:")
print(f"  {payload['work_history'][0]['role']} at {payload['work_history'][0]['company']}") 


In [None]:
import uuid

# Создаем UUID для каждого CV
point_ids = [str(uuid.uuid4()) for _ in cv_full_docs]

# Создаем points для Qdrant
points = [
    models.PointStruct(
        id=point_ids[i],
        vector={
            "default": dense,
            "sparse": models.SparseVector(indices=keys, values=vals)
        },
        payload=payload  # Используем созданный payload
    ) 
    for i, (dense, keys, vals) in enumerate(zip(dense_vectors, s_indices_batch, s_values_batch, strict=True))
]

print(f"Создано {len(points)} points для загрузки в Qdrant")
print(f"\nПример point:")
print(f"ID: {points[0].id}")
print(f"Vector dimensions: {len(points[0].vector['default'])}")
print(f"Sparse vector size: {len(points[0].vector['sparse'].indices)}")
print(f"Payload keys: {list(points[0].payload.keys())}")

In [None]:
# Загружаем в Qdrant
operation_info = client.upsert(
    collection_name=collection_name,
    points=points,
    wait=True
)

print(f"✅ Успешно загружено {len(points)} CV в Qdrant!")
print(f"Operation status: {operation_info.status}")

# Проверяем что данные загрузились
collection_info = client.get_collection(collection_name)
print(f"\nТеперь в коллекции '{collection_name}' всего {collection_info.points_count} точек")

In [None]:
# Тестовый поиск: проверяем что данные доступны
test_results = client.scroll(
    collection_name=collection_name,
    limit=1,
    with_payload=True,
    with_vectors=False
)

if test_results[0]:
    print("Пример загруженного CV из Qdrant:\n")
    point = test_results[0][0]
    
    print(f"ID: {point.id}")
    print(f"Имя: {point.payload.get('full_name')}")
    print(f"Email: {point.payload.get('email')}")
    print(f"Телефон: {point.payload.get('phone')}")
    print(f"Локация: {point.payload.get('location')}")
    print(f"Опыт: {point.payload.get('total_experience_months')} месяцев")
    print(f"Навыки ({len(point.payload.get('skills', []))}): {', '.join(point.payload.get('skills', [])[:10])}...")
    print(f"\nРабочая история:")
    for i, work in enumerate(point.payload.get('work_history', [])[:2], 1):
        print(f"  {i}. {work['role']} at {work['company']}")
        print(f"     {work['start_date']} - {work['end_date']}")
        print(f"     Tech: {', '.join(work['technologies'][:5])}...")
else:
    print("Данные не найдены")