## Генерация рекомендаций с использованием LLM: генеративный подход

In [None]:
from tqdm import tqdm
import pandas as pd
import numpy as np

In [None]:
students = pd.read_json("hse_students_combined_50.json").iloc[:20]
projects = pd.read_json("hse_all_projects.json").iloc[:20]
matches = pd.read_json("student_project_manual_matching_top20.json")

In [None]:
def format_student(row):
    interests = ", ".join(row["Научные интересы (Фолксономия)"])
    return f"Интересы: {interests}. О себе: {row['Рассказ о себе']}"

students["text"] = students.apply(format_student, axis=1)

# Текстовое представление проектов
def format_project(row):
    return f"{row['Название проекта']}. {row['Описание проекта']} Сроки: {row['Сроки исполнения']}"

projects["text"] = projects.apply(format_project, axis=1)

In [None]:
students["GPA_norm"] = (students["GPA"] - 6) / 4

In [None]:
def precision_at_3(similarity_matrix, students, projects, matches):
    precisions = []
    for i, fio in enumerate(students["ФИО"]):
        top_3_indices = similarity_matrix[i].argsort()[-3:][::-1]
        top_3_projects = [projects[j] for j in top_3_indices]
        gt = matches[matches["ФИО"] == fio][["1-й проект", "2-й проект", "3-й проект"]].values.flatten().tolist()
        num_relevant = sum(1 for p in top_3_projects if p in gt)
        precisions.append(num_relevant / 3)
    return np.mean(precisions)

In [None]:
!pip install langchain chromadb tiktoken

In [None]:
!pip install langchain-community

In [None]:
import os
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import HumanMessage, SystemMessage
from langchain.docstore.document import Document
from langchain.vectorstores.utils import filter_complex_metadata

In [None]:
!wget https://raw.githubusercontent.com/a-milenkin/LLM_practical_course/main/notebooks/utils.py

In [None]:
!pip install langchain langchain-openai openai langchainhub google-search-results faiss-cpu langchain-experimental langserve -q

In [None]:
from utils import ChatOpenAI

course_api_key = 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzdWIiOiI2N2E4YTY5ZGU5OTI3Yjg1N2Q1YTYzOTgiLCJleHAiOjE3NTQ2MTEyMDB9.QqqmLjBXJXntJEaFe1w8QHj18jdVKBCeqErJ2kgBhuU'

# инициализируем языковую модель
llm = ChatOpenAI(temperature=0.0, course_api_key=course_api_key)

In [None]:
def format_project(row):
    return (f"Название проекта: {row['Название проекта']}\n"
            f"Описание: {row['Описание проекта']}\n"
            f"Сроки: {row['Сроки исполнения']}")

docs = [
    Document(page_content=format_project(row), metadata={"Название": row["Название проекта"]})
    for _, row in projects.iterrows()
]

In [None]:
from langchain.embeddings.openai import OpenAIEmbeddings

In [None]:
embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
vectorstore = Chroma.from_documents(docs, embedding=embedding_model)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 10})

In [None]:
def format_student_query(row):
    interests = ", ".join(row["Научные интересы (Фолксономия)"])
    return f"Интересы: {interests}\nGPA: {row['GPA']}\nО себе: {row['Рассказ о себе']}"

results = []

### Zero shot

In [None]:
for _, row in students.iterrows():
    query_text = format_student_query(row)
    retrieved_docs = retriever.get_relevant_documents(query_text)

    project_block = "\n\n".join([doc.page_content for doc in retrieved_docs])
    prompt = (
        f"Вот профиль студента:\n{query_text}\n\n"
        f"Из списка ниже выбери один наиболее подходящий проект. "
        f"Ответ должен содержать ТОЛЬКО НАЗВАНИЕ проекта.\n\n"
        f"{project_block}"
    )

    try:
        messages = [
            SystemMessage(content="Ты выступаешь как рекомендательная система."),
            HumanMessage(content=prompt)
        ]
        response = llm(messages).content.strip()
    except Exception as e:
        response = f"[Ошибка]: {e}"

    results.append({
        "ФИО": row["ФИО"],
        "Выбранный проект": response
    })

In [None]:
df_results = pd.DataFrame(results)
merged = df_results.merge(matches, on="ФИО")

def is_in_top3(row):
    return sum(1 for p in [row["1-й проект"], row["2-й проект"], row["3-й проект"]] if row["Выбранный проект"] in [row["1-й проект"], row["2-й проект"], row["3-й проект"]]) / 3

In [33]:
merged["Precision@3"] = merged.apply(is_in_top3, axis=1)
precision = merged["Precision@3"].mean()

print(f"\n Precision@3 (GPT + Retrieval): {precision:.2f}\n")


 Precision@3 (GPT + Retrieval): 0.55



### Chain of thoughts

In [None]:
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

In [None]:
results = []

for _, row in students.iterrows():
    query_text = format_student_query(row)
    retrieved_docs = retriever.get_relevant_documents(query_text)

    project_block = "\n\n".join([doc.page_content for doc in retrieved_docs])
    prompt = (
            f"Студент: {query_text}\n\n"
            f"Подумай шаг за шагом, какие проекты из списка подойдут. "
            f"В конце выведи название трех наиболее подходящих проектов.\n\n"
            f"Список проектов:\n{project_block}"
        )

    try:
        messages = [
            SystemMessage(content="Ты выступаешь как рекомендательная система."),
            HumanMessage(content=prompt)
        ]
        response = llm(messages).content.strip()
    except Exception as e:
        response = f"[Ошибка]: {e}"

    results.append({
        "ФИО": row["ФИО"],
        "Выбранный проект": response
    })

In [35]:
print(results[0]['Выбранный проект'])

Исходя из ваших интересов и целей, давайте проанализируем каждый проект по следующим критериям: соответствие интересам (прикладная математика, машинное обучение, обработка естественного языка) и возможность применения навыков.

1. **Разработка рекомендательной системы для онлайн-курсов**
   - Соответствие интересам: высокое (машинное обучение, анализ данных).
   - Применение навыков: Python, SQL, Scikit-learn, Pandas.
   - Ожидаемый результат: модуль рекомендаций, что соответствует вашим целям по разработке интеллектуальных систем.

2. **Разработка системы карьерного ориентирования на основе ИИ**
   - Соответствие интересам: среднее (машинное обучение, но больше фокус на карьерном ориентировании).
   - Применение навыков: Python, машинное обучение.
   - Ожидаемый результат: система карьерных рекомендаций, что может быть интересно, но не так сильно связано с вашими основными интересами.

3. **Обработка медицинских изображений с помощью CNN**
   - Соответствие интересам: низкое (больше с