In [1]:
# Импортируем необходимые модули и библиотеки
import os
from catboost import CatBoostClassifier, Pool, CatBoost
import pandas as pd
from sqlalchemy import create_engine, Column, Integer, String
from sqlalchemy.orm import sessionmaker, Session
from sqlalchemy.ext.declarative import declarative_base
from typing import List
from fastapi import FastAPI, Depends 
from datetime import datetime
from pydantic import BaseModel

'''
ФУНКЦИИ ПО ЗАГРУЗКЕ МОДЕЛЕЙ
'''
# Проверка если код выполняется в лмс, или локально
def get_model_path(path: str) -> str:
    """Просьба не менять этот код"""
    if os.environ.get("IS_LMS") == "1":  # проверяем где выполняется код в лмс, или локально. Немного магии
        MODEL_PATH = 'catboost_model_1.cbm'
    else:
        MODEL_PATH = path
    return MODEL_PATH

class CatBoostWrapper(CatBoost):
    def predict_proba(self, X):
        return self.predict(X, prediction_type='Probability')

# Загрузка модели
def load_models():
    model_path = get_model_path("catboost_model_1.cbm")
    model = CatBoostWrapper()
    model.load_model(model_path)
    return model


'''
Получение данных из базы данных
'''

# Определяем функцию для получения данных из базы данных PostgreSQL
def batch_load_sql(query: str) -> pd.DataFrame:
    CHUNKSIZE = 200000
    engine = create_engine(
        "postgresql://robot-startml-ro:pheiph0hahj1Vaif@"
        "postgres.lab.karpov.courses:6432/startml"
    )
    conn = engine.connect().execution_options(stream_results=True)
    chunks = []
    for chunk_dataframe in pd.read_sql(query, conn, chunksize=CHUNKSIZE):
        chunks.append(chunk_dataframe)
    conn.close()
    return pd.concat(chunks, ignore_index=True)

def load_features() -> pd.DataFrame:
    query = "a-efimik_features_lesson_22_4"
    return batch_load_sql(query)

# Определяем переменные для подключения к базе данных
SQLALCHEMY_DATABASE_URL = "postgresql://robot-startml-ro:pheiph0hahj1Vaif@postgres.lab.karpov.courses:6432/startml"
engine = create_engine(SQLALCHEMY_DATABASE_URL)
SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)
Base = declarative_base()

# Определяем класс Post для работы с таблицей базы данных post
class Post(Base):
    __tablename__ = 'post'
    id = Column(Integer, primary_key=True)
    text = Column(String)
    topic = Column(String)

class PostGet(BaseModel):
    id: int
    text: str
    topic: str

    class Config:
        orm_mode = True

# Определяем функцию для получения сессии базы данных
def get_db():
    with SessionLocal() as db:
        return db





  Base = declarative_base()


In [2]:
model = load_models()

In [3]:
features = load_features()

In [5]:
features

Unnamed: 0,user_id,post_id,gender,age,country,city,topic,month,hour_of_day,post_views,post_likes
0,200,1593,1,34,7,651,5,10,19,533,4479
1,200,4998,1,34,7,651,3,10,19,144,1366
2,200,5593,1,34,7,651,3,10,19,139,1289
3,200,1864,1,34,7,651,5,11,23,566,4547
4,200,3539,1,34,7,651,1,12,15,209,1783
...,...,...,...,...,...,...,...,...,...,...,...
3075738,168552,692,1,16,7,1061,2,10,13,232,1739
3075739,168552,1966,1,16,7,1061,6,12,9,148,1467
3075740,168552,1602,1,16,7,1061,5,10,13,568,4452
3075741,168552,3817,1,16,7,1061,1,11,14,485,2767


In [4]:
feed_data = features

### Here we prepare the data for the model

In [6]:
# Get a list of unique users
unique_users = feed_data['user_id'].unique()

# Create a group ID based on the 'user_id'
group_id_dict = {user_id: idx for idx, user_id in enumerate(unique_users)}
feed_data['group_id'] = feed_data['user_id'].map(group_id_dict)

# Sort by 'group_id'
feed_data.sort_values(by='group_id')

# Create Pool object with the 'group_id' column
data_pool = Pool(feed_data.drop(columns=['user_id']), group_id=feed_data['group_id'])


### Here we pass the data to the model

In [7]:
# Make predictions using the trained model and data_pool
predictions = model.predict_proba(data_pool)[:, 1] # [:, 1] - вероятность класса 1

## Задача: определить что делать дальше