## Prepare input data and make predictions

In [2]:
# Setup window width
from IPython.display import display, HTML
display(HTML("<style>.container { width:85% !important; }</style>"))

# Supress warnings
import warnings
warnings.filterwarnings('ignore')

# Import
import pandas as pd
import numpy as np
import datetime as dt
import joblib

# Set pandas options
pd.set_option('display.max_columns', 50)
pd.set_option('display.precision', 2)

# Plot
from matplotlib import pyplot as plt
import seaborn as sns

sns.set()

In [4]:
# Load ML model and data scaler
model = joblib.load("./dumps/lasso_model.joblib")
scaler = joblib.load("./dumps/scaler.joblijb")
columns = joblib.load("./dumps/data_columns.joblib")
comics_sex = joblib.load("./dumps/comics_sex.joblib")

In [5]:
def prep_input(cast: str, duratinos: int, age_days: int, *, show: bool=False) -> np.array:
    """
    Prepare numpy array for model prediction.
    Cast format: `{name0} {lastname0}, {name1} {lastname1}, ..., {name4} {lastname4}`
    """
    row = np.array(np.zeros(109))
    row[:2] = duratinos, age_days
    males = females = 0
    cast = ["_".join(item.split()) for item in cast.replace("ё", "е").split(", ")]
    for name in cast:
        if name not in comics_sex:
            print(f"Not found: {name}")
            continue
        if comics_sex[name]:
            males += 1 
        else:
            females += 1
        
        arr_index = columns.get_loc(name)
        row[arr_index] = 1
    
    row[2:4] = males, females
    if show:
        print(*zip(columns, row), sep="\n")

    return scaler.transform(row.reshape(1, -1))
    

In [6]:
def make_prediction(data: np.array) -> tuple:
    """
    Make a prediction and return tuple with prediction
    and possible deviations in prediction based on
    models Mean Absolute Error (17%)
    """
    p = model.predict(data)
    return tuple((int(p * k)) for k in (0.83, 1, 1.17))


In [7]:
# Input preparation
data = prep_input("Сергей Орлов, Даниил Слободенюк, Сева Ловкачёв, Дима Коваль, Коля Андреев", 58, 14, show=True)

('duration', 58.0)
('age_days', 14.0)
('males', 5.0)
('females', 0.0)
('Вова_Бухаров', 0.0)
('Тимур_Джанкезов', 0.0)
('Иван_Явиц', 0.0)
('Юля_Жеребцова', 0.0)
('Андрей_Цеховский', 0.0)
('Нидаль_Абу-Газале', 0.0)
('Костя_Широков', 0.0)
('Ньургун_Атаков', 0.0)
('Дима_Гаврилов', 0.0)
('Гурам_Демидов', 0.0)
('Фил_Воронин', 0.0)
('Коля_Андреев', 1.0)
('Толя_Бороздин', 0.0)
('Давид_Квахаджелидзе', 0.0)
('Саша_Киселев', 0.0)
('Егор_Александров', 0.0)
('Игорь_Тарлецкий', 0.0)
('Ольга_Малащенко', 0.0)
('Кирилл_Ферапонтов', 0.0)
('Самвел_Гиновян', 0.0)
('Хетаг_Хугаев', 0.0)
('Расул_Чабдаров', 0.0)
('Сержан_Аманов', 0.0)
('Тимур_Хамадуллин', 0.0)
('Эдуард_Чернышенко', 0.0)
('Ариана_Лолаева', 0.0)
('Михаил_Босов', 0.0)
('Эд_Овсепян', 0.0)
('Вадим_Постильный', 0.0)
('Артем_Калантарян', 0.0)
('Ирина_Приходько', 0.0)
('Алексей_Соловьев', 0.0)
('Артем_Андреев', 0.0)
('Ваня_Усович', 0.0)
('Семен_Деяк', 0.0)
('Николай_Андреев', 0.0)
('Эдик_Чернышенко', 0.0)
('Олег_Боярский', 0.0)
('Саша_Ни', 0.0)
('Сала

In [8]:
print(
"""
Low prediction: {:>10} views
Prediction:     {:>10} views
High prediction {:>10} views
""".format(*make_prediction(data)))


Low prediction:    1053291 views
Prediction:        1269026 views
High prediction    1484760 views

