# Гипотеза о разнице в `font_family`

Предполагается следующее: если у нас есть хорошо предсказывающая ширину текстов модель `M`, работающая для шрифта `F`, то достаточно хорошую модель для шрифта `G` можно получить из `M` простым домножением ее предсказаний на некоторую константу `c(F, G)`, отвечающую за переход от шрифта `F` к шрифту `G`.

### Подготовка

In [1]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans

from lets_plot import *
from lets_plot.mapping import as_discrete
LetsPlot.setup_html()

import os; import sys; sys.path.append(os.path.join(sys.path[0], ".."))
from util import util

In [2]:
CARTS_COUNT = 10
BASIC_FONT = util.Font("Lucida Grande", 14, "normal")

In [3]:
char_widths_df = util.get_df("../data/full/char_widths.csv", "all")
char_widths_df = util.filter_by_font(char_widths_df, BASIC_FONT, filters=["size", "face"])
char_widths_df

Unnamed: 0,char_id,char,alphabet,font_family,width
0,65,A,basic_latin,Courier,9
1,66,B,basic_latin,Courier,9
2,67,C,basic_latin,Courier,9
3,68,D,basic_latin,Courier,9
4,69,E,basic_latin,Courier,9
...,...,...,...,...,...
1813,123,{,russian,Lucida Console,11
1814,124,|,russian,Lucida Console,11
1815,125,},russian,Lucida Console,11
1816,126,~,russian,Lucida Console,11


In [4]:
char_widths_s = char_widths_df.groupby(["font_family", "char"]).width.median().astype(int)
char_widths_s

font_family  char
Arial                 5
             !        6
             "        7
             #       11
             $       11
                     ..
Verdana      ы       15
             ь       11
             э       10
             ю       16
             я       11
Name: width, Length: 1431, dtype: int32

## Шаг №1

Разбиение символов по корзинам.

### Шаг №1.1

Ширины символов пробразуются в "порядки": для каждого символа `X` средний порядок `p(X)` - это (медианное по всем шрифтам `F`) количество символов, которые по ширине меньше, чем `X`.

In [5]:
mean_order_df = util.transform_values_to_orders(
    char_widths_df[char_widths_df.font_family == BASIC_FONT.family],
    values_col="width",
    sorted_col="char"
).T.reset_index()
mean_order_df

Unnamed: 0,char,order
0,i,0
1,j,0
2,l,0
3,',0
4,,4
...,...,...
154,Ш,151
155,Ж,155
156,@,156
157,Ю,156


### Шаг №1.2

Полученные значения `p(X)` складываем ровно в `CARTS_COUNT` корзин.

In [6]:
mean_order_df["cart_id"] = KMeans(n_clusters=CARTS_COUNT, random_state=42).fit(mean_order_df[["order"]]).labels_
cart_id_replaces = {
    k: i
    for i, k in enumerate(mean_order_df.groupby("cart_id")["order"].median().sort_values().keys())
}
mean_order_df = mean_order_df.replace({"cart_id": cart_id_replaces})
mean_order_df

Unnamed: 0,char,order,cart_id
0,i,0,0
1,j,0,0
2,l,0,0
3,',0,0
4,,4,0
...,...,...,...
154,Ш,151,9
155,Ж,155,9
156,@,156,9
157,Ю,156,9


Рисуем `geom_boxplot()` с вариацией `p(X)` для каждой корзины:

In [7]:
ggplot(mean_order_df, aes(as_discrete("cart_id", order_by="..middle.."), "order")) + geom_boxplot()

### Шаг №1.3

Фиксируем следующие значения:

- `basic_cart_id` - индекс средней по ширине корзины.

- `BASIC_FONT` - "Lucida Grande", 14pt, без модификаций.

- `cart_widths` - словарь, в котором каждая корзина получает в качестве ширины медианное значение ширин (в пикселях) всех символов корзины, начертанных базовым шрифтом.

- `basic_width` - значение из `cart_widths`, принадлежащее корзине с индексом `basic_cart_id`.

In [8]:
cart_widths_df = pd.merge(char_widths_s.to_frame().reset_index(), mean_order_df, on="char").groupby(["font_family", "cart_id"]).width.median().reset_index(level=1)
cart_widths_df

Unnamed: 0_level_0,cart_id,width
font_family,Unnamed: 1_level_1,Unnamed: 2_level_1
Arial,0,5.0
Arial,1,6.0
Arial,2,9.0
Arial,3,10.0
Arial,4,11.0
...,...,...
Verdana,5,12.0
Verdana,6,13.0
Verdana,7,14.0
Verdana,8,15.0


In [9]:
basic_cart_id = int(CARTS_COUNT / 2)
print("Basic cart_id:", basic_cart_id)
print("Basic font:", BASIC_FONT)
cart_widths = cart_widths_df.loc[BASIC_FONT.family].set_index("cart_id").width.astype(int).to_dict()
print("Cart widths:", cart_widths)
basic_width = cart_widths[basic_cart_id]
print("Basic width:", basic_width)

Basic cart_id: 5
Basic font: Font(family='Lucida Grande', size=14, face='normal')
Cart widths: {0: 5, 1: 6, 2: 9, 3: 10, 4: 11, 5: 12, 6: 13, 7: 14, 8: 15, 9: 17}
Basic width: 12


#### Сравнение медианных ширин кластеров (базовый шрифт vs. текущий).

In [10]:
util.plot_matrix([
    ggplot(mapping=aes("cart_id", "width", color="font_family")) + \
        geom_line(data=cart_widths_df.loc[BASIC_FONT.family].reset_index()) + \
        geom_point(data=cart_widths_df.loc[BASIC_FONT.family].reset_index()) + \
        geom_line(data=cart_widths_df.loc[family].reset_index()) + \
        geom_point(data=cart_widths_df.loc[family].reset_index()) + \
        scale_x_continuous(breaks=list(cart_widths.keys()))
    for family in (set(cart_widths_df.index) - set([BASIC_FONT.family]))
], width=480, height=240)

### Шаг №1.4

Вычисляются нормировочные коэффициенты различных шрифтов. Для каждого `F` его нормировочный коэффициент `N(F)` - это отношение медианной ширины "базовой корзины" начертанной шрифтом `F` к `basic_width`.

In [11]:
ncoeff_s = char_widths_s.to_frame().reset_index().set_index("char").loc[mean_order_df[mean_order_df.cart_id == basic_cart_id].char.values].reset_index().groupby(["font_family"]).width.median() / basic_width
ncoeff_s

font_family
Arial              1.000000
Courier            0.750000
Geneva             1.000000
Georgia            1.000000
Helvetica          1.000000
Lucida Console     0.916667
Lucida Grande      1.000000
Times New Roman    1.000000
Verdana            1.000000
Name: width, dtype: float64

### Шаг №1.5

С помощью нормировочных коэффициентов восстанавливаются прогнозируемые ширины символов в пикселях: для каждого символа `X` и шрифта `F` шириной становится ширина корзины которой принадлежит символ, умноженная на нормировочный коэффициент данного шрифта.

In [12]:
char_widths_calc_df = char_widths_s.to_frame().reset_index()\
    .merge(mean_order_df, on="char")\
    .merge(ncoeff_s.to_frame().reset_index(), \
           on=["font_family"], \
           suffixes=("_original", "_ncoeff"))\
    .assign(width_calc=lambda r: (np.round(r.cart_id.map(cart_widths) * r.width_ncoeff)).astype(int))
char_widths_calc_df.head()

Unnamed: 0,font_family,char,width_original,order,cart_id,width_ncoeff,width_calc
0,Arial,,5,4,0,1.0,5
1,Arial,!,6,14,1,1.0,6
2,Arial,"""",7,25,2,1.0,9
3,Arial,#,11,58,4,1.0,11
4,Arial,$,11,58,4,1.0,11


### Шаг №1.6

Второй `geom_boxplot()` с вариацией спрогнозированных ширин символов для каждой корзины.

In [13]:
ggplot(char_widths_calc_df, aes(as_discrete("cart_id", order=-1), "width_calc")) + geom_boxplot()

## Шаг №2

Другие способы проверить гипотезу.

In [14]:
def add_basic_width(df, basic_family):
    def calc_basic_width(r):
        basic_width = int(r[r.font_family == basic_family].iloc[0].width)
        r["basic_width"] = pd.Series(basic_width, index=r.index)
        return r

    df["basic_width"] = np.nan
    return df.groupby("text").apply(calc_basic_width)

In [15]:
control_df = util.get_df("../data/full/control.csv", "all")
control_df = util.filter_by_font(control_df, BASIC_FONT, filters=["size", "face"])
control_df.head()

Unnamed: 0,text,width,alphabet,font_family,symbols_count
0,Да.,27,russian,Courier,3.0
1,Аж.,27,russian,Courier,3.0
2,Аж.,27,russian,Courier,3.0
3,Миг.,36,russian,Courier,4.0
4,При.,36,russian,Courier,4.0


In [16]:
control_df = add_basic_width(control_df, BASIC_FONT.family)
control_df["font_coeff"] = control_df.width / control_df.basic_width
control_df.head()

Unnamed: 0,text,width,alphabet,font_family,symbols_count,basic_width,font_coeff
0,Да.,27,russian,Courier,3.0,28,0.964286
1,Аж.,27,russian,Courier,3.0,32,0.84375
2,Аж.,27,russian,Courier,3.0,32,0.84375
3,Миг.,36,russian,Courier,4.0,37,0.972973
4,При.,36,russian,Courier,4.0,39,0.923077


Теперь для каждого текста `text` и шрифта `F` величина `font_coeff(text, F)` - это отношение ширины этого текста написанного шрифтом `F` к ширине этого текста написанного базовым шрифтом.

По идее, если ширину для одного шрифта можно получить из ширины для другого, домноженной на коэффициент шрифта, то `font_coeff(text, F)` должен оставаться постоянным при переборе текстов `text` при постоянном `F`. Но график ниже показывает, что это не всегда так.

Это значит, что ошибка будет иметь место, если мы будем пытаться получить модель для шрифта `F1` из модели для шрифта `F2` простым домножением на подходящую константу. С одной стороны, эта ошибка не всегда так уж велика. С другой стороны, она тем больше, чем короче текст - и это в ситуации "идеальной модели", когда мы хотя бы для одного шрифта умеем абсолютно правильно вычислять ширину любого текста, но для более простых моделей данный эффект лишь вносит дополнительное искажение.

Видно также, что эти графики согласуются с предыдущими. `font_coeff(text, F)` константен для тех же шрифтов, для которых сравнение медианных ширин кластеров давало кривые, полностью совпадающие с базовой.

In [17]:
plot_df = control_df.groupby(["alphabet", "font_family", "symbols_count"])\
                    .font_coeff.agg(["min", "max", "median"]).reset_index()
ggplot(plot_df[plot_df.alphabet == "basic_latin"]) + \
    geom_pointrange(aes(x="symbols_count", y="median", ymin="min", ymax="max")) + \
    facet_grid(y="font_family") + \
    ggtitle("Вариация font_coeff в зависимости от количества символов в тексте")