### Библиотеки

In [49]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import gmean

import statsmodels.api as sm
from scipy.stats import t, f, boxcox, skew, kurtosis
from statsmodels.stats.diagnostic import linear_reset, het_white


import warnings
warnings.filterwarnings('ignore')

### Обработка

In [50]:
data = pd.read_csv('data_after_processing.csv', encoding='utf-8',)

data = data.drop(['title'], axis=1)
data = data.drop(['author_Другой', 'publisher_Другой', 'publication_year_Другой',
                  'cover_type_Мягкий заламинированный картон', 'reading_age_6+'], axis=1)

### Логарифм цены

In [51]:
data['log_price'] = np.log(data['price'])

In [52]:
data.columns

Index(['price', 'avg_rating', 'cnt_reviews', 'pages_cnt', 'tirage', 'weight',
       'author_Джейн Остен', 'author_Джек Лондон', 'author_Джордж Оруэлл',
       'author_Лев Толстой', 'author_Луиза Мэй Олкотт',
       'author_Михаил Булгаков', 'author_Николай Гоголь',
       'author_Федор Достоевский', 'author_Эрих Ремарк', 'publisher_АСТ',
       'publisher_Азбука', 'publisher_Иностранка',
       'publisher_Манн, Иванов и Фербер', 'publisher_Эксмо',
       'publication_year_2021', 'publication_year_2022',
       'publication_year_2023', 'publication_year_2024',
       'publication_year_2025', 'cover_type_Мягкий переплёт',
       'cover_type_Твёрдый переплёт', 'reading_age_0+', 'reading_age_12+',
       'reading_age_16+', 'reading_age_18+', 'thickness', 'width', 'length',
       'volume', 'log_price'],
      dtype='object')

### Регрессоры, которые можно логарифмировать и нет

In [59]:
unconditional_cols = [
    'author_Джейн Остен', 'author_Джек Лондон', 'author_Джордж Оруэлл',
       'author_Лев Толстой', 'author_Луиза Мэй Олкотт',
       'author_Михаил Булгаков', 'author_Николай Гоголь',
       'author_Федор Достоевский', 'author_Эрих Ремарк', 'publisher_АСТ',
       'publisher_Азбука', 'publisher_Иностранка',
       'publisher_Манн, Иванов и Фербер', 'publisher_Эксмо',
       'publication_year_2021', 'publication_year_2022',
       'publication_year_2023', 'publication_year_2024',
       'publication_year_2025', 'cover_type_Мягкий переплёт',
       'cover_type_Твёрдый переплёт', 'reading_age_0+', 'reading_age_12+',
       'reading_age_16+', 'reading_age_18+',
]

cols_to_try_log = [
    'avg_rating', 'cnt_reviews', 'pages_cnt', 'tirage', 
    'weight', 'thickness', 'width', 'length', 'volume'
]

### Подбор функциональной формы для $\log{price}$

In [70]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from itertools import product
from tqdm import tqdm  # для прогресс-бара (опционально)


def generate_all_combinations():
    """Генерирует все комбинации логарифмирования для cols_to_try_log"""
    return product([False, True], repeat=len(cols_to_try_log))

def prepare_X(combination, df):
    """Создает матрицу X для текущей комбинации"""
    X_temp = df[unconditional_cols].copy()
    
    for i, col in enumerate(cols_to_try_log):
        if combination[i]:
            # Проверка на положительные значения
            if (df[col] <= 0).any():
                # Добавляем константу, чтобы избежать log(0)
                X_temp[f'log_{col}'] = np.log(df[col] + 1e-6)
            else:
                X_temp[f'log_{col}'] = np.log(df[col])
        else:
            X_temp[col] = df[col]
    
    return sm.add_constant(X_temp)

results = []

# Генерируем все комбинации (2^N вариантов)
total_combinations = 2 ** len(cols_to_try_log)

for combination in tqdm(generate_all_combinations(), total=total_combinations):
    try:
        # Подготавливаем данные
        X_curr = prepare_X(combination, data)
        
        # # Удаляем возможные NaN
        # X_curr_clean = X_curr.dropna(axis=1, how='any')
        # y_clean = y.reindex_like(X_curr_clean)
        
        # Строим модель
        model = sm.OLS(data['log_price'], X_curr).fit()
        
        # Сохраняем результаты
        results.append({
            'combination': combination,
            'aic': model.aic,
            'bic': model.bic,
            'adj_r2': model.rsquared_adj,
            'model': model
        })
    
    except Exception as e:
        print(f"Error in combination {combination}: {str(e)}")
        continue

# Создаем DataFrame с результатами
df_results = pd.DataFrame(results)

# Добавляем расшифровку комбинаций
df_results['log_columns'] = df_results['combination'].apply(
    lambda x: [cols_to_try_log[i] for i, log in enumerate(x) if log]
)

# Находим лучшие модели по разным критериям
best_aic = df_results.loc[df_results['aic'].idxmin()]
best_bic = df_results.loc[df_results['bic'].idxmin()]
best_adj_r2 = df_results.loc[df_results['adj_r2'].idxmax()]

print("Лучшая модель по AIC:")
print(f"Логарифмированные переменные: {best_aic['log_columns']}")
print(f"AIC: {best_aic['aic']:.2f}\n")

print("Лучшая модель по BIC:")
print(f"Логарифмированные переменные: {best_bic['log_columns']}")
print(f"BIC: {best_bic['bic']:.2f}\n")

print("Лучшая модель по Adj.R²:")
print(f"Логарифмированные переменные: {best_adj_r2['log_columns']}")
print(f"Adj.R²: {best_adj_r2['adj_r2']:.4f}")


100%|██████████| 512/512 [00:06<00:00, 84.27it/s]

Лучшая модель по AIC:
Логарифмированные переменные: ['pages_cnt', 'tirage', 'weight', 'thickness']
AIC: -394.16

Лучшая модель по BIC:
Логарифмированные переменные: ['pages_cnt', 'tirage', 'weight', 'thickness']
BIC: -181.07

Лучшая модель по Adj.R²:
Логарифмированные переменные: ['pages_cnt', 'tirage', 'weight', 'thickness']
Adj.R²: 0.8077





### Подбор функциональной формы для $price$

In [61]:
results = []

# Генерируем все комбинации (2^N вариантов)
total_combinations = 2 ** len(cols_to_try_log)

for combination in tqdm(generate_all_combinations(), total=total_combinations):
    try:
        # Подготавливаем данные
        X_curr = prepare_X(combination, data)
        
        # # Удаляем возможные NaN
        # X_curr_clean = X_curr.dropna(axis=1, how='any')
        # y_clean = y.reindex_like(X_curr_clean)
        
        # Строим модель
        model = sm.OLS(data['price'], X_curr).fit()
        
        # Сохраняем результаты
        results.append({
            'combination': combination,
            'aic': model.aic,
            'bic': model.bic,
            'adj_r2': model.rsquared_adj,
            'model': model
        })
    
    except Exception as e:
        print(f"Error in combination {combination}: {str(e)}")
        continue

# Создаем DataFrame с результатами
df_results = pd.DataFrame(results)

# Добавляем расшифровку комбинаций
df_results['log_columns'] = df_results['combination'].apply(
    lambda x: [cols_to_try_log[i] for i, log in enumerate(x) if log]
)

# Находим лучшие модели по разным критериям
best_aic = df_results.loc[df_results['aic'].idxmin()]
best_bic = df_results.loc[df_results['bic'].idxmin()]
best_adj_r2 = df_results.loc[df_results['adj_r2'].idxmax()]

print("Лучшая модель по AIC:")
print(f"Логарифмированные переменные: {best_aic['log_columns']}")
print(f"AIC: {best_aic['aic']:.2f}\n")

print("Лучшая модель по BIC:")
print(f"Логарифмированные переменные: {best_bic['log_columns']}")
print(f"BIC: {best_bic['bic']:.2f}\n")

print("Лучшая модель по Adj.R²:")
print(f"Логарифмированные переменные: {best_adj_r2['log_columns']}")
print(f"Adj.R²: {best_adj_r2['adj_r2']:.4f}")


100%|██████████| 512/512 [00:06<00:00, 75.19it/s] 


Лучшая модель по AIC:
Логарифмированные переменные: ['pages_cnt', 'tirage', 'width', 'volume']
AIC: 41424.55

Лучшая модель по BIC:
Логарифмированные переменные: ['pages_cnt', 'tirage', 'width', 'volume']
BIC: 41637.64

Лучшая модель по Adj.R²:
Логарифмированные переменные: ['pages_cnt', 'tirage', 'width', 'volume']
Adj.R²: 0.8541


### Вывод

Нужно логарифмировать ['pages_cnt', 'tirage', 'weight', 'thickness'] для модели с логарифмом цены

Нужно логарифмировать ['pages_cnt', 'tirage', 'width', 'thickness'] для модели с линейной ценой

### Итоговая модель с ln Y

In [72]:
cols_to_log = ['pages_cnt', 'tirage', 'weight', 'thickness']
cols_not_to_log = [col for col in cols_to_try_log if col not in cols_to_log] + unconditional_cols

X_log = np.log(data.loc[:, cols_to_log])
X_not_to_log = data.loc[:, cols_not_to_log]

X_log_model = sm.add_constant(pd.concat((X_log, X_not_to_log), axis=1))

log_model = sm.OLS(data['log_price'], X_log_model).fit()
log_model.summary()

0,1,2,3
Dep. Variable:,log_price,R-squared:,0.81
Model:,OLS,Adj. R-squared:,0.808
Method:,Least Squares,F-statistic:,403.0
Date:,"Mon, 05 May 2025",Prob (F-statistic):,0.0
Time:,00:06:53,Log-Likelihood:,232.08
No. Observations:,3256,AIC:,-394.2
Df Residuals:,3221,BIC:,-181.1
Df Model:,34,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,5.1408,0.285,18.012,0.000,4.581,5.700
pages_cnt,-0.4177,0.022,-18.714,0.000,-0.461,-0.374
tirage,-0.1707,0.010,-17.330,0.000,-0.190,-0.151
weight,1.0142,0.022,46.985,0.000,0.972,1.057
thickness,-0.4881,0.035,-14.044,0.000,-0.556,-0.420
avg_rating,0.0484,0.012,4.132,0.000,0.025,0.071
cnt_reviews,0.0003,3.46e-05,9.469,0.000,0.000,0.000
width,-0.0394,0.003,-13.469,0.000,-0.045,-0.034
length,-0.0164,0.004,-3.927,0.000,-0.025,-0.008

0,1,2,3
Omnibus:,1495.422,Durbin-Watson:,2.028
Prob(Omnibus):,0.0,Jarque-Bera (JB):,116027.271
Skew:,1.299,Prob(JB):,0.0
Kurtosis:,32.129,Cond. No.,76200.0


### Итоговая модель с Y

In [74]:
cols_to_log = ['pages_cnt', 'tirage', 'width', 'thickness']
cols_not_to_log = [col for col in cols_to_try_log if col not in cols_to_log] + unconditional_cols

X_log = np.log(data.loc[:, cols_to_log])
X_not_to_log = data.loc[:, cols_not_to_log]

X_lin_model = sm.add_constant(pd.concat((X_log, X_not_to_log), axis=1))

lin_model = sm.OLS(data['price'], X_lin_model).fit()
lin_model.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.852
Model:,OLS,Adj. R-squared:,0.85
Method:,Least Squares,F-statistic:,543.5
Date:,"Mon, 05 May 2025",Prob (F-statistic):,0.0
Time:,00:07:13,Log-Likelihood:,-20723.0
No. Observations:,3256,AIC:,41520.0
Df Residuals:,3221,BIC:,41730.0
Df Model:,34,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1678.5532,184.563,9.095,0.000,1316.680,2040.427
pages_cnt,-197.6533,12.372,-15.976,0.000,-221.910,-173.396
tirage,-88.2075,6.132,-14.384,0.000,-100.231,-76.184
width,131.0668,23.696,5.531,0.000,84.605,177.528
thickness,-58.6737,18.286,-3.209,0.001,-94.526,-22.821
avg_rating,25.0838,7.281,3.445,0.001,10.809,39.359
cnt_reviews,0.1448,0.022,6.716,0.000,0.103,0.187
weight,1.5686,0.024,66.420,0.000,1.522,1.615
length,6.1313,2.502,2.451,0.014,1.226,11.037

0,1,2,3
Omnibus:,1659.185,Durbin-Watson:,1.999
Prob(Omnibus):,0.0,Jarque-Bera (JB):,57482.626
Skew:,1.786,Prob(JB):,0.0
Kurtosis:,23.272,Cond. No.,89800.0
