In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures

# Загрузка данных
df = pd.read_csv('prices_test.csv')

# Подготовка данных для обучения (строки без пропусков)
train_data = df.dropna()

# Базовые признаки
X3_features = ['X1 transaction date', 'X2 house age', 'X5 latitude', 'X6 longitude']
X4_features = ['X1 transaction date', 'X2 house age', 'X5 latitude', 'X6 longitude']

# Создаем полиномиальные признаки для X3
poly_X3 = PolynomialFeatures(degree=2, include_bias=False)
X3_poly_features = poly_X3.fit_transform(train_data[X3_features])

# Для X4 используем линейные признаки + взаимодействия широты и долготы
X4_train_features = train_data[X4_features].copy()
X4_train_features['lat_lon'] = train_data['X5 latitude'] * train_data['X6 longitude']

# Модель для X3 с регуляризацией Ridge
X3_ridge_model = Ridge(alpha=1.0)
X3_ridge_model.fit(X3_poly_features, np.log1p(train_data['X3 distance to the nearest MRT station']))

# Модель для X4
X4_model = Ridge(alpha=0.5)
X4_model.fit(X4_train_features, train_data['X4 number of convenience stores'])

# Заполнение пропусков
missing_X3 = df['X3 distance to the nearest MRT station'].isna()
missing_X4 = df['X4 number of convenience stores'].isna()

df_filled = df.copy()

# Трансформация данных с пропусками для X3
X3_missing_poly = poly_X3.transform(df.loc[missing_X3, X3_features])

# Трансформация данных с пропусками для X4
X4_missing_features = df.loc[missing_X4, X4_features].copy()
X4_missing_features['lat_lon'] = df.loc[missing_X4, 'X5 latitude'] * df.loc[missing_X4, 'X6 longitude']

# Предсказания
df_filled.loc[missing_X3, 'X3 distance to the nearest MRT station'] = np.expm1(
    X3_ridge_model.predict(X3_missing_poly)
)
df_filled.loc[missing_X4, 'X4 number of convenience stores'] = np.round(
    X4_model.predict(X4_missing_features)
).clip(0)

# Сохраняем заполненный датасет
df_filled.to_csv('prices_test_filled.csv', index=False)
print("Датасет с заполненными пропусками сохранен как 'prices_test_filled.csv'")

# Показываем строки, в которых были заполнены пропуски
missing_rows = df[missing_X3 | missing_X4].index.tolist()
print("\nСтроки с заполненными пропусками:")
print(df_filled.loc[missing_rows])

Датасет с заполненными пропусками сохранен как 'prices_test_filled.csv'

Строки с заполненными пропусками:
    id  X1 transaction date  X2 house age  \
0    0             2012.833           3.4   
6    6             2012.667          20.4   
7    7             2013.167          39.2   
10  10             2013.417           0.0   
34  34             2012.833          18.0   
44  44             2013.333           1.7   
55  55             2013.417          11.0   
62  62             2013.417          17.4   
68  68             2013.500           5.6   
79  79             2012.917           9.9   
81  81             2013.250          17.8   

    X3 distance to the nearest MRT station  X4 number of convenience stores  \
0                               535.267924                              2.0   
6                              2469.645000                              2.0   
7                               424.713200                              5.0   
10                              263.