# Проект: Предиктивная модель оценки стоимости недвижимости

## 1. Описание кейса и бизнес-постановка задачи
К нам обратился представитель крупного агентства недвижимости.

**Проблема:** Риелторы тратят слишком много времени на ручную сортировку объявлений и поиск выгодных предложений. Скорость реакции и качество ручной оценки уступают конкурентам, что негативно сказывается на финансовых показателях агентства.

**Цель проекта:**

Разработать сервис (модель машинного обучения), который позволит **автоматически предсказывать рыночную стоимость объектов недвижимости** на основе их характеристик и истории предложений. Это поможет риелторам быстрее находить недооцененные варианты и точнее формировать предложения для клиентов.

## 2. Поставленные задачи
Для достижения цели необходимо решить следующие технические и аналитические задачи:

1.  **Разведочный анализ данных (EDA) и Очистка:**
    *   Провести парсинг сложных вложенных структур (JSON) в признаках `homeFacts` и `schools`.
    *   Выявить и обработать аномальные выбросы (ошибки ввода площади, нереалистичные цены), которые могут исказить обучение.
    *   Проанализировать распределения и корреляции признаков.

2.  **Feature Engineering (Проектирование признаков):**
    *   Восстановить и использовать географические данные (`latitude`, `longitude`, `zipcode`).
    *   Применить продвинутые методы кодирования категорий (Target Encoding) для признаков с высокой кардинальностью.
    *   Сформировать новые информативные признаки (возраст дома, расстояние до школ, средний рейтинг района).

3.  **Построение ML-пайплайна:**
    *   Разработать воспроизводимый `sklearn.pipeline`, включающий обработку пропусков, масштабирование и кодирование.
    *   **Критически важно:** Исключить утечку данных (Data Leakage) — проводить все трансформации строго после разделения на обучающую и тестовую выборки.

4.  **Моделирование и Оптимизация:**
    *   Построить Baseline-модель для оценки базового качества.
    *   Провести автоматический подбор гиперпараметров с помощью **Optuna**.
    *   Реализовать ансамблевые методы (**Stacking**) с использованием **GPU-ускорения** для достижения максимальной точности.

5.  **Внедрение:**
    *   Подготовить и сериализовать (сохранить) лучшую модель для дальнейшей интеграции в веб-сервис.

## 3. Описание данных
В работе используется [датасет](https://drive.google.com/file/d/11-ZNNIdcQ7TbT8Y0nsQ3Q0eiYQP__NIW/view?usp=share_link), содержащий ~377 000 записей о продаже недвижимости.
Ключевые признаки:
*   **Целевая переменная:** `target` (стоимость объекта недвижимости).
*   **Характеристики:** площадь (`sqft`, `lotsize`), количество комнат (`beds`, `baths`), этажность, тип недвижимости.
*   **Локация:** адрес, город, штат, почтовый индекс, координаты.
*   **Инфраструктура:** данные о школах, рейтинги, расстояния.

In [None]:
# 1. НАСТРОЙКА ОКРУЖЕНИЯ И ИМПОРТ БИБЛИОТЕК
import os
import sys
import warnings
import datetime
import time
import joblib
import ast
import logging
import platform
import subprocess
import psutil
import json


# Получаем количество ядер процессора
cpu_count = os.cpu_count() or 1  # or 1 на случай, если функция вернет None

# Логика:
# 1. Берем все ядра, но оставляем одно свободным для системы (-1)
# 2. Но не больше 6-8 (чтобы не взорвать память копиями данных)
# 3. И не меньше 2 (чтобы хоть какая-то параллельность была)

# При необходимости можно самостоятельно изменить количество потоков, SAFE_N_JOBS = -1 <- задействова все ядра
SAFE_N_JOBS = max(2, min(8, cpu_count - 1))
# SAFE_N_JOBS = -1

print(f"Количество ядер: {cpu_count}")
print(f"Выбрано безопасное число потоков: {SAFE_N_JOBS}")

# --- Intel Acceleration (CPU) ---
try:
    from sklearnex import patch_sklearn
    patch_sklearn()
    print('Intel Extension (CPU) активирован')
    # Подавление предупреждений от Intel Extension
    warnings.filterwarnings("ignore", module="daal4py")
    warnings.filterwarnings("ignore", message=".*Threading.*")
except (ImportError, Exception):
    print('Intel Extension не найден, работаем на стандартном CPU')


# Флаг пользователя: Хотим ли мы использовать GPU (NVIDIA), если она есть?
ENABLE_GPU_COMPUTING = True 

GPU_NAME = "CPU"
REAL_GPU_AVAILABLE = False
DEVICE_TYPE = "cpu" # 'cuda', 'mps' (mac), или 'cpu'

if ENABLE_GPU_COMPUTING:
    # -----------------------------------------------------------
    # ПОПЫТКА 1: Проверяем PyTorch (Самый надежный способ)
    # -----------------------------------------------------------
    try:
        import torch
        if torch.cuda.is_available():
            REAL_GPU_AVAILABLE = True
            GPU_NAME = torch.cuda.get_device_name(0)
            DEVICE_TYPE = "cuda"
        elif torch.backends.mps.is_available(): # Проверка для Mac M1/M2/M3
            REAL_GPU_AVAILABLE = True
            GPU_NAME = "Apple Silicon GPU (MPS)"
            DEVICE_TYPE = "mps"
    except ImportError:
        pass # Torch нет, идем дальше

    # -----------------------------------------------------------
    # ПОПЫТКА 2: Если Torch нет, пробуем nvidia-smi (Windows/Linux)
    # -----------------------------------------------------------
    if not REAL_GPU_AVAILABLE:
        try:
            # Флаг shell=True нужен для Windows, чтобы найти команду
            # Но на Linux он не обязателен. Делаем универсально:
            cmd = "nvidia-smi -L"
            result = subprocess.run(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
            
            if result.returncode == 0 and "GPU" in result.stdout:
                REAL_GPU_AVAILABLE = True
                # Парсим название первой карты
                GPU_NAME = result.stdout.split(':')[1].split('(')[0].strip()
                DEVICE_TYPE = "cuda"
        except Exception:
            pass # Не получилось вызвать консоль или нет драйверов

    # -----------------------------------------------------------
    # ПОПЫТКА 3: Проверка на Mac (без Torch)
    # -----------------------------------------------------------
    if not REAL_GPU_AVAILABLE:
        if platform.system() == 'Darwin' and platform.machine() == 'arm64':
            # Косвенный признак, что мы на Apple Silicon
            REAL_GPU_AVAILABLE = True 
            GPU_NAME = "Apple Silicon (Detected via Platform)"
            DEVICE_TYPE = "mps"

# ИТОГОВЫЙ ВЫВОД
if REAL_GPU_AVAILABLE:
    print(f'GPU активирована: {GPU_NAME} (Type: {DEVICE_TYPE})')
else:
    print(f'GPU не найдена или не настроена. Работаем на CPU.')

# Глобальная переменная для ваших моделей
USE_GPU = REAL_GPU_AVAILABLE

# 3. ИМПОРТ DATA SCIENCE БИБЛИОТЕК

# Работа с данными
import pandas as pd
import numpy as np

# Визуализация
import matplotlib.pyplot as plt 
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
from plotly.subplots import make_subplots

# Статистика (Тесты гипотез)
from scipy import stats
from scipy.stats import f_oneway, kruskal # <--- НУЖНО ДЛЯ ANOVA
from scipy.stats import mannwhitneyu, normaltest, pearsonr, spearmanr
import scikit_posthocs as sp # <--- НУЖНО ДЛЯ ТЕСТА ДАННА


# Machine Learning (Sklearn Modules - для поддержки старого кода)
from sklearn import (
    model_selection,
    preprocessing,
    linear_model,
    metrics,
    tree,
    ensemble,
    feature_selection
)

# Machine Learning (Direct Imports - для пайплайнов)
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV, KFold
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, RobustScaler
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import (
    StackingRegressor, 
    GradientBoostingRegressor, 
    RandomForestRegressor, 
    HistGradientBoostingRegressor
)
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.feature_selection import SelectKBest, f_regression, RFECV, SelectFromModel
from sklearn.inspection import permutation_importance

# Boosting (работают и на CPU, и на GPU)
from catboost import CatBoostRegressor
from xgboost import XGBRegressor
import xgboost as xgb

# Инструменты ML
import optuna
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import OLSInfluence
from category_encoders import TargetEncoder 
import pgeocode # Для геоданных


# Формирование визуализации и представления датасета с помощью D-Tale (при необходимости)
GENERATE_DTALE = True
if GENERATE_DTALE:
    import dtale
    import dtale.app as dtale_app
    import dtale.global_state as global_state

# 4. НАСТРОЙКИ ЛОГИРОВАНИЯ И ОТОБРАЖЕНИЯ

# Настройки Pandas и Plotly
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8') 
sns.set_style("whitegrid")
pio.renderers.default = 'notebook' # Для отображения в Jupyter / GitHub

# Подавление предупреждений
warnings.filterwarnings("ignore")
optuna.logging.set_verbosity(optuna.logging.WARNING)

# Логирование в файл
if not os.path.exists('./logs'):
    os.makedirs('logs')

timestamp = datetime.datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
log_filename = f"logs/experiments_{timestamp}.log"

logging.basicConfig(
    filename=log_filename,
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    datefmt='%H:%M:%S',
    force=True 
)

# Фильтр шума от библиотек
logging.getLogger('sklearnex').setLevel(logging.WARNING)
logging.getLogger('optuna').setLevel(logging.WARNING)
logging.getLogger('matplotlib').setLevel(logging.WARNING)
logging.getLogger('ipykernel').setLevel(logging.ERROR)
logging.getLogger('comm').setLevel(logging.ERROR)

print(f"Логирование настроено в файл: {log_filename}")
logging.info("Старт сессии")

# Глобальные константы

# Настройки для воспроизводимости
RANDOM_SEED = 42

# Путь к датасету
DATASET_PATH = './data/data.csv.zip'  

# Список для сбора результатов экспериментов
EXPERIMENTS_DATA = [] 


# Отключаем специфичные предупреждения от Intel daal4py
warnings.filterwarnings("ignore", module="daal4py")
warnings.filterwarnings("ignore", message=".*Threading.*backend is not supported.*")
warnings.filterwarnings("ignore", message=".*parallel backend is not supported by Extension for Scikit-learn.*")

In [None]:
def log_system_info():
    """Записывает характеристики железа и ОС в лог."""
    try:
        # ОС и Python
        os_info = f"{platform.system()} {platform.release()} ({platform.version()})"
        python_info = sys.version.split()[0]
        
        # CPU
        cpu_info = f"{platform.processor()} ({os.cpu_count()} cores)"
        
        # RAM
        #import psutil
        ram_bytes = psutil.virtual_memory().total
        ram_gb = round(ram_bytes / (1024**3), 2)
        
        # GPU (используем уже определенную ранее логику или проверяем заново)
        if 'torch' in sys.modules and torch.cuda.is_available():
            gpu_info = torch.cuda.get_device_name(0)
            vram = round(torch.cuda.get_device_properties(0).total_memory / (1024**3), 2)
            gpu_str = f"{gpu_info} ({vram} GB VRAM)"
        else:
            gpu_str = "CPU mode (No NVIDIA GPU detected)"

        # Формируем блок текста
        info_msg = (
            f"\n{'='*65}\n"
            f"SYSTEM CONFIGURATION\n"
            f"{'-'*65}\n"
            f"Date:   {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n"
            f"OS:     {os_info}\n"
            f"Python: {python_info}\n"
            f"CPU:    {cpu_info}\n"
            f"RAM:    {ram_gb} GB\n"
            f"GPU:    {gpu_str}\n"
            f"{'='*65}\n"
        )
        
        logging.info(info_msg)
        print("Системная информация записана в лог.")
        
    except Exception as e:
        logging.warning(f"Не удалось собрать системную информацию: {e}")

# Запускаем сразу после настройки логгера
log_system_info()

# Запоминаем время старта всего ноутбука
TOTAL_START_TIME = time.time()

## Загрузка данных, Разведочный анализ данных (EDA) и Очистка

In [None]:
# Проверка наличия файла перед загрузкой
if not os.path.exists(DATASET_PATH):
    error_msg = f"ОШИБКА: Файл данных не найден по пути: {DATASET_PATH}"
    logging.error(error_msg)
    raise FileNotFoundError(error_msg)

# Загрузка данных
df_estate = pd.read_csv(DATASET_PATH)

# --- ЛОГИРОВАНИЕ СОСТОЯНИЯ ДАННЫХ ---
rows, cols = df_estate.shape
# Считаем реальную память (deep=True)
memory_usage = df_estate.memory_usage(deep=True).sum() / (1024 * 1024) 

# Считаем пропуски
missing_cells = df_estate.isnull().sum().sum()
total_cells = rows * cols
# Процент пропусков относительно ВСЕХ ячеек таблицы
sparsity = (missing_cells / total_cells) * 100

data_summary = (
    f"DATASET LOADED: {DATASET_PATH}\n"
    f"SHAPE: {rows} rows x {cols} columns | MEMORY: {memory_usage:.1f} MB\n"
    f"MISSING: {missing_cells} cells ({sparsity:.1f}% of all values)"
)

print(data_summary)
logging.info(data_summary)

display(df_estate.head())

В датасете имеем 377185 разных объектов недвижимости описанных восемнадцатью признаками:

1. status - статус продажи
2. private pool - частный бассейн
3. propertyType - тип недвижимости
4. street - улица
5. baths - число ванных комнат 
6. homeFacts - сведения о доме 
7. fireplace - тип отопления
8. city - город
9. schools - школы
10. sqft - квадратный фут
11. zipcode - почтовый индекс
12. beds - число комнат
13. state - штат
14. stories - этажность
15. mls-id - это код в их централизованной системе учёта предложений объектов недвижимости
16. PrivatePool - частный бассейн
17. MlsId - это код в их централизованной системе учёта предложений объектов недвижимости
18. target - целевой признак, цена недвижимости


## 1. Первичный анализ и очистка данных

Проведем осмотр данных, проверим типы, наличие пропусков и дубликатов.

In [None]:
df_estate.info()

Все признаки имеют тип object, в том числе целевой.  Кроме того, имеются пропуски во всех признаках. 

Сформилируем дальнейшую схему работы/обработки данных на следующем этапе:

1. Привести целевой признак(target) к числовому типу
2. Обработать пропуски в целевом признаке(target)
3. Проанализировать и удалить неинформативные признаки
4. Отдельно обработать информацию в признаках homeFacts и school, содержащие пул данных
5. Обработать пропуски в остальных признаках
6. Спроектировать новые признаки
7. Визуализировать данные, найти зависимости, гипотезы

In [None]:
print(f"Размер датасета: {df_estate.shape}")
duplicates = df_estate.duplicated().sum()
print(f"Количество дубликатов: {duplicates} ({duplicates/len(df_estate):.2%})")

### Удаление дубликатов
Удалим дубликаты, т.к. они могут исказить результаты анализа и обучения модели.

In [None]:
df_estate = df_estate.drop_duplicates()
print(f"Размер после удаления дубликатов: {df_estate.shape}")

### Обработка целевой переменной (target)
Целевая переменная сейчас в строковом формате (содержит '$' и ','). Преобразуем ее в число.

In [None]:
def clean_currency(x):
    if isinstance(x, str):
        return x.replace('$', '').replace(',', '').replace('+', '')
    return x

df_estate['target_clean'] = df_estate['target'].apply(clean_currency)
df_estate['target_clean'] = pd.to_numeric(df_estate['target_clean'], errors='coerce')
# удаляем признак target
df_estate = df_estate.drop(['target'], axis=1)

print(f'Число пропусков в target_clean: {df_estate["target_clean"].isnull().sum()}.')

Имеем 2878 пропусков в целевой переменной, что составляет менее 1% от общего объёма датасета. 

Удалим строки с пропущенными значениями целевой переменной. Мы учим модель находить зависимость между характеристиками дома и реальной ценой. Если мы заполняем пропуски медианой, мы подсовываем модели "синтетику". Модель будет учиться предсказывать не рыночную цену, а рассчитаюнную медиану. Если мы заполним пропуски в target и эти строки попадут в тестовую выборку (test), то при проверке качества мы будем проверять, насколько хорошо модель угадала нашу же медиану, а не реальность. В найденных на github решениях этой задачи - авторы заполняли пропуски в таргете медианой, что является ошибочным решением.


In [None]:
# Удаляем строки, где в целевой переменной (target_clean) есть пропуски (NaN)
df_estate = df_estate.dropna(subset=['target_clean'])

# (Опционально) Сбрасываем индекс, чтобы он шел по порядку после удаления строк
df_estate = df_estate.reset_index(drop=True)
print(f'Количество пропусков целевой переменной = {df_estate["target_clean"].isnull().sum()}.')
print(f'Текущий размер датасета: {df_estate.shape}')

Описательные статистики по целевой переменной(target_clean):

In [None]:
print("Основные статистики Price:")
print(df_estate['target_clean'].describe())

Медианная стоимость недвижимости $320 000 
Средняя стоимость недвижимости $645 409 , что превышаем медианную стоимость в 2 раза.
Кроме того, предположительно имеют место выбросы (минимальная стоимость $1, максимальная стоимость $195 000 000).
В таком случае именно медианное значение цены будет лучше отражать меру центральной тенденции так как оно устойчиво к выбросам. 

Изучим распределение целевой переменной:

In [None]:

fig = px.histogram(
    df_estate, 
    x='target_clean', 
    nbins=60, 
    marginal='rug', 
    title='Распределение стоимости недвижимости',
    labels={'target_clean': 'Цена ($)'},
    template='plotly_white'
)

fig.update_layout(bargap=0.1)
fig.show()

Исходная гистограмма цен крайне неинформативна: из-за экстремальных выбросов (до $2 \times 10^8$) основное распределение "схлопнулось" в узкий пик около нуля. Чтобы избавиться от влияния этого длинного хвоста и сделать структуру данных видимой, мы применили логарифмическую трансформацию к целевой переменной



In [None]:
df_estate['target_clean_log'] = np.log(df_estate['target_clean'])


fig = px.histogram(
    df_estate, 
    x='target_clean_log', 
    nbins=60, 
    # kde=True,  
    marginal='box', 
    title='Распределение стоимости недвижимости (логарифмическая трансформация)',
    labels={'target_clean_log': 'Log(Цена)'},
    color_discrete_sequence=['#636EFA'],
    template='plotly_white'
)
fig.update_layout(bargap=0.1)
fig.show()

#### Проверка гипотезы о нормальности распределения цены (Log-transform) как обоснование использования target_clean_log для очистки выбросов

Проверим, насколько распределение отличается от нормального. Используем D'Agostino's K^2 test. 

H0: Выборка имеет нормальное распределение.

In [None]:
stat_orig, p_orig = normaltest(df_estate['target_clean'])
stat_log, p_log = normaltest(np.log1p(df_estate['target_clean']))

print(f"Тест на нормальность распределения (D'Agostino's K^2 test):")
print(f"   P-value (Исходная цена): {p_orig:.4e}")
print(f"   P-value (Log-цена):      {p_log:.4e}")

# Чем меньше статистика, тем ближе к нормальному
print(f"Статистика (меньше = лучше): {stat_orig:.0f} -> {stat_log:.0f}")
print("Вывод: Логарифмирование существенно приближает распределение к нормальному,")
print("что критически важно для корректной работы моделей и удаления выбросов.")

Избавимся от выбросов по целевому признаку, для этого воспользуемся методом Тьюки, применив его к логарифмированному признаку:

In [None]:
def find_outliers_iqr(df, feature, left=1.5, right=1.5, log_scale=False):
    """
    Находит выбросы в данных, используя метод межквартильного размаха. 
    Классический метод модифицирован путем добавления:
    * возможности логарифмирования распредления
    * ручного управления количеством межквартильных размахов в обе стороны распределения
    Args:
        df (pandas.DataFrame): набор данных
        feature (str): имя признака, на основе которого происходит поиск выбросов
        left (float, optional): количество межквартильных размахов в левую сторону распределения. По умолчанию 1.5.
        right (float, optional): количество межквартильных размахов в правую сторону распределения. По умолчанию 1.5.
        log_scale (bool, optional): режим логарифмирования. По умолчанию False - логарифмирование не применяется.

    Returns:
        pandas.DataFrame: наблюдения, попавшие в разряд выбросов
        pandas.DataFrame: очищенные данные, из которых исключены выбросы
    """
    if log_scale:
        x = np.log(df[feature]+1)
    else:
        x= df[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * left)
    upper_bound = quartile_3 + (iqr * right)
    outliers = df[(x<lower_bound) | (x > upper_bound)]
    cleaned = df[(x>lower_bound) & (x < upper_bound)]
    return outliers, cleaned

print(f'Тип ассиметрии до очистки: {df_estate["target_clean_log"].skew()}')
outliers, df_estate = find_outliers_iqr(df_estate, 'target_clean_log')
print(f'Тип ассиметрии после очистки: {df_estate["target_clean_log"].skew()}')

In [None]:
fig = px.histogram(
    df_estate, 
    x='target_clean_log', 
    nbins=60, 
    # kde=True,  
    marginal='box', 
    title='Распределение логарифмической трансформации стоимости недвижимости (после очистки выбросов)',
    labels={'target_clean_log': 'Log(Цена)'},
    color_discrete_sequence=['#636EFA'],
    template='plotly_white'
)
fig.update_layout(bargap=0.1)
fig.show()

In [None]:
fig = px.histogram(
    df_estate, 
    x='target_clean', 
    nbins=60, 
    # kde=True,  <-- Удаляем эту строку
    marginal='box', 
    title='Распределение стоимости недвижимости после логарифмической трансформации и очистки выбросов',
    labels={'target_clean': 'Цена ($)'},
    color_discrete_sequence=['#636EFA'],
    template='plotly_white'
)
fig.update_layout(bargap=0.1)
fig.show()

In [None]:
print(f'Число наблюдений {df_estate.shape[0]}.')
df_estate['target_clean'].describe()

In [None]:
df_estate.info()

После очистки датасета количество наблюдений уменьшилось до 348064, аномальные значения в виде $1 или $195 млн. были удалены. 

## Анализ неинформативных признаков

Изучим потенциальные неинформативные признаки 
- наличие частного бассейна - private pool 
- наличие частного бассейна - PrivatePool, 
- наличие каминов - fireplace 

- в них порядка 65-85% пропусков и они кандидаты на удаление, 

признаки MlsId и mls-id, которые являются уникальными номерами в базе данных в системе множественного листинга и никакой информативности не несут.


In [None]:
display(df_estate['private pool'].describe())
display(df_estate['private pool'].value_counts())

In [None]:
display(df_estate['PrivatePool'].describe())
display(df_estate['PrivatePool'].value_counts())

In [None]:
display(df_estate['fireplace'].describe())
display(df_estate['fireplace'].value_counts())

In [None]:
def date_clear(df, no_inf_1, no_inf_2):
    """ Удаляет столбцы, в которых доля пропущенных значений > 60%,
    а также неинформативные признаки

    Args:
        df (DateFrame): исходный датафрейм
        no_inf_1 (Series): первый неинформативный признак
        no_inf_2 (Series): второй неинформативный признак

    Returns:
        DateFrame: очищенный датафрейм
    """
    df = df.drop([no_inf_1, no_inf_2], axis=1)
    #задаем минимальный порог: вычисляем 60% от числа строк
    thresh = df.shape[0]*0.6
    #удаляем столбцы, в которых более 30% (100-70) пропусков
    df = df.dropna(thresh=thresh, axis=1)
    return df

df_estate = date_clear(df_estate, 'mls-id', 'MlsId')
df_estate.info()

### **status(статус продажи), propertyType(тип недвижимости), street(улица)**

В признаках статус продажи(status), тип недвижимости(propertyType) и улица(street) заполним пропуски самым распространённым значением - for sale, single-family home и Address Not Disclosed соответственно:

In [None]:
df_estate['status'].describe()

In [None]:
df_estate['status'] = df_estate['status'].fillna(df_estate['status'].describe().top)

In [None]:
df_estate['propertyType'].describe()

In [None]:
df_estate['propertyType'] = df_estate['propertyType'].fillna(df_estate['propertyType'].describe().top)

In [None]:
df_estate['street'].describe()

In [None]:
df_estate['street'] = df_estate['street'].fillna(df_estate['street'].describe().top)

Для удобства работы переведём данные в признаках статус продажи(status), тип недвижимости(propertyType), улицу(street) в нижний регистр:

In [None]:
df_estate['status'] = df_estate['status'].apply(lambda x: x.lower())
df_estate['propertyType'] = df_estate['propertyType'].apply(lambda x: x.lower())
df_estate['street'] = df_estate['street'].apply(lambda x: x.lower())

Если вглянуть на статусы, то основная часть покрывается статусами:
- for sale(продаётся)
- active(активное)
- foreclosure(обращение взыскания)
- new construction()
- pending(в ожидании)

Оставим данные статусы, остальные переименуем в категорию other(другие).

In [None]:
df_estate['status'].value_counts()[:5]

In [None]:
# лист с категориями
status_list = list(df_estate['status'].value_counts()[:5].index)
df_estate['status'] = df_estate['status'].apply(lambda x: x if x in status_list else 'other')

Аналогично посмотрим на тип недвижимости(propertyType):

- single family(дом на одну семью)
- condo(кондоминиум)
- land(земля)
- townhouse(таунхаус)
- multi family(для многодетной семьи/большой семьи)
- high rise(в выстоном здании)
- ranch(ранчо)
- coop(кооперативные квартиры/дома)
- single detached(отдельно стоящий дом)
- traditional(стандартное)

Всё, что не попадает в вышеуказанные категории будут заменены на other.

In [None]:
df_estate['propertyType'].value_counts()[:20]

In [None]:
# проводим удаление(замену) ненужных символов 
df_estate['propertyType'] = df_estate['propertyType'].apply(lambda x: ' '.join(x.replace('-', ' ').replace(',', ' ').replace('/', ' ').split(' ')[0:2]))
df_estate['propertyType'] = df_estate['propertyType'].replace('condo townhome', 'condo').replace('lot land', 'land').replace('detached ', 'single detached')
# лист с категориями
propertyType_list = list(df_estate['propertyType'].value_counts()[:11].index)
# удаляем одну неинформационную категорию 
propertyType_list.remove('1 story')
df_estate['propertyType'] = df_estate['propertyType'].apply(lambda x: x if x in propertyType_list else 'other')

Преобразуем признак улица(street), избавившись от номеров домов и оставив только наименование улиц - подразумевая, что стоимость недвижимость привязана к локации, а наименование улицы один из способов привязаться к этому местоположению(району города). Далее те улицы, которые будут в единственном экземпляре объединим в категорию other.

In [None]:
df_estate['street'] = df_estate['street'].replace('undisclosed address', 'address not disclosed').replace('(undisclosed address)', 'address not disclosed')\
    .replace('address not available', 'address not disclosed').replace('unknown address', 'address not disclosed')
    
df_estate['street_new'] = df_estate['street'].apply(lambda x: ' '.join(x.split(' ')[1:4])).replace('', 'address not disclosed').replace('address not disclosed', 'not disclosed')

df_estate = df_estate.drop(['street'], axis=1)

In [None]:
street_list = list(df_estate['street_new'].value_counts()[df_estate['street_new'].value_counts()==1].index)
date_street_one = df_estate[df_estate['street_new'].isin(street_list)]
date_street_one['street_new'] = date_street_one['street_new'].apply(lambda x: 'other')
df_estate = pd.concat(
    [df_estate[~df_estate['street_new'].isin(street_list)], date_street_one],
    ignore_index=True,
    axis=0
)

### **city(город)**

Следующий признак - город(city), в котором имеются 20 пропущенных значений:

In [None]:
df_estate['city'].isnull().sum()

#### СТРАТЕГИЯ ЗАПОЛНЕНИЯ ПРОПУСКОВ ГЕОДАННЫХ:
1. Если в исходнике нет города/штата/координат, берем их из pgeocode для надежности.
2. Если и там нет - это мусорные данные

ВАЖНО: Мы НЕ заполняем координаты средним значением. Локация - это ключевой драйвер цены. "Средняя координата" (центр США) для дома во Флориде создаст чудовищный шум в модели. Лучше удалить эти строки (их обычно < 1%), чем кормить модель ложью.

In [None]:
# 0. ЗАЩИТА ОТ ПОВТОРНОГО ЗАПУСКА (ОЧИСТКА)
# Если мы перезапускаем ячейку, удаляем следы предыдущих попыток, чтобы merge не создавал дубликатов (_x, _y)
temp_cols = ['zipcode_clean', 'city_geo', 'county_geo', 'state_geo', 'lat_geo', 'lon_geo']
df_estate = df_estate.drop([c for c in temp_cols if c in df_estate.columns], axis=1)

# 1. ПОДГОТОВКА И ОЧИСТКА ZIP-КОДОВ
def clean_zip_code(x):
    x = str(x).strip()
    if x == '--' or x == '0' or pd.isna(x) or x == 'nan':
        return None
    return x.split('-')[0]

df_estate['zipcode_clean'] = df_estate['zipcode'].apply(clean_zip_code)

# 2. ГЕНЕРАЦИЯ ГЕОДАННЫХ (pgeocode)
print("Запрос актуальных геоданных через pgeocode...")
nomi = pgeocode.Nominatim('us')

unique_zips = df_estate['zipcode_clean'].dropna().unique().astype(str).tolist()

# Запрос данных
geo_info = nomi.query_postal_code(unique_zips)

# Отбираем нужные колонки
geo_ref = geo_info[['postal_code', 'place_name', 'county_name', 'state_code', 'latitude', 'longitude']].copy()
geo_ref.columns = ['zipcode_clean', 'city_geo', 'county_geo', 'state_geo', 'lat_geo', 'lon_geo']

# 3. ОБЪЕДИНЕНИЕ И УТОЧНЕНИЕ ДАННЫХ
df_estate = df_estate.merge(geo_ref, on='zipcode_clean', how='left')

# СТРАТЕГИЯ ЗАПОЛНЕНИЯ:
mappings = [
    ('latitude', 'lat_geo'), 
    ('longitude', 'lon_geo'), 
    ('city', 'city_geo'), 
    ('state', 'state_geo'), 
    ('county', 'county_geo')
]

for col, geo_col in mappings:
    if col in df_estate.columns:
        # Если колонка уже была (например, city), заполняем только пропуски
        df_estate[col] = df_estate[col].fillna(df_estate[geo_col])
    else:
        # Если колонки не было (latitude), создаем её из гео-данных
        df_estate[col] = df_estate[geo_col]

# Удаляем вспомогательные колонки
df_estate = df_estate.drop(temp_cols, axis=1, errors='ignore')

# 4. ОБРАБОТКА ОСТАВШИХСЯ ПРОПУСКОВ
missing_coords = df_estate['latitude'].isnull().sum()
print(f"Строк без координат после обогащения данными: {missing_coords}")

if missing_coords > 0:
    print(f"Удаляем {missing_coords} строк с неизвестной локацией...")
    df_estate = df_estate.dropna(subset=['latitude', 'longitude'])

# Сбрасываем индекс для порядка
df_estate = df_estate.reset_index(drop=True)

print(f"Итоговый размер датасета: {df_estate.shape}")

In [None]:
df_estate.info()

### **baths(число ванных комнат)**

Займёмся признаком число ваных(baths) - данный признак содержит разные строковые значения и символы, которые требуют обработки, также имеется в числовых значениях(представленых в виде строкового) имеется символ ',' вместо точки, его необходимо заменить на точку для корректного преобразования в числовой формат(float). Пропущенные значения заменим на медианное.

In [None]:
def handler_baths(df):
    """ Обработчик признака baths

    Args:
        df (DateFrame): входящий датафрейм

    Returns:
        DateFrame: обработанный датафрейм
    """
    # проверяем на пропущенное значение
    if df  is not np.nan:
        # производим замену симвволов, производим сплит, преобразуем в лист
        df = df.replace(',', '.').split(' ')
        # проходим по каждому элементу листа
        for i in df:
            try:
                i = float(i)
                return i
            # обрабатываем исключение - если элемент невозможно преобразовать в float, то пропускаем
            except ValueError:
                continue  
    else:
        return df
    
df_estate['baths'] = df_estate['baths'].apply(handler_baths)
df_estate['baths'] = df_estate['baths'].fillna(df_estate['baths'].median())

После преобразования имеем:

In [None]:
df_estate['baths'].describe()

Сразу смущает максимальные значения в 750, скорее всего это выбросы, которые будут сбивать модель, избавимся от них ограничив размер 20. Нулевые значения оставляем, так как в датафрейме имеются тип недвижимости земля(land), что вполне объясняет нулевые значения.

In [None]:
df_estate = df_estate[df_estate['baths'] < 21].reset_index().drop(['index'], axis=1)
df_estate.shape

### **sqft(квадратный фунт)**

Возьмёмся за признак **квадратный фут(sqft)** - напишем функцию-обработчик, обратим внимание, что в значениях имеются записи в формате: '--', '2500 sqft', '-- sqft', 'Total interior livable area: 2,533 sqft', а также пропущенные значения, которые заменим на медианное.

In [None]:
df_estate['sqft'].value_counts()[:20]

In [None]:
def handler_sqft(val):
    """ Обрабатывает признак sqft """
    
    # 1. Проверка на NaN (используем pd.isna для надежности) или явные пропуски
    if pd.isna(val) or val == '--':
        return np.nan
    
    # Превращаем в строку и убираем запятые сразу для всех проверок
    val = str(val).replace(',', '').strip()
    
    # 2. Проверка на мусорные строки, начинающиеся с тире
    if val.startswith('--'):
        return np.nan
    
    # 3. ОБРАБОТКА ДИАПАЗОНА (исправление для '610-840')
    if '-' in val:
        try:
            # Разбиваем '610-840' на ['610', '840'], переводим в числа и считаем среднее
            parts = [float(x) for x in val.split('-')]
            return sum(parts) / len(parts)
        except ValueError:
            pass # Если не получилось, идем дальше
            
    # 4. Обработка формата 'Total interior livable area: ...'
    if 'total' in val.lower():
        try:
            # Берем предпоследний элемент
            return float(val.split()[-2])
        except (ValueError, IndexError):
            return np.nan

    # 5. Стандартный случай ('1200 sqft' -> берем первое слово)
    try:
        return float(val.split(' ')[0])
    except ValueError:
        # Если ничего не помогло (например, совсем битая строка), возвращаем NaN
        return np.nan

# Применяем функцию
df_estate['sqft_new'] = df_estate['sqft'].apply(handler_sqft)

# Заполняем пропуски медианой
df_estate['sqft_new'] = df_estate['sqft_new'].fillna(df_estate['sqft_new'].median())

# Удаляем старый столбец
df_estate = df_estate.drop(['sqft'], axis=1)

# Проверяем результат
df_estate['sqft_new'].describe()

### **stories(число этажей)**

Следующий признак - **число этажей(stories)** - в нём данные представлены в строковом формате, некоторые признаки прописаны словами, так, например, первый этаж может быть прописан 'One', 'One,' '1 Story', '1.0', есть пропущенные значения, спец. символы, например, '+', записи не содержащие никакие отсылки к этажности(неинформативные) - их заменим на медианное значение.

In [None]:
df_estate['stories'].value_counts()[:20]

In [None]:
def handler_stories(df):
    """ Обработчик признака stories

    Args:
        df (Series): необработанный признак

    Returns:
        float/np.nan: обработанный признак
    """
    # словарь для замены номеров этажей
    stories_dict = {'One':1, 'Two':2, 'Three':3, 'Tri-Level':3, 'One,':1, '1-2':1.5, 'Bi-Level':2, '3-4':3.5, 'Two,':2, 'Tri':3}
    
    if df is not np.nan:
        df = df.replace('+', '').split(' ')[0]
        if df in stories_dict.keys():
            df = stories_dict[df]
            try:
                df = float(df)
                return df
            except ValueError:
                df = np.nan
                return df
        else:
            try:
                df = float(df)
                return df
            except ValueError:
                df = np.nan
                return df
    else:
        return df
    
df_estate['stories_new'] = df_estate['stories'].apply(handler_stories)
df_estate = df_estate.drop(['stories'], axis=1)

Обратим внимание на два объекта с этажностью значением более 100, явно это выбросы от которых необходимо избавиться:

In [None]:
df_estate[df_estate['stories_new'] > 100]

In [None]:
df_estate['stories_new'] = df_estate['stories_new'].fillna(df_estate['stories_new'].median())
df_estate = df_estate[df_estate['stories_new'] < 100].reset_index().drop(['index'], axis=1)
df_estate['stories_new'].describe()

### **beds(число комнат)**

In [None]:
def handler_beds(df):
    """ Обработчик признака beds

    Args:
        df (Series): необработанный признак

    Returns:
        float/np.nan: обработанный признак
        """
    beds_list = list(range(0,16))
    if df is not np.nan:
        try:
            df = float(df.replace(',', '.').split(' ')[0])
            if df in beds_list:
                return df
            else:
                return np.nan  
        except ValueError:
            return np.nan    
    else:
        return df
    
df_estate['beds_new'] = df_estate['beds'].apply(handler_beds)      
df_estate = df_estate.drop(['beds'], axis=1)
df_estate['beds_new'] = df_estate['beds_new'].fillna(df_estate['beds_new'].median())    

### **Сведения о доме(homeFacts)**

Займёмся признаком сведения о доме(homeFacts) - в котором намешано много информации и она представлена в строковом формате, который в свою очередь похож на json-формат(данные хранятся в виде словарей и списков). Внимательно взглянем на информацию, содержащуюся в данном признаке:

- atAGlanceFacts(факты) - основной ключ, значениями которого является список словарей

В каждом словаре находятся два ключа -**factLabel**(наименование параметра/факта) и **factValue**(значение параметра). 

Имеем следующие виды фактов(factValue):

- Year built(год постройки дома)
- Remodeled year(год реконструкции)
- Heating(отопление)
- Cooling(охлаждение)
- Parking(паркинг)
- lotsize(дом с участком)
- Price/sqft(цена за квадратный фунт)

Задача - разнести все параметры по отдельным признакам, далее преобразовать их, избавиться от выбросов.

In [None]:
# преобразование строки в словарь
df_estate['homeFacts_new'] = df_estate['homeFacts'].apply(lambda x: ast.literal_eval(x))
# создание новых признаков
df_estate['year_built'] = df_estate['homeFacts_new'].apply(lambda x: x['atAGlanceFacts'][0]['factValue'])
df_estate['remodeled_year'] = df_estate['homeFacts_new'].apply(lambda x: x['atAGlanceFacts'][1]['factValue'])
df_estate['heating'] = df_estate['homeFacts_new'].apply(lambda x: x['atAGlanceFacts'][2]['factValue'])
df_estate['cooling'] = df_estate['homeFacts_new'].apply(lambda x: x['atAGlanceFacts'][3]['factValue'])
df_estate['parking'] = df_estate['homeFacts_new'].apply(lambda x: x['atAGlanceFacts'][4]['factValue'])
df_estate['lotsize'] = df_estate['homeFacts_new'].apply(lambda x: x['atAGlanceFacts'][5]['factValue'])
df_estate['price_sqft'] = df_estate['homeFacts_new'].apply(lambda x: x['atAGlanceFacts'][6]['factValue'])
# удаление первначального признака
df_estate = df_estate.drop(['homeFacts'], axis=1)

#### **year_built(год постройки дома)**

Взглянем на year_built:

In [None]:
df_estate['year_built'].isnull().sum()

In [None]:
df_estate['year_built'].value_counts()[:20]

имеем 3092(+44584) незаполненных значений. Преобразуем признак в числовой формат и заполним пропуски медианным значением. Также заменим на медианные значения дома года постройки > 2025 года и раньше 1700 года.

In [None]:
df_estate['year_built'] = df_estate['year_built'].apply(lambda x: np.nan if x == '' else np.nan if x == 'No Data' else np.nan if x is None else x)
df_estate['year_built'] = df_estate['year_built'].apply(lambda x: int(x) if x is not np.nan else x)
df_estate['year_built'] = df_estate['year_built'].fillna(df_estate['year_built'].median())
df_estate['year_built'] = df_estate['year_built'].apply(lambda x: df_estate['year_built'].median() if x > 2025 else df_estate['year_built'].median() if x < 1700 else x)

In [None]:
df_estate['year_built'].describe()

Вместо года постройки создадим новый признак - возраст дома(age_home) - разницой текущего года и года постройки дома.

In [None]:
# текущий год
year_current = datetime.datetime.now().year
df_estate['age'] = year_current - df_estate['year_built']

### **remodeled_year(год реконструции)**

In [None]:
df_estate['remodeled_year'].isnull().sum()

In [None]:
df_estate['remodeled_year'] = df_estate['remodeled_year'].apply(lambda x: np.nan if (x == '') | (x == None) else x)
df_estate['remodeled_year'] = df_estate['remodeled_year'].apply(lambda x: int(x) if x is not np.nan else x)

In [None]:
df_estate['remodeled_year'].describe()

В признаке 24898 пропуска, заменим их на медианное значение - 1986:

In [None]:
df_estate['remodeled_year'] = df_estate['remodeled_year'].fillna(df_estate['remodeled_year'].median())

Сразу стоит проверить - дата реконструции не может быть раньше(либо равно) даты постройки, поэтому все значения в признаке remodeled_year, которые не будут соответствовать этому условию заменим на нули.

In [None]:
df_estate['remodeled_year'] = df_estate.apply(lambda x: 0 if x.remodeled_year <= x.year_built else x.remodeled_year, axis=1)

Также создадим признак на основе remodeled_year - число лет, прошедших с реконструкции(age_remodeled). Обратим внимание, что если в признаке remodeled_year имеется 0, то тогда время реставрации считается с даты постройки дома:

In [None]:
df_estate['age_remodeled'] = df_estate.apply(lambda x: (year_current - x.remodeled_year) if x.remodeled_year != 0 else (year_current - x.year_built), axis=1)

После этого можем удалить признаки year_built и remodeled_year.

In [None]:
df_estate = df_estate.drop(['year_built', 'remodeled_year'], axis=1)

### **heating(отопление)**

In [None]:
df_estate['heating'].isnull().sum()

В признаке 93105 пропущенных значений, так как значения текстовые, то приведём их для удобства в нижний регистр:

In [None]:
df_estate['heating'] = df_estate['heating'].apply(lambda x: x.lower() if (type(x) is not float) and (x is not None) else x)
df_estate['heating'] = df_estate['heating'].apply(lambda x: np.nan if (x is None) | (x == 'none') | (x == '') else x)

Избавимся от ненужных символов, возьмём только первые два элемента:

In [None]:
df_estate['heating'] = df_estate['heating'].apply(lambda x: x.replace(',', '') if type(x) is not float else x)
df_estate['heating'] = df_estate['heating'].apply(lambda x: x if (x is np.nan) | (type(x) is float) else ' '.join(x.split(' ')[:2]))

Вглянем на первые 50 самых распространённых значения:

In [None]:
df_estate['heating'].value_counts()[:51]

Унифицируем данные, произведя необходимые замены, далее отберём первые 9 популярных значений, а остальные заменим на other. Пропущенные значения заменим самой распространённой категорией.

In [None]:
df_estate['heating'] = df_estate['heating'].replace('central electric', 'electric').replace(' electric', 'electric').replace('no data', np.nan).replace('electric heat', 'electric')\
    .replace('natural gas', 'gas').replace(' gas', 'gas').replace('central gas', 'gas').replace('gas heat', 'gas').replace('electric gas', 'gas').replace('gas hot', 'gas')\
        .replace('gas -', 'gas').replace('propane', 'gas').replace(' heat', 'heat pump').replace('heating system', 'central').replace('central furnace', 'central')\
            .replace('central heating', 'central').replace('central heat', 'central').replace('heat pump(s)', 'heat pump').replace('radiant', 'central').replace('baseboard forced', 'baseboard')\
                .replace('baseboard hot', 'baseboard')

In [None]:
# лист из топ 9 категорий
heating_list = list(df_estate['heating'].value_counts()[:9].index)

df_estate['heating'] = df_estate['heating'].apply(lambda x: x if x is np.nan else x if x in heating_list else 'other')
df_estate['heating'] = df_estate['heating'].fillna(df_estate['heating'].describe().top)

Итого получаем уменьшение категорий до 9:

- forced air(воздушное принудительное отопление)
- other(прочее)
- electric(электрическое)
- gas(газовое)
- central(центральное)
- central air(централье воздушное)
- heat pump(тепловые насосы)
- baseboard(тёплый пол)
- wall(тепловая стена)

In [None]:
df_estate['heating'].value_counts()

### **cooling(охлаждение)**

В признаке типа охлаждения имеем 3092 пропуска:

In [None]:
df_estate['cooling'].isnull().sum()

In [None]:
df_estate['cooling'] = df_estate['cooling'].apply(lambda x: x.lower() if (x is not np.nan) & (x is not None) else x)
df_estate['cooling'] = df_estate['cooling'].apply(lambda x: np.nan if (x is None) | (x == 'none') | (x == '') else x)

In [None]:
df_estate['cooling'].value_counts()[:40]

Произведём преобразование записей и разделим на категории:

In [None]:
df_estate['cooling'] = df_estate['cooling'].replace('no data', np.nan).replace('none', np.nan)
df_estate['cooling'] = df_estate['cooling'].apply(lambda x: x if x is np.nan else ' '.join(x.split(' ')[:2]))
df_estate['cooling'] = df_estate['cooling'].apply(lambda x: x.replace(',', '') if type(x) is not float else x)
df_estate['cooling'] = df_estate['cooling'].replace('has cooling', 'cooling').replace('central a/c', 'central air')

Все значения, которые не войдут в топ-10 категорий обозначим как other, а пропущенные значение заменим самым распространённым значением.

In [None]:
# топ лист
cooling_list = list(df_estate['cooling'].value_counts()[:10].index)
df_estate['cooling'] = df_estate['cooling'].apply(lambda x: x if x is np.nan else x if x in cooling_list else 'other')
df_estate['cooling'] = df_estate['cooling'].fillna(df_estate['cooling'].describe().top)

Итого в cooling(охлаждение) имеем категории:

- central(центральное)
- central air(центральное воздушное)
- other(прочее)
- cooling(охлаждение)
- central electric(центральное электрическое)
- central gas(центральное газ)
- wall(настенный)
- central heating(центральное отопление/охлаждение)
- cooling system(системы охлаждения)
- refrigeration(охлаждение)

In [None]:
df_estate['cooling'].value_counts()

### **parking(паркинг)**

В признаке 3092(+150940) пропусков и очень много уникальных записей:

In [None]:
df_estate['parking'].isnull().sum()

In [None]:
df_estate['parking'].value_counts()[:50]

Произведём преобразование признака и унификацию категорий, далее оставим топ-15, остальное обозначим как other, пропуски заполним топовым значением.

In [None]:
df_estate['parking'] = df_estate['parking'].apply(lambda x: x.lower() if (x is not np.nan) & (x is not None) else x)
df_estate['parking'] = df_estate['parking'].apply(lambda x: np.nan if (x is None) | (x == '') else x)
df_estate['parking'] = df_estate['parking'].replace('no data', np.nan).replace('none', np.nan)
df_estate['parking'] = df_estate['parking'].apply(lambda x: x if x is np.nan else x.replace('+', '').replace(',', '').split(' ')[0])
df_estate['parking'] = df_estate['parking'].replace('driveway', 'off').replace('garage', 'detached')
# топ лист
parking_list = list(df_estate['parking'].value_counts()[:15].index)

df_estate['parking'] = df_estate['parking'].apply(lambda x: x if x is np.nan else x if x in parking_list else 'other')
df_estate['parking'] = df_estate['parking'].fillna(df_estate['parking'].describe().top)

В признаке parking(паркинг) осталось 16 категорий:

- attached(пристроенный гараж)
- 0/1/2/3/4/5/6(количество мест)
- detached(отдельный гараж)
- carport(навес)
- off(место вне улицы)
- other(прочие)
- assigned(закреплённое место)
- parking(стоянка)
- electric(с электрическим приводом/воротами)

In [None]:
df_estate['parking'].value_counts()

### **lotsize(дом с участком)**

In [None]:
df_estate['lotsize'].isnull().sum()

In [None]:
df_estate['lotsize'].value_counts()[:20]

В признаке 26667(+30552)пропущенных значений, но на самом деле их больше так как имеются неявные пропуски в виде "—", "No Data", "-- sqft lot". Видим, что значения занесены в разных единицах измерения - акры(acres) и квадратные фунты(sqft) - переведём всё к одному виду - sqft. Обратим внимание, что где-то имеется разделитель в виде точки, а где-то в виде запятой. После обработки заменим пропущенные значения медианным.

In [None]:
def acr_change(acr):
    """ Переводит акры в квадратные фунты

    Args:
        acr (str): значение в акрах

    Returns:
        float: значение в квадратных фунтах
    """
    sqft = 43560 * float(acr)
    return sqft

def handler_lotsize(df):
    """ Обработчик признака lotsize

    Args:
        df (Series): необработанный признак

    Returns:
        float/str: обработанный признак
    """
    
    # заменяем пропуски на No и приводим разделитель к общему виду - точки
    df = df.replace('—', 'No').replace('No Data', 'No').replace('-- sqft lot', 'No').replace(',', '')
    
    if df != 'No':
        # приводим строку к нижнему регистру
        df = df.lower()
        # создаём лист со значениями 
        list_temp = df.split(' ')
        # если строка состоит из более чем одного значения, и второе значение 'acres' или 'acre', то переводим в кв фунты
        if (len(list_temp) > 1) and (df.split(' ')[1] == 'acres' or df.split(' ')[1] == 'acre'):
            df = acr_change(list_temp[0])
            return df
        else:
            df = float(list_temp[0])
            return df
    return df

In [None]:
# меняем все пропущенные значения для удобства на No
df_estate['lotsize'] = df_estate['lotsize'].apply(lambda x: 'No' if (x is np.nan) | (x is None) | (x == '') else x)  
# применяем функцию обработчик
df_estate['lotsize'] = df_estate['lotsize'].apply(handler_lotsize)
# все No меняем на np.nan, отрицательные значения на 0
df_estate['lotsize'] = df_estate['lotsize'].apply(lambda x: np.nan if x == 'No' else 0 if x < 0 else x)
# пропуски заменяем на медианное значение
df_estate['lotsize'] = df_estate['lotsize'].fillna(df_estate['lotsize'].describe().median())

### **price_sqft(цена за квадратный фунт)**

In [None]:
df_estate['price_sqft'].isnull().sum()

In [None]:
df_estate['price_sqft'].value_counts()[:20]

В признаке имеется явный 41964 (+4304) пропуск значений и не явный в виде записей 'No Data', 'No Info', которые заменим на np.nan.

In [None]:
df_estate['price_sqft'] = df_estate['price_sqft'].apply(lambda x: np.nan if (x == 'No Data') | (x == 'No Info') | (x is None) | (x == '') else x)
df_estate['price_sqft'] = df_estate['price_sqft'].apply(lambda x: x if x is np.nan else float(x.replace('$', '').replace('/', ' ').replace(',', '').split(' ')[0]))
# пропуски заменяем на медианное значение
df_estate['price_sqft'] = df_estate['price_sqft'].fillna(df_estate['price_sqft'].median())

После того как разобрались с блоком **homeFacts_new(сведения о доме)** данный признак можно удалить:

In [None]:
df_estate = df_estate.drop(['homeFacts_new'], axis=1)
df_estate = df_estate.rename(columns={'street_new':'street', 'sqft_new':'sqft', 'stories_new':'stories', 'beds_new':'beds'})

### **schools(школы)**

Признак schools(школы) по структуре похож на признак honeFacts(сведения о доме) - формат json файла с вложенными словарями и списками в списке содержатся следующие данные:

- rating(рейтинг школ)
- data, содержащий несколько сведений:
    - Distance(дистанции до школ, в милях)
    - Grades(уровень школы - младшая/средняя/старшая/и тд)
    - name(наименование школы)

Нас будет интересовать только rating(рейтинг школ) и Distance(дистанции до школ, в милях), остальные признаки упустим. Вначале преобразуем строковое значение в словварь и вытащим необходимые данные, на основе которых создадим два новых признака.

In [None]:
df_estate.iloc[1:2]

In [None]:
df_estate['rating'] = df_estate['schools'].apply(lambda x: ast.literal_eval(x)[0]['rating'])
df_estate['distance'] = df_estate['schools'].apply(lambda x: ast.literal_eval(x)[0]['data']['Distance'])
#df_estate['grades'] = df_estate['schools'].apply(lambda x: ast.literal_eval(x)[0]['data']['Grades'])
df_estate = df_estate.drop(['schools'], axis=1)

### **rating(рейтинг школ)**

Каждое значение признака rating(рейтинг школ) представлен в виде списка с рейтингами школ,, список может быть пустым либо содержать 'NR'(нет рейтинга), 'NA'(нет данных). Мы создадим обобщающий признак - среднее значение рейтинга школ в данном районе - rating_mean. 

In [None]:
df_estate['rating'].isnull().sum()

In [None]:
def handler_rating(df):
    """ Обработчик признака rating

    Args:
        df (Series): необработанный признак

    Returns:
        float/np.nan: обработанный признак
    """
    temp_list = []
    list_rating = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
    
    if df == []:
        return np.nan
    else:
        for i in df:
            i = i.split('/')[0]
            if i in list_rating:
                temp_list.append(float(i))
        rating_mean = round(np.mean(temp_list), 2)
        return rating_mean   

In [None]:
df_estate['rating_mean'] = df_estate['rating'].apply(handler_rating)
df_estate['rating_mean'] = df_estate['rating_mean'].fillna(round(df_estate['rating_mean'].mean(), 2))
df_estate = df_estate.drop(['rating'], axis=1)                                                           

### **disance(растояние до школ)**

В данном признаке, представленном в виде списка из расстояний до школ мы создадим два признака - среднее расстояние до школы(distance_mean) и количество школ на районе(schools_count).

In [None]:
df_estate['distance'].isnull().sum()

In [None]:
def handler_distance(df):
    """ Обработчик признака distance

    Args:
        df (Serise): необработанный признак

    Returns:
        list: обработанные признаки - средняя дистанция и количество школ
    """
    temp_list = []
    
    for i in df:
        i = i.split('mi')[0]
        temp_list.append(float(i))
    dist_mean = round(np.mean(temp_list), 2)
    schools_count = len(temp_list)
    return [dist_mean, schools_count]

In [None]:
df_estate['distance_mean'] = df_estate['distance'].apply(lambda x: handler_distance(x)[0])
df_estate['schools_count'] = df_estate['distance'].apply(lambda x: handler_distance(x)[1])
df_estate['schools_count'] = df_estate['schools_count'].apply(lambda x: df_estate['schools_count'].median() if x==0 else x)
df_estate['distance_mean'] = df_estate['distance_mean'].fillna(round(df_estate['distance_mean'].mean(), 2))                                                 
df_estate = df_estate.drop(['distance'], axis=1)

In [None]:
df_estate.shape[0]

Итак в очищенном датасете осталось 346004 наблюдения, взглянем ещё раз на целевую переменную, а далее попытаемся найти зависимости в признаках и сформировать гипотезы/выводы.

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='target_clean',    
    title='Distribution of the target_clean',
    text_auto=True,    
    height=800,    
    width=1500,
    marginal='box'     
)
fig.show()

In [None]:
# ассиметрия 
print(df_estate['target_clean'].skew())

In [None]:
print(df_estate['target_clean'].describe())

Распределение целевой переменной стало иметь визуально читаемый вид, но признак ассиметричный - коэффициент ассиметрии положительный(2.55), что говорит о смещении вправо - на графике имеем длинный правый хвост - в котором имеются наблюдения с большим диапазоном разброса цен:

- Медианное значение увеличилось до $328162
- Среднее - $484201
- Минимальное - $34250
- Максимальное - $3202966

### **status - target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate.groupby(['status'], as_index=False)['target_clean'].count(),
    x='status',
    y= ['target_clean'],
    color='status',
    height=500, 
    width=1000, 
    title='Distribution of the attribute status',
    text_auto=True   
)

fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['status'], as_index=False)['target_clean'].median(),
    x='status',
    y='target_clean',
    color='status',
    text='target_clean', 
    orientation='v',
    title='Median value of the price from the status',
    height=500, 
    width=1000   
)

fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['status'], as_index=False)['distance_mean'].median(),
    x='status',
    y='distance_mean',
    color='status',
    text='distance_mean', 
    orientation='v',
    title='Average distance to school by status',
    height=500, 
    width=1000   
)

fig.show()

В данных основная масса объявлений это со статусом **for sale**(224224), наименьшая группа **pending**(4378). 

Медианная стоимость недвижимости в зависимости от статуса разнится - наибольшая зафиксирована в категории **new construction**(449950), что вполне объяснимо - новое, более современное жильё и строится в более перспективных районах города. Стоит отметить и категории **foreclosure** - недвижимость должников для продажи ниже рынка(203286) и категории **pending** - возможно недвижимость в непристижных районах/либо далеко от инфраструктцры/школ - на графике видно, что среднее расстояние до школы больше(1,99 мили).

### Статистический анализ данных

Ниже преведены для подтверждения статистические тесты.

In [None]:
for_sale = df_estate[df_estate['status']=='for sale']['target_clean'].values
active = df_estate[df_estate['status']=='active']['target_clean'].values
foreclosure = df_estate[df_estate['status']=='foreclosure']['target_clean'].values
new_construction = df_estate[df_estate['status']=='new construction']['target_clean'].values
pending = df_estate[df_estate['status']=='pending']['target_clean'].values
other = df_estate[df_estate['status']=='other']['target_clean'].values

In [None]:
# perform one-way ANOVA test
_, p = f_oneway(for_sale, active, foreclosure, new_construction, pending, other)

H0 = 'Нет значимой разницы между ценой недвижимости с разными статусами продажи'
H1 = 'Есть значимая разница между ценой недвижимости с разными статусами продажи'

alpha = 0.05

if p > alpha:
    print(f'{p} > {alpha} мы не можем отвергнуть нулевую гипотезу. {H0}')
else:
    print(f'{p} <= {alpha} мы отвергаем нулевую гипотезу. {H1}')
    

In [None]:
#perform Kruskal-Wallis Test 
_, p = stats.kruskal(for_sale, active, foreclosure, new_construction, pending, other)

alpha = 0.05

if p > alpha:
    print(f'{p} > {alpha} мы не можем отвергнуть нулевую гипотезу. {H0}')
else:
    print(f'{p} <= {alpha} мы отвергаем нулевую гипотезу. {H1}')

In [None]:
#  непараметрический post-hoc тест, который сравнивает каждую группу с каждой после Kruskal–Wallis
data = [for_sale, active, foreclosure, new_construction, pending, other]
sp.posthoc_dunn (data, p_adjust = 'bonferroni')[sp.posthoc_dunn (data, p_adjust = 'bonferroni') < 0.05]

Проанализируем матрицу p-value попарных сравнений между 6 группами (for_sale, active, foreclosure, new_construction, pending, other), где 
NaN — сравнение группы с самой собой, а все остальные значения — p-value после коррекции Бонферрони. 

Во всех ячейках p-value меньше 0.05 (на самом деле — намного меньше, вплоть до 10⁻²⁹³).
Нет ни одного значения, близкого к порогу значимости.
Такие экстремально маленькие p-value означают, что различия между распределениями групп очень сильные.

Каждая категория имеет своё собственное распределение цен, и оно существенно отличается от всех остальных категорий.

Главный вывод
**Все группы статистически значимо отличаются друг от друга.** Каждая категория имеет своё собственное распределение цен,
и оно существенно отличается от всех остальных категорий.


### **propertyType - target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate.groupby(['propertyType'], as_index=False)['target_clean'].count().sort_values(by=['target_clean'], ascending=False),
    x='propertyType',
    y= ['target_clean'],
    color='propertyType',
    height=500, 
    width=1000, 
    title='Distribution of the attribute propertyType',
    text_auto=True   
)

fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['propertyType'], as_index=False)['target_clean'].median().sort_values(by=['target_clean'], ascending=False),
    x='propertyType',
    y='target_clean',
    color='propertyType',
    text='target_clean', 
    orientation='v',
    title='Median value of the price from the propertyType',
    height=500, 
    width=1000   
)

fig.show()

Более 2/3 объявлений о продаже недвижимости приходится на категорию **single family**(на одну семью), также видим, что данный признак существенно влияет на цену недвижимости, так для земельных участков(**land**) она наименьшая - $150000.

### **state - target_clean**

Рассмотрим на распределение объявлений в штатах и зависимость целевой переменной от данного признака.

In [None]:
fig = px.histogram(
    data_frame=df_estate.groupby(['state'], as_index=False)['target_clean'].count().sort_values(by=['target_clean'], ascending=False),
    x='state',
    y= ['target_clean'],
    color='state',
    height=500, 
    width=1000, 
    title='Distribution of the attribute propertyType',
    text_auto=True   
)

fig.show()

Отобразим объекты на географической карте:

In [None]:
def to_int_size(value):
    try:
        return np.log10(int(value))
    except:
        return np.log10(int(value.split('[')[0]))

fig = go.Figure(go.Scattermapbox(lat=df_estate['latitude'], lon=df_estate['longitude'], text=df_estate[['city', 'age']], name='Estate on a geographical map', 
                                 marker=dict(size=df_estate['target_clean'].map(to_int_size), colorbar=dict(title="Age"), color=df_estate['age'])))
# центрирование карты на Нью-Йорк
capital = df_estate[df_estate['city']=='New York']
map_center = go.layout.mapbox.Center(lat=capital['latitude'].values[0], lon=capital['longitude'].values[0])
# Аналог с помощью словаря
#map_center =                   dict(lat=capital['geo_lat'].values[0], lon=capital['geo_lon'].values[0])

fig.update_layout(mapbox_style="open-street-map", mapbox=dict(center=map_center, zoom=3))
fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['state'], as_index=False)['target_clean'].median().sort_values(by=['target_clean'], ascending=False),
    x='state',
    y='target_clean',
    color='state',
    text='target_clean', 
    orientation='v',
    title='Median value of the price from the state',
    height=500, 
    width=1000   
)

fig.show()

In [None]:
treemap_data = df_estate.groupby(
    by='city',
    as_index=False
)[['target_clean']].median().sort_values(by=['target_clean'], ascending=False)[:101]

#строим график
fig = px.treemap(
    data_frame=treemap_data, #DataFrame
    path=['city'], #категориальный признак, для которого строится график
    values='target_clean', #параметр, который сравнивается
    height=500, #высота
    width=1500, #ширина
    title='Median price by city-100' #заголовок    
)

#отображаем график
fig.show()

Объявления представлены из 39 разных штатов(из 50), болше всего предложиний из штата Флорида(FL) - более 103 тыс. и штата Техас(TX) - более 81 тыс.

Что касаемое медианной цены недвижимости, то в топ-лидерах штаты:

- Нью-Йорк(NY) - $726850
- Массачусетс(MA) - $674700
- Калифорния(CA) - $659000
- Округ Колумбия(DC) - $629000

Наименьшая стоимость:

- OT - $50000
- Алабама(AL) - $72000
- Монтана(MT) - $82900
- Оклахома(OK) - $114750

Предполагаем о влиянии данного признака на цену недвижимости. 

Также стоит отметить топ-город по цене недвижимости:

- Saratoga(штат Калифорния) - $2998000
- Los Altos Hills(штат Калифорния) - $2980000
- New Richmond(штат Огайо) - $2980000
- Highway 30(штат Оклахома) - $2900000
- Bow Mar(штат Колорадо) - $2750000
- Rancho Park(штат Калифорния) - $2750000
- Santa Monica(штат Калифорния) - $2695000
- Sunset Beach(штат Серерная Каролина) - $2595000

Наименьшая стоимость:

- Ford Hancock(штат Техас) - $35000
- Wayland(штат Миссури) - $35200
- Mem () - $35900
- Minnie(штат Флорида) - $37000
- Shillington(штат Пенсильвания) - $38566

### **beds - target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='beds',    
    title='Distribution of the beds',
    text_auto=True,    
    height=500,    
    width=1000      
)
fig.show()

In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['beds'], as_index=False)['target_clean'].median(),
    x='beds',   
    y='target_clean',
    color='beds',
    title='Scatterplot between beds and target_clean(median)',       
    height=500,    
    width=1000,
    size='target_clean'       
)
fig.show()

Видим зависимость цены недвижимости от числа комнат - при чём до трёх включительно разница небольшая, после трёх видно ускорение в увеличении стоимости: особенно скачок после 4 комант, после 10 комнат. Опять же с 7 до 10 комнат разница несущественна - возможна связано, с небольшой разницей в общей площади дома и более меньшими площадями самих комнат. Топовое количество комнат - 3(более 198 тыс. объектов). Интересны объекты с 1/9/13 комнатами, где стоимость ниже аналогичных объектов с меньшим количеством комнат.

### **baths - target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='baths',    
    title='Distribution of the baths',
    text_auto=True,    
    height=500,    
    width=1000,
    nbins=20     
)
fig.show()

In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['baths'], as_index=False)['target_clean'].median(),
    x='baths',   
    y='target_clean',
    color='baths',
    title='Scatterplot between baths and target_clean(median)',       
    height=500,    
    width=1000,
    size='target_clean'       
)
fig.show()

Картинка неоднозначная - да, видим, что при увеличении количества ванных комнат растёт и медианная стоимость недвижимости, но интересны некоторые значения, которые выпадают из общего тренда:

- участок с 10 по 12 включительно цена наоборот снижается - в том числе за счёт того, что снижается средняя площадь недвижимости как увидим позже
- значения baths с 17/19/20 - через чур низкие - объясняется тем, что данные объекты расположены в штатах с более низкой медианной стоимостью недвижимости(Техас(TX), Флорида(FL)). Представлено немного объектов
- значения 5.2, 4.75, 3.2 - через чур высокие - недвижимость из априори дорогих штатов. Представлено немного объектов
- значения 6.5/8.5 - ниже - из-за того, что основная масса предложений в данной категории из штата Флорида(FL), а это недвижимости типа single family. Если посмотреть на медианную площадь данной недвижимости в штате Флорида и в других штатах, то мы увидим, что во Флориде она существенно меньше(3544 против 6590 sqft). Представлено немного объектов

Основная доля объектов приходится с количеством ванных комнат от 2 до 4(медианное значение 2.25). Зависимость прослеживается.

In [None]:
print(f'Медианная площадь дома 6.5/8.5 в других штатах - {df_estate[(df_estate["state"]!="FL") & ((df_estate["propertyType"]=="single family")) & ((df_estate["baths"]==8.50) | (df_estate["baths"]==6.50))]["sqft"].median()}')

print(f'Медианная площадь дома 6.5/8.5 в штатае FL - {df_estate[(df_estate["state"] == "FL") & ((df_estate["propertyType"]=="single family")) & ((df_estate["baths"]==8.50)|(df_estate["baths"]==6.50))]["sqft"].median()}')

### **sqft - target_clean**

Признак sqft имеет большой разброс(квадратичное отклонение 772338) - от 0 до 456602500 квадратных фунтов, при этом медианное значение равняется 1800. Пока никаких манипуляций с ним производить не будем, но учтём этот момент на будущее.

In [None]:
df_estate['sqft'].describe()

In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['age'], as_index=False)['sqft'].median(),
    y='sqft',   
    x='age',
    color='sqft',
    title='Scatterplot between age and sqft(median)',       
    height=500,    
    width=1000,
    #size='sqft'       
)
fig.show()

Интересную информацию даёт график зависимости медианной площади недвижимости в зависимости от возраста:

- старые дома(более 100-120 лет - старше 1900 г) имеют более большой диапазон в площадях домов, они разнятся от года к году, много домов большой площади, далее они приходят к более единой медианной площади разнявшихся несильно. Отметим, что если необходим дом с большой площадью, то стоит его подыскивать именно в этой категории.
- период 90-100 лет(1922-1932 гг) - замечено увеличение площадей дома(в среднем с 1560 до 1800) - как раз в Америке совпал данный период с бурным экономическим ростом, закончившись великой депрессией 1929г.
- период 80-90 лет(1932-1942 гг) - снижение медианных площадей(до 1344) опять же вызванных экономическим кризисом
- период 58-80 (1942-1964 гг) - бурный рост площадей до 1700 совпавшим с экономическим ростом
- периоды 49-58(1964-1980 гг) - снижение до 1426(1973 г. - нефтяной кризис), 1975-1981(снижение до 1477 с ростом в 1976)
- период 20-49(1981-2000гг) - бурный рост до 2130
- период 0-20 (2000-2022гг) - наблюдалось снижение(до 1700) на фоне кризиса в Америке в нулевых, далее взлёт до 2506 и коррекция к 2018 с тенденцией на уменьшение площади


In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['baths'], as_index=False)['sqft'].median(),
    y='sqft',   
    x='baths',
    color='baths',
    title='Scatterplot between baths and sqft(median)',       
    height=500,    
    width=1000,
    size='sqft'       
)
fig.show()

Ранее мы рассматривали зависимость целевой переменной от количества ванных комнат и выявили объекты, у которых стоимость недвижимости снижалось после достижения ванных комнат 9 и  до 15, и мы выдвигали гипотезу, что с ростом ванных комнат растёт и цена недвижимости, но при достижении числа 9(и вплоть до 15)начинается снижение медианной площади недвижимости - график подтвердил наши догадки.


In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['propertyType'], as_index=False)['sqft'].median().sort_values(by=['sqft'], ascending=False),
    x='propertyType',
    y='sqft',
    color='propertyType',
    text='sqft', 
    orientation='v',
    title='Median value of the sqft from the propertyType',
    height=500, 
    width=1000   
)

fig.show()

Ожидаемые ТОП типов недвижимости по площадям:

- multi family - 2200
- traditional - 2144
- single detached - 2054
- single family - 1918

Наимение это condo(1197), coop(1200), high rise(1260)

### **stories -target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='stories',    
    title='Distribution of the stories',
    text_auto=True,    
    height=500,    
    width=1000,
    nbins=40     
)
fig.show()

In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['stories'], as_index=False)['target_clean'].median(),
    x='stories',   
    y='target_clean',
    color='stories',
    title='Scatterplot between stories and target_clean(median)',       
    height=500,    
    width=1000,
    size='target_clean'       
)
fig.show()

Основная часть недвижимости расположена на 2-3 этажах, медианное значение - 1 этаж, что вполне объяснимо так как это частные дома. Имеется плавная прямая зависимость стоимости от этажности строения.

### **heating-target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='heating',    
    title='Distribution of the heating',
    text_auto=True,    
    height=500,    
    width=1000        
)
fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['heating'], as_index=False)['target_clean'].median().sort_values(by=['target_clean'], ascending=False),
    x='heating',
    y='target_clean',
    color='heating',
    text='target_clean', 
    orientation='v',
    title='Median value of the target_clean from the heating',
    height=500, 
    width=1000   
)

fig.show()

Преобладающая часть недвижимость с отоплением типа forced air - медианная стоимость такой недвижимости - $337188, самая дорогая недвижимость с central air/central - $392450/$359000, а с электрическим отоплением(electric) наименьшая - $270000.

### **cooling - target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='cooling',    
    title='Distribution of the cooling',
    text_auto=True,    
    height=500,    
    width=1000        
)
fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['cooling'], as_index=False)['target_clean'].median().sort_values(by=['target_clean'], ascending=False),
    x='cooling',
    y='target_clean',
    color='cooling',
    text='target_clean', 
    orientation='v',
    title='Median value of the target_clean from the cooling',
    height=500, 
    width=1000   
)

fig.show()

### **parking - target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='parking',    
    title='Distribution of the parking',
    text_auto=True,    
    height=500,    
    width=1000        
)
fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['parking'], as_index=False)['target_clean'].median().sort_values(by=['target_clean'], ascending=False),
    x='parking',
    y='target_clean',
    color='parking',
    text='target_clean', 
    orientation='v',
    title='Median value of the target_clean from the parking',
    height=500, 
    width=1000   
)

fig.show()

Более 2/3 недвижимости в признаке parking представлены attached(пристроенный гараж) с медианной стоимостью $32500. Интересно, что имеется недвижимость без парковочного места(0) и её стоимость $1100000, что странно, но это объясняется тем, что данная недвижимость представлена из престижного штата Калифорния(CA). 

In [None]:
df_estate.info()

### **rating_mean/schools_count - target_clean** 

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='rating_mean',    
    title='Distribution of the rating_mean',
    text_auto=True,    
    height=500,    
    width=1000,
    nbins=40      
)
fig.show()

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='schools_count',    
    title='Distribution of the schools_count',
    text_auto=True,    
    height=500,    
    width=1000,
    nbins=40        
)
fig.show()

In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['rating_mean'], as_index=False)['target_clean'].median().sort_values(by=['target_clean'], ascending=False),
    x='rating_mean',   
    y='target_clean',
    color='rating_mean',
    title='Scatterplot between rating_mean and target_clean(median)',       
    height=500,    
    width=1000,
    size='target_clean'       
)
fig.show()

In [None]:
fig = px.bar(
    data_frame= df_estate.groupby(['state'], as_index=False)['rating_mean'].median().sort_values(by=['rating_mean'], ascending=False),
    x='state',
    y='rating_mean',
    color='state',
    text='rating_mean', 
    orientation='v',
    title='Median value of the rating_mean from the state',
    height=500, 
    width=1000   
)

fig.show()

In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['schools_count'], as_index=False)['target_clean'].median().sort_values(by=['target_clean'], ascending=False),
    x='schools_count',   
    y='target_clean',
    color='schools_count',
    title='Scatterplot between schools_count and target_clean(median)',       
    height=500,    
    width=1000,
    size='target_clean'       
)
fig.show()

In [None]:
df_estate['rating_mean'].describe()

In [None]:
df_estate['distance_mean'].describe()

Средний рейтинг школ - 5.18, медианное количество школ около объекта недвижимости - 5.18, расстояние до которых 1.75 мили. От рейтинга школы зависимость целевой переменной прослеживается, но слабая, а вот количество школ в общем не влияет на цену недвижимости, но имеются отдельные выбросы не входящий в общий тренд.

### **age - target_clean**

In [None]:
fig = px.histogram(
    data_frame=df_estate,
    x='age',    
    title='Distribution of the age',
    text_auto=True,    
    height=500,    
    width=1000,
    nbins=50,
    marginal='box'     
)
fig.show()

In [None]:
fig = px.scatter(
    data_frame=df_estate.groupby(['age'], as_index=False)['target_clean'].median(),
    x='age',   
    y='target_clean',
    color='age',
    title='Scatterplot between age and target_clean(median)',       
    height=500,    
    width=1000,
    #size='target_clean'       
)
fig.show()

По возрасту недвижимости преобладают объекты 30-39 лет(медианный возраст - 38 лет). В среднем с увеличением возраста недвижимости прослеживается тенденция к уменьшению её стоимости, но довоенная недвижимость(80-87 лет) также держится в цене. Вообщем, что касаемо объектов старше 100 лет, то их можно разделить на два класса - те которые имеют цену ниже рыночной - возможно это объекты требующие вложений/реставрации/расположенных в непристижных районах и второй класс - те, которые стоят существенно дороже - какие-то экслюзивные варианты, также имеющие большую площадь/либо большой земельный участок/лучшую локацию.

Опишем типичный объект из нашего датасета: этот объект является одноэтажным(stories) домом для одной семьи(single family) площадью 1800 квадратных фунтов(sqft) и площадью участка(lotsize) 10890 квадратных фунтов, имеется пристроенный гараж(attached), принудительное воздушное отопление(forced air), 3 комнаты(beds) и 2.5 ванны комнаты(baths), возраст дома 38 лет, рядом(около 1.75 миль) находятся 3 школы(schools_count) со средним рейтингом (rating_mean) равным 5.17. Объект в статусе для продажи(for sale) и оценивается около $327018.

### Статистический анализ данных

Проверим гипотезу: "Влияет ли количество школ (>3) на цену?"

In [None]:
from scipy.stats import mannwhitneyu, normaltest, pearsonr, spearmanr
# гипотеза: "Влияет ли количество школ (>3) на цену?"
group_many_schools = df_estate[df_estate['schools_count'] > 3]['target_clean']
group_few_schools = df_estate[df_estate['schools_count'] <= 3]['target_clean']

stat, p_value = mannwhitneyu(group_many_schools, group_few_schools, alternative='greater')

print(f"1. Тест Манна-Уитни (Влияние школ):")
print(f"   Средняя цена (>3 школ): ${group_many_schools.mean():,.0f}")
print(f"   Средняя цена (<=3 школ): ${group_few_schools.mean():,.0f}")
print(f"   P-value: {p_value:.4e}")

if p_value < 0.05:
    print("Вывод: Количество школ статистически значимо влияет на цену (отвергаем H0).")
else:
    print("Вывод: Значимой разницы не найдено.")


Сравним корреляцию Пирсона (линейная) и Спирмена (ранговая/нелинейная) для ключевого признака sqft. Если Спирмен > Пирсона, значит связь нелинейная.

In [None]:
feature = 'sqft'
target = 'target_clean'

# Удаляем выбросы для честности теста
clean_data = df_estate[(df_estate[feature] < 20000) & (df_estate[target] < 5000000)]

corr_pearson, p_pearson = pearsonr(clean_data[feature], clean_data[target])
corr_spearman, p_spearman = spearmanr(clean_data[feature], clean_data[target])

print(f"Анализ природы зависимости (sqft vs price):")
print(f"   Корреляция Пирсона (Линейная): {corr_pearson:.3f}")
print(f"   Корреляция Спирмена (Нелинейная): {corr_spearman:.3f}")

diff = corr_spearman - corr_pearson
print(f"   Разница: {diff:.3f}")

if diff > 0.05:
    print("   Ранговая корреляция заметно выше линейной.")
    print("   Это статистически доказывает, что зависимость цены от площади не является строго линейной")
else:
    print("   Зависимость близка к линейной.")


#### Проверим статистически Влияние рейтинга школ на цену недвижимости

Ранее мы выяснили, что количество школ влияет на цену. 
Теперь проверим, влияет ли средний рейтинг школ (rating_mean).
Разделим дома на две группы: "Хорошие школы" (rating > 7) и "Обычные" (rating <= 7).

In [None]:
# Разделим дома на две группы: "Хорошие школы" (rating > 7) и "Обычные" (rating <= 7).

high_rating = df_estate[df_estate['rating_mean'] >= 7]['target_clean']
low_rating = df_estate[df_estate['rating_mean'] < 7]['target_clean']

# Тест Манна-Уитни
stat_school, p_school = mannwhitneyu(high_rating, low_rating, alternative='greater')

print(f"Тест влияния рейтинга школ (High > 7 vs Low < 7):")
print(f"   Медианная цена (Top Schools): ${high_rating.median():,.0f}")
print(f"   Медианная цена (Avg Schools): ${low_rating.median():,.0f}")
print(f"   P-value: {p_school:.4e}")

if p_school < 0.05:
    print("   Вывод: Дома рядом с высокорейтинговыми школами стоят статистически значимо дороже.")
    print("   Это подтверждает важность признака `rating_mean` для модели.")
else:
    print("   Вывод: Значимой разницы не найдено.")



#### Проверим гипотезу: "Старый дом с ремонтом стоит дороже старого дома без ремонта".

Возьмем дома старше 30 лет.
Группа 1: Был ремонт за последние 15 лет (age_remodeled < 15).
Группа 2: Ремонта не было давно (age_remodeled > 30).

In [None]:
old_houses = df_estate[df_estate['age'] > 30]

renovated = old_houses[old_houses['age_remodeled'] < 15]['target_clean']
original = old_houses[old_houses['age_remodeled'] > 30]['target_clean']

if len(renovated) > 0 and len(original) > 0:
    stat_renov, p_renov = mannwhitneyu(renovated, original, alternative='greater')

    print(f"5. Тест эффективности реновации (для домов старше 30 лет):")
    print(f"   Медиана (Недавний ремонт): ${renovated.median():,.0f}")
    print(f"   Медиана (Без ремонта):     ${original.median():,.0f}")
    
    # Считаем "Премию за ремонт" в процентах
    premium = (renovated.median() - original.median()) / original.median() * 100
    
    print(f"   P-value: {p_renov:.4e}")
    
    if p_renov < 0.05:
        print(f"   Вывод: Реновация повышает стоимость старого жилья. 'Премия за ремонт' составляет ~{premium:.1f}%.")
    else:
        print("   Вывод: Реновация не дает статистически значимого прироста цены.")
else:
    print("   Недостаточно данных для проверки гипотезы о реновации.")

### Формируем автоматическую визуализацию датасета с помощью D-Tale

In [None]:
# Интерактивный аудит данных

if GENERATE_DTALE:
    print("Очистка старых процессов D-Tale...")
    global_state.cleanup()
    dtale_app.USE_COLAB = True 
    d = dtale.show(df_estate)
    print(f"Интерактивный отчет доступен по ссылке: {d._main_url}")
    logging.info(f"Интерактивный отчет D-Tale доступен по ссылке: {d._main_url}")


### **Отбор признаков**

В нашем датасете сформировано 24 признака, 9 из которых имеют тип object, закодируем их, далее полученные признаки будем приводить к одному виду - нормировать/стандартизировать т.к. числовые величины, которыми описываются признаки имеют разный порядок и более большие по модулю сбивают модель в свою сторону. Для начала построим матрицу корреляции для обнаружения линейной связи между целевым признаком и предикторами, а также признаки, которые сильно закоррелированные между собой:

In [None]:
df_estate.info()

In [None]:
# строим матрицу корреляции
fig, axes = plt.subplots(figsize=(24, 10))
sns.heatmap(round(df_estate.corr(method='spearman', numeric_only=True), 2), annot=True)

Видим корреляцию целевого признака с:
- price_sqft - 0.66
- sqft - 0.48
- baths - 0.39
- rating_mean - 0.33
- beds - 0.24

заметны сильноскореллированные признаки, такие как, age/age_remodeled(0.83)  - часть из них придётся убрать. Остаётся вопрос о спорном признаке price_sqft - через который как бы происходит утечка информации о целевом признаке, поэтому удалим его. 

В наших данных имеются несколько признаков ниже, которые сообщают нам одну и ту же информацию, а именно о локации объекта недвижимости - данный фактор существенен для определения стоимости недвижимости:

- city
- state
- zipcode
- county
- latitude
- longitude
- street

Все признаки типа object, zipcode, latitude, longitude - оставим эти три признака опеределяющих местоположение, остальные удалим. Также стоит заметить, что признак street использовать не получиться из-за большого количества уникальных значений и при кодировании получим очень много признаков.

Подготовим данные: удалим часть предикторов, необходимые закодируем, далее выборку разделим на тренировочную и тестовую в соотношении 70/30, далее нормализуем данные.

In [None]:
X = df_estate.drop(['city', 'street', 'state', 'county', 'age_remodeled', 'price_sqft', 'target_clean', 'target_clean_log'], axis=1)
y = df_estate['target_clean']
# Преобразуем zipcode в целочисленный тип
X['zipcode'] = pd.to_numeric(X['zipcode'], errors='coerce').fillna(0).astype(int)

object_columns = [s for s in X.columns if X[s].dtypes == 'object']
X = pd.get_dummies(X, columns=object_columns, drop_first=True)

X_train, X_test, y_train, y_test = model_selection.train_test_split(
    X, y, 
    test_size=0.30, 
    random_state=RANDOM_SEED,
    shuffle=True
)

# инициализируем нормализатор RobustScaler
r_scaler = preprocessing.RobustScaler()

# кодируем исходный датасет
X_train_scal = r_scaler.fit_transform(X_train)

# Преобразуем промежуточный датасет в полноценный датафрейм для визуализации
X_train_scal = pd.DataFrame(X_train_scal, columns=X_train.columns)
X_test_scal = pd.DataFrame(r_scaler.transform(X_test), columns=X_test.columns)

In [None]:
X_train_scal.shape

## 4. Предварительный анализ моделей и Baseline

### **Линейная регрессия**

Для начала сформируем базовую модель, которую будем улучшать базовая модель будет строиться на всех признаках (59), далее производим предсказание - на тренировочных и на тестовых данных и проверяем метрики. 

В качестве метрик используем три метрики - MAE(используем больше для себя - для понимания в абсолютных величинах на сколько в среднем ошибается модель, данную величину легко сравнить с медианной стоимостью недвижимости), MSE и R2 для сравнения моделей между собой.

In [None]:
def metrics_func(y_train, y_train_pred, y_test, y_test_predict, model_name="Unnamed Model", exec_time=None):
    """
    Вычисляет метрики, пишет в лог и сохраняет в таблицу экспериментов.
    Добавлен учет времени выполнения.
    """
    
    # 1. Вычисляем метрики
    mae_train = mean_absolute_error(y_train, y_train_pred)
    mae_test = mean_absolute_error(y_test, y_test_predict)
    
    mse_train = mean_squared_error(y_train, y_train_pred)
    mse_test = mean_squared_error(y_test, y_test_predict)
    
    r2_train = r2_score(y_train, y_train_pred)
    r2_test = r2_score(y_test, y_test_predict)
    
    # Форматирование времени (сек -> мин:сек)
    if exec_time is not None:
        if exec_time < 60:
            time_str = f"{exec_time:.2f} sec"
        else:
            mins, secs = divmod(exec_time, 60)
            time_str = f"{int(mins)} min {int(secs)} sec"
    else:
        time_str = "N/A"
    
    # 2. Формируем красивое сообщение для лога
    log_msg = (
        f"\n{'='*65}\n"
        f"MODEL: {model_name}\n"
        f"{'-'*65}\n"
        f"{'Metric':<10} | {'Train':>20} | {'Test':>20}\n"
        f"{'-'*65}\n"
        f"{'MAE':<10} | {mae_train:>20,.2f} | {mae_test:>20,.2f}\n"
        f"{'MSE':<10} | {mse_train:>20,.0f} | {mse_test:>20,.0f}\n"
        f"{'R2':<10} | {r2_train:>20.4f} | {r2_test:>20.4f}\n"
        f"{'-'*65}\n"
        f"{'Time':<10} | {time_str:>43}\n" # Выводим время внизу
        f"{'='*65}\n"
    )
    
    # Вывод
    print(log_msg)
    logging.info(log_msg)
    
    # 3. Сохраняем в глобальный список
    EXPERIMENTS_DATA.append({
        'Model': model_name,
        'R2 Score (Train)': round(r2_train, 3),
        'R2 Score (Test)': round(r2_test, 3),
        'MAE (Train)': round(mae_train, 0),
        'MAE (Test)': round(mae_test, 0),
        'MSE (Train)': round(mse_train, 0),
        'MSE (Test)': round(mse_test, 0),
        'Execution Time': time_str  
    })

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
model_base = LinearRegression()
model_base.fit(X_train_scal, y_train)
y_train_predict = model_base.predict(X_train_scal)
y_test_predict = model_base.predict(X_test_scal)

end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
metrics_func(y_train, y_train_predict, y_test, y_test_predict, model_name="LinearRegression (baseline)", exec_time=elapsed_time)

Базовая модель показала не лучшие метрики, т.к. абсолютная ошибка в размере более $258703 является очень большой. 

Коэффицент детерминации не сильно различается для тренировочных (0.302) и тестовых данных (0.306), что говорит о том, что модель смогла уловить в должной мере зависимости, но скорее всего зависимость сложнее. 

Поробуем улучшить метрики, а именно обучить модель на отобранных лучших признаках, для этого используем RFECV (Рекурсивное исключение признаков с кросс-валидацией) — Алгоритм берет все признаки, обучает модель, выкидывает самый слабый признак, снова обучает, проверяет точность на кросс-валидации. И так, пока не найдет пик точности.

In [None]:
# Важно: используем subset данных (10%) для того чтобы модель не работала слишком долго
RFECV_train_size=0.1
# меньше 5 признаков не оставлять
RFECV_min_features=5

print("Запуск автоматического отбора признаков (RFECV)...")

# 1. Используем быстрый эстиматор (RandomForest с ограничениями)
X_sample, _, y_sample, _ = train_test_split(X_train_scal, y_train, train_size=RFECV_train_size, random_state=RANDOM_SEED)

estimator = RandomForestRegressor(n_estimators=50, max_depth=5, n_jobs=SAFE_N_JOBS, random_state=RANDOM_SEED)

# 2. Настраиваем RFECV
# step=1: удаляем по 1 признаку за шаг
selector = RFECV(estimator, step=1, cv=KFold(3), scoring='r2', min_features_to_select=RFECV_min_features, n_jobs=SAFE_N_JOBS)
selector.fit(X_sample, y_sample)

print(f"Оптимальное количество признаков: {selector.n_features_}")
logging.info(f"Оптимальное количество признаков по RFECV: {selector.n_features_}")


# 3. Визуализация процесса
plt.figure(figsize=(10, 6))
plt.xlabel("Количество признаков")
plt.ylabel("R2 Score (Cross-Validation)")
plt.plot(range(5, len(selector.cv_results_['mean_test_score']) + 5), selector.cv_results_['mean_test_score'])
plt.title("Зависимость точности от количества признаков")
plt.grid()
plt.show()

# 4. Сохраняем список лучших признаков
best_features = X_train_scal.columns[selector.support_]
print(f"Отобранные признаки: {list(best_features)}")
logging.info(f"Отобранные признаки: {list(best_features)}")

In [None]:
# Определяем количество признаков
feature_num = selector.n_features_

selector = feature_selection.SelectKBest(feature_selection.f_regression, k=feature_num)
selector.fit(X_train_scal, y_train)
best_features = selector.get_feature_names_out()
best_features

Первой построим линейную регрессию.

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
model_1 = LinearRegression()
model_1.fit(X_train_scal[best_features], y_train)
y_train_predict = model_1.predict(X_train_scal[best_features])
y_test_predict = model_1.predict(X_test_scal[best_features])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
metrics_func(y_train, y_train_predict, y_test, y_test_predict, model_name=f"LinearRegression (Top-{feature_num} features)", exec_time=elapsed_time)

Модель, построенная на лучших признаках показала стабильно метрику на тесте $R^2=0.247$, что хуже, чем модель на всех признаках,  улавливаемая закономерность линейной модели стала еще ниже. 


Наблюдаемый эффект ($R^2Test > R^2 Train$) для линейных моделей свидетельствует об отсутствии переобучения, но подтверждает сильное недообучение (Underfitting). Линейная модель не обладает достаточной сложностью, чтобы охватить структуру данных, и результаты на тесте оказываются лучше лишь из-за статистических флуктуаций в распределении остатков.

Дополнительно проверим гипотезу: Линейность vs Монотонность для обоснования выбора направления поиска лучшей модели
Мы сравним корреляцию Пирсона (линейная) и Спирмена (ранговая/нелинейная) для ключевого признака sqft. Если Спирмен > Пирсона, значит связь нелинейная.

In [None]:
feature_sqft = 'sqft'
target_sqft = 'target_clean'

# Удаляем выбросы
clean_data = df_estate[(df_estate[feature_sqft] < 20000) & (df_estate[target_sqft] < 5000000)]

corr_pearson, p_pearson = pearsonr(clean_data[feature_sqft], clean_data[target_sqft])
corr_spearman, p_spearman = spearmanr(clean_data[feature_sqft], clean_data[target_sqft])

print(f"Анализ природы зависимости (sqft vs price):")
print(f"   Корреляция Пирсона (Линейная): {corr_pearson:.3f}")
print(f"   Корреляция Спирмена (Монотонная): {corr_spearman:.3f}")

diff = abs(corr_spearman - corr_pearson) # Берем модуль разницы

# Интерпретация
print("\n ИНТЕРПРЕТАЦИЯ:")
if diff > 0.1: 
    print("   Разрыв между корреляциями велик. Присутствует сильная нелинейность.")
else:
    print("   Разница между коэффициентами невелика, зависимость монотонная.")

print(f"   Однако, значение корреляции ({corr_pearson:.2f}) является СРЕДНИМ.")
print(f"   Это объясняет, почему простая Линейная Регрессия показывает низкий R2 (~{corr_pearson**2:.2f}).")


Связь линейная (монотонная), но слабая (0.47) из-за фактора локации. В разных штатах наклон прямой (цена за метр) разный. 
Простая линейная регрессия усредняет это и ошибается. Градиентный бустинг же умеет находить локальные зависимости, поэтому его точность выше.

Зависимость 'Площадь -> Цена' сильно варьируется в зависимости от локации, что линейная модель не может учесть без сложных взаимодействий признаков. Поэтому использование ансамблей (например, GradientBoosting) является оправданным.

### DecisionTreeRegressor

Перейдём к модели деревьям решений.

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
tree_model = tree.DecisionTreeRegressor(random_state=RANDOM_SEED)
tree_model.fit(X_train_scal[best_features], y_train)

y_train_pred = tree_model.predict(X_train_scal[best_features])
y_test_pred = tree_model.predict(X_test_scal[best_features])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time

metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"DecisionTreeRegressor (Top-{feature_num} features)", exec_time=elapsed_time)

Данную модель построили на Top лучших признаках, очевидно, что есть явное переобучение модели, т.к. метрика на тесте $R^2=0.497$, а на трейне на тесте $R^2=0.865$. Поэтому соответственно подберём оптимальные параметры глубины дерева, используя метод локтя.

In [None]:
# Диапазон глубин для подбора оптимальной глубины
max_depths = range(7, 20)

def evaluate_depth(depth, X_train, X_test, y_train, y_test):
    model = DecisionTreeRegressor(max_depth=depth, random_state=RANDOM_SEED)
    model.fit(X_train, y_train)
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)
    return round(r2_score(y_train, y_train_pred), 3), round(r2_score(y_test, y_test_pred), 3)

def tree_depths_elbow(X_train, X_test, y_train, y_test):
    print(f"Запуск поиска оптимального глубины дерева (метод локтя)")
    
    # 1. СЧИТАЕМ
    results = joblib.Parallel(n_jobs=SAFE_N_JOBS)(
        joblib.delayed(evaluate_depth)(d, X_train, X_test, y_train, y_test) for d in max_depths
    )
    
    R_2_train, R_2_test = zip(*results)
    
    # 2. ЛОГИКА "ПРАВИЛА ЛОКТЯ" (ELBOW METHOD)
    
    # Находим абсолютный максимум на тесте
    max_test_score = max(R_2_test)
    
    # Задаем допуск (Tolerance). 
    # Готовы пожертвовать 0.005 (0.5%) качества ради простоты модели.
    # Если max = 0.636, то нас устроит любой результат >= 0.631
    tolerance = 0.005 
    threshold = max_test_score - tolerance
    
    optimal_depth = None
    optimal_score = None
    
    # Ищем ПЕРВУЮ (минимальную) глубину, которая пробила порог
    for i, score in enumerate(R_2_test):
        if score >= threshold:
            optimal_depth = list(max_depths)[i]
            optimal_score = score
            break # Останавливаемся, как только нашли "достаточно хорошую" глубину
            
    print(f"Абсолютный максимум R2: {max_test_score}")
    print(f"Выбрана оптимальная глубина (с учетом допуска): {optimal_depth} (R2: {optimal_score})")
    logging.info(f"Выбрана оптимальная глубина дерева (с учетом допуска): {optimal_depth} (R2: {optimal_score})")

    # 3. РИСУЕМ
    fig = go.Figure()
    
    fig.add_trace(go.Scatter(x=list(max_depths), y=R_2_train, name='Train', line=dict(width=3, color='#ff7f0e')))
    fig.add_trace(go.Scatter(x=list(max_depths), y=R_2_test, name='Test', line=dict(width=3, color='#1f77b4')))
    
    # Зеленая линия на ОПТИМАЛЬНОЙ глубине
    fig.add_vline(x=optimal_depth, line_width=2, line_dash="dash", line_color="green")
    
    # Аннотация
    fig.add_annotation(
        x=optimal_depth, y=optimal_score,
        text=f"Optimal Elbow: {optimal_depth}<br>R²: {optimal_score}",
        showarrow=True, arrowhead=1, ax=0, ay=-40,
        bgcolor="white", bordercolor="green"
    )

    fig.update_xaxes(title='Max Depth')
    fig.update_yaxes(title='R² Score')
    fig.update_layout(
        title=f'Tree Depth Optimization (Elbow Rule, Tolerance={tolerance})', 
        height=600, 
        width=800
    )

    fig.show()

    return optimal_depth

# Запуск
best_depth = tree_depths_elbow(X_train_scal, X_test_scal, y_train, y_test)

Выберем оптимальную глубину деревьев (13) и построим модель:

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
tree_model = tree.DecisionTreeRegressor(random_state=RANDOM_SEED, max_depth=best_depth)
tree_model.fit(X_train_scal[best_features], y_train)

y_train_pred = tree_model.predict(X_train_scal[best_features])
y_test_pred = tree_model.predict(X_test_scal[best_features])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time

metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"DecisionTreeRegressor (Elbow method depth = {best_depth})", exec_time=elapsed_time)

Метрики вновь улучшились, $R^2 - 0.62/0.54$, но обратим внимание, что метрика на тренировочных данных лучше более, чем на 13%, что может говорить о переобучении модели и возможно необходимо снизить глубину.

### Ансамблевые методы

Первой ансамблевой моделью будет бэггинг и его разновидность - модель случайного леса.

In [None]:
# бэггинг случайный лес
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
random_forest = ensemble.RandomForestRegressor(n_estimators=200,
                                               max_depth=16,                                               
                                               criterion='squared_error',
                                               random_state=RANDOM_SEED)

random_forest.fit(X_train_scal[best_features], y_train)

y_train_pred = random_forest.predict(X_train_scal[best_features])
y_test_pred = random_forest.predict(X_test_scal[best_features])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time

metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"RandomForestRegressor (Top-{feature_num} features)", exec_time=elapsed_time)

Метрики вновь улучшились, $R^2 - 0.71/0.61$

Следующая модель градиентного бустинга - HistGradientBoostingRegressor:

In [None]:
# Создаем объект класса градиентный бустинг

start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА

hgb = HistGradientBoostingRegressor(
    max_iter=500,              # Вместо n_estimators
    max_depth=9,               
    learning_rate=0.01,
    random_state=RANDOM_SEED
)

# Обучаем модель
hgb.fit(X_train_scal[best_features], y_train)

# Формируем предсказание
y_train_pred = hgb.predict(X_train_scal[best_features])
y_test_pred = hgb.predict(X_test_scal[best_features])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time

metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"HistGradientBoostingRegressor (Top-{feature_num} features)", exec_time=elapsed_time)



Метрики вновь улучшились, $R^2 - 0.527/0.527$

Ещё одна модель бустинга CatBoost:

In [None]:
# модель бустинга CatBoost
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
catmodel = CatBoostRegressor(random_state=RANDOM_SEED, verbose=False)
catmodel.fit(X_train_scal[best_features], y_train)

y_train_pred  = catmodel.predict(X_train_scal[best_features])
y_test_pred = catmodel.predict(X_test_scal[best_features])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time

metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"CatBoostRegressor (Top-{feature_num} features)", exec_time=elapsed_time)


Итого в фаворитах оказываются модели - случайный лес($R^2=0.71/0.61$), градиентный бустинг($R^2=0.53/0.53$) и CatBoost($R^2=0.62/0.61$). Но, вспомним о том, на каких признаках были построены данные модели - 16 лучших предикторов отобранных с помощью RFECV. Попытаемся отобрать важные признаки альтернативным способом.

 Воспользуемся CatBoost для построения модели на всех признаках, а далее отберём топ-предикторы согласно их весам на основе важности признаков CatBoost.

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
catmodel = CatBoostRegressor(random_state=RANDOM_SEED, verbose=False)
catmodel.fit(X_train_scal, y_train)

y_train_pred  = catmodel.predict(X_train_scal)
y_test_pred = catmodel.predict(X_test_scal)
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name="CatBoostRegressor (All features)", exec_time=elapsed_time)

Метрики CatBoost для построения модели на всех признаках улучшились и составили $R^2 - 0.778/0.76$

Попробуем повысить метрики за счет альтернативного определения количества признаков, и выберем лучшие признаки с помощью CatBoost, который использует более продвинутые методы оценки важности признаков (Feature Importance), чем стандартный RandomForest (часто переоценивает признаки с большим количеством уникальных значений).

In [None]:
print("Запуск отбора признаков на основе важности CatBoost...")

# 1. Обучаем CatBoost на всех данных (это быстро и точно)
# Используем параметры для скорости (меньше итераций)
selector_model = CatBoostRegressor(
    iterations=500, 
    random_state=RANDOM_SEED, 
    verbose=0
)
selector_model.fit(X_train_scal, y_train)

# 2. Используем SelectFromModel
# threshold='median' выберет топ-50% признаков
# threshold='1.25*mean' оставит только самые сильные
# prefit=True говорит, что модель уже обучена
selector = SelectFromModel(selector_model, threshold='median', prefit=True)

# Получаем список лучших признаков
selected_mask = selector.get_support()
best_features_cat = X_train_scal.columns[selected_mask]

print(f"Отобрано признаков: {len(best_features_cat)}")
print(f"Список признаков: {list(best_features_cat)}")
logging.info(f"Отобрано признаков с помощью CatBoost: {len(best_features_cat)}")
logging.info(f"Список признаков: {list(best_features_cat)}")


# 3. Визуализация (чтобы убедиться)
feature_imp = pd.DataFrame({
    'Feature': X_train_scal.columns,
    'Importance': selector_model.get_feature_importance()
}).sort_values(by='Importance', ascending=False)

# Выводим топ-20
import plotly.express as px
fig = px.bar(feature_imp.head(20), x='Importance', y='Feature', orientation='h', 
             title="Feature Importance (CatBoost Full Data)")
fig.show()

new_best = best_features_cat
features_weight_num = len(best_features_cat)

Как видим по степени значимости на первом месте площадь недвижимости(sqft). Далее построим отмеченные ранее модели на новых топ признаках.

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
catmodel = CatBoostRegressor(random_state=RANDOM_SEED, verbose=False)
catmodel.fit(X_train_scal[new_best], y_train)

y_train_pred  = catmodel.predict(X_train_scal[new_best])
y_test_pred = catmodel.predict(X_test_scal[new_best])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"CatBoostRegressor (Top-{features_weight_num} features)", exec_time=elapsed_time)

Метрики CatBoost для построения модели на 30 лучших признаках немного снизились и составили $R^2 - 0.778/0.76$

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
random_forest = ensemble.RandomForestRegressor(n_estimators=200,
                                               max_depth=13,                                               
                                               criterion='squared_error',
                                               random_state=RANDOM_SEED)

random_forest.fit(X_train_scal[new_best], y_train)

y_train_pred = random_forest.predict(X_train_scal[new_best])
y_test_pred = random_forest.predict(X_test_scal[new_best])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"RandomForestRegressor (Top-{features_weight_num} features)", exec_time=elapsed_time)

Метрики RandomForest для построения модели на 30 лучших признаках улучшились и составили $R^2 - 0.76/0.7$

In [None]:
# визуализируем важные признаки в дереве решений
oo = pd.DataFrame([random_forest.feature_importances_], columns=X_train_scal[new_best].columns)
fig = px.bar( 
    x=list(oo.loc[0].sort_values(ascending=False).index),
    y=round(oo.loc[0].sort_values(ascending=False), 2),
    text_auto=True,
    title='ТОП-11 features for RandomForest',
    height=500, 
    width=1000,
    labels={'x':'feature_importances', 'y':'weight'}
       
)
fig.show()

In [None]:
# Создаем объект класса HistGradientBoostingRegressor(современная реализация)
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
hgb = HistGradientBoostingRegressor(
    max_iter=500,              # Вместо n_estimators
    max_depth=9,               
    learning_rate=0.01,
    random_state=RANDOM_SEED
)

# Обучаем модель
hgb.fit(X_train_scal[new_best], y_train)

# Формируем предсказание
y_train_pred = hgb.predict(X_train_scal[new_best])
y_test_pred = hgb.predict(X_test_scal[new_best])
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name=f"HistGradientBoostingRegressor (Top-{features_weight_num} features)", exec_time=elapsed_time)

Метрики HistGradientBoosting для построения модели на 30 лучших признаках улучшились и составили $R^2 - 0.660/0.657$

In [None]:
# визуализируем важные признаки в градинетном бустинге

# 1. Считаем Permutation Importance
# n_repeats=5 достаточно для быстрой оценки
print("Расчет важности признаков (Permutation Importance)...")
result = permutation_importance(
    hgb, 
    X_train_scal[new_best], 
    y_train, 
    n_repeats=5, 
    random_state=RANDOM_SEED, 
    n_jobs=-1
)

# 2. Собираем DataFrame
# Используем result.importances_mean (среднее падение метрики)
importance_df = pd.DataFrame({
    'Feature': X_train_scal[new_best].columns,
    'Importance': result.importances_mean
}).sort_values(by='Importance', ascending=False)

# 3. Рисуем (стиль Plotly)
fig = px.bar( 
    importance_df,
    x='Feature',
    y='Importance',
    text_auto='.4f',
    title=f'Permutation Importance for HistGradientBoosting (Top-{features_weight_num})',
    height=500, 
    width=1000,
    labels={'Importance':'Mean Accuracy Decrease'}
)
fig.show()

In [None]:
# Создание матриц наблюдений в формате DMatrix
dtrain = xgb.DMatrix(X_train_scal[new_best], label=y_train, feature_names=new_best.tolist())
dtest = xgb.DMatrix(X_test_scal[new_best], label=y_test, feature_names=new_best.tolist())

# Гиперпараметры модели
xgb_pars = {'min_child_weight': 20, 'eta': 0.1, 'colsample_bytree': 0.9, 
            'max_depth': 6, 'subsample': 0.9, 'lambda': 1, 'nthread': -1, 
            'booster' : 'gbtree', 'eval_metric': 'rmse', 'objective': 'reg:squarederror'
           }
# Тренировочная и валидационная выборка
watchlist = [(dtrain, 'train'), (dtest, 'valid')]

start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
# Обучаем модель XGBoost
model_xgb = xgb.train(
    params=xgb_pars, #гиперпараметры модели
    dtrain=dtrain, #обучающая выборка
    num_boost_round=300, #количество моделей в ансамбле
    evals=watchlist, #выборки, на которых считается матрица
    early_stopping_rounds=20, #раняя остановка
    maximize=False, #смена поиска максимума на минимум
    verbose_eval=10 #шаг, через который происходит отображение метрик
)

y_train_predict = model_xgb.predict(dtrain)
y_test_predict = model_xgb.predict(dtest)
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
metrics_func(y_train, y_train_predict, y_test, y_test_predict, model_name=f"XGBRegressor (Top-{features_weight_num} features)", exec_time=elapsed_time)

In [None]:
fig, ax = plt.subplots(figsize = (9,9))
xgb.plot_importance(model_xgb, ax = ax, height=0.5)

## 5. Оценка построенных моделей

**Промежуточный вывод:**
 1.  Простые линейные модели показывают среднее качество ($R^2 \approx 0.30$), что говорит о сложной нелинейной природе данных.
 2.  Базовые ансамбли (RandomForest/CatBoost) "из коробки" дают неплохой результат ($R^2 \approx 0.75-0.78$).
 3.  **Проблема:** Текущий подход требует ручной обработки признаков перед каждой моделью, что неудобно и чревато ошибками.
 4.  Отбор признаков на полном наборе данных с помощью градиентного бустинга (CatBoost) оказался более эффективным. Меньшее количество признаков (11 против 16) дало более высокое качество, что говорит об успешном отсеивании шума. Это подтверждает, что для данной задачи качество признаков важнее их количества.

**Дальнейшие шаги:** Для улучшения результата и создания надежного решения мы перейдем к использованию **Sklearn Pipelines**, добавим продвинутую обработку категорий (`TargetEncoder`) и проведем оптимизацию гиперпараметров.


**Анализ результатов базовых моделей:**
Мы протестировали простые подходы на очищенных данных.
1.  **Провал автоматического отбора признаков:** Модель `LinearRegression (Top-25)` показала худший результат ($R^2=0.25$) по сравнению с моделью на всех признаках ($R^2=0.30$).
*   *Причина:* Стандартные методы отбора (по корреляции) исключили географические признаки (`latitude`, `longitude`), так как их связь с ценой нелинейна. Это доказывает, что для недвижимости нельзя удалять гео-данные.
2.  **Ограниченность One-Hot Encoding:** Базовые ансамбли (RF, CatBoost) показали результат $R^2 \approx 0.60-0.75$. Они не смогли полностью раскрыть потенциал данных из-за высокой кардинальности признака `zipcode` (4000+ уникальных значений), который сложно эффективно закодировать стандартными методами.
3.  **Проблема:** Текущий подход требует ручной обработки признаков перед каждой моделью, что неудобно и чревато ошибками.

**Решение:** Для улучшения метрик мы переходим к использованию **Pipeline** с применением **Target Encoding** для почтовых индексов.


### Предварительно находим строки с аномально большими остатками (выбросы)

На основе анализа стандартизированных остатков (Z-score) мы выявиляем объекты с экстремально большой ошибкой предсказания.

Для этого обучим быструю линейную модель с использованием *Target Encoding* и рассчитаем Z-оценки ошибок. Далее найдем конкретные примеры, где модель ошибается сильнее всего (экстремальные выбросы).


In [None]:
# 1. Подготовка данных
# Убираем явно лишние поля, но оставляем категориальные, которые хотим закодировать
cols_to_drop = ['city', 'street', 'state', 'county', 'age_remodeled', 'price_sqft', 'target_clean']
X = df_estate.drop(cols_to_drop, axis=1)
y = df_estate['target_clean']

# 2. Определяем категориальные признаки автоматически
cat_cols = X.select_dtypes(include=['object', 'category']).columns.tolist()

print(f"Кодируем признаки с использованием Target Encoding: {cat_cols}")

# 3. Применяем Target Encoding
encoder = TargetEncoder(cols=cat_cols)
X_encoded = encoder.fit_transform(X, y)

# 4. Обучение быстрой модели (LinearRegression из sklearn)
model = LinearRegression(n_jobs=SAFE_N_JOBS)
model.fit(X_encoded, y)

# 5. Расчет остатков (Residuals)
y_pred = model.predict(X_encoded)

# Считаем "чистые" остатки
residuals = y - y_pred

# Стандартизируем остатки (Z-score): (остаток - среднее) / стандартное_отклонение
# Это аналог стьюдентизированных остатков для поиска выбросов
residuals_std = (residuals - residuals.mean()) / residuals.std()

# 6. Поиск выбросов
max_error_idx = residuals_std.idxmax()
min_error_idx = residuals_std.idxmin()

print("\n=== РЕЗУЛЬТАТЫ ПОИСКА ВЫБРОСОВ ===")
print(f"Максимальное отклонение (Z-score): {residuals_std[max_error_idx]:.2f}")
print(f"Минимальное отклонение (Z-score):  {residuals_std[min_error_idx]:.2f}")

# Вывод строк из оригинального датафрейма
outliers = df_estate.loc[[max_error_idx, min_error_idx]]

print("\nСтроки с самыми большими аномалиями:")
display(outliers)

In [None]:
# Удаляем найденные строки по их индексам
df_estate = df_estate.drop(outliers.index, errors='ignore')

print(f"Удалено строк: {len(outliers)}")
print(f"Новый размер датасета: {df_estate.shape}")

По результатам анализа остатков (`residuals`) были определены индексы объектов с максимальным положительным и отрицательным отклонением. Данные точки классифицированы как выбросы, не соответствующие общему распределению целевой переменной.

В данной ячейке производится удаление этих объектов из датасета `df_estate`.
* Используется параметр `errors='ignore'`, чтобы избежать ошибок при повторном запуске ячейки.

**Решение:**
Выбираем **консервативный подход**: вместо автоматического удаления всех данных за пределами 3-х сигм, мы удаляем только самые явные, проверенные аномалии. Это позволяет избавиться от шума, сохранив при этом сложные, но валидные примеры для обучения.

## Решение с использованием Pipeline с применением Target Encoding

#### ПОДГОТОВКА ДАННЫХ ДЛЯ ВСЕХ МОДЕЛЕЙ (SINGLE SOURCE OF TRUTH)

In [None]:
# ПОДГОТОВКА ДАННЫХ ДЛЯ ВСЕХ МОДЕЛЕЙ (SINGLE SOURCE OF TRUTH)

print("Начинаем подготовку данных для pipeline ML...")

# 1. Удаляем пропуски в цели
df_model = df_estate.dropna(subset=['target_clean']).copy()

# 2. Глобальная очистка выбросов (Одни правила для всех pipelines)
df_model = df_model[
    (df_model['sqft'] < 20000) & (df_model['sqft'] > 10) & 
    (df_model['lotsize'] < 500000) & 
    (df_model['distance_mean'] < 50) 
]

# Сбрасываем индекс
df_model = df_model.reset_index(drop=True)

# 3. Формируем X и y
cols_to_drop = ['target_clean', 'target_clean_log', 'price_sqft', 'street', 'city', 'county'] 
X = df_model.drop(cols_to_drop, axis=1, errors='ignore')
y = df_model['target_clean']

# 4. Split (Фиксируем RANDOM_SEED)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

# 5. Приводим типы (для TargetEncoder)
# Используем .loc для явного указания
X_train.loc[:, 'zipcode'] = X_train['zipcode'].astype(str)
X_test.loc[:, 'zipcode'] = X_test['zipcode'].astype(str)

print(f"Данные разделены. Train shape: {X_train.shape}, Test shape: {X_test.shape}")

# НАСТРОЙКА ПРЕПРОЦЕССОРА (Один на всех)

# Группировка признаков
numeric_features = ['sqft', 'lotsize', 'beds', 'baths', 'year_built', 
                    'schools_count', 'rating_mean', 'distance_mean', 'age',
                    'latitude', 'longitude']

categorical_features = ['status', 'propertyType', 'heating', 'cooling', 'parking', 'state']
high_cardinality_features = ['zipcode']

# Фильтр на случай отсутствия колонок
numeric_features = [c for c in numeric_features if c in X.columns]
categorical_features = [c for c in categorical_features if c in X.columns]
high_cardinality_features = [c for c in high_cardinality_features if c in X.columns]

# Создаем трансформеры
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', RobustScaler()) 
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='other')),
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))
])

target_enc_transformer = Pipeline(steps=[
    ('target_enc', TargetEncoder()) 
])

# Глобальный препроцессор
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),
        ('target', target_enc_transformer, high_cardinality_features)
    ],
    verbose_feature_names_out=False
)

print("Препроцессор готов к использованию.")

### Pipeline модель с использованием HistGradientBoostingRegressor

В качестве Baseline мы используем HistGradientBoostingRegressor. Это современная, быстрая реализация бустинга в Sklearn (аналог LightGBM), которая обучается в разы быстрее классического GradientBoosting и лучше подходит для нашего объема данных.

In [None]:
# Модель
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА

model_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', HistGradientBoostingRegressor(max_iter=500, random_state=RANDOM_SEED))
])

# Обучение
print("Обучение модели через Pipeline (HistGradientBoostingRegressor)...")
model_pipeline.fit(X_train, y_train)

# Предсказание
y_test_pred = model_pipeline.predict(X_test)
y_train_pred = model_pipeline.predict(X_train)

end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
# Вывод метрик
metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name="PIPELINE HistGradientBoostingRegressor (Baseline)", exec_time=elapsed_time)

# Сохранение в файл
joblib.dump(model_pipeline, './models/histgradientboosting.pkl', compress=3)
print("Модель 'histgradientboosting.pkl' успешно сохранена.")

### Pipeline c подбором гиперпараметров для модели XGBoost

Предпринимаем попытку подобрать гиперпараметры для модели XGBoost с помощью Optuna (быстрее и эффективнее, чем GridSearch).

In [None]:
def objective(trial):
    # 1. Параметры для перебора (XGBoost)
    param = {
        'n_estimators': trial.suggest_int('n_estimators', 500, 2000),
        'max_depth': trial.suggest_int('max_depth', 3, 8),
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.1),
        'subsample': trial.suggest_float('subsample', 0.6, 1.0),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.6, 1.0),
        # Фиксированные параметры
        'tree_method': 'hist',
        'device': 'cuda' if torch.cuda.is_available() else 'cpu',
        'random_state': RANDOM_SEED,
        'verbosity': 0
    }
    
    # 2. Создаем пайплайн с этими параметрами
    trial_model = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('regressor', XGBRegressor(**param))
    ])
    
    # 3. Делаем подвыборку (20% от данных), чтобы поиск шел быстро
    # Stratify не нужен для регрессии
    X_train_sub, _, y_train_sub, _ = train_test_split(
        X_train, y_train, train_size=0.2, random_state=RANDOM_SEED
    )
    
    # Сбрасываем индексы, чтобы TargetEncoder не ругался на несовпадение
    X_train_sub = X_train_sub.reset_index(drop=True)
    y_train_sub = y_train_sub.reset_index(drop=True)
    
    # 4. Обучение и оценка
    trial_model.fit(X_train_sub, y_train_sub)
    
    # Предсказываем на всем тестовом наборе (X_test), чтобы оценка была честной
    preds = trial_model.predict(X_test)
    
    return r2_score(y_test, preds)

start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
print("Запуск оптимизации гиперпараметров (Optuna)...")
# Создаем study и запускаем
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=15) # 15 попыток 

print(f"\nЛучшие гиперпараметры (Optuna): {study.best_params}")
print(f"\nЛучший R2 на тесте подбора гиперпараметров (Optuna): {study.best_value}")
logging.info(f"\nЛучшие гиперпараметры (Optuna): {study.best_params}")
logging.info(f"\nЛучший R2 на тесте подбора гиперпараметров (Optuna): {study.best_value}")

#### Обучение модели XGBoost с лучшими гиперпараметрами, полученными с помощью Optuna

In [None]:
print("Создание финального пайплайна XGBoost с лучшими гиперпараметрами, полученными с помощью Optuna")

# 1. Берем лучшие параметры из исследования Optuna
final_params = study.best_params.copy()

# 2. Добавляем технические параметры для стабильности
final_params.update({
    'tree_method': 'hist',
    'device': 'cuda' if torch.cuda.is_available() else 'cpu', # Используем GPU если есть
    'random_state': RANDOM_SEED,
    'verbosity': 0
})

# 3. Собираем финальный Пайплайн
# Используем тот же preprocessor, что и везде
tuned_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor(**final_params))
])

# 4. Обучаем на X_train
tuned_pipeline.fit(X_train, y_train)

# 5. Проверка метрик
y_test_pred_tuned = tuned_pipeline.predict(X_test)
y_train_pred_tuned = tuned_pipeline.predict(X_train)

end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time

metrics_func(y_train, y_train_pred_tuned, y_test, y_test_pred_tuned, model_name='PIPELINE OPTUNA TUNED XGBOOST', exec_time=elapsed_time)

# # 6. Сохранение в файл
joblib.dump(tuned_pipeline, './models/tuned_xgboost.pkl', compress=3)
print("Модель 'tuned_xgboost.pkl' успешно сохранена.")

### Pipeline модель с использованием StackingRegressor (rf, Catboost и ridge)

Экспериментальный вариант с использованием StackingRegressor на GPU (GPU-ACCELERATED STACKING - Только для машин с NVIDIA GPU)

In [None]:
if USE_GPU:
    start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
    print("Запускаем усиленный стекинг на GPU (rf, Catboost и ridge).")
    # 1. Определяем базовые модели
    # RandomForest: работает на CPU, используем все ядра (n_jobs=-1)
    # CatBoost: работает на GPU, что ускорит бустинг в 20-50 раз
    estimators = [
        ('rf', RandomForestRegressor(n_estimators=100, max_depth=10, random_state=RANDOM_SEED, n_jobs=SAFE_N_JOBS)),
        
        ('cb', CatBoostRegressor(
            iterations=1000,       # Аналог n_estimators, для GPU можно ставить больше (стандарт 1000)
            depth=6,               # Аналог max_depth
            learning_rate=0.1,     # Стандартная скорость обучения
            random_seed=RANDOM_SEED,
            task_type="GPU",       # <--- ВКЛЮЧАЕМ ВИДЕОКАРТУ
            devices='0',           # Используем первую видеокарту
            verbose=0              # Отключаем вывод логов обучения в консоль
        )),
        
        ('ridge', Ridge())
    ]

    # 2. Создаем Стекинг
    # n_jobs=-1 запускает обучение фолдов параллельно. 
    stacking_regressor = StackingRegressor(
        estimators=estimators,
        final_estimator=LinearRegression(),
        n_jobs=1,  # GPU параллелит вычисления, лишние потоки CPU не нужны
        passthrough=False 
    )

    # 3. Пайплайн
    model_pipeline = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('regressor', stacking_regressor)
    ])

    # 4. Обучение
    # Мониторинг в терминале Linux: 'nvidia-smi -l 1'
    model_pipeline.fit(X_train, y_train)

    # 5. Предсказание
    y_test_pred = model_pipeline.predict(X_test)
    y_train_pred = model_pipeline.predict(X_train)
    end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
    elapsed_time = end_time - start_time
    # 6. Метрики
    metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name='PIPELINE STACKING RF CatBoost(GPU) RIDGE', exec_time=elapsed_time)

    # 7. Сохранение
    joblib.dump(model_pipeline, './models/stacking_rf_catboost_ridge.pkl', compress=3)
    print("Модель 'stacking_rf_catboost_ridge.pkl' успешно сохранена.")
else:
    print("GPU не найдена или расчет на GPU отключен пользователем. Пропускаем блок Pipeline STACKING RF CatBoost(GPU) RIDGE.")

# =================================================================
# MODEL: PIPELINE STACKING RF CatBoost(GPU) RIDGE
# -----------------------------------------------------------------
# Metric     |                Train |                 Test
# -----------------------------------------------------------------
# MAE        |           115,784.87 |           120,102.04
# MSE        |       44,724,064,117 |       49,404,044,654
# R2         |               0.8070 |               0.7869
# -----------------------------------------------------------------
# Time       |                                 2 min 9 sec
# =================================================================


### Pipeline модели с использованием StackingRegressor из эстиматоров RandomForestRegressor + HistGradientBoostingRegressor + Ridge

Облегченный вариант модели стекинга с использованием RandomForestRegressor, HistGradientBoostingRegressor и Ridge

In [None]:
start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА

# HistGradientBoostingRegressor
estimators = [
    ('rf', RandomForestRegressor(n_estimators=50, max_depth=10, random_state=RANDOM_SEED, n_jobs=SAFE_N_JOBS)), # Уменьшили деревья до 50 для скорости
    ('hgb', HistGradientBoostingRegressor(random_state=RANDOM_SEED)), 
    ('ridge', Ridge())
]

stacking_regressor = StackingRegressor(
    estimators=estimators,
    final_estimator=Ridge(),
    cv=3, 
    n_jobs=SAFE_N_JOBS # Параллелим процесс
)

model_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', stacking_regressor)
])

print("Обучение StackingRegressor (RandomForest + HistGradientBoosting + Ridge)...")
model_pipeline.fit(X_train, y_train)

# Предсказание
y_test_pred = model_pipeline.predict(X_test)
y_train_pred = model_pipeline.predict(X_train)
end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
elapsed_time = end_time - start_time
# Вывод метрик
metrics_func(y_train, y_train_pred, y_test, y_test_pred, model_name='PIPELINE STACKING RF+histGB+Ridge', exec_time=elapsed_time)

# Сохранение в файл
joblib.dump(model_pipeline, './models/stacking_rf_histgb_ridge.pkl', compress=3)
print("Модель 'stacking_rf_histgb_ridge.pkl' успешно сохранена.")


### Pipeline 4 - с использованием StackingRegressor из Triple XGBoost на GPU

Экспериментальный вариант с использованием StackingRegressor Triple XGBoost на GPU (GPU-ACCELERATED STACKING - Только для машин с NVIDIA GPU)

|Модель| Описание|
|--|---|
| xgb_deep | Глубокая, очень медленная, ловит нюансы|
| xgb_medium | Средняя глубина, баланс|
| xgb_shallow | Поверхностная, быстрая, ловит тренды|

In [None]:
# Экспериментальный вариант с использованием StackingRegressor на GPU

if USE_GPU:
    start_time = time.time()  # <--- ЗАПУСК ТАЙМЕРА
    print("Запускаем усиленный стекинг Triple XGBoost")
    
    # Чтобы стекинг работал, модели должны быть разными.
    # Создадим 3 вариации XGBoost:
    
# --- МОДЕЛИ "ТЯЖЕЛОЙ АРТИЛЛЕРИИ" ---
    
    # 1. "Снайпер" (Глубокая, очень медленная, ловит нюансы)
    # Уменьшаем LR до 0.005, увеличиваем деревья до 7000
    xgb_deep = XGBRegressor(
        n_estimators=7000,
        learning_rate=0.005,     
        max_depth=10,            
        subsample=0.7,
        colsample_bytree=0.7,
        reg_lambda=1,            # L2 регуляризация от переобучения
        tree_method='hist',      
        device='cuda',           
        random_state=RANDOM_SEED,
        verbosity=0
    )

    # 2. "Тактик" (Средняя глубина, баланс) - НОВАЯ МОДЕЛЬ
    # Закрывает "пробел" между глубокой и мелкой моделями
    xgb_medium = XGBRegressor(
        n_estimators=6000,
        learning_rate=0.01,      
        max_depth=6,             # Средняя глубина
        subsample=0.8,
        colsample_bytree=0.8,
        tree_method='hist',      
        device='cuda',           
        random_state=RANDOM_SEED+50,         # Другой seed для разнообразия
        verbosity=0
    )

    # 3. "Сканер" (Поверхностная, быстрая, ловит тренды)
    # Еще больше деревьев, но маленькая глубина
    xgb_shallow = XGBRegressor(
        n_estimators=8000,
        learning_rate=0.02,      
        max_depth=3,             # Совсем неглубокие деревья (меньше переобучения)
        subsample=0.9,
        colsample_bytree=0.9,
        tree_method='hist',      
        device='cuda',           
        random_state=RANDOM_SEED+100,        
        verbosity=0
    )

    # Список моделей (3)
    estimators_gpu = [
        ('xgb_deep', xgb_deep),
        ('xgb_medium', xgb_medium),
        ('xgb_shallow', xgb_shallow)
    ]
    
    # ... далее создание StackingRegressor без изменений ...
    # 3. Создание Стекинга
    stacking_gpu = StackingRegressor(
        estimators=estimators_gpu,
        final_estimator=Ridge(),
        cv=5,       
        n_jobs=1,   # GPU параллелит вычисления, лишние потоки CPU не нужны
        passthrough=False 
    )

    # 4. Сборка пайплайна
    gpu_pipeline = Pipeline(steps=[
        ('preprocessor', preprocessor), 
        ('regressor', stacking_gpu)
    ])

    # 5. Обучение
    gpu_pipeline.fit(X_train, y_train)

    # 6. Оценка
    y_test_pred_gpu = gpu_pipeline.predict(X_test)
    y_train_pred_gpu = gpu_pipeline.predict(X_train)
    end_time = time.time()    # <--- ОСТАНОВКА ТАЙМЕРА
    elapsed_time = end_time - start_time
    metrics_func(y_train, y_train_pred_gpu, y_test, y_test_pred_gpu, model_name='PIPELINE STACKING Triple XGBoost', exec_time=elapsed_time)

    # Сохранение в файл
    joblib.dump(gpu_pipeline, './models/stacking_triple_xgboost.pkl', compress=3)
    print("Модель 'stacking_triple_xgboost.pkl' успешно сохранена.")
else:
    print("GPU не найдена или расчет на GPU отключен пользователем. Пропускаем блок ускоренного стекинга.")


# =================================================================
# MODEL: PIPELINE STACKING Triple XGBoost
# -----------------------------------------------------------------
# Metric     |                Train |                 Test
# -----------------------------------------------------------------
# MAE        |            64,658.78 |            96,222.70
# MSE        |       14,372,935,342 |       37,206,576,062
# R2         |               0.9380 |               0.8395
# -----------------------------------------------------------------
# Time       |                               11 min 21 sec
# =================================================================


Формируем сводную таблицу с итогами

In [None]:
# 1. Формируем DataFrame из накопленных данных
df_results = pd.DataFrame(EXPERIMENTS_DATA)

if not df_results.empty:
    # Сортируем
    df_results = df_results.sort_values(by='R2 Score (Test)', ascending=False).reset_index(drop=True)

    print("=== ИТОГОВАЯ ТАБЛИЦА ЭКСПЕРИМЕНТОВ ===")
    
    # Определяем колонки для раскраски (если они есть в датафрейме)
    r2_cols = [c for c in df_results.columns if 'R2' in c]
    error_cols = [c for c in df_results.columns if 'MAE' in c or 'MSE' in c]

    # Применяем стили
    # R2: Больше = Лучше (viridis: Желтый - хорошо, Фиолетовый - плохо)
    # Errors: Меньше = Лучше (viridis_r: Желтый - хорошо/мало, Фиолетовый - плохо/много)
    styled_results = df_results.style.background_gradient(
        cmap='viridis', 
        subset=r2_cols
    ).background_gradient(
        cmap='viridis_r', 
        subset=error_cols
    ).format({
        # Форматирование чисел для красоты
        'R2 Score (Train)': '{:.3f}',
        'R2 Score (Test)': '{:.3f}',
        'MAE (Train)': '{:,.0f}',
        'MAE (Test)': '{:,.0f}',
        'MSE (Train)': '{:,.2e}', # Научный формат для огромных чисел
        'MSE (Test)': '{:,.2e}'
    })

    display(styled_results)
    
    # --- ЗАПИСЬ В ЛОГ (Текстовая таблица) ---
    # to_string создает красивое текстовое представление таблицы
    table_str = df_results.to_string(index=False, justify='right')
    
    # Считаем общее время (если TOTAL_START_TIME был определен в начале)
    if 'TOTAL_START_TIME' in locals():
        total_elapsed = time.time() - TOTAL_START_TIME
        mins, secs = divmod(total_elapsed, 60)
        total_time_str = f"{int(mins)} min {int(secs)} sec"
    else:
        total_time_str = "N/A"
    
    final_msg = (
        f"\n{'='*80}\n"
        f"FINAL SUMMARY REPORT\n"
        f"{'-'*80}\n"
        f"{table_str}\n"
        f"{'-'*80}\n"
        f"Total Execution Time: {total_time_str}\n"
        f"{'='*80}\n"
    )
    
    logging.info(final_msg)
    
    # Сохраняем CSV
    csv_filename = f"logs/results_{timestamp}.csv"
    df_results.to_csv(csv_filename, index=False)
    print(f"Отчет сохранен в: {csv_filename}")

else:
    logging.warning("Нет данных об экспериментах. Таблица пуста.")

# --- ЗАВЕРШЕНИЕ РАБОТЫ ЛОГГЕРА ---
def shutdown_logging():
    logger = logging.getLogger()
    for handler in logger.handlers[:]:
        handler.close()
        logger.removeHandler(handler)
    logging.shutdown()
    print("Логирование завершено.")

shutdown_logging()

#  Заключение и выводы

Проект прошел путь от базовых экспериментов до построения высокоточной модели оценки недвижимости. Мы протестировали более 15 конфигураций моделей.

### 1. Влияние Feature Engineering
Ключевым драйвером роста точности стала работа с данными, а не просто перебор алгоритмов:

*   **Ограниченность простого отбора признаков:**
    Модели, обученные на ограниченном наборе лучших признаков (`Top-16` и `Top-30`), показали результат **$R^2 \approx 0.60 - 0.76$**. Этого оказалось недостаточно.
*   **Эффект Target Encoding:**
    Внедрение полных пайплайнов с использованием `TargetEncoder` для почтового индекса (`zipcode`) позволило поднять метрику до **$R^2 \approx 0.80$** (Baseline).
> **Вывод:** Для оценки недвижимости *способ кодирования локации* (превращение индекса в среднюю цену района) важнее, чем сокращение количества признаков.

### 2. Сравнение архитектур (Результаты экспериментов)

*   **Baseline (HistGradientBoosting):** $R^2 = 0.801$, MAE = \$116k.
    Современная реализация бустинга в sklearn показала достойный результат "из коробки", подтвердив качество предобработки данных.
*   **Optimization (Tuned XGBoost + Optuna):** $R^2 = 0.820$, MAE = \$106k.
    Автоматический подбор гиперпараметров позволил выжать максимум из одиночной модели, снизив ошибку на \$10,000 по сравнению с бейзлайном.
*   **Ensemble (Stacking):**
    *   *CPU-версия (RF + HistGB)* провалилась ($0.76$), доказав, что объединение слабых моделей не дает прироста.
    *   *GPU-версия (Triple XGBoost)* дала лучший результат: **$R^2 = 0.840$**, MAE = **\$96k**.

### 3. Итоговая рекомендация для внедрения (Production)

Мы рекомендуем к внедрению модель **Tuned XGBoost Pipeline** ($R^2=0.82$, файл `tuned_xgboost.pkl`).

**Обоснование:**
*   **Баланс качества и скорости:** Уступает сложному стекингу всего 2% точности, но обучается в 10 раз быстрее (1 минута против 11 минут) и потребляет меньше ресурсов.
*   **Простота поддержки:** Одиночная модель легче в мониторинге и обновлении, чем ансамбль из 3-х тяжелых моделей.
*   **Автономность:** Модель упакована в единый `Pipeline`, который автоматически обрабатывает сырые данные (включая пропуски и новые категории).

> *Примечание:* Если бизнес-задача требует борьбы за каждую долю процента точности (например, для высокочастотного трейдинга недвижимостью), можно использовать **GPU Stacking** ($R^2=0.84$), который первым пробил планку ошибки MAE < \$100k.

### 4. Бизнес-результат
Разработанная система позволяет оценивать недвижимость со средней абсолютной ошибкой (MAE) около **$96,000 - 106,000**, что при разбросе цен до \$3M является высоким показателем точности для автоматической оценки (AVM) по всей территории США.


### 5. Рекомендации по использованию модели в бизнесе (Business Value)

Учитывая метрики модели ($MAE \approx \$106k$, $R^2 \approx 0.82$) и скорость её работы, предлагаем следующие сценарии внедрения разработанного решения в процессы агентства:

**1. Инструмент для приоритизации сделок (Lead Scoring)**
*   **Сценарий:** Ежедневно в базу попадают тысячи новых объявлений.
*   **Решение:** Модель автоматически оценивает каждый новый объект.
*   **Действие:** Если `Предсказанная цена` > `Цена листинга` (например, на 20%), объект помечается флагом **"Potential Deal"** (Недооценен) и отправляется топ-агентам в первую очередь. Это позволит выкупать выгодные лоты быстрее конкурентов.

**2. Сервис экспресс-оценки для привлечения клиентов (Lead Generation)**
*   **Сценарий:** Владелец дома хочет узнать рыночную стоимость своего жилья.
*   **Решение:** Виджет на сайте агентства "Оцени свой дом за 1 минуту". Пользователь вводит параметры (площадь, зип-код, спальни), модель выдает диапазон цен (например, \$550k $\pm$ 15%).
*   **Ценность:** Сбор контактов (лидов) потенциальных продавцов недвижимости.

**3. "Второе мнение" при назначении цены (Listing Price Advisor)**
*   **Сценарий:** Риелтор договаривается с продавцом о цене выхода на рынок. Продавец часто завышает ожидания.
*   **Решение:** Риелтор использует модель как объективный аргумент: *"Наш ИИ-алгоритм, обученный на 370 000 сделок, показывает, что рыночный коридор для вашего дома — \$600-650k. Если поставим \$800k, мы потеряем время"*.

**4. Контроль аномалий и ошибок ввода**
*   **Сценарий:** Агент ошибся лишним нулем в площади или цене при заполнении карточки.
*   **Решение:** Если предсказание модели отличается от введенной цены более чем на 50%, система блокирует публикацию объявления и просит менеджера проверить данные. Это повысит качество базы данных.



---

### 7. Подготовка артефактов для деплоя 

Автоматически генерируем Data Contract (Контракт данных) данных для разработчиков

In [None]:
# 1. Берем 5 случайных строк из теста
sample_indices = X_test.sample(5, random_state=42).index
sample_X = X_test.loc[sample_indices].copy()
sample_y = y_test.loc[sample_indices]

# 2. Делаем предсказание для них (чтобы проверить, что модель работает и сравнить с фактом)
# Используем наш выбранный пайплайн (например, tuned_pipeline или model_pipeline)
current_model = tuned_pipeline 
sample_preds = current_model.predict(sample_X)

# 3. Собираем всё в один DataFrame
export_df = sample_X.copy()
export_df['Actual_Price'] = sample_y
export_df['Predicted_Price'] = sample_preds

# 4. Сохраняем в CSV (это пойдет в Google Таблицы как пример)
csv_filename = 'deployment/model_input_examples.csv'
# Создадим папку, если нет
if not os.path.exists('deployment'):
    os.makedirs('deployment')
    
export_df.to_csv(csv_filename, index=False)
print(f"Примеры данных сохранены в: {csv_filename}")

# 5. Генерируем готовый словарь для client.py
# Берем первую строку
single_row_dict = sample_X.iloc[0].to_dict()

# Конвертируем numpy типы в стандартные python (иначе json.dumps упадет)
def convert_types(obj):
    if isinstance(obj, (np.int64, np.int32)): return int(obj)
    if isinstance(obj, (np.float64, np.float32)): return float(obj)
    return obj

clean_dict = {k: convert_types(v) for k, v in single_row_dict.items()}

print("\nСкопируйте этот словарь в client.py (переменная sample_data):")
print("-" * 50)
print(json.dumps(clean_dict, indent=4))
print("-" * 50)

# 6. Выводим список колонок для сверки
print("\nСписок колонок для Google Sheets (по порядку):")
print(list(sample_X.columns))

# 1. Берем 5 случайных строк из теста
sample_indices = X_test.sample(5, random_state=42).index
sample_X = X_test.loc[sample_indices].copy()
sample_y = y_test.loc[sample_indices]

# 2. Делаем предсказание для них (чтобы проверить, что модель работает и сравнить с фактом)
# Используем наш лучший пайплайн (например, tuned_pipeline или model_pipeline)
current_model = tuned_pipeline 
sample_preds = current_model.predict(sample_X)

# 3. Собираем всё в один DataFrame
export_df = sample_X.copy()
export_df['Actual_Price'] = sample_y
export_df['Predicted_Price'] = sample_preds

# 4. Сохраняем в CSV (это пойдет в Google Таблицы как пример)
csv_filename = 'deployment/model_input_examples.csv'
# Создадим папку, если нет
if not os.path.exists('deployment'):
    os.makedirs('deployment')
    
export_df.to_csv(csv_filename, index=False)
print(f"Примеры данных сохранены в: {csv_filename}")

# 5. Генерируем готовый словарь для client.py
# Берем первую строку
single_row_dict = sample_X.iloc[0].to_dict()

# Конвертируем numpy типы в стандартные python (иначе json.dumps упадет)
def convert_types(obj):
    if isinstance(obj, (np.int64, np.int32)): return int(obj)
    if isinstance(obj, (np.float64, np.float32)): return float(obj)
    return obj

clean_dict = {k: convert_types(v) for k, v in single_row_dict.items()}

print("\nСкопируйте этот словарь в client.py (переменная sample_data):")
print("-" * 50)
print(json.dumps(clean_dict, indent=4))
print("-" * 50)

# 6. Выводим список колонок для сверки
print("\nСписок колонок для Google Sheets (по порядку):")
print(list(sample_X.columns))