# Проект: Прогнозирование стоимости жилья в Москве на основе датасета Moscow Housing Price Dataset

## Описание проекта
Мы анализируем датасет [Moscow Housing Price Dataset](https://www.kaggle.com/datasets/egorkainov/moscow-housing-price-dataset), содержащий информацию о ценах на жильё в Москве и его характеристиках (район, площадь, количество комнат и др.). Цель проекта — построить модель машинного обучения для прогнозирования стоимости квартир.

## План работы

### 1. Разведочный анализ (EDA)
- Загрузка и первичный осмотр данных
- Обработка пропусков и аномалий
- Анализ распределения целевой переменной (`price`)
- Исследование корреляции между признаками
- Визуализация ключевых зависимостей:
  - Распределение цен по районам
  - Зависимость цены от площади
  - Влияние этажа на стоимость

### 2. Предобработка данных
- Нормализация числовых признаков
- Кодирование категориальных переменных
- Разделение на обучающую и тестовую выборки

### 3. Построение и оценка моделей
Перед програмной реализацией изучаем и приводим теоретическое обоснование классических подходов ML, которые будут задействованы в нашей работе, после чего мы реализуем и сравним следующие модели:

 - a) Линейная регрессия

 - b) Random Forest

 - c) Gradient Boosting (XGBoost)

### 4. Оценка качества моделей
- Сравнение метрик на тестовой выборке
- Анализ остатков моделей
- Интерпретация результатов

### 5. Кластеризация районов по ценам на жильё
Мы реализуем дополнительное исследование с помощью **метода kNN**:
- Нормализация данных о ценах по районам
- Определение оптимального числа кластеров
- Визуализация результатов:
  - **Интерактивная карта Москвы** с цветовой кодировкой кластеров
  - Гистограммы распределения цен в каждом кластере
- Анализ характеристик кластеров:
  - Средняя цена за м²
  - Преобладающий тип жилья
  - Удалённость от центра

## Ожидаемые результаты
1. Анализ факторов, наиболее сильно влияющих на стоимость жилья
2. Рабочая модель прогнозирования цен с обоснованием выбора
3. Наглядные визуализации распределений и зависимостей
4. Сравнение эффективности разных подходов
5. Интерактивная карта

## Команда
Романовский Илья, Процкая Вера, Серов Кирилл

In [None]:
import numpy as np
import pandas as pd

df = pd.read_csv('data.csv/data.csv')

df.head()

Unnamed: 0,Price,Apartment type,Metro station,Minutes to metro,Region,Number of rooms,Area,Living area,Kitchen area,Floor,Number of floors,Renovation
0,6300000.0,Secondary,Опалиха,6.0,Moscow region,1.0,30.6,11.1,8.5,25.0,25,Cosmetic
1,9000000.0,Secondary,Павшино,2.0,Moscow region,1.0,49.2,20.0,10.0,6.0,15,European-style renovation
2,11090000.0,Secondary,Мякинино,14.0,Moscow region,1.0,44.7,16.2,13.1,10.0,25,Cosmetic
3,8300000.0,Secondary,Строгино,8.0,Moscow region,1.0,35.1,16.0,11.0,12.0,33,European-style renovation
4,6450000.0,Secondary,Опалиха,6.0,Moscow region,1.0,37.7,15.2,4.0,5.0,5,Without renovation
