Итоговая работа должна отвечать следующим требованиям:

1. Программа реализована на языке программирования Python.
2. Выполнена загрузка и чтение данных из файлов.
3. Выполнена предварительная обработка данных (очистка и форматирование данных).
4. Выполнен разведочный анализ данных EDA.
5. Определены важные признаки. Выполнен поиск взаимосвязей между признаками.
6. Выполнено уменьшение размерности массива данных.
7. Составлена гипотеза о данных и выполнена проверка соответствующей гипотезы.

Аналитическая задача: построить модель для прогнозирования стоимости квартиры.


Исходные данные: имеется выборка данных о продаже квартир. 

|Признак|Описание признака|
|-------------:|:------------|
|airports_nearest|расстояние до ближайшего аэропорта в метрах (м)|
|balcony|число балконов|
|ceiling_height|высота потолков (м)|
|cityCenters_nearest|расстояние до центра города (м)|
|floor|этаж|
|floors_total| всего этажей в доме|
|is_apartment|апартаменты (булев тип)|
|kitchen_area|площадь кухни в квадратных метрах (м²)|
|last_price|цена на момент снятия с публикации|
|living_area|жилая площадь в квадратных метрах(м²)|
|open_plan|свободная планировка (булев тип)|
|parks_around3000|число парков в радиусе 3 км|
|parks_nearest|расстояние до ближайшего парка (м)|
|ponds_around3000|число водоёмов в радиусе 3 км|
|ponds_nearest|расстояние до ближайшего водоёма (м)|
|rooms|число комнат|
|studio|квартира-студия (булев тип)|
|total_area|площадь квартиры в квадратных метрах (м²)|

## Примерный план по выполнению проекта

**Шаг 1.** Загрузка данных;

**Шаг 2.** Первичная обработка данных (при необходимости):
- скорректировать заголовки;
- скорректировать типы признаков;
- проверить наличие дублирующихся записей;
- проверить наличие аномальных значений;
- восстановить пропущенные значения;

**Шаг 3.** Провести исследовательский анализ данных:
- исследовать распределения признаков;
- исследовать возможные зависимости между признаками;

**Шаг 4.** Построить регрессионные и классификационные модели 
- построить несколько моделей регрессии с различным набором признаков и сравнить их по метрикам (MSE, $R^2$, MAPE). 
- провести разбиение целевого признака на 5 интервалов и построить соответствующие классификационные модели.

**Шаг 5.** Проверка гипотез
- сформулировать и проверить гипотезу о равенстве средних площадей кухни в 2-х и 3-х квартирах.

In [1]:
import pandas as pd
df = pd.read_csv('home_price.csv')
df.head()

Unnamed: 0,last_price,total_area,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,airports_nearest,cityCenters_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest
0,13000000.0,108.0,3,2.7,16.0,51.0,8,,False,False,25.0,,18863.0,16028.0,1.0,482.0,2.0,755.0
1,3350000.0,40.4,1,,11.0,18.6,1,,False,False,11.0,2.0,12817.0,18603.0,0.0,,0.0,
2,5196000.0,56.0,2,,5.0,34.3,4,,False,False,8.3,0.0,21741.0,13933.0,1.0,90.0,2.0,574.0
3,64900000.0,159.0,3,,14.0,,9,,False,False,,0.0,28098.0,6800.0,2.0,84.0,3.0,234.0
4,10000000.0,100.0,2,3.03,14.0,32.0,13,,False,False,41.0,,31856.0,8098.0,2.0,112.0,1.0,48.0


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23699 entries, 0 to 23698
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   last_price           23699 non-null  float64
 1   total_area           23699 non-null  float64
 2   rooms                23699 non-null  int64  
 3   ceiling_height       14504 non-null  float64
 4   floors_total         23613 non-null  float64
 5   living_area          21796 non-null  float64
 6   floor                23699 non-null  int64  
 7   is_apartment         2775 non-null   object 
 8   studio               23699 non-null  bool   
 9   open_plan            23699 non-null  bool   
 10  kitchen_area         21421 non-null  float64
 11  balcony              12180 non-null  float64
 12  airports_nearest     18157 non-null  float64
 13  cityCenters_nearest  18180 non-null  float64
 14  parks_around3000     18181 non-null  float64
 15  parks_nearest        8079 non-null  