## Задание

- Собрать информацию о всех строящихся объектах на сайте "наш.дом.рф"
- Cохранить результаты в pandas dataframe

---

Проверить состояние датафрейма и привести его в формат, позволяющий дальнейшее исследование данных: 
 * Привести колонки датафрейма к одному типу данных 
 * Проверить индекс, чтобы он соответствовал порядку строк 
 * Проверить наличие пропусков и в случае обнаружения, определить стратегию их обработки

---

Провести мини-исследование рынка строящейся недвижимости в одном или нескольких регионах с помощью pandas, matplotlib, seaborn, plotly и других инструментов. 
+ Рассчитать средние цены за квадратный метр по регионам. Важно чтобы пропуски не учитывались при расчете средней цены. 
+ Рассчитать объемы вводимого жилья по регионам и по годам. 
+ Сравнить этажность домов, количество квартир, жилую площадь, количество парковочных мест и цену за квадратный метр в разных регионах 
+ Визуализировать разброс, связь и распределение этих показателей по регионам 
+ Сделать выводы по каждому из расчетов и графиков

### Загрузка библиотек

In [1]:
import requests
import pandas as pd

In [2]:
pd.options.display.max_columns = 200
pd.options.display.max_rows = 150
pd.options.display.precision = 2
pd.options.display.show_dimensions = True

### Сбор информации

In [4]:
# Получение списка объектов

limit_ = 1000
all_obj_ids = []
for offset_ in range(0, 12000, 1000):
    url = f'https://xn--80az8a.xn--d1aqf.xn--p1ai/%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81%D1%8B/api/kn/object?offset={offset_}&limit={limit_}&sortField=devId.devShortCleanNm&sortType=asc&objStatus=0'
    response = requests.get(url)
    objects_data = response.json()
    objects_list = objects_data.get('data').get('list')
    objids = [x.get('objId') for x in objects_list]
    all_obj_ids.extend(objids)

In [14]:
len(all_obj_ids)

10527

In [5]:
# Сбор информации по объектам

all_objects_description = []

for id in all_obj_ids:
    url = f'https://xn--80az8a.xn--d1aqf.xn--p1ai/%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81%D1%8B/api/object/{id}'
    response_object = requests.get(url)
    obj = response_object.json()
    all_objects_description.append(obj)

In [11]:
# data = pd.DataFrame.from_dict(pd.json_normalize(all_objects_description), orient='columns')
data = pd.read_csv('dom.csv', usecols=use_columns)

In [12]:
data.shape

(10527, 41)

In [14]:
data.rename(columns=name_columns, inplace=True)


In [15]:
data.head()

Unnamed: 0,Id_объекта,Краткое наименование организации,Регион строительства,Адрес строительства,Количество квартир,Ввод в эксплуатацию,Материал стен,Тип отделки,Свободная планировка,Количество мест в паркинге,"Жилая площадь, м²",Широта,Долгота,Тип недвижимости,Количество квартир.1,"Жилая площадь, м².1",Количество нежилых помещений,Статус строительства,Велосипедные дорожки,Наличие пандуса,Наличие понижающих площадок,Класс энергоэффективности здания,Индекс доступности инфраструктуры,Количество этажей,Количество 1-комнатных квартир,Количество 2-комнатных квартир,Количество 3-комнатных квартир,Количество 4-комнатных квартир,Количество квартир.2,Количество подъездов,Среднее количество квартир на этаже,Выдача ключей,Количество детских площадок,Количество спортивных площадок,Количество площадок для сбора мусора,Количество инвалидных подъемников,Количество пассажирских лифтов,Количество грузовых лифтов,Распроданность квартир,Средняя цена за 1 м²,Первый этаж нежилой
0,29679,212-2,Ростовская область,г Таганрог,18,2020-03-31,Другое,Под ключ,Есть,0,1519.0,47.22,38.85,Комфорт,18,1519.0,0,0,0,0,0,Не нормируется,7,,,,,,,,,,,,,,,,,,
1,29678,212-2,Ростовская область,"город Таганрог, улица Сергея Шило, д. 212-2",27,2020-03-31,Другое,Под чистовую,Нет,0,1519.0,47.22,38.91,Комфорт,27,1519.0,0,0,0,0,0,Не нормируется,8,,,,,,,,,,,,,,,,,,
2,13383,2МЕН ГРУПП,Тюменская область,г Тюмень,68,2022-12-31,Другое,По желанию заказчика,Есть,31,6293.78,57.15,65.55,Элитный,68,6293.78,10,0,0,1,1,B,10,20.0,13.0,21.0,34.0,0.0,68.0,1.0,6.0,28-02-2023 12:00,1.0,1.0,1.0,0.0,5.0,1.0,0.41,53109.0,1.0
3,13397,2МЕН ГРУПП,Тюменская область,"г Тюмень, ул Профсоюзная, д. 56",65,2024-12-31,Другое,Без отделки,Нет,0,6248.51,57.15,65.55,Элитный,65,6248.51,70,0,0,1,1,B,10,12.0,0.0,24.0,35.0,6.0,65.0,4.0,3.0,28-02-2025 12:00,1.0,1.0,1.0,0.0,5.0,4.0,1.0,45523.0,0.0
4,13399,2МЕН ГРУПП,Тюменская область,"г Тюмень, ул Профсоюзная, д. 56",0,2024-12-31,Другое,Без отделки,Нет,125,0.0,57.15,65.55,Элитный,0,0.0,0,0,0,1,1,B,10,1.0,,,,,,,,28-02-2025 12:00,0.0,0.0,1.0,0.0,8.0,7.0,0.92,50768.0,1.0


In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10527 entries, 0 to 10526
Data columns (total 41 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   Id_объекта                            10527 non-null  int64  
 1   Краткое наименование организации      10527 non-null  object 
 2   Регион строительства                  10407 non-null  object 
 3   Адрес строительства                   10501 non-null  object 
 4   Количество квартир                    10527 non-null  int64  
 5   Ввод в эксплуатацию                   10527 non-null  object 
 6   Материал стен                         10527 non-null  object 
 7   Тип отделки                           10527 non-null  object 
 8   Свободная планировка                  10518 non-null  object 
 9   Количество мест в паркинге            10527 non-null  int64  
 10  Жилая площадь, м²                     10527 non-null  float64
 11  Широта         

In [9]:
name_columns = {
    'data.id': 'Id_объекта',
   'data.developer.devShortCleanNm': 'Краткое наименование организации',
   'data.developer.regRegionDesc': 'Регион строительства',
   'data.address': 'Адрес строительства',
   'data.objElemLivingCnt': 'Количество квартир',
   'data.objReady100PercDt': 'Ввод в эксплуатацию',
   'data.wallMaterialShortDesc': 'Материал стен',
   'data.objLkFinishTypeDesc': 'Тип отделки',
   'data.objLkFreePlanDesc': 'Свободная планировка',
   'data.objElemParkingCnt': 'Количество мест в паркинге',
   'data.objLkLatitude': 'Широта',
   'data.objLkLongitude': 'Долгота',
   'data.objLkClassDesc': 'Тип недвижимости',
   'data.objFloorCnt': 'Количество этажей',
   'data.objFlatCnt': 'Количество квартир',
   'data.objFlatSq': 'Жилая площадь, м²',
   'data.objNonlivElemCnt': 'Количество нежилых помещений',
   'data.objStatus': 'Статус строительства',
   'data.objTransferPlanDt': 'Выдача ключей',
   'data.objInfrstrBicycleLaneFlg': 'Велосипедные дорожки',
   'data.objInfrstrPlaygrndCnt': 'Количество детских площадок',
   'data.objInfrstrSportGroundCnt': 'Количество спортивных площадок',
   'data.objInfrstrTrashAreaCnt': 'Количество площадок для сбора мусора',
   'data.objInfrstrRampFlg': 'Наличие пандуса',
   'data.objInfrstrCurbLoweringFlg': 'Наличие понижающих площадок',
   'data.objElevatorWheelchairCnt': 'Количество инвалидных подъемников',
   'data.objElevatorPassengerCnt': 'Количество пассажирских лифтов',
   'data.objElevatorCargoCnt': 'Количество грузовых лифтов',
   'data.soldOutPerc': 'Распроданность квартир',
   'data.objPriceAvg': 'Средняя цена за 1 м²',
   'data.nonlivFirstFloor': 'Первый этаж нежилой',
   'data.objEnergyEffShortDesc': 'Класс энергоэффективности здания',
   'data.infrastructureIndexValue': 'Индекс доступности инфраструктуры',
   'data.quartography.objLivElem1KCnt' : 'Количество 1-комнатных квартир',
   'data.quartography.objLivElem2KCnt' : 'Количество 2-комнатных квартир',
   'data.quartography.objLivElem3KCnt' : 'Количество 3-комнатных квартир',
   'data.quartography.objLivElem4KCnt' : 'Количество 4-комнатных квартир',
   'data.quartography.objLivElemCnt' : 'Количество квартир',
   'data.quartography.objLivElemEntrCnt' : 'Количество подъездов',
   'data.quartography.objLivElemEntrFloorAvg' : 'Среднее количество квартир на этаже'
}

In [10]:
use_columns = [
    'data.id', 'data.developer.devShortCleanNm','data.developer.regRegionDesc',
   'data.address', 'data.objElemLivingCnt', 'data.objReady100PercDt', 'data.wallMaterialShortDesc',
   'data.objLkFinishTypeDesc', 'data.objLkFreePlanDesc', 'data.objElemParkingCnt',
   'data.objLkLatitude', 'data.objLkLongitude', 
   'data.objLkClassDesc', 'data.objFloorCnt', 'data.objFlatCnt',
   'data.objFlatSq', 'data.objNonlivElemCnt', 'data.objStatus',
   'data.objTransferPlanDt', 'data.objInfrstrBicycleLaneFlg', 
   'data.objInfrstrPlaygrndCnt', 'data.objInfrstrSportGroundCnt',
   'data.objInfrstrTrashAreaCnt', 'data.objInfrstrRampFlg', 
   'data.objInfrstrCurbLoweringFlg', 'data.objElevatorWheelchairCnt',
   'data.objElevatorPassengerCnt', 'data.objElevatorCargoCnt',
   'data.soldOutPerc', 'data.objPriceAvg', 'data.nonlivFirstFloor',
   'data.objEnergyEffShortDesc', 'data.infrastructureIndexValue',
   'data.quartography.objLivElem1KCnt', 'data.quartography.objLivElem2KCnt',
   'data.quartography.objLivElem3KCnt', 'data.quartography.objLivElem4KCnt',
   'data.quartography.objLivElemCnt', 'data.quartography.objLivElemEntrCnt',
   'data.quartography.objLivElemEntrFloorAvg'
]

In [21]:
data.isnull().sum().sort_values(ascending=False)

Средняя цена за 1 м²                    2906
Распроданность квартир                  2901
Количество 1-комнатных квартир          1162
Количество 2-комнатных квартир          1162
Среднее количество квартир на этаже     1162
Количество 4-комнатных квартир          1162
Количество 3-комнатных квартир          1162
Количество квартир                      1162
Количество подъездов                    1162
Регион строительства                     120
Выдача ключей                            116
Количество спортивных площадок            81
Количество пассажирских лифтов            79
Количество площадок для сбора мусора      79
Количество грузовых лифтов                79
Количество детских площадок               79
Количество инвалидных подъемников         79
Адрес строительства                       26
Первый этаж нежилой                       11
Свободная планировка                       9
Долгота                                    5
Широта                                     5
Количество