# Исследование установаления параметров недвижимости в г. Санкт-Петербурге.

В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.

По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.

### Шаг 1. Обзор данных

In [1]:
import pandas as pd
import calendar
import datetime

In [2]:
try:
    data = pd.read_csv('/datasets/real_estate_data.csv', sep='\t')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/real_estate_data.csv', sep='\t')

In [3]:
print('Информация о датафрейме:')
data.shape

Информация о датафрейме:


(23699, 22)

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23699 entries, 0 to 23698
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   total_images          23699 non-null  int64  
 1   last_price            23699 non-null  float64
 2   total_area            23699 non-null  float64
 3   first_day_exposition  23699 non-null  object 
 4   rooms                 23699 non-null  int64  
 5   ceiling_height        14504 non-null  float64
 6   floors_total          23613 non-null  float64
 7   living_area           21796 non-null  float64
 8   floor                 23699 non-null  int64  
 9   is_apartment          2775 non-null   object 
 10  studio                23699 non-null  bool   
 11  open_plan             23699 non-null  bool   
 12  kitchen_area          21421 non-null  float64
 13  balcony               12180 non-null  float64
 14  locality_name         23650 non-null  object 
 15  airports_nearest   

In [5]:
data.head(30)

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,...,kitchen_area,balcony,locality_name,airports_nearest,cityCenters_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,,...,25.0,,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,,...,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,,...,8.3,0.0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558.0
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,,...,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,,...,41.0,,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121.0
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,...,9.1,,городской посёлок Янино-1,,,,,,,55.0
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26.0,10.6,6,,...,14.4,1.0,посёлок Парголово,52996.0,19143.0,0.0,,0.0,,155.0
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24.0,,22,,...,18.9,2.0,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,...,8.81,,посёлок Мурино,,,,,,,189.0
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9.0,43.6,7,,...,6.5,2.0,Санкт-Петербург,50898.0,15008.0,0.0,,0.0,,289.0


In [6]:
data.columns

Index(['total_images', 'last_price', 'total_area', 'first_day_exposition',
       'rooms', 'ceiling_height', 'floors_total', 'living_area', 'floor',
       'is_apartment', 'studio', 'open_plan', 'kitchen_area', 'balcony',
       'locality_name', 'airports_nearest', 'cityCenters_nearest',
       'parks_around3000', 'parks_nearest', 'ponds_around3000',
       'ponds_nearest', 'days_exposition'],
      dtype='object')

<div class="alert alert-info">
<b>Комментарий студента:</b>
<br>
Судя на пятой строчке проектной работы по установлению параметров и проведению предобработки и исследовательского анализа данных с архивными объявлениями о продаже квартир в г. Санкт-Петербург: мы обнаруживаем, что вместо представления данных в столбцах: 'studio' (наличие квартиры-студии) и 'open_plan' (наличие свободной планировки) обнаруживание пропуск данных в виде многоточия ('...') и неполную картину над параметрами всех объявлений о продаже квартир в г. Санкт-Петербург<br>
<br>
Поэтому чтобы показать полностью все названия столбцов с соответствующими значениями воспользуемся методом: pd.set_option('display.max_columns', None) и чтобы не запутаться с порядковыми номерами индексов применим свойство упорядочивания методом .sort_index(), а для числовых значений из-за главного критерия недвижимости в г. Санкт-Петербург: цены на момент снятия с публикации, т.е. округление до двух цифр после запятой: чтобы привести все числовые данные до двух нулей нужно прописать следующую строку pd.options.display.float_format = '{:,.2f}'.format.<br>
<br>
Ещё в шестой и восьмой строчке данной проектной работы, обнаруживаем неэтическое для программистов название столбца: 'cityCenters_nearest', поэтому сразу меняем это название на 'city_сenters_nearest', не меняя расположения в таблице data.<br>    
</div>

In [7]:
pd.set_option('display.max_columns', None)
pd.options.display.float_format = '{:,.2f}'.format

In [8]:
data.sample(10).sort_index()

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,cityCenters_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
3257,15,3400000.0,41.0,2018-09-21T00:00:00,1,,18.0,15.7,3,,False,False,11.6,,посёлок Мурино,,,,,,,62.0
9291,3,3100000.0,57.0,2018-02-23T00:00:00,2,2.5,5.0,32.0,4,,False,False,9.0,2.0,Гатчина,,,,,,,138.0
14113,2,5100000.0,42.0,2018-06-02T00:00:00,1,2.7,16.0,19.0,4,,False,False,10.2,,Санкт-Петербург,34836.0,15138.0,0.0,,1.0,805.0,199.0
14993,1,4746000.0,79.1,2018-10-29T00:00:00,2,2.8,9.0,43.2,4,False,False,False,14.4,,Всеволожск,,,,,,,
15234,6,4630000.0,43.6,2017-11-10T00:00:00,1,,17.0,18.6,8,,False,False,13.6,2.0,Санкт-Петербург,37434.0,8460.0,1.0,441.0,2.0,427.0,35.0
15641,13,3786000.0,35.0,2017-06-29T00:00:00,1,2.5,4.0,16.0,1,,False,False,8.0,,Сестрорецк,55893.0,32823.0,0.0,,1.0,468.0,642.0
17427,10,3900000.0,32.4,2019-03-01T00:00:00,2,2.5,12.0,22.0,3,,False,False,,,Санкт-Петербург,18230.0,21392.0,0.0,,0.0,,
17563,6,24500000.0,167.5,2017-10-07T00:00:00,3,,6.0,83.6,6,,False,False,54.2,1.0,Санкт-Петербург,24126.0,2291.0,2.0,305.0,3.0,329.0,72.0
23042,12,11500000.0,85.0,2018-08-16T00:00:00,2,3.2,4.0,48.2,4,,False,False,8.2,,Санкт-Петербург,21711.0,1826.0,2.0,628.0,1.0,78.0,
23663,12,6400000.0,88.0,2018-01-12T00:00:00,4,2.55,10.0,,1,,False,False,,,Санкт-Петербург,33642.0,13943.0,0.0,,2.0,844.0,59.0


In [9]:
data.rename(columns = {'cityCenters_nearest' : 'city_centers_nearest'}, inplace = True)

<div class="alert alert-info">
<b>Комментарий студента:</b>
И в конец обзора датафрейма data про аренды недвижимости в г. Санкт-Петербурге выведем характеристику значений всех столбцов числовых значений.<br>    
</div>

In [10]:
data.describe()

Unnamed: 0,total_images,last_price,total_area,rooms,ceiling_height,floors_total,living_area,floor,kitchen_area,balcony,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
count,23699.0,23699.0,23699.0,23699.0,14504.0,23613.0,21796.0,23699.0,21421.0,12180.0,18157.0,18180.0,18181.0,8079.0,18181.0,9110.0,20518.0
mean,9.86,6541548.77,60.35,2.07,2.77,10.67,34.46,5.89,10.57,1.15,28793.67,14191.28,0.61,490.8,0.77,517.98,180.89
std,5.68,10887013.27,35.65,1.08,1.26,6.6,22.03,4.89,5.91,1.07,12630.88,8608.39,0.8,342.32,0.94,277.72,219.73
min,0.0,12190.0,12.0,0.0,1.0,1.0,2.0,1.0,1.3,0.0,0.0,181.0,0.0,1.0,0.0,13.0,1.0
25%,6.0,3400000.0,40.0,1.0,2.52,5.0,18.6,2.0,7.0,0.0,18585.0,9238.0,0.0,288.0,0.0,294.0,45.0
50%,9.0,4650000.0,52.0,2.0,2.65,9.0,30.0,4.0,9.1,1.0,26726.0,13098.5,0.0,455.0,1.0,502.0,95.0
75%,14.0,6800000.0,69.9,3.0,2.8,16.0,42.3,8.0,12.0,2.0,37273.0,16293.0,1.0,612.0,1.0,729.0,232.0
max,50.0,763000000.0,900.0,19.0,100.0,60.0,409.7,33.0,112.0,5.0,84869.0,65968.0,3.0,3190.0,3.0,1344.0,1580.0


 ### Шаг 2. Заполнение пропусков.

In [11]:
data.isna().sum()

total_images                0
last_price                  0
total_area                  0
first_day_exposition        0
rooms                       0
ceiling_height           9195
floors_total               86
living_area              1903
floor                       0
is_apartment            20924
studio                      0
open_plan                   0
kitchen_area             2278
balcony                 11519
locality_name              49
airports_nearest         5542
city_centers_nearest     5519
parks_around3000         5518
parks_nearest           15620
ponds_around3000         5518
ponds_nearest           14589
days_exposition          3181
dtype: int64

In [12]:
null_columns = []

for value in data.columns: 
    if data[value].count() != data.shape[0]:
        null_columns.append(value)
        
null_columns

['ceiling_height',
 'floors_total',
 'living_area',
 'is_apartment',
 'kitchen_area',
 'balcony',
 'locality_name',
 'airports_nearest',
 'city_centers_nearest',
 'parks_around3000',
 'parks_nearest',
 'ponds_around3000',
 'ponds_nearest',
 'days_exposition']

In [13]:
for item in null_columns:
    print(f"\n Строки датафрейма, где у столбца '{item}' обнаружены пропущенные значения:")
    display(data[data[item].isna()].head())


 Строки датафрейма, где у столбца 'ceiling_height' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,,False,False,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,,False,False,8.3,0.0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558.0
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,,False,False,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26.0,10.6,6,,False,False,14.4,1.0,посёлок Парголово,52996.0,19143.0,0.0,,0.0,,155.0



 Строки датафрейма, где у столбца 'floors_total' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
186,12,11640000.0,65.2,2018-10-02T00:00:00,2,,,30.8,4,,False,False,12.0,,Санкт-Петербург,39197.0,12373.0,1.0,123.0,0.0,,49.0
237,4,2438033.0,28.1,2016-11-23T00:00:00,1,,,20.75,1,,False,False,,0.0,Санкт-Петербург,22041.0,17369.0,0.0,,1.0,374.0,251.0
457,4,9788348.0,70.8,2015-08-01T00:00:00,2,,,38.4,12,,False,False,10.63,0.0,Санкт-Петербург,37364.0,8322.0,2.0,309.0,2.0,706.0,727.0
671,4,6051191.0,93.6,2017-04-06T00:00:00,3,,,47.1,8,,False,False,16.8,0.0,Санкт-Петербург,22041.0,17369.0,0.0,,1.0,374.0,123.0
1757,5,3600000.0,39.0,2017-04-22T00:00:00,1,,,,9,,False,False,,0.0,Санкт-Петербург,22735.0,11618.0,1.0,835.0,1.0,652.0,77.0



 Строки датафрейма, где у столбца 'living_area' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,,False,False,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24.0,,22,,False,False,18.9,2.0,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,
30,12,2200000.0,32.8,2018-02-19T00:00:00,1,,9.0,,2,,False,False,,,Коммунар,,,,,,,63.0
37,10,1990000.0,45.8,2017-10-28T00:00:00,2,2.5,5.0,,1,,False,False,,,поселок городского типа Красный Бор,,,,,,,196.0
44,13,5350000.0,40.0,2018-11-18T00:00:00,1,,22.0,,3,,False,False,,1.0,Санкт-Петербург,30471.0,11603.0,1.0,620.0,1.0,1152.0,



 Строки датафрейма, где у столбца 'is_apartment' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,,False,False,25.0,,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,,False,False,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,,False,False,8.3,0.0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558.0
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,,False,False,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,,False,False,41.0,,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121.0



 Строки датафрейма, где у столбца 'kitchen_area' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,,False,False,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
30,12,2200000.0,32.8,2018-02-19T00:00:00,1,,9.0,,2,,False,False,,,Коммунар,,,,,,,63.0
37,10,1990000.0,45.8,2017-10-28T00:00:00,2,2.5,5.0,,1,,False,False,,,поселок городского типа Красный Бор,,,,,,,196.0
44,13,5350000.0,40.0,2018-11-18T00:00:00,1,,22.0,,3,,False,False,,1.0,Санкт-Петербург,30471.0,11603.0,1.0,620.0,1.0,1152.0,
59,15,6300000.0,46.5,2017-03-06T00:00:00,1,,13.0,,13,,False,False,,,Санкт-Петербург,11125.0,14501.0,0.0,,0.0,,336.0



 Строки датафрейма, где у столбца 'balcony' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,,False,False,25.0,,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,,False,False,41.0,,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121.0
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,False,False,8.81,,посёлок Мурино,,,,,,,189.0
10,5,5050000.0,39.6,2017-11-16T00:00:00,1,2.67,12.0,20.3,3,,False,False,8.5,,Санкт-Петербург,38357.0,13878.0,1.0,310.0,2.0,553.0,137.0



 Строки датафрейма, где у столбца 'locality_name' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
1097,3,8600000.0,81.7,2016-04-15T00:00:00,3,3.55,5.0,50.8,2,,False,False,8.8,0.0,,23478.0,4258.0,0.0,,0.0,,147.0
2033,6,5398000.0,80.0,2017-05-30T00:00:00,3,,4.0,42.6,2,,False,False,18.6,0.0,,,,,,,,34.0
2603,20,3351765.0,42.7,2015-09-20T00:00:00,1,,24.0,15.6,3,,False,False,10.7,0.0,,22041.0,17369.0,0.0,,1.0,374.0,276.0
2632,2,5130593.0,62.4,2015-10-11T00:00:00,2,,24.0,33.1,21,,False,False,8.2,0.0,,22041.0,17369.0,0.0,,1.0,374.0,256.0
3574,10,4200000.0,46.5,2016-05-28T00:00:00,2,,5.0,30.8,5,,False,False,6.5,0.0,,27419.0,8127.0,0.0,,1.0,603.0,45.0



 Строки датафрейма, где у столбца 'airports_nearest' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,False,False,8.81,,посёлок Мурино,,,,,,,189.0
12,10,3890000.0,54.0,2016-06-30T00:00:00,2,,5.0,30.0,5,,False,False,9.0,0.0,Сертолово,,,,,,,90.0
22,20,5000000.0,58.0,2017-04-24T00:00:00,2,2.75,25.0,30.0,15,,False,False,11.0,2.0,деревня Кудрово,,,,,,,60.0
30,12,2200000.0,32.8,2018-02-19T00:00:00,1,,9.0,,2,,False,False,,,Коммунар,,,,,,,63.0



 Строки датафрейма, где у столбца 'city_centers_nearest' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,False,False,8.81,,посёлок Мурино,,,,,,,189.0
12,10,3890000.0,54.0,2016-06-30T00:00:00,2,,5.0,30.0,5,,False,False,9.0,0.0,Сертолово,,,,,,,90.0
22,20,5000000.0,58.0,2017-04-24T00:00:00,2,2.75,25.0,30.0,15,,False,False,11.0,2.0,деревня Кудрово,,,,,,,60.0
30,12,2200000.0,32.8,2018-02-19T00:00:00,1,,9.0,,2,,False,False,,,Коммунар,,,,,,,63.0



 Строки датафрейма, где у столбца 'parks_around3000' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,False,False,8.81,,посёлок Мурино,,,,,,,189.0
12,10,3890000.0,54.0,2016-06-30T00:00:00,2,,5.0,30.0,5,,False,False,9.0,0.0,Сертолово,,,,,,,90.0
22,20,5000000.0,58.0,2017-04-24T00:00:00,2,2.75,25.0,30.0,15,,False,False,11.0,2.0,деревня Кудрово,,,,,,,60.0
30,12,2200000.0,32.8,2018-02-19T00:00:00,1,,9.0,,2,,False,False,,,Коммунар,,,,,,,63.0



 Строки датафрейма, где у столбца 'parks_nearest' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,,False,False,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26.0,10.6,6,,False,False,14.4,1.0,посёлок Парголово,52996.0,19143.0,0.0,,0.0,,155.0
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24.0,,22,,False,False,18.9,2.0,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,False,False,8.81,,посёлок Мурино,,,,,,,189.0



 Строки датафрейма, где у столбца 'ponds_around3000' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,False,False,8.81,,посёлок Мурино,,,,,,,189.0
12,10,3890000.0,54.0,2016-06-30T00:00:00,2,,5.0,30.0,5,,False,False,9.0,0.0,Сертолово,,,,,,,90.0
22,20,5000000.0,58.0,2017-04-24T00:00:00,2,2.75,25.0,30.0,15,,False,False,11.0,2.0,деревня Кудрово,,,,,,,60.0
30,12,2200000.0,32.8,2018-02-19T00:00:00,1,,9.0,,2,,False,False,,,Коммунар,,,,,,,63.0



 Строки датафрейма, где у столбца 'ponds_nearest' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,,False,False,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,False,False,9.1,,городской посёлок Янино-1,,,,,,,55.0
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26.0,10.6,6,,False,False,14.4,1.0,посёлок Парголово,52996.0,19143.0,0.0,,0.0,,155.0
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24.0,,22,,False,False,18.9,2.0,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,False,False,8.81,,посёлок Мурино,,,,,,,189.0



 Строки датафрейма, где у столбца 'days_exposition' обнаружены пропущенные значения:


Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,,False,False,25.0,,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24.0,,22,,False,False,18.9,2.0,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,
44,13,5350000.0,40.0,2018-11-18T00:00:00,1,,22.0,,3,,False,False,,1.0,Санкт-Петербург,30471.0,11603.0,1.0,620.0,1.0,1152.0,
45,17,5200000.0,50.6,2018-12-02T00:00:00,2,2.65,9.0,30.3,7,,False,False,7.0,,Санкт-Петербург,30011.0,12872.0,0.0,,0.0,,
46,17,6600000.0,52.1,2019-01-31T00:00:00,2,2.6,24.0,29.7,9,,False,False,8.3,2.0,Санкт-Петербург,15114.0,12702.0,0.0,,0.0,,


<div class="alert alert-info">
<b>Комментарий студента:</b>
<br>
Теперь нужно заполнить пропущенные значения, но, к счастью, среди некоторых данных столбцов есть такие данные, которые можно логически определить чисто из здравого смысла, реже с помощью условий из других значений столбцов.<br>  
<br> Ими относятся: 
    <ul> 'is_apartment' (наличие аппартаментов); </ul>
    <ul> 'balcony' (наличие балконов); </ul>
    <ul> 'locality_name' (название населённого пункта); </ul>
    <ul> 'days_exposition' (длительность размещения объявления (от публикации до снятия)); </ul><br>, а также: 
    <ul> 'floors_total' (количество этажей в доме); </ul> 
    <ul> 'parks_nearest' (расстояние до ближайшего парка); </ul>
    <ul> 'ponds_nearest' (расстояние до ближайшего пруда). </ul>          
    
<br>    
    Судя на третьей строчке проектной работы по установлению параметров и проведению предобработки и исследовательского анализа данных с архивными объявлениями о продаже квартир в г. Санкт-Петербург: мы обнаруживаем, что вместо представления данных в столбцах: 'studio' (наличие квартиры-студии) и 'open_plan'. <br>
<br>
     Также данные столбцов 'balcony', 'floors_total', а также 'days_exposition' приведём к типу данных 'int' (насчёт столбца 'days_exposition' - ни один SEO-специалист не будет ослеживать длительность с точностью до минуты, для удобства длительность размещения объявления будет измеряться в целых числах дней).<br>
</div>

In [14]:
data['is_apartment'] = data['is_apartment'].fillna('False')
display(data.head())

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,False,False,False,25.0,,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,False,False,False,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,False,False,False,8.3,0.0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558.0
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,False,False,False,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,False,False,False,41.0,,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121.0


In [15]:
data['balcony'] = (data['balcony'].fillna(0)).astype('int')
display(data.head())

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558.0
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121.0


In [16]:
data_days_exposition_median = data['days_exposition'].median()
data_days_exposition_median

95.0

In [17]:
data['days_exposition'] = (data['days_exposition'].fillna(data_days_exposition_median)).astype('int')
display(data.head())

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,95
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121


In [18]:
data_floors_total_median = data['floors_total'].median()
data_floors_total_median

9.0

In [19]:
data['floors_total'] = (data['floors_total'].fillna(data_floors_total_median)).astype('int')
display(data.head(50))

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,95
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12,14.4,5,False,False,False,9.1,0,городской посёлок Янино-1,,,,,,,55
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26,10.6,6,False,False,False,14.4,1,посёлок Парголово,52996.0,19143.0,0.0,,0.0,,155
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24,,22,False,False,False,18.9,2,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,95
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27,15.43,26,False,False,False,8.81,0,посёлок Мурино,,,,,,,189
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9,43.6,7,False,False,False,6.5,2,Санкт-Петербург,50898.0,15008.0,0.0,,0.0,,289


In [20]:
data.loc[~(data['parks_around3000'] != data['parks_around3000']), 'parks_nearest'] = data.loc[:, 'parks_nearest'].fillna(0)

display(data.head(50)) 

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,95
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,0.0,0.0,,81
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12,14.4,5,False,False,False,9.1,0,городской посёлок Янино-1,,,,,,,55
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26,10.6,6,False,False,False,14.4,1,посёлок Парголово,52996.0,19143.0,0.0,0.0,0.0,,155
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24,,22,False,False,False,18.9,2,Санкт-Петербург,23982.0,11634.0,0.0,0.0,0.0,,95
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27,15.43,26,False,False,False,8.81,0,посёлок Мурино,,,,,,,189
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9,43.6,7,False,False,False,6.5,2,Санкт-Петербург,50898.0,15008.0,0.0,0.0,0.0,,289


In [21]:
data.loc[~(data['ponds_around3000'] != data['ponds_around3000']), 'ponds_nearest'] = (data.loc[:, 'ponds_nearest'].fillna(0.0)).astype('int')

display(data.head(50))  

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,95
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,0.0,0.0,0.0,81
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12,14.4,5,False,False,False,9.1,0,городской посёлок Янино-1,,,,,,,55
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26,10.6,6,False,False,False,14.4,1,посёлок Парголово,52996.0,19143.0,0.0,0.0,0.0,0.0,155
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24,,22,False,False,False,18.9,2,Санкт-Петербург,23982.0,11634.0,0.0,0.0,0.0,0.0,95
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27,15.43,26,False,False,False,8.81,0,посёлок Мурино,,,,,,,189
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9,43.6,7,False,False,False,6.5,2,Санкт-Петербург,50898.0,15008.0,0.0,0.0,0.0,0.0,289


### Шаг 3. Посчитайте и добавьте в таблицу.

<div class="alert alert-info">
<b>Комментарий студента:</b>
<br>Чтобы подсчитать цену квадратнного метра (столбец 'price_sqmetr') нужно разделить значение цены недвижимости (столбец 'last_price') на значение общей площади аппаратментов (столбец 'total_area').<br>
</div>

In [22]:
data['price_sqmetr'] = (data['last_price'] / data['total_area']).astype('int')
display(data.head(10))

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition,price_sqmetr
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,95,120370
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,0.0,0.0,0.0,81,82920
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558,92785
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424,408176
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121,100000
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12,14.4,5,False,False,False,9.1,0,городской посёлок Янино-1,,,,,,,55,95065
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26,10.6,6,False,False,False,14.4,1,посёлок Парголово,52996.0,19143.0,0.0,0.0,0.0,0.0,155,99195
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24,,22,False,False,False,18.9,2,Санкт-Петербург,23982.0,11634.0,0.0,0.0,0.0,0.0,95,110544
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27,15.43,26,False,False,False,8.81,0,посёлок Мурино,,,,,,,189,87454
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9,43.6,7,False,False,False,6.5,2,Санкт-Петербург,50898.0,15008.0,0.0,0.0,0.0,0.0,289,88524


<div class="alert alert-info">
<b>Комментарий студента:</b>
<br>Для определения 
    
    
    (столбец 'price_sqmetr') нужно разделить значение цены недвижимости (столбец 'last_price') на значение общей площади аппаратментов (столбец 'total_area'). 
    
    
    
    
    Сейчас встаим в столбец 'airports_nearest' расстояние до ближайшего аэропорта в метрах и сделаем, с помощью вставки 
в первую строку проекта библиотеки: from geopy.distance import geodesic as gd (определение расстояния между двумя географическими координатами) и from geopy.geocoders import Nominatim as nm (определение широты и долготы координат на карте)
    
    
    
    
    
<br><br><b><i>Внимание!</i></b> Процесс опредения широты и долготы по данному населённому пункту происходит дольше обычного выполнения команды программ.<br>
</div>

In [23]:
def name_weekday(number_name):
    try:
        if(pd.DatetimeIndex(data['first_day_exposition']).weekday == 0):
            return 'понедельник'
        elif(pd.DatetimeIndex(data['first_day_exposition']).weekday == 1):
            return 'вторник'
        elif(pd.DatetimeIndex(data['first_day_exposition']).weekday == 2):
            return 'среда'
        elif(pd.DatetimeIndex(data['first_day_exposition']).weekday == 3):
            return 'четверг'
        elif(pd.DatetimeIndex(data['first_day_exposition']).weekday == 4):
            return 'пятница'
        elif(pd.DatetimeIndex(data['first_day_exposition']).weekday == 5):
            return 'суббота'
        elif(pd.DatetimeIndex(data['first_day_exposition']).weekday == 6):
            return 'воскресенье'
    except:
        pass

In [24]:
data['weekday'] = pd.DatetimeIndex(data['first_day_exposition']).weekday

#name_weekday(pd.DatetimeIndex(data['first_day_exposition']).weekday.all())

#data['weekday'] = data['first_day_exposition'].apply(name_weekday)
data['number_month'] = pd.DatetimeIndex(data['first_day_exposition']).month
data['year'] = pd.DatetimeIndex(data['first_day_exposition']).year 

display(data.head(10))

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition,price_sqmetr,weekday,number_month,year
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,95,120370,3,3,2019
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,0.0,0.0,0.0,81,82920,1,12,2018
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558,92785,3,8,2015
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424,408176,4,7,2015
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121,100000,1,6,2018
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12,14.4,5,False,False,False,9.1,0,городской посёлок Янино-1,,,,,,,55,95065,0,9,2018
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26,10.6,6,False,False,False,14.4,1,посёлок Парголово,52996.0,19143.0,0.0,0.0,0.0,0.0,155,99195,3,11,2017
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24,,22,False,False,False,18.9,2,Санкт-Петербург,23982.0,11634.0,0.0,0.0,0.0,0.0,95,110544,3,4,2019
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27,15.43,26,False,False,False,8.81,0,посёлок Мурино,,,,,,,189,87454,2,5,2018
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9,43.6,7,False,False,False,6.5,2,Санкт-Петербург,50898.0,15008.0,0.0,0.0,0.0,0.0,289,88524,6,2,2017


In [25]:
data['ratio_living_to_total'] = data['living_area'] / data['total_area']
data['ratio_kitchen_to_total'] = data['kitchen_area'] / data['total_area']

In [26]:
data.head(10)

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,studio,open_plan,kitchen_area,balcony,locality_name,airports_nearest,city_centers_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition,price_sqmetr,weekday,number_month,year,ratio_living_to_total,ratio_kitchen_to_total
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16,51.0,8,False,False,False,25.0,0,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,95,120370,3,3,2019,0.47,0.23
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11,18.6,1,False,False,False,11.0,2,посёлок Шушары,12817.0,18603.0,0.0,0.0,0.0,0.0,81,82920,1,12,2018,0.46,0.27
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5,34.3,4,False,False,False,8.3,0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558,92785,3,8,2015,0.61,0.15
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14,,9,False,False,False,,0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424,408176,4,7,2015,,
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14,32.0,13,False,False,False,41.0,0,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121,100000,1,6,2018,0.32,0.41
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12,14.4,5,False,False,False,9.1,0,городской посёлок Янино-1,,,,,,,55,95065,0,9,2018,0.47,0.3
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26,10.6,6,False,False,False,14.4,1,посёлок Парголово,52996.0,19143.0,0.0,0.0,0.0,0.0,155,99195,3,11,2017,0.28,0.39
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24,,22,False,False,False,18.9,2,Санкт-Петербург,23982.0,11634.0,0.0,0.0,0.0,0.0,95,110544,3,4,2019,,0.26
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27,15.43,26,False,False,False,8.81,0,посёлок Мурино,,,,,,,189,87454,2,5,2018,0.47,0.27
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9,43.6,7,False,False,False,6.5,2,Санкт-Петербург,50898.0,15008.0,0.0,0.0,0.0,0.0,289,88524,6,2,2017,0.71,0.11


### Шаг 3.1 Подсчёт данных и добавление в новые столбцы.

### 0.4 Шаг 4.1 Проведите исследовательский анализ данных.

## 1 Общий вывод: