# Модель стоимости жилья в Магнитогорске

## Введение

**Задача**

Построить математическую модель стоимости жилья в зависимости от параметров этого жилья.


Модель должна иметь REST API. На вход модели подаются параметры квартиры в формате JSON на выходе получается цена квартиры в формате JSON.

Испытание проводится в режиме демонстрации экрана на собеседовании. Модель тестируется на 3х квартирах на выбор кандидата. (Просьба подготовить исходные данные (запросы) заранее)


**Данные**


В качестве источника исходных данных предлагается использовать данные сайта магнитогорской недвижимости www.citystar.ru.

Размер выборки исходных данных не имеет значения, однако она должна быть представительной (не следует делать ее слишком большой, т.к. задача тестовая).

Данные должны быть загружены в базу данных.

## Импорт библиотек и загрузка данных

In [1]:
import sqlite3
import pandas as pd

In [2]:
# подключаемся к базе данных
cnx = sqlite3.connect('db/magnitogorsk.db')

In [3]:
# загружаем данные
data = pd.read_sql_query("SELECT * FROM offers", cnx)

In [4]:
# закрываем соединение с базой данных
cnx.close()

## Первичное знакомство с данными

In [5]:
def first_look(df, num_of_srtings=5):
    print('Общая информация')
    display(df.info())
    
    print(f'Первые {num_of_srtings} строк(и) данных')
    display(df.head(num_of_srtings))
    
    print('Основные статистические характеристики данных')
    display(df.describe())
    print('Количество пропусков:')
    print(df.isna().sum())
    print()
    
    print('Количество дубликатов:', df.duplicated().sum())

In [6]:
first_look(data)

Общая информация
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 456 entries, 0 to 455
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              456 non-null    int64  
 1   type            445 non-null    object 
 2   district        254 non-null    object 
 3   adress          456 non-null    object 
 4   floor           456 non-null    object 
 5   total_square    456 non-null    float64
 6   living_square   456 non-null    float64
 7   kitchen_square  456 non-null    float64
 8   price           456 non-null    int64  
dtypes: float64(3), int64(2), object(4)
memory usage: 32.2+ KB


None

Первые 5 строк(и) данных


Unnamed: 0,id,type,district,adress,floor,total_square,living_square,kitchen_square,price
0,1,Трехкомнатная улучшенная,Орджоникидзевский,Ленина пр-т 145/2,1/5,64.0,43.0,8.0,3750
1,2,Трехкомнатная,Ленинский,Октябрьская 12,2/5,87.2,60.0,9.0,8300
2,3,Однокомнатная нестандартная,Орджоникидзевский,Ленина пр-т 135,6/14,36.1,20.0,9.0,3330
3,4,Трехкомнатная нестандартная,Орджоникидзевский,Ленина пр-т 129,5/16,105.0,75.0,14.0,7700
4,5,Двухкомнатная улучшенная,Орджоникидзевский,Сиреневый проезд 12,7/9,50.6,43.0,9.0,3800


Основные статистические характеристики данных


Unnamed: 0,id,total_square,living_square,kitchen_square,price
count,456.0,456.0,456.0,456.0,456.0
mean,228.5,53.514912,32.120175,8.77125,3744.561404
std,131.78012,21.75191,17.343334,4.007841,1631.107124
min,1.0,14.1,0.0,0.0,0.0
25%,114.75,40.175,19.0,6.0,2700.0
50%,228.5,50.0,30.0,8.05,3500.0
75%,342.25,65.0,43.0,10.0,4600.0
max,456.0,220.0,150.0,30.0,10000.0


Количество пропусков:
id                  0
type               11
district          202
adress              0
floor               0
total_square        0
living_square       0
kitchen_square      0
price               0
dtype: int64

Количество дубликатов: 0


### Цена

In [10]:
data[data['price'] == 0]

Unnamed: 0,id,type,district,adress,floor,total_square,living_square,kitchen_square,price
73,74,Однокомнатная,,Первомайская 16,2/4,42.6,20.0,15.0,0
141,142,Однокомнатная,,Труда 47,4/9,32.0,19.0,6.0,0
399,400,Трехкомнатная,Орджоникидзевский,ул Репина 12,1/1,55.0,39.0,6.0,0


Для трех квартир цена не указана, поэтому удалим эти строки, так как они не подходят ни для обучения модели ни для контроля качества.

In [11]:
# контроль размерности
data.shape

(456, 9)

In [12]:
data = data[data['price'] > 0]

In [13]:
# контроль размерности
data.shape

(453, 9)

### Этаж

In [14]:
data['floor'].isna().sum()

0

In [15]:
def get_floor_num(row):
    return int(row[:row.find('/')])

In [16]:
data['floor_num'] = data['floor'].apply(get_floor_num)

In [17]:
data['floor_num'].isna().sum()

0

In [18]:
def get_total_floors(row):
    return int(row[row.find('/')+1:])

In [19]:
data['total_floors'] = data['floor'].apply(get_total_floors)

In [20]:
data['total_floors'].isna().sum()

0

In [21]:
data.head()

Unnamed: 0,id,type,district,adress,floor,total_square,living_square,kitchen_square,price,floor_num,total_floors
0,1,Трехкомнатная улучшенная,Орджоникидзевский,Ленина пр-т 145/2,1/5,64.0,43.0,8.0,3750,1,5
1,2,Трехкомнатная,Ленинский,Октябрьская 12,2/5,87.2,60.0,9.0,8300,2,5
2,3,Однокомнатная нестандартная,Орджоникидзевский,Ленина пр-т 135,6/14,36.1,20.0,9.0,3330,6,14
3,4,Трехкомнатная нестандартная,Орджоникидзевский,Ленина пр-т 129,5/16,105.0,75.0,14.0,7700,5,16
4,5,Двухкомнатная улучшенная,Орджоникидзевский,Сиреневый проезд 12,7/9,50.6,43.0,9.0,3800,7,9


Добавим столбец с информацией о том, является ли этаж квартиры первым.

In [22]:
data['is_first_floor'] = data['floor_num'] == 1
data['is_first_floor'] = data['is_first_floor'].astype('int')

Добавим столбец с информацией о том, является ли этаж квартиры последним.

In [23]:
data['is_last_floor'] = data['floor_num'] == data['total_floors']
data['is_last_floor'] = data['is_last_floor'].astype('int')

In [25]:
data.head(10)

Unnamed: 0,id,type,district,adress,floor,total_square,living_square,kitchen_square,price,floor_num,total_floors,is_first_floor,is_last_floor
0,1,Трехкомнатная улучшенная,Орджоникидзевский,Ленина пр-т 145/2,1/5,64.0,43.0,8.0,3750,1,5,1,0
1,2,Трехкомнатная,Ленинский,Октябрьская 12,2/5,87.2,60.0,9.0,8300,2,5,0,0
2,3,Однокомнатная нестандартная,Орджоникидзевский,Ленина пр-т 135,6/14,36.1,20.0,9.0,3330,6,14,0,0
3,4,Трехкомнатная нестандартная,Орджоникидзевский,Ленина пр-т 129,5/16,105.0,75.0,14.0,7700,5,16,0,0
4,5,Двухкомнатная улучшенная,Орджоникидзевский,Сиреневый проезд 12,7/9,50.6,43.0,9.0,3800,7,9,0,0
5,6,Двухкомнатная улучшенная,Орджоникидзевский,Ленина пр-т 141,4/9,49.7,35.0,9.0,4000,4,9,0,0
6,7,Двухкомнатная,Правобережный,Советской Армии 9,1/5,43.8,28.6,6.0,3200,1,5,1,0
7,8,Однокомнатная брежневка,Правобережный,Карла Маркса 99,4/9,31.0,17.0,6.0,2670,4,9,0,0
8,9,Однокомнатная хрущевка,Ленинский,Ленинградская 37а,2/5,31.0,19.0,6.0,2650,2,5,0,0
9,10,Однокомнатная хабаровский вариант,Орджоникидзевский,Сиреневый проезд 14/2,6/6,37.0,19.0,8.0,2990,6,6,0,1


### Тип квартиры

В столбце с типом квартиры хранятся данные о количестве комнат и типе квартиры. Разделим их и сохраним в двух разных столбцах.

In [26]:
data['type'].isna().sum()

11

In [29]:
data['type'].isna().sum() / data.shape[0] * 100

2.4282560706401766

In [28]:
data[data['type'].isna()]

Unnamed: 0,id,type,district,adress,floor,total_square,living_square,kitchen_square,price,floor_num,total_floors,is_first_floor,is_last_floor
59,60,,,Ленина пр-т 212а,1/1,18.4,12.0,5.0,1100,1,1,1,1
83,84,,,Карла Маркса 233,8/10,70.0,50.0,7.0,4860,8,10,0,0
97,98,,Орджоникидзевский,Завенягина 1,5/9,65.1,44.0,8.0,4750,5,9,0,0
140,141,,,Торфяная 5/2,1/2,46.8,0.0,0.0,4950,1,2,1,0
161,162,,,Карла Маркса 119/1,2/5,41.0,0.0,6.0,3600,2,5,0,0
162,163,,,Карла Маркса 117,2/5,41.0,26.0,6.0,3400,2,5,0,0
163,164,,,ул Жукова 17/1,4/9,40.1,18.0,9.0,3100,4,9,0,0
176,177,,,Западное шоссе 101,2/3,68.0,40.0,0.0,6000,2,3,0,0
355,356,,,ул Лесопарковая 93/1,10/10,41.2,28.0,12.5,3150,10,10,0,1
365,366,,,Ленина пр-т 114/4,5/14,40.0,18.0,13.0,2620,5,14,0,0
