# Продажи недвижимости в России (поиск выбросов)
**Источник:** <br>https://www.kaggle.com/
<br>
<br>
**Цели:** <br>● провести предобработку данных, для последующего их удобного анализа
<br>
● проанализировать данные в соответсвии с имеющимися задачами
<br>
<br>
**Задачи:** <br>● получить предсказания модели на валидационной выборке
<br>● сравнить с предсказаниями модели, выдающей среднюю цену
<br>
<br>
**Входные данные:** <br>входные данные представляют собой 2 файла csv, содержащие в себе информацию о недвижимости 2х регионов
<br>
<br>
**Используемые библиотеки:** <br>pandas
<br>numpy
<br>sklearn
<br>matplotlib.pyplot
<br>seaborn
<br>sklearn.model_selection
<br>sklearn.linear_model
<br>sklearn.metrics
<br>sklearn.dummy
<br>
<br>
Для начала импортируем библиотеки

In [1]:
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.dummy import DummyRegressor
import math

Считаем файл, содержащий в себе информацию о недвижимости в Челябинской области, запишем его в переменную df

In [2]:
df = pd.read_csv("out2.csv")

Промерим, что файл считался корректно

In [3]:
df.head()

Unnamed: 0.1,Unnamed: 0,price,region,building_type,rooms,area,object_type,prise_meter,month,year,flat
0,508,1800000,5282,3,2,53.0,1,33962.264151,9,2018,0
1,537,2600000,5282,1,3,65.6,11,39634.146341,9,2018,2
2,559,1600000,5282,3,3,62.0,1,25806.451613,9,2018,2
3,565,1400000,5282,3,1,41.0,1,34146.341463,9,2018,2
4,570,1650000,5282,3,2,43.0,1,38372.093023,9,2018,2


Удалим лишний столбец "Unnamed: 0"

In [4]:
df = df.drop(["Unnamed: 0"], axis=1)

Выделим признаки и целевой признак.
Целевой признак сохраним в переменную target, а остальные — в features

In [5]:
target = df["price"]
features = df.drop(["price"], axis=1)

Выберем рандомно 25 процентов от всех данных

In [6]:
np.random.seed(31415)
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25)

Инициализируем модель линейной регрессии

In [7]:
model = LinearRegression()

Обучим модель на обучающей выборке

In [8]:
model.fit(features_train, target_train)

LinearRegression()

 Получим предсказания модели на валидационной выборке

In [9]:
predictions_valid = model.predict(features_valid)

Посчитаем метрику RMSE на валидационной выборке

In [10]:
x = mean_squared_error(target_valid, predictions_valid)
print(math.sqrt(x))

101845.80689902995


Проверим модель на адекватность, инициализировав и обучив модель DummyRegressor

In [11]:
dummy_regr = DummyRegressor(strategy="mean")
dummy_regr.fit(features_train, target_train)
predictions_valid = dummy_regr.predict(features_valid)


Посчитаем метрику RMSE на валидационной выборке для второй модели

In [12]:
x = mean_squared_error(target_valid, predictions_valid)
print(math.sqrt(x))

581252.1394452903


101844.86922769148 - резальтат ошибки для нашей модели линейной регрессии. Это конечно не идеально, но все таки, если говорить про цену квартир, которая колеблиться в пределах нескольких миллионов рублей, 100 тысяч - это не так плохо. Для сравнения простая модель DummyRegressor выдала возможное отклонение в размере 581252.1394452903, т.е. почти 600 тысяч, что уже является достаточно значительной суммой. 
<br>
Повторим то же самое для данных по Адыгее:

In [13]:
df1 = pd.read_csv("out3.csv")
df1 = df1.drop(["Unnamed: 0"], axis=1)
target = df1["price"]
features = df1.drop(["price"], axis=1)
np.random.seed(31415)
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25)
model = LinearRegression()
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)
x = mean_squared_error(target_valid, predictions_valid)
print(math.sqrt(x))

267953.2703447829


In [14]:
dummy_regr = DummyRegressor(strategy="mean")
dummy_regr.fit(features_train, target_train)
predictions_valid = dummy_regr.predict(features_valid)
x = mean_squared_error(target_valid, predictions_valid)
print(math.sqrt(x))


1032119.7090667846


267953.2703447829 - это уже хуже, чем в Челябинской области, причем в 2.5 раза. Более того, DummyRegressor справился лучше, и там погрешность всего 1032119.7090667846. То есть наша модель может ошибиться на 270 тысяч, а DummyRegressor всего на 100 тысяч. Тем не менее, это все равно не атк критично, если мы говорим про цены на квартиры 

In [15]:
df2 = df1.append(df, ignore_index=True) 
target = df2["price"]
features = df2.drop(["price"], axis=1)
np.random.seed(31415)
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25)
model = LinearRegression()
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)
x = mean_squared_error(target_valid, predictions_valid)
print(math.sqrt(x))

247139.06902227987


  df2 = df1.append(df, ignore_index=True)


## Вывод
Я познакомилась с машинным обучением, попробовала реализовать простейшую модель, предсказывающую цену за квартиру по существующим параметрам. Я столкнулась с тем, что не всегда эта модель дейтсвительно может отработать хорошо. При данных о недвижимости в Адыгее, размер ошибки был достаточно большим. Тем не менее, я приобрела новые знания и навыки.