# Ход работы

In [1]:
# Импортируем библиотеки
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# Считываем набор данных
train_data = pd.read_csv('/data/notebook_files/train.csv')
test_data = pd.read_csv('/data/notebook_files/test.csv')

## Подготовка данных

Смотрим, как выглядят тренировочные и тестовые данные

In [2]:
# Выводим 5 строк тренировочных данных
train_data.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [3]:
# Выводим 5 строк тестовых данных
test_data.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal
3,1464,60,RL,78.0,9978,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2010,WD,Normal
4,1465,120,RL,43.0,5005,Pave,,IR1,HLS,AllPub,...,144,0,,,,0,1,2010,WD,Normal


In [4]:
# функция для проверки и подсчёта пропущеных значений в test_data
# Выводит  датафрейм: Название метркик, кол-во пропущенных значений, тип данных этих значений.
# Отсортировано в порядке убывания для наглядности
def missing_value_checker(data):
    columns = ['name','empty_sum','type']
    df = pd.DataFrame(columns=columns)
    for feature, content in data.items():
        if data[feature].isnull().values.any():
            empty_sum = data[feature].isna().sum()
            data_type = data[feature].dtype
            new_row = {'name': feature, 'empty_sum': empty_sum, 'type':data_type}
            df = df.append(new_row, ignore_index=True)
    sorted_df = df.sort_values(by='empty_sum',ascending=False)
    print(sorted_df)
    print(f'Кол-во метрик с пустыми значениями {df.shape[0]}')

missing_value_checker(test_data)

            name empty_sum     type
29        PoolQC      1456   object
31   MiscFeature      1408   object
2          Alley      1352   object
30         Fence      1169   object
21   FireplaceQu       730   object
1    LotFrontage       227  float64
28    GarageCond        78   object
23   GarageYrBlt        78  float64
27    GarageQual        78   object
24  GarageFinish        78   object
22    GarageType        76   object
9       BsmtCond        45   object
10  BsmtExposure        44   object
8       BsmtQual        44   object
11  BsmtFinType1        42   object
13  BsmtFinType2        42   object
6     MasVnrType        16   object
7     MasVnrArea        15  float64
0       MSZoning         4   object
17  BsmtFullBath         2  float64
18  BsmtHalfBath         2  float64
20    Functional         2   object
3      Utilities         2   object
25    GarageCars         1  float64
26    GarageArea         1  float64
16   TotalBsmtSF         1  float64
19   KitchenQual         1  

Проверяем какие признаки в таблице можно оставить, а какие удалить. Если пропущенных значений слишком много, то удалим признак. Если их небольшое количество, то заполним mean или median для чисел, новая категория missing для строковых объектов.

В соответствии с этим:<br>
– удалим ['Alley', 'FireplaceQu', 'PoolQC', 'Fence', 'MiscFeature'];<br>
– заполним числовое отсутствующее значение значением медианы;<br>
– заполним строковое отсутствующее значение значением missing.

In [5]:
# Удаляем строки с большим кол-вом пропусков 
test_edited = test_data.drop(['Alley','FireplaceQu','PoolQC', 'Fence', 'MiscFeature'], axis=1)
train_edited = train_data.drop(['Alley','FireplaceQu','PoolQC', 'Fence', 'MiscFeature'], axis=1)

# Функция заменяет:
# числовое отсутствующее значение значением median
# строковое отсутствующее значение значением missing
def nan_filler(data):
    for label, content in data.items():
        if pd.api.types.is_numeric_dtype(content):
            data[label] = content.fillna(content.median())
        else:
            data[label] = content.astype("category").cat.as_ordered()
            data[label] = pd.Categorical(content).codes + 1

nan_filler(test_edited)
nan_filler(train_edited)

### Перепроверим наши данные:

In [6]:
# Проверяем наличие пустых значений в тестовой выборке
missing_value_checker(test_edited)

Empty DataFrame
Columns: [name, empty_sum, type]
Index: []
Кол-во метрик с пустыми значениями 0


In [7]:

# Проверяем наличие пустых значений в тренировочной выборке
missing_value_checker(train_edited)

Empty DataFrame
Columns: [name, empty_sum, type]
Index: []
Кол-во метрик с пустыми значениями 0


In [8]:
# Смотрим размеры тренировочных и тестовых данных
train_edited.shape, test_edited.shape

((1460, 76), (1459, 75))

In [9]:
test_edited.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 75 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1459 non-null   int64  
 1   MSSubClass     1459 non-null   int64  
 2   MSZoning       1459 non-null   int8   
 3   LotFrontage    1459 non-null   float64
 4   LotArea        1459 non-null   int64  
 5   Street         1459 non-null   int8   
 6   LotShape       1459 non-null   int8   
 7   LandContour    1459 non-null   int8   
 8   Utilities      1459 non-null   int8   
 9   LotConfig      1459 non-null   int8   
 10  LandSlope      1459 non-null   int8   
 11  Neighborhood   1459 non-null   int8   
 12  Condition1     1459 non-null   int8   
 13  Condition2     1459 non-null   int8   
 14  BldgType       1459 non-null   int8   
 15  HouseStyle     1459 non-null   int8   
 16  OverallQual    1459 non-null   int64  
 17  OverallCond    1459 non-null   int64  
 18  YearBuil

In [10]:
train_edited.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 76 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   int8   
 3   LotFrontage    1460 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   int8   
 6   LotShape       1460 non-null   int8   
 7   LandContour    1460 non-null   int8   
 8   Utilities      1460 non-null   int8   
 9   LotConfig      1460 non-null   int8   
 10  LandSlope      1460 non-null   int8   
 11  Neighborhood   1460 non-null   int8   
 12  Condition1     1460 non-null   int8   
 13  Condition2     1460 non-null   int8   
 14  BldgType       1460 non-null   int8   
 15  HouseStyle     1460 non-null   int8   
 16  OverallQual    1460 non-null   int64  
 17  OverallCond    1460 non-null   int64  
 18  YearBuil

### Разделим данные

Поскольку мы не знаем метку (Цена) тестовых данных, для оценки модели, чтобы получить лучшую модель перед прогнозированием тестовых данных, разделим данные в файле train.scv на обучающие и проверочные данные, соотношение составляет 20%.

In [11]:
X = train_edited.drop('SalePrice', axis=1)
y = train_edited['SalePrice']

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size = 0.2)

In [12]:
X_train.shape, test_edited.shape

((1168, 75), (1459, 75))

## Моделирование

Создаем последовательную модель нейронной сети с помощью фрэймворка Tensorflow

### Построение и обучение первой модели

In [13]:
import tensorflow as tf
#Для обеспечения воспроизводимости результатов устанавливается функция seed
tf.random.set_seed(40)

# Модель Sequential представляет собой линейный стек слоев
from keras.models import Sequential
from keras import layers
from keras import losses
from keras import activations

In [14]:
# В ходе добавления нескольких слоев, была получена данная модель нейронной сети, МАЕ составила ~55000 (наилучший из возможных)

model = Sequential()
# Входной слой
model.add(layers.Dense(100))
# Скрытые слои
model.add(layers.Dense(100))
model.add(layers.Dropout(0.2))  # Чтобы нейросеть не переобучалась
model.add(layers.Dense(100))
# Выходной слой
model.add(layers.Dense(1))

# Выпадение - это техника, при которой случайно выбранные нейроны игнорируются во время тренировки. Они выбывают случайно. 
# Это означает, что их вклад в активацию нижестоящих нейронов временно удален на прямом проходе, и любые обновления веса не применяются к нейрону на обратном проходе

In [15]:

# Коомпилируем нейронную сеть, выбрав функцию потерь и оптимизатор.
#Для оценки потерь используем MSLE(MeanSquaredLogarithmicError), а также метрику MAE(Mean absolute error).
model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE']) 

In [16]:
# Обучите модель на обучающих данных X_train и y_train задав гиперпараметры вашей модели нейронной сети, 
history = model.fit(X_train, y_train, epochs=10, batch_size=10, verbose=0)

#### Оцениваем полученные результаты

In [30]:
def plot_and_history(info_for_compare):
    print(history.history)
    plt.figure(figsize=(10,5))
    plt.suptitle(info_for_compare)
    plt.subplot(1, 2, 1)
    plt.plot(history.history['MAE'], color = 'g')
    plt.title('MAE')
    plt.ylabel('accuracy')
    plt.xlabel('epoch')
    plt.xlim([0, len(history.history['MAE'])])

    plt.subplot(1, 2, 2)
    plt.plot(history.history['loss'])
    plt.title('loss')
    plt.ylabel('accuracy')
    plt.xlabel('epoch')
    plt.xlim([0, len(history.history['loss'])])

plot_and_history('Первая модель')

{'loss': [6.916408538818359, 0.32209309935569763, 0.19468821585178375, 0.18079856038093567, 0.1741115152835846, 0.1609029322862625, 0.14459732174873352, 0.1355023831129074, 0.12637268006801605, 0.1213897168636322], 'MAE': [144668.390625, 74503.1875, 64624.3359375, 62450.2734375, 61473.24609375, 60337.7734375, 56490.35546875, 54802.984375, 52658.33203125, 51263.015625]}


In [23]:
scores = model.evaluate(X_val, y_val, verbose=1)



## Настраиваем параметры для получения лучших результатов

**Пробуем добавить функции активации на скрытые слои**<br>
Функции активации нужны, чтобы проверить результирующее значение, создаваемое нейроном, и решить, должны ли внешние соединения рассматривать этот нейрон как «запущенный» или нет.<br>

Сигмоидная или логистическая функция активации - не подходит для нашей задачи т.к переводит входные данные в диапазоне [-Inf; + Inf] к диапазону в (0; 1).
Функция активации tanh - так же нам не подходит, т.к переводит входные данные  к диапазону в (-1; 1)<br>
Функция активации softmax - сдавливает выходы каждого блока в диапазоне от 0 до 1, как сигмоид. Он также делит каждый выход так, что общая сумма выходов равна 1<br>
Функция активации ReLU - если входное значение <0, то выходное значение 0, иначе выходное значение равно входному <br>


In [31]:
#  С помошью добавления ф-ии активации relu уменьшили МАЕ до 39000
model_2 = Sequential()
# Входной слой
model_2.add(layers.Dense(100))
# Скрытые слои
model_2.add(layers.Dense(100, activation=activations.relu))
model_2.add(layers.Dropout(0.2)) 
model_2.add(layers.Dense(100))
# Выходной слой
model_2.add(layers.Dense(1))

model_2.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE']) 
history = model_2.fit(X_train, y_train, epochs=10, batch_size=10, verbose=1)
plot_and_history('Модель с функцией активации')
scores = model_2.evaluate(X_val, y_val, verbose=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
{'loss': [3.2973053455352783, 0.1556895226240158, 0.14425818622112274, 0.14473235607147217, 0.12714380025863647, 0.11648599058389664, 0.11092182993888855, 0.09877196699380875, 0.09316609799861908, 0.08465676009654999], 'MAE': [115993.875, 59038.234375, 57999.7734375, 57404.984375, 53684.53515625, 50489.62109375, 49369.859375, 46279.70703125, 43943.125, 42327.65625]}


**Пробуем использовать разное количество нейронов на входном слое**

In [34]:
# Лучший результат МАЕ = 33000 получен при количестве нейронов на первом слое 250, поставим это значение в качестве основного
def find_amount_of_neurons(amount):
    model = Sequential()
    # Входной слой
    model.add(layers.Dense(amount))
    # Скрытые слои
    model.add(layers.Dense(100,activation=activations.relu))
    model.add(layers.Dropout(0.2)) 
    model.add(layers.Dense(100))
    # Выходной слой
    model.add(layers.Dense(1))

    model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE']) 
    history = model.fit(X_train, y_train, epochs=10, batch_size=10, verbose=0)
    scores = model.evaluate(X_val, y_val, verbose=1)
    print(f'На первом слое {amount} нейронов')
    print(scores)
    plot_and_history(amount)

list_of_neurons = [100, 150, 200, 250, 300]
for i in list_of_neurons:
    find_amount_of_neurons(i)

На первом слое 100 нейронов
[0.05923028662800789, 32080.822265625]
{'loss': [3.2973053455352783, 0.1556895226240158, 0.14425818622112274, 0.14473235607147217, 0.12714380025863647, 0.11648599058389664, 0.11092182993888855, 0.09877196699380875, 0.09316609799861908, 0.08465676009654999], 'MAE': [115993.875, 59038.234375, 57999.7734375, 57404.984375, 53684.53515625, 50489.62109375, 49369.859375, 46279.70703125, 43943.125, 42327.65625]}
На первом слое 150 нейронов
[0.0575985312461853, 31423.130859375]
{'loss': [3.2973053455352783, 0.1556895226240158, 0.14425818622112274, 0.14473235607147217, 0.12714380025863647, 0.11648599058389664, 0.11092182993888855, 0.09877196699380875, 0.09316609799861908, 0.08465676009654999], 'MAE': [115993.875, 59038.234375, 57999.7734375, 57404.984375, 53684.53515625, 50489.62109375, 49369.859375, 46279.70703125, 43943.125, 42327.65625]}
На первом слое 200 нейронов
[0.05144469067454338, 29392.94921875]
{'loss': [3.2973053455352783, 0.1556895226240158, 0.14425818622

Подбираем количесвто нейронов на скрытых слоях, чтобы улучшить показатели

In [201]:
# Лучший результат МАЕ = 30500 получен при количестве нейронов на втором слое 300, поставим это значение в качестве основного
def find_amount_of_neurons(amount):
    model = Sequential()
    # Входной слой
    model.add(layers.Dense(250))
    # Скрытые слои
    model.add(layers.Dense(amount,activation=activations.relu))
    model.add(layers.Dropout(0.2)) 
    model.add(layers.Dense(100))
    # Выходной слой
    model.add(layers.Dense(1))

    model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE']) 
    history = model.fit(X_train, y_train, epochs=10, batch_size=10, verbose=0)
    scores = model.evaluate(X_val, y_val, verbose=1)
    print(f'На втором слое {amount} нейронов')
    print(scores)
    plot_and_history(amount)

list_of_neurons = [100, 150, 200, 250, 300]
for i in list_of_neurons:
    find_amount_of_neurons(i)

На первом слое 100 нейронов
[0.06978530436754227, 38442.07421875]
{'loss': [3.824916362762451, 0.16336092352867126, 0.1491982638835907, 0.13419829308986664, 0.13197246193885803, 0.11467784643173218, 0.10217291116714478, 0.09875570982694626, 0.09493336826562881, 0.08702591806650162], 'MAE': [117183.4140625, 58743.51953125, 56288.1015625, 54019.25390625, 52018.0859375, 48040.11328125, 45776.01953125, 44169.15234375, 43297.0390625, 41718.23828125]}
На первом слое 150 нейронов
[0.05883568897843361, 35070.59375]
{'loss': [3.824916362762451, 0.16336092352867126, 0.1491982638835907, 0.13419829308986664, 0.13197246193885803, 0.11467784643173218, 0.10217291116714478, 0.09875570982694626, 0.09493336826562881, 0.08702591806650162], 'MAE': [117183.4140625, 58743.51953125, 56288.1015625, 54019.25390625, 52018.0859375, 48040.11328125, 45776.01953125, 44169.15234375, 43297.0390625, 41718.23828125]}
На первом слое 200 нейронов
[0.07576382160186768, 39376.6171875]
{'loss': [3.824916362762451, 0.1633609

In [202]:
# Лучший результат МАЕ = 30000 получен при количестве нейронов на третьем слое 150, поставим это значение в качестве основного
# Нейросеть стала дольше обучаться, при этом перестал происходить прирост точности
def find_amount_of_neurons(amount):
    model = Sequential()
    # Входной слой
    model.add(layers.Dense(250))
    # Скрытые слои
    model.add(layers.Dense(300,activation=activations.relu))
    model.add(layers.Dropout(0.2)) 
    model.add(layers.Dense(amount))
    # Выходной слой
    model.add(layers.Dense(1))

    model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE']) 
    history = model.fit(X_train, y_train, epochs=10, batch_size=10, verbose=0)
    scores = model.evaluate(X_val, y_val, verbose=1)
    print(f'На третьем слое {amount} нейронов')
    print(scores)
    plot_and_history(amount)

list_of_neurons = [100, 150, 200, 250, 300]
for i in list_of_neurons:
    find_amount_of_neurons(i)

На третьем слое 100 нейронов
[0.04961702972650528, 31125.21484375]
{'loss': [3.824916362762451, 0.16336092352867126, 0.1491982638835907, 0.13419829308986664, 0.13197246193885803, 0.11467784643173218, 0.10217291116714478, 0.09875570982694626, 0.09493336826562881, 0.08702591806650162], 'MAE': [117183.4140625, 58743.51953125, 56288.1015625, 54019.25390625, 52018.0859375, 48040.11328125, 45776.01953125, 44169.15234375, 43297.0390625, 41718.23828125]}
На третьем слое 150 нейронов
[0.04948701336979866, 30088.701171875]
{'loss': [3.824916362762451, 0.16336092352867126, 0.1491982638835907, 0.13419829308986664, 0.13197246193885803, 0.11467784643173218, 0.10217291116714478, 0.09875570982694626, 0.09493336826562881, 0.08702591806650162], 'MAE': [117183.4140625, 58743.51953125, 56288.1015625, 54019.25390625, 52018.0859375, 48040.11328125, 45776.01953125, 44169.15234375, 43297.0390625, 41718.23828125]}
На третьем слое 200 нейронов
[0.05117577314376831, 30719.14453125]
{'loss': [3.824916362762451, 0

 **Используем разное количество эпох**<br>
 Произошла одна эпоха (epoch) — весь датасет прошел через нейронную сеть в прямом и обратном направлении только один раз.

In [33]:
# 30 эпох дают лучший результат. МАЕ = 27500
def find_amount_of_epochs(amount):
    model = Sequential()
    # Входной слой
    model.add(layers.Dense(250))
    # Скрытые слои
    model.add(layers.Dense(300,activation=activations.relu))
    model.add(layers.Dropout(0.2)) 
    model.add(layers.Dense(150))
    # Выходной слой
    model.add(layers.Dense(1))

    model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE']) 
    history = model.fit(X_train, y_train, epochs=amount, batch_size=10, verbose=0)
    scores = model.evaluate(X_val, y_val, verbose=1)
    print(f'Кол-во эпох: {amount} ')
    print(scores)
    plot_and_history(amount)

list_of_epochs = [10, 15, 20, 25, 30]
for i in list_of_epochs:
    find_amount_of_epochs(i)

Кол-во эпох: 10 
[0.04341979697346687, 28865.8046875]
{'loss': [3.2973053455352783, 0.1556895226240158, 0.14425818622112274, 0.14473235607147217, 0.12714380025863647, 0.11648599058389664, 0.11092182993888855, 0.09877196699380875, 0.09316609799861908, 0.08465676009654999], 'MAE': [115993.875, 59038.234375, 57999.7734375, 57404.984375, 53684.53515625, 50489.62109375, 49369.859375, 46279.70703125, 43943.125, 42327.65625]}
Кол-во эпох: 15 
[0.04038219153881073, 26357.8046875]
{'loss': [3.2973053455352783, 0.1556895226240158, 0.14425818622112274, 0.14473235607147217, 0.12714380025863647, 0.11648599058389664, 0.11092182993888855, 0.09877196699380875, 0.09316609799861908, 0.08465676009654999], 'MAE': [115993.875, 59038.234375, 57999.7734375, 57404.984375, 53684.53515625, 50489.62109375, 49369.859375, 46279.70703125, 43943.125, 42327.65625]}
Кол-во эпох: 20 
[0.038666900247335434, 24161.314453125]
{'loss': [3.2973053455352783, 0.1556895226240158, 0.14425818622112274, 0.14473235607147217, 0.127

**Используем разные размеры мини-выборки (batch_size)**<br>
Нельзя пропустить через нейронную сеть разом весь датасет. Поэтому делим данные на небольшие партии<br>
batch_size - размер пакета, т.е кол-во элементов нашей партии<br>
Итерации — число батчей, необходимых для завершения одной эпохи(сколько полных батчей помещается в наш датасет)<br>

In [205]:
# Лучший результат остался при batch_size = 10
def find_batch_size(amount):
    model = Sequential()
    # Входной слой
    model.add(layers.Dense(250))
    # Скрытые слои
    model.add(layers.Dense(300,activation=activations.relu))
    model.add(layers.Dropout(0.2)) 
    model.add(layers.Dense(150))
    # Выходной слой
    model.add(layers.Dense(1))

    model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE']) 
    history = model.fit(X_train, y_train, epochs=30, batch_size=amount, verbose=0)
    scores = model.evaluate(X_val, y_val, verbose=1)
    print(f'Размер партии: {amount} ')
    print(scores)
    plot_and_history(amount)

list_of_batch_size = [10, 15, 20, 25, 30]
for i in list_of_batch_size:
    find_batch_size(i)

Размер партии: 10 
[0.046760641038417816, 28255.95703125]
{'loss': [3.824916362762451, 0.16336092352867126, 0.1491982638835907, 0.13419829308986664, 0.13197246193885803, 0.11467784643173218, 0.10217291116714478, 0.09875570982694626, 0.09493336826562881, 0.08702591806650162], 'MAE': [117183.4140625, 58743.51953125, 56288.1015625, 54019.25390625, 52018.0859375, 48040.11328125, 45776.01953125, 44169.15234375, 43297.0390625, 41718.23828125]}
Размер партии: 15 
[0.05142075568437576, 29902.900390625]
{'loss': [3.824916362762451, 0.16336092352867126, 0.1491982638835907, 0.13419829308986664, 0.13197246193885803, 0.11467784643173218, 0.10217291116714478, 0.09875570982694626, 0.09493336826562881, 0.08702591806650162], 'MAE': [117183.4140625, 58743.51953125, 56288.1015625, 54019.25390625, 52018.0859375, 48040.11328125, 45776.01953125, 44169.15234375, 43297.0390625, 41718.23828125]}
Размер партии: 20 
[0.052459705621004105, 31305.794921875]
{'loss': [3.824916362762451, 0.16336092352867126, 0.14919

**Пробуем менять оптимизаторы**<br>
SGD - стохастический градиентный спуск.Метод нахождения минимального значения функции.Поиск минимума означает получение наименьшей возможной ошибки <br>
RMSprop - Делит скорость обучения для веса на скользящее среднее значение последних градиентов этого веса <br>
Adagrad - скорость обучения параметра (веса) зависит от частоты его обновления: чем чаще обновляется параметр, тем меньше скорость его обучения <br>
Adam - Aдаптивная оценка момента. вычисляет адаптивные скорости обучения для каждого параметра <br>

Модель с оптимизатором Adam показала лучшую точность МАЕ = 28000( возможно это связано с тем, что все предыдущие настройки производились с данным оптимизатором)

In [38]:
# SGD
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='sgd', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=0)
scores = model.evaluate(X_val, y_val, verbose=1)
print(f'Используем оптимизатор: SGD ')
print(scores)
plot_and_history('SGD')
print(history)

Используем оптимизатор: SGD 
[0.09137977659702301, 43585.80078125]
{'loss': [0.7365202307701111, 0.182735413312912, 0.17367951571941376, 0.17277710139751434, 0.16830402612686157, 0.16457298398017883, 0.16474536061286926, 0.15669496357440948, 0.158038929104805, 0.15750440955162048, 0.1545025259256363, 0.14931821823120117, 0.1481282114982605, 0.14470431208610535, 0.14392811059951782, 0.14205937087535858, 0.13753697276115417, 0.13114619255065918, 0.1345379650592804, 0.13464365899562836, 0.13105423748493195, 0.13049554824829102, 0.125507190823555, 0.12286340445280075, 0.12600581347942352, 0.12245464324951172, 0.11875634640455246, 0.12080156058073044, 0.1173979714512825, 0.11758115887641907], 'MAE': [84641.3046875, 64206.609375, 63166.546875, 62770.69140625, 62365.13671875, 60929.47265625, 61806.54296875, 59565.92578125, 60089.15625, 60215.1171875, 59628.671875, 58182.34765625, 58190.53515625, 57337.09765625, 57199.359375, 56966.62890625, 55781.0625, 54091.359375, 55387.55859375, 55183.7812

In [39]:
#Adagrad
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adagrad', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=0)
scores = model.evaluate(X_val, y_val, verbose=1)
print(f'Используем оптимизатор: Adagrad ')
print(scores)
plot_and_history('Adagrad')
print(history)

Используем оптимизатор: Adagrad 
[0.1398162543773651, 53761.87890625]
{'loss': [9.339327812194824, 2.9627296924591064, 1.8276572227478027, 1.2653982639312744, 0.9313598871231079, 0.7208945751190186, 0.5833229422569275, 0.47915294766426086, 0.40273231267929077, 0.3492892384529114, 0.3085964322090149, 0.2768022418022156, 0.25084564089775085, 0.23522473871707916, 0.21699993312358856, 0.20870091021060944, 0.19365672767162323, 0.1873876452445984, 0.1844240427017212, 0.17709828913211823, 0.17762798070907593, 0.1718282401561737, 0.16798967123031616, 0.16458623111248016, 0.16553005576133728, 0.16497890651226044, 0.1609351933002472, 0.16011615097522736, 0.1622757911682129, 0.162178173661232], 'MAE': [166088.421875, 147494.15625, 133299.125, 121130.109375, 110835.90625, 101850.59375, 95073.8828125, 88866.1015625, 82797.6953125, 78374.234375, 74399.140625, 71641.9140625, 69076.4921875, 67696.859375, 65518.20703125, 63991.91796875, 62667.71875, 62026.9375, 62210.8203125, 61737.1640625, 61209.13671

In [0]:
#RMSprop
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='rmsprop', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=0)
scores = model.evaluate(X_val, y_val, verbose=1)
print(f'Используем оптимизатор: RMSprop ')
print(scores)
plot_and_history('RMSprop')
print(history)

In [41]:
#Adam
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=0)
scores = model.evaluate(X_val, y_val, verbose=1)
print(f'Используем оптимизатор: Adam ')
print(scores)
plot_and_history('Adam')

Используем оптимизатор: Adam 
[0.05174512788653374, 28608.775390625]
{'loss': [2.180927276611328, 0.12093038111925125, 0.09747743606567383, 0.07735186815261841, 0.0618961863219738, 0.05371647700667381, 0.050372328609228134, 0.05049555376172066, 0.051197003573179245, 0.047919947654008865, 0.04611522704362869, 0.04820195212960243, 0.045885391533374786, 0.04688260704278946, 0.045824021100997925, 0.046661924570798874, 0.04604313150048256, 0.0436118021607399, 0.043487172573804855, 0.04505639895796776, 0.04429551213979721, 0.04397166147828102, 0.04345058649778366, 0.04529646039009094, 0.045164305716753006, 0.04338157922029495, 0.043530482798814774, 0.04354935139417648, 0.04325661435723305, 0.04171978682279587], 'MAE': [82963.1640625, 51693.58984375, 45587.91015625, 39839.46875, 35289.23828125, 32329.77734375, 31192.25390625, 30983.845703125, 31374.228515625, 30209.626953125, 29786.2265625, 30345.076171875, 28967.44921875, 29330.353515625, 28784.537109375, 29127.345703125, 29199.828125, 27735

**Пробуем разные функции потерь**<br>
Функция потерь MSLE - показала лучший результат (Возможно повлияло то, что все предыдущие параметры настраивалиьс при данной функции потерь)

In [48]:
# MSLE - использовалась для обучения всех предыдущих моделей
# Средняя квадратичная логарифмическая ошибка 
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=0)
scores = model.evaluate(X_val, y_val, verbose=1)
print(f'Используем функцию потерь MSLE ')
print(scores)
plot_and_history('MSLE')

Используем функцию потерь MSLE 
[0.04921257495880127, 28667.4375]
{'loss': [1.6056684255599976, 0.14083534479141235, 0.11425089091062546, 0.09671857208013535, 0.07660437375307083, 0.06250405311584473, 0.05677688866853714, 0.05223247781395912, 0.0526583194732666, 0.0534987635910511, 0.0495191290974617, 0.050251517444849014, 0.04988187551498413, 0.04887447506189346, 0.050457995384931564, 0.05131012946367264, 0.04947328194975853, 0.04700044170022011, 0.04790506511926651, 0.04539065062999725, 0.04751739278435707, 0.04717138037085533, 0.04390977323055267, 0.04541782662272453, 0.0436207577586174, 0.044489819556474686, 0.0437406562268734, 0.0459488220512867, 0.0457787923514843, 0.043918315321207047], 'MAE': [89266.7421875, 56311.921875, 49866.15625, 45319.40234375, 39776.2734375, 35485.65234375, 33402.2109375, 32055.177734375, 32246.33203125, 32353.71484375, 31089.267578125, 31622.99609375, 30888.00390625, 30257.64453125, 30814.47265625, 30929.158203125, 30847.9375, 29170.541015625, 30111.708

In [47]:
# MeanAbsoluteError - Средняя абсолютная ошибка 
# это мера того, насколько полученные моделью значения отличаются от истинных
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanAbsoluteError(), optimizer='adam', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=0)
scores = model.evaluate(X_val, y_val, verbose=1)
print(f'Используем функцию потерь MАE ')
print(scores)
plot_and_history('MAE')

Используем функцию потерь MАE 
[30616.1875, 30616.1875]
{'loss': [62163.59765625, 36393.82421875, 31719.0625, 30641.818359375, 31382.544921875, 29383.3671875, 30549.763671875, 30083.068359375, 28040.978515625, 28746.482421875, 28358.7109375, 27894.125, 27533.66796875, 27407.09765625, 26656.52734375, 26654.01953125, 28472.416015625, 26332.48046875, 27853.484375, 26659.240234375, 26811.142578125, 27259.330078125, 25887.744140625, 25399.21484375, 26244.66796875, 25343.763671875, 26593.017578125, 26109.634765625, 26213.689453125, 25624.201171875], 'MAE': [62163.59765625, 36393.82421875, 31719.0625, 30641.814453125, 31382.544921875, 29383.3671875, 30549.763671875, 30083.068359375, 28040.978515625, 28746.482421875, 28358.7109375, 27894.12109375, 27533.66796875, 27407.09765625, 26656.52734375, 26654.01953125, 28472.416015625, 26332.48046875, 27853.486328125, 26659.240234375, 26811.142578125, 27259.330078125, 25887.744140625, 25399.21484375, 26244.66796875, 25343.763671875, 26593.017578125, 26

In [49]:
# Средняя квадратная ошибка (Mean Squared Error)  
# это мера того, насколько квадраты полученных моделью значений отличается от истинных
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanSquaredError(), optimizer='adam', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=0)
scores = model.evaluate(X_val, y_val, verbose=1)
print(f'Используем функцию потерь MSE ')
print(scores)
plot_and_history('MSE')

Используем функцию потерь MSE 
[7574959616.0, 30357.322265625]
{'loss': [12713562112.0, 4168375040.0, 2775363840.0, 2055171456.0, 1788731136.0, 1738568192.0, 1816988800.0, 1759361792.0, 1601069184.0, 1819124096.0, 1976518016.0, 1605179904.0, 1644567040.0, 1586574464.0, 1462604416.0, 1526306688.0, 1597982976.0, 1769081344.0, 1576881792.0, 1378580992.0, 1416018048.0, 1611869312.0, 1512003328.0, 1324259712.0, 1387521664.0, 1316750720.0, 1417426176.0, 1436818432.0, 1386349696.0, 1358905984.0], 'MAE': [70688.2265625, 45281.9140625, 36914.9140625, 31401.60546875, 29703.130859375, 29679.3671875, 29737.109375, 30242.9140625, 28421.46484375, 29716.80859375, 29648.103515625, 28254.671875, 28474.138671875, 28417.080078125, 27187.7578125, 28273.6796875, 27657.90625, 28551.69140625, 27993.48828125, 26232.876953125, 26646.447265625, 28171.353515625, 27354.90234375, 25737.375, 26567.4765625, 25999.146484375, 26686.130859375, 27078.78515625, 26553.08984375, 26083.408203125]}


## Предсказание

In [50]:
#  Финальная модель, полученная в ходе лабораторной работы
model = Sequential()
# Входной слой
model.add(layers.Dense(250))
# Скрытые слои
model.add(layers.Dense(300, activation=activations.relu))
model.add(layers.Dropout(0.2))
model.add(layers.Dense(150))
# Выходной слой
model.add(layers.Dense(1))

model.compile(loss=losses.MeanSquaredLogarithmicError(), optimizer='adam', metrics=['MAE'])
history = model.fit(X_train, y_train, epochs=30, batch_size=10, verbose=1)
scores = model.evaluate(X_val, y_val, verbose=1)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


In [1]:
preds = model.predict(test_edited)
preds

NameError: NameError: name 'model' is not defined

In [52]:
output = pd.DataFrame(
{
    'Id':test_data['Id'],
    'SalePrice': np.squeeze(preds)
})
output

Unnamed: 0,Id,SalePrice
0,1461,146976.234375
1,1462,86779.765625
2,1463,185110.046875
3,1464,187288.765625
4,1465,164490.046875
...,...,...
1454,2915,89231.203125
1455,2916,108427.031250
1456,2917,187847.781250
1457,2918,98239.273438
