**Этот ноутбук — упражнение из курса [Intro to Deep Learning](https://www.kaggle.com/learn/intro-to-deep-learning).  Справочник по уроку — по [этой ссылке](https://www.kaggle.com/ryanholbrook/stochastic-gradient-descent).**

---


# Введение #

В этом упражнении вы обучите нейронную сеть на наборе данных *Fuel Economy* и затем изучите влияние скорости обучения и размера батча на SGD.

Когда будете готовы, запустите следующую ячейку, чтобы все настроить!


In [None]:
# Setup plotting
import matplotlib.pyplot as plt
from learntools.deep_learning_intro.dltools import animate_sgd
plt.style.use('seaborn-whitegrid')
# Set Matplotlib defaults
plt.rc('figure', autolayout=True)
plt.rc('axes', labelweight='bold', labelsize='large',
       titleweight='bold', titlesize=18, titlepad=10)
plt.rc('animation', html='html5')

# Setup feedback system
from learntools.core import binder
binder.bind(globals())
from learntools.deep_learning_intro.ex3 import *

В наборе данных *Fuel Economy* ваша задача — предсказать экономичность топлива автомобиля по таким признакам, как тип двигателя или год выпуска. 

Сначала загрузите набор данных, запустив ячейку ниже.


In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.model_selection import train_test_split

fuel = pd.read_csv('../input/dl-course-data/fuel.csv')

X = fuel.copy()
# Remove target
y = X.pop('FE')

preprocessor = make_column_transformer(
    (StandardScaler(),
     make_column_selector(dtype_include=np.number)),
    (OneHotEncoder(sparse=False),
     make_column_selector(dtype_include=object)),
)

X = preprocessor.fit_transform(X)
y = np.log(y) # log transform target instead of standardizing

input_shape = [X.shape[1]]
print("Input shape: {}".format(input_shape))

При желании посмотрите на данные. Целевая переменная — столбец `'FE'`, остальные столбцы — признаки.


In [None]:
# Uncomment to see original data
fuel.head()
# Uncomment to see processed features
pd.DataFrame(X[:10,:]).head()

Запустите следующую ячейку, чтобы определить сеть, которую мы будем использовать для этой задачи.


In [None]:
from tensorflow import keras
from tensorflow.keras import layers

model = keras.Sequential([
    layers.Dense(128, activation='relu', input_shape=input_shape),
    layers.Dense(128, activation='relu'),    
    layers.Dense(64, activation='relu'),
    layers.Dense(1),
])

# 1) Добавьте функцию потерь и оптимизатор

Перед обучением сети нужно определить функцию потерь и оптимизатор. С помощью метода `compile` модели добавьте оптимизатор Adam и функцию потерь MAE.


In [None]:
# YOUR CODE HERE
____

# Check your answer
q_1.check()

In [None]:
# Lines below will give you a hint or solution code
#q_1.hint()
#q_1.solution()

# 2) Обучите модель

После того как вы определили модель и скомпилировали ее с функцией потерь и оптимизатором, можно обучать. Обучите сеть 200 эпох с размером батча 128. Входные данные — `X`, целевая переменная — `y`.


In [None]:
# YOUR CODE HERE
history = ____

# Check your answer
q_2.check()

In [None]:
# Lines below will give you a hint or solution code
#q_2.hint()
#q_2.solution()

Последний шаг — посмотреть на кривые потерь и оценить обучение. Запустите ячейку ниже, чтобы построить график потерь на обучении.


In [None]:
import pandas as pd

history_df = pd.DataFrame(history.history)
# Start the plot at epoch 5. You can change this to get a different view.
history_df.loc[5:, ['loss']].plot();

# 3) Оцените обучение

Если бы вы обучали модель дольше, ожидали бы вы дальнейшего уменьшения потерь?


In [None]:
# View the solution (Run this cell to receive credit!)
q_3.check()

С помощью скорости обучения и размера батча вы можете влиять на:
- Сколько времени занимает обучение модели
- Насколько шумными будут кривые обучения
- Насколько маленькой станет потеря

Чтобы лучше понять эти два параметра, рассмотрим линейную модель — нашу самую простую (ppsimplest) нейронную сеть. Имея всего один вес и смещение, легче увидеть, какой эффект оказывает изменение параметров.

Следующая ячейка сгенерирует анимацию, похожую на ту, что в уроке. Измените значения `learning_rate`, `batch_size` и `num_examples` (сколько точек данных), а затем запустите ячейку. (Это может занять минуту-другую.) Попробуйте следующие комбинации или свои варианты:

| `learning_rate` | `batch_size` | `num_examples` |
|-----------------|--------------|----------------|
| 0.05            | 32           | 256            |
| 0.05            | 2            | 256            |
| 0.05            | 128          | 256            |
| 0.02            | 32           | 256            |
| 0.2             | 32           | 256            |
| 1.0             | 32           | 256            |
| 0.9             | 4096         | 8192           |
| 0.99            | 4096         | 8192           |


In [None]:
# YOUR CODE HERE: Experiment with different values for the learning rate, batch size, and number of examples
learning_rate = 0.05
batch_size = 32
num_examples = 256

animate_sgd(
    learning_rate=learning_rate,
    batch_size=batch_size,
    num_examples=num_examples,
    # You can also change these, if you like
    steps=50, # total training steps (batches seen)
    true_w=3.0, # the slope of the data
    true_b=2.0, # the bias of the data
)

# 4) Скорость обучения и размер батча

Какой эффект оказало изменение этих параметров? Подумав, запустите ячейку ниже для обсуждения.


In [None]:
# View the solution (Run this cell to receive credit!)
q_4.check()

# Продолжайте #

Узнайте, как [**улучшить качество модели**](https://www.kaggle.com/ryanholbrook/overfitting-and-underfitting) с помощью настройки мощности или добавления ранней остановки.


---




*Есть вопросы или комментарии? Посетите [форум обсуждений курса](https://www.kaggle.com/learn/intro-to-deep-learning/discussion), чтобы пообщаться с другими учащимися.*
