# Теоретические вопросы

*1) Какую роль выполняет функция активации в полносвязной нейросети? Также нужно пояснить, почему стакать несколько подряд идущих полносвязных слоев без активации не является хорошей практикой.* **0.5 балла**

*2) Допустим у вас есть MLP ("multi layer perceptron" или полносвязная нейросеть) с 10-ю входными нейронами, за ними 50 нейронов в скрытом слое, на выходе 3 нейрона. Все нейроны снабжены функцией активации ReLU.* **1 балл**
- Какова размерность матрицы $X$ на входе, если обучение проводится батчами. Размер батча $batch\_size$
- Какова размерность матрицы весов скрытого слоя $W_h$ и какова размерность вектора байеса $b_h$ этого скрытого слоя?
- Какова размерность матрицы весов выходного слоя $W_o$ и какова размерность вектора байеса $b_o$ выходного слоя?
- Какова размерность выходной матрицы $Y$?
- Напишите как выглядит функция, которая считает выходную матрицу $Y$ как функцию от $X$, $W_h$, $W_o$, $b_h$, $b_o$.

*3) Как устроено автоматическое дифференцирование в Tensorflow?* **0.5 балла**
- Используются ли символьные вычисления?
- Используется ли численное дифференцирование?
- Сколько проходов по графу вычислений необходимо совершить,
  чтобы посчитать градиенты для каждого параметра в Tensorflow?
  
*4) Что такое "backpropagation" и для чего он нужен. Чем он отличается от алгоритма градиентного спуска?* **0.5 балла**

*5) Расскажите в чем отличия между mini-batch, batch, stochastic gradient descent. Какой из этих алгоритмов самый популярный и почему.* **0.5 балла**

*6) Можно ли инициализировать первоначально все параметры обучаемой модели MLP единицами? А нулями? Поясните ваш ответ. Можно ли инициализировать нулями параметры $b_o$, $b_h$ из задачи №2?* **0.5 балла**

*7) Вывести лосс-функцию кросс-энтропии из правдоподобия и из теории информации.* **0.5 балла**

# Теоретические ответы

<ваши ответы тут>

# Первые шаги с TensorFlow

[Описание данных](https://developers.google.com/machine-learning/crash-course/california-housing-data-description)

In [None]:
import numpy as np
import pandas as pd
from sklearn import metrics
import tensorflow as tf

tf.logging.set_verbosity(tf.logging.ERROR)
pd.options.display.max_rows = 10
pd.options.display.float_format = '{:.1f}'.format

Подгружаем данные

In [None]:
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")

california_housing_dataframe = california_housing_dataframe.reindex(
    np.random.permutation(california_housing_dataframe.index)
)

california_housing_dataframe["median_house_value"] /= 1000.0
california_housing_dataframe.head()

## EDA

Посмотрим на данные

In [None]:
california_housing_dataframe.describe()

## Первая модель

В этом задании требуется предсказать стоимовть жилья (`median_house_value`).

Мы будем делать это с помощью [LinearRegressor](https://www.tensorflow.org/api_docs/python/tf/estimator/LinearRegressor) и [tf estimators](https://www.tensorflow.org/get_started/estimator).

### 1. Определяем target

In [None]:
targets = california_housing_dataframe["median_house_value"]

### 2. Определяем входы в модель

С помощью [Dataset API](https://www.tensorflow.org/programmers_guide/datasets) и [Feature columns](https://www.tensorflow.org/guide/feature_columns) мы с легкостью определяем, как данные будут подаваться в модель.

In [None]:
def my_input_fn(features, targets, batch_size=1, shuffle=True, num_epochs=None):
    
    # ключ total_rooms присутствует в features
    features = {key: np.array(value) for key, value in dict(features).items()}                                           
 
    ds = tf.data.Dataset.from_tensor_slices((features, targets))
    # будем выдавать данные батчами в течение num_epochs эпох
    ds = ds.batch(batch_size).repeat(num_epochs)
    
    if shuffle:
        # делаем шафл только во время обучения
        # сможете ответить, зачем нужен шафл данных?
        ds = ds.shuffle(buffer_size=10000)

    return ds

my_feature = california_housing_dataframe[["total_rooms"]]
# по ключу "total_rooms" feature_column будет вытаскивать из tf.data.Dataset нужные фичи
feature_columns = [tf.feature_column.numeric_column("total_rooms", shape=(1,))]

### 3. Определяем Модель

In [None]:
lr = 0.00001
my_optimizer = tf.train.AdamOptimizer(learning_rate=lr)

# посмотрите, какие аргументы принимает LinearRegressor
linear_regressor = tf.estimator.LinearRegressor(
    feature_columns=feature_columns,
    optimizer=my_optimizer
)

### 4. Обучаем модель

In [None]:
_ = linear_regressor.train(
    input_fn = lambda: my_input_fn(my_feature, targets),
    steps=100  # 1 step -- это проход по одному батчу
)

### 5. Считаем качество

In [None]:
prediction_input_fn = lambda: my_input_fn(my_feature, targets, num_epochs=1, shuffle=False)
# питоновский генератор
predictions = linear_regressor.predict(input_fn=prediction_input_fn)

# переводим в numpy
predictions = np.array([item['predictions'][0] for item in predictions])

# считаем метрики
mean_squared_error = metrics.mean_squared_error(predictions, targets)
root_mean_squared_error = np.sqrt(mean_squared_error)

print("Mean Squared Error (on training data): %0.3f" % mean_squared_error)
print("Root Mean Squared Error (on training data): %0.3f" % root_mean_squared_error)

## Перебор гиперпараметров

In [None]:
def train_model(learning_rate, num_epochs, batch_size, input_feature="total_rooms"):

    my_feature_data = california_housing_dataframe[[input_feature]]
    targets = california_housing_dataframe["median_house_value"]

    # Create feature columns.
    feature_columns = [tf.feature_column.numeric_column(input_feature, shape=(1,))]

    # Create input functions.
    training_input_fn = lambda: my_input_fn(my_feature_data, targets, batch_size=batch_size, num_epochs=num_epochs)
    prediction_input_fn = lambda: my_input_fn(my_feature_data, targets, num_epochs=1, shuffle=False)

    # Create a linear regressor object.
    my_optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
    my_optimizer = tf.contrib.estimator.clip_gradients_by_norm(my_optimizer, 5.0)

    linear_regressor = tf.estimator.LinearRegressor(
      feature_columns=feature_columns,
      optimizer=my_optimizer
    )

    print("Training model...")
    linear_regressor.train(input_fn=training_input_fn)

    predictions = linear_regressor.predict(input_fn=prediction_input_fn)
    predictions = np.array([item['predictions'][0] for item in predictions])

    root_mean_squared_error = np.sqrt(metrics.mean_squared_error(predictions, targets))

    print("Final RMSE (on training data): %0.2f" % root_mean_squared_error)

## Задание 1 (2 балла)

Попробуйте поиграть с гиперпараметрами и достигнуть $RMSE \leq 180$

Также можно попробовать:
1. Другой оптимайзер ([здесь](https://www.tensorflow.org/api_docs/python/tf/train) можно посмотреть, какие бывают)
2. Комбинацию фичей (**feature_columns** -- это list, в котором несколько tf.feature_column.numeric_column)
3. Поиграть с аргументами модели (посмотрите, какие аргументы есть у LinearRegressor)

p.s.
Попробуйте переписать функцию `train_model`, чтобы было удобней изменять параметры модели.

In [None]:
# пример обучения модели
train_model(
    learning_rate=0.00001,
    num_epochs=1,
    batch_size=1
)

In [None]:
# YOUR CODE HERE

## Задание 2 (2 балла)

Попробуйте подать в модель другие фичи и достигнуть $RMSE \leq 170$

In [None]:
# YOUR CODE HERE

## Задание 3 (2 балла)

Вместо `tf.estimator.LinearRegressor` попробуйте применить другую модель и достигнуть $RMSE \leq 160$

In [None]:
# YOUR CODE HERE