# Deep Learning

Начнём наш курс с исторической справки, когда и как что появилось:

<img src="https://drive.google.com/uc?export=view&id=1c-NlY2gB_yHj_jOzj0MmqizzFSsjZboI" style="width:1066px;height:501px;">

Предполагается, что модель нейрона, используемая в искусственных нейросетях, называемая [перцептроном](https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD), соответствует биологическим нейронам головного мозга (предполоджение выдвинуто в 1957 году нейрофизиологом Фрэнком Розенблаттом).

<img src="https://drive.google.com/uc?export=view&id=1wh2tZL8Z5H802sZ6j1rCJvqNI9PZjPwT" style="width:533px;height:250px;">

На рисунке выше изображена одна из первых моделей нейросети (1965 год), однако веса в такой модели не подбирались в процессе обучения, а задавались исходя из каких-то базовых предположений.

Помимо событий, отмеченных в таймлайне, нелишним будет упомянуть теорему об универсальной аппроксимации (1989 by George Cybenko), являющейся математическим доказательством того, что искусственная нейросеть способна аппроксимировать любую "достаточно хорошую" функцию:

[Универсальная теорема об аппроксимации (википедии);](https://en.wikipedia.org/wiki/Universal_approximation_theorem)

[Универсальная теорема об аппроксимации (оригинальная статья);](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.441.7873&rep=rep1&type=pdf)

Начало 2000-ых называется также периодом AI Winter (вторая зима ИИ), поскольку все идеи уже были изложены, но по причине отсутствия больших наборов данных и производительных процессоров обучать сложные и глубокие нейросети не представлялось возможным...

2012 год считается прорывным, поскольку тогда нейросеть [AlexNet](https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf), обученная на GPU, сумела выиграть соревнование по распознаванию изображений с большим отрывом (порядка 12%). Именно тогда поднялся хайп вокруг DL :)

Еще одним прорывом было поражение [Ли Седоля в игру Go](https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol) весной 2016 года. AlphaGo был разработан лабораторией Google DeepMind во главе с Демисом Хасабисом. Игра Go считалась прежде непостижимой для AI по причине того, что количество возможных комбинаций ходов не позволяло аналитически строить дерево решений.

In [0]:
import cv2
import numpy as np
import os
from google.colab import drive 

## Логистическая регрессия

В данном упражнении мы построим простейший классификатор изображений, основанный на логистической регрессии. 

<img src="https://drive.google.com/uc?export=view&id=14TpTs8-VqVOFR9qMUW4mjMdC6sOpd5Bl" style="width:618px;height:306px;">

Данные в модель мы будем подавать хитрым образом: изображение, то есть матрицу размером $(n,n)$ мы преобразуем в вектор столбец размерности $(n^2,1)$. После этого полученный многомерный вектор будем подавать на вход в модель. Такая модель предполагает, что $n$ необходимо определить заранее, перед обучением, и в дальнейшем его нельзя будет изменить (потребуется обучать модель заново). 

Таким образом, надо проверять, являются ли размеры изображения допустимыми перед тем, как подавать его в модель. Если нет, то можно воспользоваться функцией resize из библиотеки openCV, которая изменяет размеры изображения.

### Шаг 1. Инициализация модели

Данная функция возвращает маccив $w$ и число $b$, которые на каждой итерации обучения будут обновляться.

In [0]:
def init_model(input_size=256):
    
    ###ЗАДАЧА: проинициализируйте веса модели так, чтобы массив w имел размер (input_size^2,1), а b был числом
    w = np.zeros(input_size ** 2)
    b = 0
    return w, b

In [3]:
init_model()

(array([0., 0., 0., ..., 0., 0., 0.]), 0)

В нашей модели логистической регрессии по большому счету неважно, как были проинициализированы веса (можно проинициализировать все значения нулями, можно - случайными значениями, можно двойками и т.д.:) ). Однако для глубоких нейросетей это имеет очень большое значение, и $\textbf{крайне не рекомендуется инициализировать значения нулями!}$ Об этом мы ещё обязательно поговорим в дальнейшем.

### Шаг 2. Обучение модели

После того как мы задали начальные параметры (он пока был всего один - это размер  $n$) и проинициализировали веса, можно приступать к обучению модели.

Обучение модели осуществляется в цикле и состоит из трех шагов:
    - подсчет текущего значения функции ошибки
    - подсчет градиента функции ошибки
    - обновление весов модели
    
Вспомним теорию...

Для i-ого образца $x^{(i)}$:

$$z^{(i)} = w^T x^{(i)} + b \tag{1}$$

$$\hat{y}^{(i)} = a^{(i)} = sigmoid(z^{(i)})\tag{2}$$ 

$$ \mathcal{L}(a^{(i)}, y^{(i)}) =  - y^{(i)}  \log(a^{(i)}) - (1-y^{(i)} )  \log(1-a^{(i)})\tag{3}$$

Подсчет функции ошибки - это суммирование потерь на всех образцах:

$$ J = \frac{1}{m} \sum_{i=1}^m \mathcal{L}(a^{(i)}, y^{(i)})\tag{4}$$

**Задачи**:

Необходимо будет реализовать следующие шаги: 
    - Инициализировать параметры модели
    - Обучить параметры, минимизируя функцию потерь  
    - Проверить модель на тестовом наборе данных
    - Проанализировать обученную модель
    
Для начала необходимо будет объявить несколько вспомогательных функций, а затем собрать из них модель и начать обучение.

In [0]:
def sigmoid(z):
    ###ВАЖНО: функция принимает на вход массив любых размеров, на выход возвращает массив такого же размера
    s = 1 / (1 + np.exp(-z))
    return s

In [5]:
sigmoid(np.array([[1,0,0]]))

array([[0.73105858, 0.5       , 0.5       ]])

Еще раз выпишем формулы для вывода текущего предсказания, для текущей ошибки и для текущего градиента функции ошибки:

    - Подсчитываем предсказание (forward propagation):
    
$$A = \sigma(w^T X + b) = (a^{(1)}, a^{(2)}, ..., a^{(m-1)}, a^{(m)})\tag{6}$$
    - Подсчитываем функцию ошибки: 
    
$$J = -\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(a^{(i)})+(1-y^{(i)})\log(1-a^{(i)})\tag{7}$$
    - Подсчитываем градиент функции ошибки (backward propagation):
    
$$ \frac{\partial J}{\partial w}=\nabla J_w = \frac{1}{m}X(A-Y)^T\tag{8}$$

$$ \frac{\partial J}{\partial b} =\frac{dJ}{db}= \frac{1}{m} \sum_{i=1}^m (a^{(i)}-y^{(i)})\tag{9}$$

In [0]:
def propagate(w, b, X, Y):
    """
    Подсчет текущего предсказания (оно же forward propagation) и градиента функции ошибки (оно же backward propagation)

    Input:
    w -- веса, numpy_array размера (num_px * num_px * 3, 1)
    b -- смещение, скалярная величина
    X -- данные размера (num_px * num_px * 3, кол-во образцов)
    Y -- вектор истинных ответов размера (1, кол-во образцов)

    Return:
    cost -- текущая функция потерь
    dw -- градиент функции ошибки по w
    db -- градиент функции ошибки по b (по сути производная по b)
    
    """
    
    m = X.shape[1]
    A = sigmoid(w.T @ X + b)
    cost = -((Y * np.log(A) + (1.0 - Y) * np.log(1.0 - A))).sum()/m
    dw = 1.0/m * X @ (A-Y).T
    db = 1.0/m * (A-Y).sum()
    
    grads = {"dw": dw,
             "db": db}
    
    return grads, cost

Мы реализовали блоки для работы модели и для подсчета функции ошибки и необходимых градиентов. Теперь осталось реализовать функцию, осуществляющую обучение. 

**Под обучением мы сейчас и впредь будем иметь в виду обновление весов таким образом, чтобы функция ошибки на  обучающей выборке достигала минимума.**

**Важно!!!** Под записями $dw$ и $db$ мы будем подразумевать соответствующие градиенты функции потерь, то есть $\frac{\partial J}{\partial w}$(вектор) и $\frac{\partial J}{\partial b} (скаляр)$.

 **Задание:** Реализуйте шаг обновления весов модели. Для параметра $w$ обновление выглядит так: 
 
 $ w := w - \alpha \text{ } dw \tag{10},$ а 
 
 $$ b : = b - \alpha \text{ } db \tag{11},$$
 
где $\alpha$ - некий коэффициент (который называется $\textit{learning rate}$ - не будем переводить это на русский язык).

In [0]:
def optimize(w, b, X, Y, num_iterations, learning_rate, print_cost = False):
    """
    Оптимизация с помощью простого градиентного спуска
    
    Input:
    w -- веса, numpy_array размера (num_px * num_px * 3, 1)
    b -- смещение, скалярная величина
    X -- данные размера (num_px * num_px * 3, кол-во образцов)
    Y -- вектор истинных ответов размера (1, кол-во образцов)
    num_iterations -- кол-во итераций алгоритма оптимизации
    learning_rate -- коэффициент learning rate
    print_cost -- True, если хотите выводить функцию ошибки на каждых 100 итерациях
    
    Returns:
    params -- словарь, содержащий w и b
    grads -- словарь, содержащий градиенты функции ошибки по w и b соответственно
    costs -- массив (list) со значением функции ошибки для каждой итерации (так делают для визуализации)
    
    Подсказка:
    
        1) Используйте ранее написанную функцию propagate().
        2) Обновляйте параметры w и b согласно формуле 10.
    """
    
    costs = []
    
    for i in range(num_iterations):
        
        
        ###Напишите значения для градиентов и функции ошибки
        grads, cost = propagate(w,b,X,Y)
        
        
        # Retrieve derivatives from grads
        dw = grads["dw"]
        db = grads["db"]
        
        # обновление параметров
        
        ### START CODE HERE ###
        w = w - dw * learning_rate
        b = b - db * learning_rate
        ### END CODE HERE ###
        
        # Record the costs
        if i % 100 == 0:
            costs.append(cost)
        
        # Print the cost every 100 training iterations
        if print_cost and i % 100 == 0:
            print ("Cost after iteration %i: %f" %(i, cost))
    
    params = {"w": w,
              "b": b}
    
    grads = {"dw": dw,
             "db": db}
    
    return params, grads, costs

Теперь реализуем функцию predict(), которая будет вызываться уже после обучения для предсказания моделью:

In [0]:
def predict(w, b, X):
    '''
    
    Inputs:
    w
    b
    X -- данные размера (num_px * num_px * 3, кол-во образцов)
    
    Returns:
    Y_prediction
    '''
    
    m = X.shape[1]
    Y_prediction = np.zeros((1,m))
    w = w.reshape(X.shape[0], 1)
    
    
    ### START CODE HERE ### (≈ 1 line of code)
    A = sigmoid(w.T @ X + b)
    ### END CODE HERE ###
    
    for i in range(A.shape[1]):
        
        # Установите порог, выше которого считаем, что модель выдает 1, а ниже - ноль
        ### START CODE HERE ###
        Y_prediction[0,i] = (A[0,i]>0.7)*1
        ### END CODE HERE ###
    
    
    return Y_prediction

### Необходимые библиотеки

Перед запуском программ необходимо импортировать следующие библиотеки:

```python
import cv2
import numpy as np
import os
from google.colab import drive 
```

**Важно:**
Как монтировать google drive?

In [8]:
from google.colab import drive 
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [0]:
!unzip -q /content/gdrive/My\ Drive/COS\ HT\ presentations/Lesson_1/lesson1_dataset.zip -d /content/gdrive/My\ Drive/COSHTHomeworks/1/dataset

replace /content/gdrive/My Drive/COSHTHomeworks/1/dataset/logloss_1/m3.png? [y]es, [n]o, [A]ll, [N]one, [r]ename: y
replace /content/gdrive/My Drive/COSHTHomeworks/1/dataset/logloss_1/logloss_1logloss_1_34.png? [y]es, [n]o, [A]ll, [N]one, [r]ename: A


### Парсер данных

Парсер файлов уже написан и приведен ниже. В качестве аргументов ему передаются X - пустое значение, Y - пустой NumPy массив, path - директория к изображением, ans - ответ (1 - если в этой директории лежат кадры с коробками, 0 - если наоборот).

In [0]:
size = 256
X = None
Y = np.array([])
def read_files(X, Y, path, ans):
  files = os.listdir(path)
  for name in files:
    img = cv2.imread(path + '/' + name, 0)
    if img.shape != 0:
      img = cv2.resize(img, (size, size))
      vect = img.reshape(1, size ** 2)
      vect = vect / 255
      X = vect if (X is None) else np.vstack((X, vect)) 
      Y = np.append(Y, ans)
  return X, Y

In [10]:
path = '/content/gdrive/My Drive/COSHTHomeworks/1/dataset'
os.listdir(path)

['logloss_1', '__MACOSX', 'logloss_0']

In [0]:
path1 = path+'/logloss_0'
X_0, Y_0 = read_files(None, np.array([]), path1, 0)

In [49]:
X_0.shape

(22, 65536)

In [0]:
path2 = path+'/logloss_1'
X_1, Y_1 = read_files(None, np.array([]), path2, 1)

In [51]:
X_1.shape

(43, 65536)

In [0]:
X = np.vstack((X_0,X_1))
Y = np.hstack((Y_0,Y_1))

In [0]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

In [0]:
w,b = init_model(size)

In [62]:
y_train

array([0., 1., 1., 0., 0., 1., 0., 0., 1., 0., 1., 1., 0., 1., 1., 1., 1.,
       1., 1., 1., 0., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 0.,
       0., 0., 1., 1., 1., 1., 1., 0., 1., 0., 1., 1., 0., 0., 1., 0., 1.,
       1.])

In [63]:
params, grads, costs = optimize(w.reshape((w.size,1)), b, X_train.T, y_train.reshape((1,y_train.size)), 4000,0.01,True)

Cost after iteration 0: 0.693147




Cost after iteration 100: 0.029816
Cost after iteration 200: 0.019208
Cost after iteration 300: 0.014683
Cost after iteration 400: 0.012080
Cost after iteration 500: 0.010356
Cost after iteration 600: 0.009115
Cost after iteration 700: 0.008173
Cost after iteration 800: 0.007429
Cost after iteration 900: 0.006824
Cost after iteration 1000: 0.006321
Cost after iteration 1100: 0.005895
Cost after iteration 1200: 0.005529
Cost after iteration 1300: 0.005210
Cost after iteration 1400: 0.004930
Cost after iteration 1500: 0.004681
Cost after iteration 1600: 0.004459
Cost after iteration 1700: 0.004258
Cost after iteration 1800: 0.004077
Cost after iteration 1900: 0.003912
Cost after iteration 2000: 0.003760
Cost after iteration 2100: 0.003621
Cost after iteration 2200: 0.003493
Cost after iteration 2300: 0.003374
Cost after iteration 2400: 0.003263
Cost after iteration 2500: 0.003160
Cost after iteration 2600: 0.003064
Cost after iteration 2700: 0.002974
Cost after iteration 2800: 0.002890
C

In [67]:
w_f.shape

(65536, 1)

In [0]:
w_f = params["w"]
w_f = w_f.reshape((w_f.size,1))
prediction = predict(w_f, params["b"], X_test.T)

In [80]:
y_test

array([1., 1., 0., 1., 0., 1., 0., 0., 1., 1., 1., 0., 1.])

In [81]:
from sklearn.metrics import accuracy_score
accuracy_score(prediction.reshape(13), y_test)

0.7692307692307693