# Основы Python с Numpy

Добро пожаловать на ваше первое задание. Это упражнение дает вам краткое введение в Python. Даже если вы раньше использовали Python, это поможет вам ознакомиться с функциями, которые нам понадобятся.

**Инструкции:**  
- Вы будете использовать Python 3.
- Избегайте использования циклов for и while, если вам явно не указано это сделать.
- Не изменяйте комментарий (# GRADED FUNCTION [имя функции]) в некоторых ячейках. Если вы измените это, ваша работа не будет оценена. Каждая ячейка, содержащая этот комментарий, должна содержать только одну функцию.
- После написания функции запустите ячейку прямо под ней, чтобы проверить правильность результата.

**После этого задания вы научитесь:**  
- Уметь использовать блокноты Jupyter.
- Уметь использовать функции numpy и операции с матрицами/векторами numpy.
- Узнаете понятие «broadcasting».
- Уметь векторизовать код.

Давайте начнем!

## О ноутбуках Jupyter ##

Jupyter Notebooks — это интерактивная среда программирования, встроенная в веб-страницу. На этом занятии вы будете использовать блокноты Jupyter. Вам нужно только написать код между комментариями ### START CODE HERE ### и ### END CODE HERE ###. После написания кода вы можете запустить ячейку, нажав «SHIFT» + «ENTER» или нажав «Run cell» (обозначается символом воспроизведения) в верхней панели блокнота.

Мы часто будем указывать «(≈ X строк кода)» в комментариях, чтобы сообщить вам, сколько кода вам нужно написать. Это всего лишь приблизительная оценка, поэтому не расстраивайтесь, если ваш код окажется длиннее или короче.

**Упражнение**: выполните задание «Hello World» в ячейке ниже, чтобы напечатать «Hello World», и запустите две ячейки ниже.

In [5]:
### START CODE HERE ### (≈ 1 line of code)
test = "Hello world"
### END CODE HERE ###

In [6]:
print ("test: " + test)

test: Hello world


**Ожидаемый результат**:
test: Hello World

**Что вам нужно помнить**:  
- Запускайте ячейки, используя SHIFT+ENTER (или «Run cell»)
- Пишите код в отведенных областях, используя только Python 3.
- Не изменяйте код за пределами отведенных для этого мест.

## 1 - Создание базовых функций с помощью numpy ##

Numpy — основной пакет для научных вычислений на Python. Он поддерживается большим сообществом (www.numpy.org). В этом упражнении вы изучите несколько ключевых функций numpy, таких как `np.exp`, `np.log` и `np.reshape`. Вам нужно будет знать, как использовать эти функции для будущих заданий.

### 1.1 - сигмовидная функция, np.exp() ###

Прежде чем использовать `np.exp()`, вы воспользуетесь `math.exp()` для реализации сигмовидной функции. Тогда вы поймете, почему `np.exp()` предпочтительнее `math.exp()`.

**Упражнение**. Создайте функцию, возвращающую сигмоиду от действительного числа `x`. Используйте `math.exp(x)` для экспоненциальной функции.

**Напоминание**:
$sigmoid(x) = \frac{1}{1+e^{-x}}$ иногда также называют логистической функцией. Это нелинейная функция, используемая не только в машинном обучении (логистическая регрессия), но и в глубоком обучении.

<img src="images/Sigmoid.png" style="width:500px;height:228px;">

Чтобы обратиться к функции, принадлежащей определенному пакету, вы можете вызвать ее с помощью `package_name.function()`. Запустите приведенный ниже код, чтобы увидеть пример с `math.exp()`.

In [8]:
# GRADED FUNCTION: basic_sigmoid

import math

def basic_sigmoid(x):
    """
    Compute sigmoid of x.

    Arguments:
    x -- A scalar

    Return:
    s -- sigmoid(x)
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    s = 1/(1+math.exp(-x))
    ### END CODE HERE ###
    
    return s

In [9]:
basic_sigmoid(3)

0.9525741268224334

**Ожидаемый результат**: 
<table style = "width:40%">
    <tr>
    <td>** basic_sigmoid(3) **</td> 
        <td>0.9525741268224334 </td> 
    </tr>

</table>

На самом деле мы редко используем «математическую» библиотеку math в глубоком обучении, поскольку входными данными функций являются действительные числа. В глубоком обучении мы в основном используем матрицы и векторы. Вот почему numpy более полезен.

In [None]:
### One reason why we use "numpy" instead of "math" in Deep Learning ###
x = [1, 2, 3]
basic_sigmoid(x) # you will see this give an error when you run it, because x is a vector.

Фактически, если $ x = (x_1, x_2, ..., x_n)$ — вектор-строка, то $np.exp(x)$ применит экспоненциальную функцию к каждому элементу x. Таким образом, результат будет следующим: $np.exp(x) = (e^{x_1}, e^{x_2}, ..., e^{x_n})$

In [None]:
import numpy as np

# example of np.exp
x = np.array([1, 2, 3])
print(np.exp(x)) # result is (exp(1), exp(2), exp(3))

Более того, если x — вектор, то операция Python, такая как $s = x + 3$ или $s = \frac{1}{x}$, выведет s как вектор того же размера, что и x.

In [None]:
# example of vector operation
x = np.array([1, 2, 3])
print (x + 3)

Каждый раз, когда вам нужна дополнительная информация о функции numpy, мы рекомендуем вам просмотреть [официальную документацию] (https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html ).

Вы также можете создать новую ячейку в блокноте и написать `np.exp?` (например), чтобы получить быстрый доступ к документации.

**Упражнение**: реализуйте функцию сигмоиды с помощью numpy.

**Инструкция**: теперь x может быть действительным числом, вектором или матрицей. Структуры данных, которые мы используем в numpy для представления этих фигур (векторов, матриц...), называются массивами numpy. Вам пока не нужно знать больше.
$$ \text{For } x \in \mathbb{R}^n \text{,     } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1  \\
    x_2  \\
    ...  \\
    x_n  \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    ...  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix}\tag{1} $$

In [10]:
# GRADED FUNCTION: sigmoid

import numpy as np # this means you can access numpy functions by writing np.function() instead of numpy.function()

def sigmoid(x):
    """
    Compute the sigmoid of x

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    s = 1/(1+ np.exp(-x))
    ### END CODE HERE ###
    
    return s

In [11]:
x = np.array([1, 2, 3])
sigmoid(x)

array([0.73105858, 0.88079708, 0.95257413])

**Ожидаемый результат**: 
<table>
    <tr> 
        <td> **sigmoid([1,2,3])**</td> 
        <td> array([ 0.73105858,  0.88079708,  0.95257413]) </td> 
    </tr>
</table> 


### 1.2 - Градиент сигмоиды

Как вы видели в лекции, вам нужно будет вычислять градиенты для оптимизации функций потерь с использованием обратного распространения ошибки. Давайте напишем вашу первую функцию градиента.

**Упражнение**. Реализуйте функцию sigmoid_grad() для вычисления градиента функции сигмоиды относительно входного значения x. Формула: $$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$
Напишите эту функцию в два этапа:
1. Установите s как сигмовиду от x. Возможно, ваша функция sigmoid(x) окажется полезной.
2. Вычислите $\sigma'(x) = s(1-s)$

In [14]:
# GRADED FUNCTION: sigmoid_derivative

def sigmoid_derivative(x):
    """
    Compute the gradient (also called the slope or derivative) of the sigmoid function with respect to its input x.
    You can store the output of the sigmoid function into variables and then use it to calculate the gradient.
    
    Arguments:
    x -- A scalar or numpy array

    Return:
    ds -- Your computed gradient.
    """
    
    ### START CODE HERE ### (≈ 2 lines of code)
    s = 1/(1+np.exp(-x))
    ds = s*(1-s)
    ### END CODE HERE ###
    
    return ds

In [15]:
x = np.array([1, 2, 3])
print ("sigmoid_derivative(x) = " + str(sigmoid_derivative(x)))

sigmoid_derivative(x) = [0.19661193 0.10499359 0.04517666]


**Ожидаемый результат**: 


<table>
    <tr> 
        <td> **sigmoid_derivative([1,2,3])**</td> 
        <td> [ 0.19661193  0.10499359  0.04517666] </td> 
    </tr>
</table> 



### 1.3 - Изменение формы массивов ###

Две распространенные функции numpy, используемые в глубоком обучении, — это [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) и [np.reshape()]( https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html).
- X.shape используется для получения формы (размера) матрицы/вектора X.
- X.reshape(...) используется для преобразования X в другое измерение.

Например, в информатике изображение представляется трехмерным массивом формы $(длина, высота, глубина = 3)$. Однако когда вы считываете изображение в качестве входных данных алгоритма, вы преобразуете его в вектор формы $(длина*высота*3, 1)$. Другими словами, вы «разворачиваете» или преобразуете трехмерный массив в одномерный вектор.

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

**Упражнение**: реализуйте `image2vector()`, который принимает входные данные формы (длина, высота, 3) и возвращает вектор формы (длина\*высота\*3, 1). Например, если вы хотите преобразовать массив v формы (a, b, c) в вектор формы (a\*b,c), вы должны сделать:
``` python
v = v.reshape((v.shape[0]*v.shape[1], v.shape[2])) # v.shape[0] = a ; v.shape[1] = б; v.shape[2] = c
```
- Пожалуйста, не задавайте размеры изображения как постоянные. Вместо этого найдите нужные вам количества с помощью `image.shape[0]` и т. д.

In [16]:
# GRADED FUNCTION: image2vector
def image2vector(image):
    """
    Argument:
    image -- a numpy array of shape (length, height, depth)
    
    Returns:
    v -- a vector of shape (length*height*depth, 1)
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    v = image.reshape((image.shape[0]*image.shape[1]*image.shape[2],1))
    ### END CODE HERE ###
    
    return v

In [17]:
# This is a 3 by 3 by 2 array, typically images will be (num_px_x, num_px_y,3) where 3 represents the RGB values
image = np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])

print ("image2vector(image) = " + str(image2vector(image)))

image2vector(image) = [[0.67826139]
 [0.29380381]
 [0.90714982]
 [0.52835647]
 [0.4215251 ]
 [0.45017551]
 [0.92814219]
 [0.96677647]
 [0.85304703]
 [0.52351845]
 [0.19981397]
 [0.27417313]
 [0.60659855]
 [0.00533165]
 [0.10820313]
 [0.49978937]
 [0.34144279]
 [0.94630077]]


**Ожидаемый выход**: 


<table style="width:100%">
     <tr> 
       <td> **image2vector(image)** </td> 
       <td> [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]</td> 
     </tr>
    
   
</table>

### 1.4 - Нормализация строк

Другой распространенный метод, который мы используем в машинном обучении и глубоком обучении, — это нормализация наших данных. Это часто приводит к повышению производительности, поскольку после нормализации градиентный спуск сходится быстрее. Здесь под нормализацией мы подразумеваем замену x на $ \frac{x}{\| x\|} $ (деление каждого вектора-строки x на его норму).

Например, если $$x =
\begin{bmatrix}
    0 & 3 & 4 \\
    2 & 6 & 4 \\
\end{bmatrix}\tag{3}$$ then $$\| x\| = np.linalg.norm(x, axis = 1, keepdims = True) = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix}\tag{4} $$and        $$ x\_normalized = \frac{x}{\| x\|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix}\tag{5}$$ 

Обратите внимание, что вы можете делить матрицы разных размеров, и это прекрасно работает: это называется broadcasting, и вы узнаете об этом в части 5.

**Упражнение**. Реализуйте normalizeRows() для нормализации строк матрицы. После применения этой функции к входной матрице x каждая строка x должна быть вектором единичной длины (то есть длины 1).

In [21]:
# GRADED FUNCTION: normalizeRows

def normalizeRows(x):
    """
    Implement a function that normalizes each row of the matrix x (to have unit length).
    
    Argument:
    x -- A numpy matrix of shape (n, m)
    
    Returns:
    x -- The normalized (by row) numpy matrix. You are allowed to modify x.
    """
    
    ### START CODE HERE ### (≈ 2 lines of code)
    # Compute x_norm as the norm 2 of x. Use np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    x_norm =np.linalg.norm(x, ord = 2, axis = 1, keepdims = True)
    
    # Divide x by its norm.
    x = x/x_norm
    ### END CODE HERE ###

    return x

In [22]:
x = np.array([
    [0, 3, 4],
    [1, 6, 4]])
print("normalizeRows(x) = " + str(normalizeRows(x)))

normalizeRows(x) = [[0.         0.6        0.8       ]
 [0.13736056 0.82416338 0.54944226]]


**Ожидаемый выход**: 

<table style="width:60%">
     <tr> 
       <td> **normalizeRows(x)** </td> 
       <td> [[ 0.          0.6         0.8       ]
 [ 0.13736056  0.82416338  0.54944226]]</td> 
     </tr>
    
   
</table>

**Примечание**:  
В NormalizeRows() вы можете попытаться распечатать формы x_norm и x. Вы обнаружите, что они имеют разную форму. Это нормально, учитывая, что x_norm принимает норму каждой строки x. Таким образом, x_norm имеет такое же количество строк, но только 1 столбец. Так как же получилось, когда вы разделили x на x_norm? Это называется broadcasting и об этом мы сейчас поговорим!

### 1.5 - Broadcasting и функция softmax ####
Очень важная концепция, которую нужно понимать в numpy, — это «Broadcasting». Это очень полезно для выполнения математических операций между массивами различной формы. Полную информацию о трансляции можно прочитать на официальном сайте. [broadcasting documentation](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

**Упражнение**. Реализуйте функцию softmax с помощью numpy. Вы можете думать о softmax как о нормализующей функции, используемой, когда вашему алгоритму необходимо классифицировать два или более классов. Больше о softmax на следующих занятиях

**Инструкции**:  
- $ \text{for } x \in \mathbb{R}^{1\times n} \text{,     } softmax(x) = softmax(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}) = \begin{bmatrix}
     \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} $ 

- $\text{for a matrix } x \in \mathbb{R}^{m \times n} \text{,  $x_{ij}$ maps to the element in the $i^{th}$ row and $j^{th}$ column of $x$, thus we have: }$  $$softmax(x) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix} = \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} = \begin{pmatrix}
    softmax\text{(first row of x)}  \\
    softmax\text{(second row of x)} \\
    ...  \\
    softmax\text{(last row of x)} \\
\end{pmatrix} $$

In [23]:
# GRADED FUNCTION: softmax

def softmax(x):
    """Calculates the softmax for each row of the input x.

    Your code should work for a row vector and also for matrices of shape (n, m).

    Argument:
    x -- A numpy matrix of shape (n,m)

    Returns:
    s -- A numpy matrix equal to the softmax of x, of shape (n,m)
    """
    
    ### START CODE HERE ### (≈ 3 lines of code)
    # Apply exp() element-wise to x. Use np.exp(...).
    x_exp = np.exp(x)

    # Create a vector x_sum that sums each row of x_exp. Use np.sum(..., axis = 1, keepdims = True).
    x_sum = np.sum(x_exp, axis = 1, keepdims = True)
    
    # Compute softmax(x) by dividing x_exp by x_sum. It should automatically use numpy broadcasting.
    s = x_exp/x_sum

    ### END CODE HERE ###
    
    return s

In [24]:
x = np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(x)))

softmax(x) = [[9.80897665e-01 8.94462891e-04 1.79657674e-02 1.21052389e-04
  1.21052389e-04]
 [8.78679856e-01 1.18916387e-01 8.01252314e-04 8.01252314e-04
  8.01252314e-04]]


**Ожидаемый результат**:

<table style="width:60%">
     <tr> 
       <td> **softmax(x)** </td> 
       <td> [[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]</td> 
     </tr>
</table>


**Примечание**:
- Если вы распечатаете форму x_exp, x_sum и s выше и повторно запустите ячейку оценки, вы увидите, что x_sum имеет форму (2,1), а x_exp и s имеют форму (2,5). **x_exp/x_sum** работает благодаря broadcasting Python.

Поздравляем! Теперь вы довольно хорошо разбираетесь в Python numpy и реализовали несколько полезных функций, которые будете использовать в глубоком обучении.

**Что вам нужно запомнить:**  
- np.exp(x) работает для любого np.array x и применяет экспоненциальную функцию к каждой координате
- функцию сигмоиды и ее градиент
- image2vector часто используется в глубоком обучении
- Широко используется np.reshape. В будущем вы увидите, что сохранение прямых размеров матрицы/вектора позволит устранить множество ошибок.
- numpy имеет эффективные встроенные функции
- broadcasting чрезвычайно полезен

## 2) Векторизация

При глубоком обучении вы имеете дело с очень большими наборами данных. Следовательно, неоптимальная с точки зрения вычислений функция может стать огромным узким местом в вашем алгоритме и привести к тому, что для запуска модели потребуется много времени. Чтобы убедиться, что ваш код эффективен в вычислительном отношении, вы будете использовать векторизацию. Например, попробуйте определить разницу между следующими реализациями скалярного/внешнего/поэлементного произведения.

In [None]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### CLASSIC DOT PRODUCT OF VECTORS IMPLEMENTATION ###
tic = time.process_time()
dot = 0
for i in range(len(x1)):
    dot+= x1[i]*x2[i]
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### CLASSIC OUTER PRODUCT IMPLEMENTATION ###
tic = time.process_time()
outer = np.zeros((len(x1),len(x2))) # we create a len(x1)*len(x2) matrix with only zeros
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i]*x2[j]
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### CLASSIC ELEMENTWISE IMPLEMENTATION ###
tic = time.process_time()
mul = np.zeros(len(x1))
for i in range(len(x1)):
    mul[i] = x1[i]*x2[i]
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### CLASSIC GENERAL DOT PRODUCT IMPLEMENTATION ###
W = np.random.rand(3,len(x1)) # Random 3*len(x1) numpy array
tic = time.process_time()
gdot = np.zeros(W.shape[0])
for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j]*x1[j]
toc = time.process_time()
print ("gdot = " + str(gdot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

In [None]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### VECTORIZED DOT PRODUCT OF VECTORS ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED OUTER PRODUCT ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED ELEMENTWISE MULTIPLICATION ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED GENERAL DOT PRODUCT ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("gdot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

Как вы, возможно, заметили, векторизованная реализация намного чище и эффективнее. Для более крупных векторов/матриц различия во времени выполнения становятся еще больше.

**Обратите внимание**, что `np.dot()` выполняет умножение матрица-матрица или матрица-вектор. Это отличается от `np.multiply()` и оператора `*` (который эквивалентен `.*` в Matlab/Octave), который выполняет поэлементное умножение.

### 2.1 Реализация функций потерь L1 и L2

**Упражнение**. Реализуйте числовую векторизованную версию функции потерь (ошибок) L1. Вам может пригодиться функция abs(x) (абсолютное значение x).

**Напоминание**:  
- Функция потерь (loss) используется для оценки производительности вашей модели. Чем больше ошибка, тем больше ваши прогнозы ($ \hat{y} $) отличаются от истинных значений ($y$). При глубоком обучении вы используете алгоритмы оптимизации, такие как градиентный спуск, для обучения модели и минимизации ошибок.
- Потери L1 определяются как:
$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$

In [25]:
# GRADED FUNCTION: L1

def L1(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L1 loss function defined above
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    loss = np.sum(np.abs(y-yhat))
    ### END CODE HERE ###
    
    return loss

In [26]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

L1 = 1.1


**Ожидаемый выход**:

<table style="width:20%">
     <tr> 
       <td> **L1** </td> 
       <td> 1.1 </td> 
     </tr>
</table>


**Упражнение**. Реализуйте числовую векторизованную версию функции потерь L2. Существует несколько способов реализации L2, но вам может пригодиться функция np.dot(). Напоминаем, что если $x = [x_1, x_2, ..., x_n]$, то `np.dot(x,x)` = $\sum_{j=0}^n x_j^{2}$.

- Функция потерь L2 определяется как $$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

In [27]:
# GRADED FUNCTION: L2

def L2(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L2 loss function defined above
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    loss = np.sum(np.square(y-yhat))
    ### END CODE HERE ###
    
    return loss

In [28]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat,y)))

L2 = 0.43


**Ожидаемый выход**: 
<table style="width:20%">
     <tr> 
       <td> **L2** </td> 
       <td> 0.43 </td> 
     </tr>
</table>

Поздравляем с выполнением этого задания. Надеемся, что это небольшое разминочное упражнение поможет вам в будущих заданиях, которые станут еще увлекательнее и интереснее!

**Что следует помнить:**  
- Векторизация очень важна в глубоком обучении. Это обеспечивает вычислительную эффективность и ясность.
- Вы рассмотрели функции потерь (ошибок) L1 и L2.
- Вы познакомились со многими функциями numpy, такими как np.sum, np.dot, np.multiply, np.maximum и т. д.