# Машинное обучение

# Семинар 1: Про Anaconda, Jupyter Notebook и numpy

---

## 1. Немного про Jupyter notebook

### 1.1. Клетки с кодом

In [6]:
# Основной элемент – клетка
print('Hello')

Hello


In [5]:
print("Again")

Again


In [12]:
this_is_a_long_varialbe = 3

this_is_a_long_varialbe # Tab для автодополнения

### 1.2. Клетки с Markdown

Простой текст

# Heading 1

## Heading 2

### H3

#### H4

**Жирный** и *курсив*

`print(x)`

$f(x) = x^2$

$\frac{12}{13}$

### 1.3. Команды

Полная документация: https://devpractice.ru/python-lesson-6-work-in-jupyter-notebook/

---
В Jupyter Notebook есть два режима работы: режим _команд_ и режим _редактирования_

_Командный_ режим нужен для того, чтобы взаимодействовать и управлять ячейками (добавлять, удалять, запускать, копировать, ...)

В режиме _редактирования_ вы меняете содержимое ячейки. 

Ячейки бывают двух основных типов, _код_ и _разметка_

#### Полезные команды

(находясь в командном режиме)

- `a` - добавить пустую ячейку сверху

- `b` - добавить пустую ячейку снизу
- `c` - скопировать текущую ячейку
- `v` - вставить скопированную ячейку
- `d` - удалить текущую ячейку
- `x` - вырезать (удалить и скопировать) текущую ячейку
- `m` - изменить тип выбранной ячейки на "разметка" 
- `y` - изменить тип выбранной ячейки на "код" 
- `z` - отменить последнее действие


- `Enter` - начать редактировать выбранную ячейку

(будучи в режим редактирования ячейки)
- `esc` - вернуться в командный режим

(будучи в любом режиме)

- `Ctrl + Enter` - запустить выбранную ячейку
- `Shift + Enter` - запустить выбранную ячейку и выбрать следующую

### 1.4. Возвращение и печать

In [113]:
print('Hello') # Печать

2 + 2 # Возвращение
2 + 3 # Выводится только последнее возвращение

Hello


5

In [10]:
print("Hello!") # напечатать
print("2")

3 + 4

2 + 2
....

get_quality_of_my_model()

Hello!
2


4

## 2. numpy

- документация: http://www.numpy.org/

Библиотека numpy является удобным инструментом для работы с многомерными массивами с возможностью векторизации вычислений. Рассмотрим базовые вещи, которые можно делать с помощью нее.

In [None]:
# Пример импорта библиотеки
import some_library

some_library.method

In [114]:
import numpy as np # Можно сделать псевдоним np, чтобы не писать длинное numpy 

In [15]:
my_array = np.array([1, 2, 3])
my_array

array([1, 2, 3])

In [16]:
vec = np.array([[1, 2], [3, 4], [5, 6]])
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [17]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [18]:
print(vec)

[[1 2]
 [3 4]
 [5 6]]


С чем мы работаем?

In [19]:
vec.dtype

dtype('int64')

In [20]:
type(vec)

numpy.ndarray

Размер массива:

In [21]:
vec.shape

(3, 2)

In [22]:
my_array = np.array([1, 2, 3])
vec = np.array([[1, 2], [3, 4], [5, 6]])

In [24]:
my_array.shape # векторы с т.зр. numpy (пустая вторая координата)

(3,)

In [25]:
vec.shape # матрицы с т.зр. numpy (не пустая вторая координата)

(3, 2)

In [27]:
my_array.reshape(3, 1).shape # = вектор с т.зр. математики, но матрица с т.зр. numpy

# Важно: векторы и матрицы в numpy ведут себя по-разному, нужно следить за второй координатой!

(3, 1)

Число осей:

In [28]:
vec.ndim

2

У некоторых функций бывает параметр `axis`, который позволяет применить эту функцию по разным осям - в данном случае, по строкам или столбцам:

In [29]:
np.sum(vec)

21

In [31]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [30]:
np.sum(vec, axis=0)

array([ 9, 12])

In [32]:
np.sum(vec, axis=1)

array([ 3,  7, 11])

In [33]:
vec.sum()

21

In [34]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

Транспонируем массив:

In [35]:
vec.T

array([[1, 3, 5],
       [2, 4, 6]])

In [36]:
vec.transpose()

array([[1, 3, 5],
       [2, 4, 6]])

In [37]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

Обратите внимание, что переменная `vec` не поменялась!

In [None]:
vec

Размеры массивов можно менять:

In [38]:
vec.reshape(2, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [39]:
vec.shape

(3, 2)

In [40]:
vec.reshape(-1, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
vec.reshape(2, -1)

array([[1, 2, 3],
       [4, 5, 6]])

Индексирование:

In [43]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [47]:
vec[:2, :]

array([[1, 2],
       [3, 4]])

In [None]:
vec[:, 1]

In [None]:
vec[2, :]

In [None]:
vec[1:2, 0]

In [None]:
vec[::2, :]

И, наконец - арифметические операции!

In [48]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [49]:
vec + 1

array([[2, 3],
       [4, 5],
       [6, 7]])

In [50]:
vec * 2

array([[ 2,  4],
       [ 6,  8],
       [10, 12]])

In [51]:
vec ** 2

array([[ 1,  4],
       [ 9, 16],
       [25, 36]])

In [52]:
vec + vec ** 2

array([[ 2,  6],
       [12, 20],
       [30, 42]])

In [53]:
vec * vec ** 2

array([[  1,   8],
       [ 27,  64],
       [125, 216]])

In [54]:
np.sin(vec)

array([[ 0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ]])

Матричное умножение:

In [56]:
vec.shape

(3, 2)

In [58]:
vec_T = vec.T
vec_T.shape

(2, 3)

In [59]:
vec @ vec_T

array([[ 5, 11, 17],
       [11, 25, 39],
       [17, 39, 61]])

In [61]:
vec.dot(vec_T)

array([[ 5, 11, 17],
       [11, 25, 39],
       [17, 39, 61]])

In [60]:
vec.dot(vec ** 2)

ValueError: shapes (3,2) and (3,2) not aligned: 2 (dim 1) != 3 (dim 0)

In [62]:
vec.dot((vec ** 2).T)

array([[  9,  41,  97],
       [ 19,  91, 219],
       [ 29, 141, 341]])

In [63]:
vec @ (vec ** 2).T

array([[  9,  41,  97],
       [ 19,  91, 219],
       [ 29, 141, 341]])

Broadcasting:
https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html

In [67]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [64]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [65]:
np.arange(3).reshape(3, 1)

array([[0],
       [1],
       [2]])

In [66]:
vec + np.arange(3).reshape(3, 1)

array([[1, 2],
       [4, 5],
       [7, 8]])

Булевы массивы:

In [70]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [69]:
vec % 2 == 0

array([[False,  True],
       [False,  True],
       [False,  True]])

In [68]:
is_even = vec % 2 == 0
print(is_even)

[[False  True]
 [False  True]
 [False  True]]


In [None]:
np.sum(is_even)

Булевы массивы позволяют вытаскивать элементы с True из массива того-же размера

In [71]:
vec[vec % 2 == 0]

array([2, 4, 6])

Иногда бывает полезно создавать специфичные массивы. Массив из нулей:

In [72]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

Массив из единиц:

In [73]:
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

Единичная матрица:

In [74]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Массивы можно объединять:

In [75]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [76]:
np.hstack((vec, np.zeros(vec.shape)))

array([[1., 2., 0., 0.],
       [3., 4., 0., 0.],
       [5., 6., 0., 0.]])

In [77]:
np.vstack((vec, np.zeros(vec.shape)))

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

Генерация случайных чисел:

In [109]:
np.random.seed(123)

In [110]:
np.random.rand(2, 3)

array([[0.69646919, 0.28613933, 0.22685145],
       [0.55131477, 0.71946897, 0.42310646]])

In [107]:
np.random.rand(2, 3)

array([[0.9807642 , 0.68482974, 0.4809319 ],
       [0.39211752, 0.34317802, 0.72904971]])

In [108]:
np.random.rand(2, 3)

array([[0.43857224, 0.0596779 , 0.39804426],
       [0.73799541, 0.18249173, 0.17545176]])

In [115]:
np.random.seed(2019)
np.random.rand(2, 3)

array([[0.90348221, 0.39308051, 0.62396996],
       [0.6378774 , 0.88049907, 0.29917202]])

In [116]:
np.random.randn(3, 2)

array([[ 0.57376143,  0.28772767],
       [-0.23563426,  0.95349024],
       [-1.6896253 , -0.34494271]])

In [117]:
np.random.normal(2, 1, size=3)

array([2.0169049 , 1.48501648, 2.24450929])

In [118]:
np.random.randint(5, 10, size=3)

array([8, 6, 8])

Почему вообще используют `numpy`?

In [119]:
n = 300
A = np.random.rand(n, n)
B = np.random.rand(n, n)

In [120]:
%%time
C = np.zeros((n, n))
for i in range(n):
    for j in range(n):
        for k in range(n):
            C[i, j] += A[i, k] * B[k, j]

CPU times: user 19.1 s, sys: 60.6 ms, total: 19.1 s
Wall time: 19.1 s


In [121]:
%%time
C = A @ B # Гораздо быстрее!

CPU times: user 8.24 ms, sys: 8 ms, total: 16.2 ms
Wall time: 4.21 ms


### Задания для самостоятельного решения

1. Развернуть одномерный массив (сделать так, чтобы его элементы шли в обратном порядке).
2. Найти максимальный нечетный элемент в массиве.
3. Замените все нечетные элементы массива на ваше любимое число.
4. Создайте массив первых n нечетных чисел, записанных в порядке убывания. Например, если `n=5`, то ответом будет `array([9, 7, 5, 3, 1])`. *Функции, которые могут пригодиться при решении: `.arange()`*
5. Вычислите самое близкое и самое дальнее числа к данному в рассматриваемом массиве чисел. Например, если на вход поступают массив `array([0, 1, 2, 3, 4])` и число 1.33, то ответом будет `(1, 4)`. _Функции, которые могут пригодиться при решении: `.abs()`, `.argmax()`, `.argmin()`_

In [None]:
#1
a = np.array([1, 2, 3])
a[::-1]

In [None]:
#2
a = np.array([1, 2, 3])
np.max(a[a % 2 != 0])

In [None]:
#3
fav_num = 10
a[a % 2 != 0] = fav_num
a

In [None]:
#4
n = 5
b = np.arange(2 * n + 1)
b = b[b % 2 != 0][::-1]
b

In [None]:
#5
num = 1.33
arr = np.arange(5)

print("Min: ", arr[np.argmin(np.abs(arr - num))])
print("Max: ", arr[np.argmax(np.abs(arr - num))])