## Часть 1: Библиотека NumPy

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=501

NumPy - векторные/научные вычисления. Пакет содержит функциональные средства для работы с многомерными массивами и высокоуровневыми математическими функциями

Импортирование библиотеки:

In [0]:
import numpy as np

### 1. Структура np.ndarray

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=699

np.ndarray - это массив, содержащий элементы **одного типа**. 

Давайте посмотрим что это значит:

In [0]:
a = [2, 4, 5]
a

[2, 4, 5]

In [0]:
a_numpy = np.array(a)
a_numpy.dtype

dtype('int64')

In [0]:
print(a_numpy)

[2 4 5]


In [0]:
b = [2, 3.14]
b_numpy = np.array(b)
b_numpy.dtype

dtype('float64')

In [0]:
print(b)
print(b_numpy)

[2, 3.14]
[2.   3.14]


In [0]:
c = [2, 3.14, 'kotiki']
c_numpy = np.array(c)
print(c)
print(c_numpy)
print(c_numpy.dtype)

[2, 3.14, 'kotiki']
['2' '3.14' 'kotiki']
<U32


In [0]:
my_list = [2, 3.14, 'kotiki', [2,3,4]]
my_list

[2, 3.14, 'kotiki', [2, 3, 4]]

In [0]:
# Вариант с object работает
np.array([2, 3.14, 'kotiki', [2, 4, 5]], dtype='object')

array([2, 4.14, 'kotiki', list([2, 4, 5])], dtype=object)

In [0]:
np.array([2, 3.14, 'kotiki', [2, 4, 5]], dtype='int64')

ValueError: ignored

In [0]:
np.array([2, 3.14], dtype='int64')

array([2, 3])

### 2. Типы данных

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=1425

В NumPy реализованы свои типы данных, которые отличаются от встроенных в Python.

Например, нативный int ничем не ограничен (кроме вашей памяти). Целые числа в numpy имеют фиксированный размер, np.int8, np.int16...

Другое различие кроется во встроенных методах:

In [0]:
a_python = 123
a_numpy = np.int32(123)

In [0]:
a_python

123

In [0]:
a_numpy

123

In [0]:
# встроенный в python целочисленный тип
type(a_python)

int

In [0]:
# встроенный в библиотеку numpy один из целочисленных типов
type(a_numpy)

numpy.int32

### 3. Одномерные и многомерные массивы

Одномерные numpy массивы

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=1720

In [0]:
# массив из целых чисел
a = np.array([1, 2, 3, 4, 5])

In [0]:
# массив из строк
b = np.array(['cat', 'mouse', 'dog', 'rat'])

In [0]:
a.dtype

dtype('int64')

In [0]:
b.dtype

dtype('<U5')

In [0]:
# проверяем размерность
## размерность массива
a.shape

(5,)

In [0]:
b.shape

(4,)

In [0]:
# кол-во элементов в массиве
a.size

5

In [7]:
a = np.array([1, 2, 3, 4, 5, 6])
print(a)
print(a.shape)

[1 2 3 4 5 6]
(6,)


In [0]:
# изменение размерности массива
a_new = a.reshape((3, 2))
print(a_new)
print(a_new.shape)
print(a_new.size)

[[1 2]
 [3 4]
 [5 6]]
(3, 2)
6


In [0]:
# изменение размерности массива
a_new = a.reshape((2, 3))
print(a_new)
print(a_new.shape)
print(a_new.size)

[[1 2 3]
 [4 5 6]]
(2, 3)
6


In [0]:
# изменение размерности массива
a_new = a.reshape((1, 6))
print(a_new)
print(a_new.shape)
print(a_new.size)

[[1 2 3 4 5 6]]
(1, 6)
6


In [0]:
print(a)
print(a.shape)
print(a.size)

[1 2 3 4 5 6]
(6,)
6


In [6]:
a = np.array([1, 2, 3, 4, 5])
a_new = a.reshape((2, 3))
print(a_new)
print(a_new.shape)
print(a_new.size)

ValueError: ignored

In [0]:
lst = [[1, 2, 3], [4, 5]]
print(lst)

[[1, 2, 3], [4, 5]]


#### Индексация

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=2494

In [0]:
a

In [0]:
a[0]

In [0]:
a[1]

In [0]:
a[-1]

In [0]:
a[:-2]

In [0]:
a[1:4]

In [0]:
(a > 4)

In [1]:
a_simple = [1, 2, 3, 4, 6]
(a_simple > 3)

TypeError: ignored

In [4]:
a_simple = [1, 2, 3, 4, 6]
(np.array(a_simple) > 3)

array([False, False, False,  True,  True])

In [8]:
# подвыборка массива с логическими условиями
a[(a > 2) & (a < 6)]

array([3, 4, 5])

In [9]:
a[(a > 4)]

array([5, 6])

In [10]:
lst1 = np.array([2, 3, 12])
lst2 = np.array([i for i in range(7)])

print(lst1)
print(lst2)

lst3 = np.array([(i in lst2) for i in lst1])

print(lst3)

[ 2  3 12]
[0 1 2 3 4 5 6]
[ True  True False]


In [11]:
lst = [i for i in range(100)]
print(lst)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]


In [13]:
np_lst = np.array(lst)
np_lst = np_lst.reshape(20, 5)
print(np_lst)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]
 [50 51 52 53 54]
 [55 56 57 58 59]
 [60 61 62 63 64]
 [65 66 67 68 69]
 [70 71 72 73 74]
 [75 76 77 78 79]
 [80 81 82 83 84]
 [85 86 87 88 89]
 [90 91 92 93 94]
 [95 96 97 98 99]]


In [15]:
print(np_lst[:5, ::2])

[[ 0  2  4]
 [ 5  7  9]
 [10 12 14]
 [15 17 19]
 [20 22 24]]


In [16]:
print(np_lst[:5, [0,1]])

[[ 0  1]
 [ 5  6]
 [10 11]
 [15 16]
 [20 21]]


In [17]:
np_lst_sum = np_lst.sum(axis=1)
print(np_lst_sum)

[ 10  35  60  85 110 135 160 185 210 235 260 285 310 335 360 385 410 435
 460 485]


In [21]:
mask = (np_lst_sum >= 100) & (np_lst_sum <= 300)
print(mask)
print(np_lst[mask, :])

[False False False False  True  True  True  True  True  True  True  True
 False False False False False False False False]
[[20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]
 [50 51 52 53 54]
 [55 56 57 58 59]]


Wow! =)


#### Встроенные методы

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=4763

чтобы увидеть все доступные методы, после точки нажмите "Tab"

In [0]:
a

In [0]:
# сумма всех элементов массива
a.sum()

In [0]:
# среднее всех элементов массива
a.mean()

In [0]:
# максимальный элемент массива
a.max()

In [0]:
# минимальный элемент массива
a.min()

In [0]:
# результат перемножения всех элементов массива
a.prod()

In [0]:
# массив со строками
b

In [0]:
# сортировка
b.sort()
b

In [0]:
%%timeit
a.sum()

In [0]:
%%timeit
a.mean()

In [0]:
# меряет время выполнения всей ячейки

In [0]:
%%timeit
a.sum()
a.mean()

In [0]:
# Задаем параметры 
## n - кол-во циклов повторений
## r - кол-во повторений в одном цикле

In [22]:
%%timeit -n 5 -r 10
a.sum()

The slowest run took 22.17 times longer than the fastest. This could mean that an intermediate result is being cached.
5 loops, best of 10: 2.14 µs per loop


#### Операции с массивами

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=5370

In [0]:
# np.arange - создает массив из чисел, идущих по порядку
## числа от 0 до 5 не включительно
print(np.arange(5))

In [0]:
# числа от 3 до 6, 6 не включительно
print(np.arange(3, 6))

In [0]:
# разница между числами = 5
print(np.arange(3, 16, 5))

In [0]:
a = np.arange(5)
print(a)

In [36]:
b = np.arange(3, 8)
print(b)

[3 4 5 6 7]


#### векторные операции

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=5436

In [0]:
# сумма двух массивов
a + b

In [0]:
# разность двух массивов
a - b

In [0]:
# деление
a / b

In [0]:
# обратите внимание, что python нормально обработал деление на ноль
## inf - infinite value, бесконочность
b / a

In [0]:
# поэлементное умножение двух массивов
a * b

In [0]:
# поэлементное возведение в степень
a ** b

In [0]:
# поэлементное целочисленное деление
## обратите внимание на результат деления на ноль в этом случае
b // a

In [0]:
# методы работают и без создания новой переменной, но нужны скобочки ()
((a * b - a) ** 2).sum()

In [0]:
a * 5 + b[0] * 17

### Многомерные массивы

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=5651

2D - матрица

3D, ..., nD - тензоры

In [24]:
# создаем двумерный массив
a = np.array([[3, 6, 2, 7],
             [9, 2, 4, 8],
             [8, 2, 3, 6]])

print(a)

[[3 6 2 7]
 [9 2 4 8]
 [8 2 3 6]]


In [0]:
# размерность массива
a.shape

In [0]:
# кол-во элементов массива
a.size

#### Индексация

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=5659

построчно

In [0]:
a_list = [[3, 6, 2, 7],
          [9, 2, 4, 8],
          [8, 2, 3, 6]]

a_list

In [0]:
# нулевая строка
a[0]

In [0]:
# первая строка
a[1]

In [0]:
# последняя строка
a[-1]

поэлементно

In [0]:
a

In [0]:
# элемент с индексом 0 по строке и 0 по столбцу
a[0,0]

In [0]:
# элемент с индексом 0 по строке и 1 по столбцу
a[0,1]

In [0]:
# элемент с индексом 1 по строке и 0 по столбцу
a[1,0]

по столбцам

In [0]:
# нулевой столбец
a[1:, 0]

In [0]:
# первый столбец
a[:, 1]

#### Операции с двумерными массивами и встроенные методы

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=5710

In [25]:
print(a)

[[3 6 2 7]
 [9 2 4 8]
 [8 2 3 6]]


In [0]:
# сумма всех элементов массива
a.sum()

In [0]:
# минимум по столбцам
a.min(axis=0)

In [0]:
# сумма по строкам
a.sum(axis=1)

In [0]:
# np.ones_like создает массив из единиц такой же размерности как и массив а
b = np.ones_like(a)
print(b)

In [0]:
# np.zeros создает массив из нулей заданной размерности
a_ = np.zeros((5,3))
a_

In [0]:
# умножение всех элементов массива на число
b = b * 2
print(b)

In [0]:
print(a)

In [0]:
# поэлементное умножение двух массивов
a * b

#### структура np.matrix

In [26]:
np.matrix(a)

matrix([[3, 6, 2, 7],
        [9, 2, 4, 8],
        [8, 2, 3, 6]])

In [27]:
np.matrix(a).T

matrix([[3, 9, 8],
        [6, 2, 2],
        [2, 4, 3],
        [7, 8, 6]])

In [28]:
# в случае с np.matrix выполняется матричное умножение, а не поэлементное (!!!)
np.matrix(a) * np.matrix(a).T
# (n1, n2) * (n2, n3) = (n1, n3)

matrix([[ 98, 103,  84],
        [103, 165, 136],
        [ 84, 136, 113]])

#### Тензоры a.k.a. многомерные массивы


In [29]:
# создаем пятимерный массив из единиц размерности 2 на 3 на 4 на 6 на 5
c = np.ones((2, 3, 4, 6, 5))
print(c)

[[[[[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]]

   [[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]]

   [[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]]

   [[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]]]


  [[[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]]

   [[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]]

   [[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]]

   [[1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1.]
    [1. 1. 1. 1. 1

In [30]:
# создаем трехмерный массив руками
d = np.array([[[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]],
             
              [[13, 14, 15, 16],
              [17, 18, 19, 20],
              [21, 22, 23, 24]]])

print(d)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]


In [31]:
# проверяем размерность
d.shape

(2, 3, 4)

Как поэлементно обращаться к тензорам?

In [0]:
# элемент с индексами 0 по всем осям
d[0, 0, 0]

In [0]:
# только первые строки
d[:,  0, :]

In [0]:
# только первые строки и только первые 2 элемента каждой строки
d[:,  0, :2]

In [0]:
# сумма элементов по второй оси
d.sum(axis=2)

### Матричные операции

Транспонирование

метод .T

In [32]:
print(a)

[[3 6 2 7]
 [9 2 4 8]
 [8 2 3 6]]


In [33]:
aT = a.T
print(a.T)

[[3 9 8]
 [6 2 2]
 [2 4 3]
 [7 8 6]]


Умножение двух матриц

метод .dot

In [40]:
a = np.array([2, 3, 9, 8, 2])
print(a)

[2 3 9 8 2]


In [37]:
print(b)

[3 4 5 6 7]


In [41]:
# это не умножение(!!!)
## это поэлементное умножение
a * b

array([ 6, 12, 45, 48, 14])

In [43]:
# вот это умножение:
## метод .dot
c = a.dot(b)
print(c)

125


In [44]:
a.T.dot(b)

125

### Семплирование из распределений

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=6188

Описание всех возможностей модуля np.random:

https://numpy.org/devdocs/reference/random/index.html


In [0]:
# создаем массив размера 5 на 5 со случайными числами из стандартного нормального распределения
rr = np.random.normal(0, 1, (5,5))
print(rr)

In [0]:
rr = np.random.randint(0, 10, (5,5))
print(rr)

### Чтение файлов

*Разбор данного раздела:* https://youtu.be/4ZH_yXtW5Q4?t=6305

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


In [0]:
# грузим массив из файла .csv
my_data = np.loadtxt('/content/drive/My Drive/iris.csv', delimiter=',', skiprows=1) # skiprows=1 - пропускаем первую строку, поскольку в ней названия колонок базы 

In [0]:
# вот что мы подгрузили
my_data

In [49]:
# массив имеет тип np.array сразу
type(my_data)

numpy.ndarray

In [0]:
# тип подгруженных данных - float64
my_data.dtype

In [0]:
my_data.shape

In [50]:
from google.colab import files
files.upload()
!ls

Saving iris.csv to iris.csv
drive  iris.csv  sample_data


In [0]:
# грузим массив из файла .csv
my_data1 = np.loadtxt('iris.csv', delimiter=',', skiprows=1) # skiprows=1 - пропускаем первую строку, поскольку в ней названия колонок базы 

In [0]:
print(my_data1)

# **Глоссарий**
array[n1:n2] - срез массива с элемента n1 по n2 (не включительно)

-----------------------

**Основные методы для ndarray **

.dtype - узнать тип данных массива

.shape - узнать размер массива

.reshape((*новый размер*))  - поменять размер массива

.sum() сумма всех элементов

.mean() среднее всех элементов

.min() минимальное значение массива

.max() максимальное значение

.prod() произведение всех элементов

-------------------

np.arange(n) - генерация массива со значениями от 0 до n (не включительно)

np.loadtxt(адрес расположения файла+параметры загрузки)


