# Numpy arrays
Наиболее распространённая структура из numpy это `ndarray`. Для начала посмотрим, как их создавать
## Создание одномерных массиов из главных iterable типов

Для начала, `ndarray` может создаваться из встроенных `list` или `tuple` при помощи функции `np.array(collection)`.

In [1]:
import numpy as np  # np - community accepted abbrevation

some_list = [4, 8, 15, 16, 23, 42]
some_tuple = (4, 8, 12, 16, 23, 42)

from_list = np.array(some_list)
from_tuple = np.array(some_tuple)

print(f"from list: \n{some_list} -> {from_list}")
print(f"\nfrom tuple: \n{some_tuple} -> {from_tuple}")
print(f'\nlen(from_list) = {len(from_list)}')

from list: 
[4, 8, 15, 16, 23, 42] -> [ 4  8 15 16 23 42]

from tuple: 
(4, 8, 12, 16, 23, 42) -> [ 4  8 12 16 23 42]

len(from_list) = 6


Размер `ndarray` можно получить через `len(ndarray)`, `ndarray.shape` и `ndarray.size` (в чём разница - поймём когда дойдём до многомерных массивов):

In [2]:
some_list = [4, 8, 15, 16, 23, 42]
from_list = np.array(some_list)

print(from_list)
print(f'\nlen(from_list) = {len(from_list)}')
print(f'from_list.shape = {from_list.shape}')
print(f'from_list.size = {from_list.size}')

[ 4  8 15 16 23 42]

len(from_list) = 6
from_list.shape = (6,)
from_list.size = 6


Пока ничего нового. Но давайте взглянем на кое-что другое:

In [3]:
some_list = [1, 2, 3]
some_list_with_pi = [1, 2, 3, np.pi]

from_list = np.array(some_list)
from_list_with_pi = np.array(some_list_with_pi)

print(f"from list: \n{some_list} -> {from_list}")
print(f"\nfrom list with pi: \n{some_list_with_pi} -> {from_list_with_pi}")

from list: 
[1, 2, 3] -> [1 2 3]

from list with pi: 
[1, 2, 3, 3.141592653589793] -> [1.         2.         3.         3.14159265]


Обратите внимание на вывод во втором случае. Целые были преобразованны во float. Оно и логично, ведь `ndarray`, в отличии от питонячих коллекций, типизирован. Посмотреть тип можно через атрибут `ndarray.dtype`:

In [4]:
some_list = [1, 2, 3]
some_list_with_pi = [1, 2, 3, np.pi]
some_list_with_pi_and_str = [1, 2, 3, np.pi, 'pi']

from_list = np.array(some_list)
from_list_with_pi = np.array(some_list_with_pi)
from_list_with_pi_and_str = np.array(some_list_with_pi_and_str)

print(f'{from_list}.dtype = {from_list.dtype}')
print(f'{from_list_with_pi}.dtype = {from_list_with_pi.dtype}')
print(f'{from_list_with_pi_and_str}.dtype = {from_list_with_pi_and_str.dtype}')

[1 2 3].dtype = int32
[1.         2.         3.         3.14159265].dtype = float64
['1' '2' '3' '3.141592653589793' 'pi'].dtype = <U32


Тип данных `<U32` означает "unicode строка длиной до 32".

Однако, не все коллекции подходят. Рассмотрим следующий пример и обратим внимание на shape:

In [5]:
some_set = set('an assassin sins')
some_string = 'The quick brown fox jumps over the lazy dog'

from_set = np.array(some_set)
from_string = np.array(some_string)

print(f"from set: \n{from_set}, shape: {from_set.shape}, dtype: {from_set.dtype}")
print(f"\nfrom string: \n{from_string}, shape: {from_string.shape}, dtype: {from_string.dtype}")

from set: 
{'s', 'i', 'a', ' ', 'n'}, shape: (), dtype: object

from string: 
The quick brown fox jumps over the lazy dog, shape: (), dtype: <U43


Но если вам ну очень хочется сделать `ndarray` из `set` или `string`, вы можете обернуть их в `list`

In [6]:
from_listed_set = np.array(list(some_set))
from_listed_string = np.array(list(some_string))

print(f"from list(set): \n{from_listed_set}, shape: {from_listed_set.shape}, dtype: {from_listed_set.dtype}")
print(f"\nfrom list(string): \n{from_listed_string}, shape: {from_listed_string.shape}, dtype: {from_listed_string.dtype}")

from list(set): 
['s' 'i' 'a' ' ' 'n'], shape: (5,), dtype: <U1

from list(string): 
['T' 'h' 'e' ' ' 'q' 'u' 'i' 'c' 'k' ' ' 'b' 'r' 'o' 'w' 'n' ' ' 'f' 'o'
 'x' ' ' 'j' 'u' 'm' 'p' 's' ' ' 'o' 'v' 'e' 'r' ' ' 't' 'h' 'e' ' ' 'l'
 'a' 'z' 'y' ' ' 'd' 'o' 'g'], shape: (43,), dtype: <U1


 Тип данных всегда изменяется **явно** и **приводит к созданию нового объекта**.
Посмотрите пример:

In [7]:
some_string = 'The quick brown fox jumps over the lazy dog'
words_list = some_string.lower().split(' ')
from_words_list = np.array(words_list)

print(f"from words list: \n{from_words_list}, shape: {from_words_list.shape}, dtype: {from_words_list.dtype}, id: {id(from_words_list)}")

print('\nЗаменим fox на elephant:')
from_words_list[3] = 'elephant'
print(f"from words list: \n{from_words_list}, shape: {from_words_list.shape}, dtype: {from_words_list.dtype}, id: {id(from_words_list)}")
print('Слон стал "элефом", но id не изменился')

print('\nСменим тип данных и заменим eleph на elephant:')
from_words_list = from_words_list.astype('<U10')
from_words_list[3] = 'elephant'
print(f"from words list: \n{from_words_list}, shape: {from_words_list.shape}, dtype: {from_words_list.dtype}, id: {id(from_words_list)}")

from words list: 
['the' 'quick' 'brown' 'fox' 'jumps' 'over' 'the' 'lazy' 'dog'], shape: (9,), dtype: <U5, id: 94650816

Заменим fox на elephant:
from words list: 
['the' 'quick' 'brown' 'eleph' 'jumps' 'over' 'the' 'lazy' 'dog'], shape: (9,), dtype: <U5, id: 94650816
Слон стал "элефом", но id не изменился

Сменим тип данных и заменим eleph на elephant:
from words list: 
['the' 'quick' 'brown' 'elephant' 'jumps' 'over' 'the' 'lazy' 'dog'], shape: (9,), dtype: <U10, id: 94651776


Очевидно, `ndarray` не очень для работы со строками. Однако с числами он бесподобен.

## Создание n-мерных массивов из основных iterable типов:
n-мерные массивы `np.ndarray` могут быть получены оборачиванием в np.array() `list`, содержащий внутри себя другие `list`. Попробуем создать двухмерный массив (словом, матрицу):

In [8]:
lists_in_list = [[1, 2, 3], [4, 5, 6]]
matrix = np.array(lists_in_list)
print(f"From lists in list: \n{matrix}, shape: {matrix.shape}, len: {len(matrix)}, size: {matrix.size}")

From lists in list: 
[[1 2 3]
 [4 5 6]], shape: (2, 3), len: 2, size: 6


Внимательно посмотрите на вывод предыдущего примера. Будьте осторожны при использовании функции `len()` с типом данных `ndarray`. Она вернёт длину первого измерения, а не количество элементов. Для получения количества элементов используется атрибут `ndarray.size`

ndarray с б**о**льшим количеством измерений получается путём увеличения уровня вложенности: 

In [9]:
lists_in_lists_in_list = [[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[10, 11, 12], [13, 14, 15], [16, 17, 18]]]
three_d_array = np.array(lists_in_lists_in_list)
print(f"From lists in list: \n{three_d_array}, shape: {three_d_array.shape}, len: {len(three_d_array)}, size: {three_d_array.size}")

From lists in list: 
[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]], shape: (2, 3, 3), len: 2, size: 18


Разумеется, вложенные `list` должны быть согласованны в смысле числа элементов:

In [10]:
incompatible_lists_in_list = [[1, 2, 3], [4, 5], [6, 7, 8]]
from_incompatible_lists = np.array(incompatible_lists_in_list)
print(f"From incompatible lists: \n{from_incompatible_lists}, shape: {from_incompatible_lists.shape}, dtype: {from_incompatible_lists.dtype}")

From incompatible lists: 
[list([1, 2, 3]) list([4, 5]) list([6, 7, 8])], shape: (3,), dtype: object


## Процедуры создания новых массивов
### Инициализация raw-массива
Можно инициализировать массив без значений. При инициализации numpy-массива без значений создаётся указатель на свободную область в памяти. Если посмотреть содержимаое массива, то можно увидеть что оказалось в той области памяти, а оказаться там может всё, что угодно. Попробуйте поменять shape и посмотреть как меняется содержимое

In [13]:
shape = (4, 4)
new_array = np.ndarray(shape=shape)
print(f"new array: \n{new_array}, dtype: {new_array.dtype}")

new array: 
[[4.67296746e-307 1.69121096e-306 1.11261095e-306 1.89151819e-307]
 [9.34605716e-307 6.23060744e-307 2.22522597e-306 1.33511969e-306]
 [1.37962320e-306 9.34604358e-307 9.79101082e-307 1.78020576e-306]
 [1.69119873e-306 2.22522868e-306 1.24611809e-306 8.06632139e-308]], dtype: float64


### Заполненные массивы
Во многих случаях могут понадобиться массивы, которые состоят из один единиц или нулей. Такие массивы гененрируются функциями `np.zeros(shape=required_shape)` и `np.ones(shape=required_shape)` соответственно. `shape` может быть целым числом (для `1D-array`) или `tuple` целых чисел для `ndarray`.

In [14]:
zeros_1d = np.zeros(10)
print(f"zeros_1d: \n{zeros_1d}, shape: {zeros_1d.shape}, dtype: {zeros_1d.dtype}")
ones_2d = np.ones((3, 3))
print(f"ones_2d: \n{ones_2d}, shape: {ones_2d.shape}, dtype: {ones_2d.dtype}")

zeros_1d: 
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.], shape: (10,), dtype: float64
ones_2d: 
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]], shape: (3, 3), dtype: float64


Тип данных для значений таких массивов может быть задан явно через параметр `dtype`:

In [15]:
uint_ones = np.ones(7, dtype=np.uint8)
print(f"uint zeros: \n{uint_ones}, shape: {uint_ones.shape}, dtype: {uint_ones.dtype}")

uint zeros: 
[1 1 1 1 1 1 1], shape: (7,), dtype: uint8


Давайте выполним несколько операций для того, чтобы убедиться, что у нас действительно `uint8`:

In [18]:
uint_ones = np.ones(7, dtype=np.uint8)
uint_ones[0] = uint_ones[0]  # Left first one alone
uint_ones[1] -= 0.2 
uint_ones[2] += 0.9  
uint_ones[3] += 1.1
uint_ones[4] += 300
uint_ones[5] -= 10
uint_ones[6] *= -1
uint_ones

array([  1,   0,   1,   2,  45, 247, 255], dtype=uint8)

А теперь объяснения
0. Остался без изменений
1. Следуем последовательности:  преобразуем 1 в float чтобы выполнить вычитание float -> выполняем вычитание 1. - 0.2 = 0.8 -> переводим в uint8 чтобы поместить в массив uint8(0.2) = 0 -> вставляем 0 
2. см 1.: uint8(1.9) = 1
3. см 1.: uint8(2.1) = 2
4. А здесь у нас пример переполнения. Диапазон uint8 от 0 до 255. Таким образом, 301 % 256 = 45
5. см 4.: -9 % 256 = 256 - 9 = 247
6. см 4.: -1 % 256 = 256 - 1 = 255

### Равномерно заполненные массивы
В качестве первого типа равнозаполненных массиов рассмотрим функцию `np.arange()`. Она работает по аналогии со стандартной `range()`, но возвращает `ndarray` и позволяет использовать не только целочисленные значения шага.

In [19]:
print('# Если передадим единственный аргумент N, arange вернёт целые числа из интервала [0, N). Как и обычный range()')
print(f'np.arange(10) \n{np.arange(10)}')

print('\n# Для двух аргументов M и N, arange вернёт целые из интервала [M, N). Снова по аналогии с range():')
print(f'np.arange(5, 10) \n{np.arange(5, 10)}')

print('\n# Третий аргумент указывает шаг внутри интервала [M, N):')
print(f'np.arange(5, 10, 0.5) \n{np.arange(5, 10, 0.5)}')
print(f'\nnp.arange(5, 10, 2) \n{np.arange(5, 10, 2)}')
print(f'\nnp.arange(5, 10, 10) \n{np.arange(5, 10, 10)}')

# Если передадим единственный аргумент N, arange вернёт целые числа из интервала [0, N). Как и обычный range()
np.arange(10) 
[0 1 2 3 4 5 6 7 8 9]

# Для двух аргументов M и N, arange вернёт целые из интервала [M, N). Снова по аналогии с range():
np.arange(5, 10) 
[5 6 7 8 9]

# Третий аргумент указывает шаг внутри интервала [M, N):
np.arange(5, 10, 0.5) 
[5.  5.5 6.  6.5 7.  7.5 8.  8.5 9.  9.5]

np.arange(5, 10, 2) 
[5 7 9]

np.arange(5, 10, 10) 
[5]


В иных ситуациях удобнее использовать не фиксированный шаг, а фиксированное количество равноудалённых точек из интервала. Для такой задачи используется функция `np.linspace()`.

In [20]:
print('# В отличии от arange, linspace ожидает минимум два аргумента: start и stop. А ещё linspace обычно включает в себя правую границу интервала:')
print(f'np.linspace(0, 10): \n{np.linspace(0, 10)}, shape: {np.linspace(0, 10).shape}')

print('\n# По умолчанию linspace разбиавает интервал на 50 точек. Однако количество точек можно задать третьим аргументом:')
print(f'np.linspace(0, 10, 21): \n{np.linspace(0, 10, 21)}, shape: {np.linspace(0, 10, 21).shape}')

print('\n#  Если же задача не требует включения правой границы интервала, передаётся аргумент endpoint=False')
print(f'np.linspace(0, 10, 20, endpoint=False): \n{np.linspace(0, 10, 20, endpoint=False)}, shape: {np.linspace(0, 10, 20, endpoint=False).shape}')

# В отличии от arange, linspace ожидает минимум два аргумента: start и stop. А ещё linspace обычно включает в себя правую границу интервала:
np.linspace(0, 10): 
[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ], shape: (50,)

# По умолчанию linspace разбиавает интервал на 50 точек. Однако количество точек можно задать третьим аргументом:
np.linspace(0, 10, 21): 
[ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5
  7

## Создание массивов случайных чисел
Рассмотрим три основные фукнции создания массивов, заполненных случайными числами. Начнём с функции `np.random.randn()`. Она генерирует число, распределённое по нормальному закону с математическим ожиданием = 0 и дисперсией = 1

In [21]:
print("# Без указания аргументов возвращает единственное число базового типа float")
print(f'np.random.randn(): {np.random.randn()}, type: {type(np.random.randn())}')

print("\n# Чтобы создать ndarray в качестве аргументов передаётся его shape")
print(f'np.random.randn(1, 2, 3, 4): \n{np.random.randn(1, 2, 3, 4)}, type: {type(np.random.randn(1, 2, 3, 4))}, shape: {np.random.randn(1, 2, 3, 4).shape}')

print("\n# То же самое, только через кортеж:")
shape = (4, 3, 2)
print(f'np.random.randn(*shape): \n{np.random.randn(*shape)}, type: {type(np.random.randn(*shape))}, shape: {np.random.randn(*shape).shape}')

# Без указания аргументов возвращает единственное число базового типа float
np.random.randn(): 1.8916274474553867, type: <class 'float'>

# Чтобы создать ndarray в качестве аргументов передаётся его shape
np.random.randn(1, 2, 3, 4): 
[[[[-0.31125307  0.06523724 -0.64476587 -0.59543478]
   [ 0.76777107  0.87039478  0.12525384 -0.56451357]
   [-0.50286046  2.18688649  1.50799017 -0.12369988]]

  [[-1.05965995 -1.28798025 -0.75524321  0.39577147]
   [-0.07930472 -0.40682018 -1.27974815 -0.0724482 ]
   [-2.755291   -0.44453815  0.56625164 -0.91841595]]]], type: <class 'numpy.ndarray'>, shape: (1, 2, 3, 4)

# То же самое, только через кортеж:
np.random.randn(*shape): 
[[[ 2.10784625  0.72133798]
  [ 0.62349421  1.61684385]
  [ 1.68663495 -1.36122695]]

 [[ 0.31030778  1.08446203]
  [-2.20121133  1.83752572]
  [ 0.10070372 -1.41766666]]

 [[ 1.3507672  -0.25283216]
  [-0.79299874 -0.4044938 ]
  [-0.22799267 -0.38268329]]

 [[ 0.26067747 -0.04470637]
  [-0.47649259 -0.00471256]
  [-0.0922824

### np.rand.rand()
Работает точно так же, как и `np.random.randn()`, только генерирует числа по равномерному закону распределения

In [22]:
print(f'np.random.rand(): {np.random.rand()}, type: {type(np.random.rand())}')


shape = (2, 3, 4)
print(f'\nnp.random.rand(*shape): \n{np.random.rand(*shape)}, type: {type(np.random.rand(*shape))}, shape: {np.random.rand(*shape).shape}')

np.random.rand(): 0.07359688307094325, type: <class 'float'>

np.random.rand(*shape): 
[[[0.73291771 0.82922197 0.06988555 0.59658422]
  [0.86586458 0.15570035 0.85248176 0.54827832]
  [0.54468494 0.50508333 0.97281347 0.69053103]]

 [[0.00963745 0.82015874 0.69033906 0.98587309]
  [0.67078489 0.65479059 0.99694177 0.95488376]
  [0.3075757  0.37858446 0.48782659 0.69077094]]], type: <class 'numpy.ndarray'>, shape: (2, 3, 4)


### np.random.randint()

In [27]:
print("# Если randint вызывается с единственным аргументом N, функция вернёт единственный базовый int из области [0, N)")
print(f'np.random.randint(100): {np.random.randint(100)}, type: {type(np.random.randint(100))}')

print("\n# Если передать два аргумента M и N, функция вернёт единственный базовый int из области [M, N)")
print(f'np.random.randint(90, 100): {np.random.randint(90, 100)}, type: {type(np.random.randint(100))}')


print('\n# А вот если третьим аргументом передать размер, то получим ndarray:')
print(f'np.random.randint(90, 100, 10): \n{np.random.randint(90, 100, 10)}, type: {type(np.random.randint(90, 100, 10))}')
print('\n# Однако, в отличии от предыдущих двух функций, здесь под размер отведён единственный аргумент. Поэтому, многомерный массив получаем передачай tuple:')
print(f'np.random.randint(0, 10, (3, 3)): \n{np.random.randint(0, 10, (3, 3))}')

print(f'\n# Необязательно передавать три значения чтобы задать размер. Аргумент size можно указать явно.')
print('# Такая запись эквивалентна np.random.randint(0, 100, 10)')
print(f'np.random.randint(100, size=10): \n{np.random.randint(100, size=10)}, type: {type(np.random.randint(100, size=10))}')


# Если randint вызывается с единственным аргументом N, функция вернёт единственный базовый int из области [0, N)
np.random.randint(100): 36, type: <class 'int'>

# Если передать два аргумента M и N, функция вернёт единственный базовый int из области [M, N)
np.random.randint(90, 100): 96, type: <class 'int'>

# А вот если третьим аргументом передать размер, то получим ndarray:
np.random.randint(90, 100, 10): 
[98 98 94 93 90 92 95 94 99 99], type: <class 'numpy.ndarray'>

# Однако, в отличии от предыдущих двух функций, здесь под размер отведён единственный аргумент. Поэтому, многомерный массив получаем передачай tuple:
np.random.randint(0, 10, (3, 3)): 
[[5 1 7]
 [9 6 7]
 [9 5 3]]

# Необязательно передавать три значения чтобы задать размер. Аргумент size можно указать явно.
# Такая запись эквивалентна np.random.randint(0, 100, 10)
np.random.randint(100, size=10): 
[73 70 67 46 76 62 91 55 52 41], type: <class 'numpy.ndarray'>
