# Python для анализа данных

*Алла Тамбовцева, Татьяна Рогович, НИУ ВШЭ*

## Массивы `NumPy`

### Базовые операции с массивами

Сегодня мы познакомимся с библиотекой `NumPy` (сокращение от *Numeric Python*), которая часто используется в задачах, связанных с машинным обучением.

Чтобы мы смогли на конкретных примерах увидеть, зачем эта библиотека используется, давайте её импортируем. Если вы уже устанавливали Anaconda, то библиотека `numpy` также была установлена на ваш компьютер. Проверим: импортируем библиотеку с сокращённым названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – распространённое, можно даже сказать, общепринятое, его часто можно увидеть в документации или официальных тьюториалах.

In [2]:
import numpy as np

Возможности:
   - поддержка многомерных массивов (включая матрицы);
   - поддержка высокоуровневых математических функций, предназначенных для работы с многомерными массивами.  
    
Так же numpy лежить в основе датафреймов pandas, и многие вещи (фильтрация, индексирование, математические операции), которые обсудим в этом уроке, потом транслируются в pandas.

В `Python` к числовым типам относятся:
   - int
   - float
   - bool
   - complex   
   
В `numpy` имеются эти типы, а также обёртки над этими типами, которые **используют реализацию типов на C**, например, `int8`, `int16`, `int32`, `int64` (подробнее о типах данных `numpy` можно прочитать [здесь](https://www.numpy.org/devdocs/user/basics.types.html)). За счёт того, что используются типы данных из C, numpy получает ускорение операций.

In [3]:
type(np.int(32)), type(np.int32(32)), type(np.int64(32))

(int, numpy.int32, numpy.int64)

**Переполнение**

В связи с особенностями типов `numpy` важно помнить о переполнении.   
Например, 64-битный int в С хранит числа от -9223372036854775808 до 9223372036854775807

In [4]:
print(np.int64(1e10)) # все поместилось

10000000000


In [5]:
print(np.int64(10e18)) # не поместилось

OverflowError: Python int too large to convert to C long

In [6]:
print(10e18) # а в стандартный питоновский integer - помещается

1e+19


# Массивы Ndarray

Основыным объектом `numpy` является Ndarray – это n-мерный массив (сокращение от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо только целые числа, либо числа с плавающей точкой, либо строки, либо булевы (логические) значения. 

Производить вычисления с массивами гораздо быстрее и эффективнее чем со списками.

Массивы могут быть одномерными, то есть визуально ничем не отличаться от простого списка значений.


In [8]:
import numpy as np
np.array([0, 2, 3, 4])

array([0, 2, 3, 4])

А могут быть многомерными (n-мерными), то есть представлять собой вложенный список («список списков»):

In [9]:
np.array([[1, 2], 
          [1, 0]])  # двумерный

array([[1, 2],
       [1, 0]])

Или даже «список таблиц»:

In [10]:
x = np.array([[[6, 3],
        [6, 8]],
      [[1, 100],
        [0, 1]]])  # трехмерный

In [11]:
x[1][0][1] # вторая колонка первой строки второго измерения

100

Мы чаще всего будем работать с двумерными массивами. Про двумерный массив можно думать как про матрицу или про таблицу. Так, массив во втором примере выше можно рассматривать как таблицу, состояшую из двух строк и трёх столбцов, как таблицу $2 \times 3$ (сначала указывается число строк, затем – число столбцов). Отсюда следует важный факт: число элементов в списках внутри массива должно совпадать. Проверим на примере – возьмём списки разной длины, то есть списки, состоящие из разного числа элементов, и объединим их в массив:

In [12]:
lst = [[0, 0, 1],
         [0, 1]]
lst

[[0, 0, 1], [0, 1]]

In [13]:
np.array([[0, 0, 1],
         [0, 1]]) 

array([list([0, 0, 1]), list([0, 1])], dtype=object)

Получилось что-то немного странное. Никакой ошибки Python не выдал, но воспринимать этот объект как полноценный массив он уже не будет: он будет считать, что в такой таблице у нас есть две строки и ноль столбцов!

Теперь давайте посмотрим, что будет, если мы попробуем объединить в массив объекты разных типов, например, целые числа и числа с плавающей точкой:

In [14]:
np.array([[5, 8.2], 
         [1.2, 1,]])

array([[5. , 8.2],
       [1.2, 1. ]])

In [15]:
np.array([[5, 8.2], 
         [1.2, 'ba']])

array([['5', '8.2'],
       ['1.2', 'ba']], dtype='<U32')

Все элементы были автоматически приведены к одному типу (можно считать, что тип *float* «сильнее» типа *integer*). Можете самостоятельно проверить, что будет, если мы «смешаем» в списке строковые и числовые значения.

Чем же удобны массивы? Во-первых, они занимают меньше места и памяти. Во-вторых, с ними очень удобно работать: все операции над массивами будут производиться поэлементно: то есть, для выполнения действий над каждым элементом массива, нам не придется использовать какие-то специальные конструкции вроде циклов, мы сможем обращаться сразу ко всему массиву. Например, давайте представим, что у нас есть массив со значениями явки на выборы в долях, а мы хотим получить результаты в процентах (домноженные на 100).

В отличие от питоновских листов - ndarray - это полноценный вектор. И он поддерживает операции над векторами. Так пример выше - это умножение вектора на скаляр.

In [16]:
s = [2,1]
s*2

[2, 1, 2, 1]

In [17]:
turnout = np.array([0.62, 0.43, 0.79, 0.56])
turnout

array([0.62, 0.43, 0.79, 0.56])

Чтобы домножить каждое число в массиве на 100, нам достаточно домножить на 100 `turnout`:

In [18]:
turnout * 100  # готово!

array([62., 43., 79., 56.])

Точно так же можем производить операции с несколькими массивами — действия будут выполняться поэлементно (сложение векторов)

In [19]:
[2, 3, 5]+[0, 8, 6]

[2, 3, 5, 0, 8, 6]

In [20]:
# поэлементное сложение векторов
A = np.array([2, 3, 5])
B = np.array([0, 8, 6])

A + B

array([ 2, 11, 11])

In [21]:
# полеэментное умножение векторов
A * B

array([ 0, 24, 30])

Выполним сразу несколько действий — посчитаем явку на основе массивов с числом действительных и недействительных бюллетеней.

In [22]:
valid = np.array([32, 45, 50, 44])# действительные бюллетени
invalid = np.array([3, 11, 2, 6]) # недействительные бюллетени
total = np.array([65, 72, 80, 100]) # всего зарегистрированных избирателей

(valid + invalid) / total * 100

array([53.84615385, 77.77777778, 65.        , 50.        ])

# <a id="Массивы ndarray и операции с ними"><span style="color:green">Массивы ndarray и операции с ними</span></a>

Наиболее важные атрибуты объектов ndarray:
1. **`ndarray.ndim`** - число измерений (чаще их называют "оси") массива.
  
2. **`ndarray.shape`** - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
3. **`ndarray.size`** - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.
4. **`ndarray.dtype`** - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. Можно хранить и numpy типы, например: bool, int16, int32, int64, float16, float32, float64, complex64


Одномерный массив

In [23]:
M = np.array([[2, 5], 
              [6, 8], 
              [1, 3]])
M

array([[2, 5],
       [6, 8],
       [1, 3]])

In [28]:
M.dtype

dtype('int64')

Массивы бывают многомерными, значит, у массива есть число измерений. Давайте его найдём:

In [24]:
M.ndim  # dimensions

2

Действительно, всего два измерения: чтобы указать на число 5 из этого массива, нам понадобятся всего две координаты – номер строки и номер столбца. Теперь посмотрим на форму или вид массива (*shape*):

In [25]:
M.shape  # 3 строки и 2 столбца, т.е. 3 списка по 2 элемента

(3, 2)

Кроме того, можем найти общее число элементов в массиве, его длину, размер (*size*):

In [26]:
M.size  # всего 6 элементов

6

### Работа с элементами массива

Если нам нужно обратиться к элементам массива, то эта операция будет похожа на работу со вложенными списками:

In [29]:
M

array([[2, 5],
       [6, 8],
       [1, 3]])

In [30]:
M[0]  # весь первый список в M

array([2, 5])

In [31]:
M[0][1]  # второй элемент первого списка в M

5

Или не совсем как со списками, без двойных скобок:

In [32]:
M[0, 1]

5

Ещё можно выбирать сразу несколько элементов массива. Для этого воспользуемся срезами (*slices*):

In [33]:
M[0:2]  # с элемента с индексом 0 до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Обратите внимание: правый конец среза не включается.

Концы среза можно опускать, если нас интересуют все элементы, начиная с некоторого элемента и до конца массива или начиная с первого элемента массива и до некоторого элемента (правый конец точно так же включаться не будет):

In [34]:
M[1:] # с элемента с индексом 1 до конца

array([[6, 8],
       [1, 3]])

In [35]:
M[:2] # с начала массива до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Еще можно взять полный срез – выбрать все элементы массива:

In [36]:
M[:] 

array([[2, 5],
       [6, 8],
       [1, 3]])

Кроме того, при выборе элементов можно выставлять шаг. По умолчанию мы выбираем все элементы подряд, шаг равен 1, но это можно изменить:

In [37]:
M[0:3:2]  # с нулевого по третий через 2

array([[2, 5],
       [1, 3]])

Концы среза по-прежнему можно опускать:

In [38]:
M[0::2]

array([[2, 5],
       [1, 3]])

Или сделать более интересную вещь, взять отрицательный шаг и выбрать все элементы в обратном порядке, с конца:

In [39]:
M[::-1]

array([[1, 3],
       [6, 8],
       [2, 5]])

### Ещё про операции с массивами

Теперь посмотрим на другие операции с массивами. Создадим простой одномерный массив, содержащий оценки группы школьников:

In [40]:
marks = np.array([5, 4, 3, 5, 5, 4, 3, 4]) 
marks

array([5, 4, 3, 5, 5, 4, 3, 4])

Найдем самую плохую, минимальную оценку:

In [42]:
marks.min()

3

А теперь самую высокую, максимальную:

In [43]:
marks.max()

5

И средний балл:

In [44]:
marks.mean()

4.125

Медиану мы так не найдём — нет метода `median()`, но зато есть такая функция:

In [45]:
np.median(marks)

4.0

In [46]:
M

array([[2, 5],
       [6, 8],
       [1, 3]])

In [47]:
np.median(M)

4.0

А теперь найдем номер ученика с самой высокой оценкой:

In [46]:
marks.argmax()

0

И номер ученика с самой низкой оценкой:

In [50]:
marks.argmin()

2

**Внимание:** если таких несколько, будет выведено первое совпадение, как для `argmin()`, так и для`argmax()`.

Конечно, мы не сможем сейчас рассмотреть все доступные методы, относящиеся к массивам (некоторые часто используемые методы мы еще будем обсуждать в следующем модуле), но при желании на перечень доступных методов можно посмотреть, набрав название массива, поставив точку и нажав на *Tab* (показать).

Теперь посмотрим на многомерный массив, для удобства возьмём двумерный:

In [66]:
grades = np.array([[3, 5, 5, 4, 3], 
                   [3, 3, 4, 3, 3], 
                   [5, 5, 5, 4, 5]])

Пусть это будут оценки трёх студентов 5 контрольных работ. Попробуем теперь найти средний балл за контрольные по каждому группе. Для этого необходимо указать, по какому измерению мы будем двигаться (грубо говоря, по строкам или столбцам):

In [67]:
grades.mean(axis = 1) # по строкам, три оценки - одна для каждого студента

array([4. , 3.2, 4.8])

А теперь найдем средний балл по каждой контрольной работе:

In [60]:
grades.mean(axis = 0) # по столбцам, пять оценки - одна для каждой работы

array([3.66666667, 4.33333333, 4.66666667, 3.66666667, 3.66666667])

Таким же образом можно было посмотреть на минимальное и максимальное значение (можете потренироваться самостоятельно).

### Создание массивов

#### Как создать массив?

**Способ 1**

С первым способом мы уже отчасти познакомились: можно получить массив из готового списка, воспользовавшись функцией `array()`:

In [68]:
np.array([10.5, 45, 2.4])

array([10.5, 45. ,  2.4])

**Способ 2**

Можно создать массив на основе промежутка, созданного с помощью `arange()` – функции `numpy`, похожей на стандартный `range()`, только более гибкую. Посмотрим, как работает эта функция.

In [69]:
np.arange(2, 9) # по умолчанию шаг равен 1, как обычный range()

array([2, 3, 4, 5, 6, 7, 8])

По умолчанию эта функция создает массив, элементы которого начинаются со значения 2 и заканчиваются на значении 8 (правый конец промежутка не включается), следуя друг за другом с шагом 1. Но этот шаг можно менять:

In [70]:
np.arange(2, 9, 3) # с шагом 3

array([2, 5, 8])

И даже делать дробным!

In [71]:
np.arange(2, 9, 0.5)

array([2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. ,
       8.5])

Или создать массив из диапазона значений [start, stop] с заданием количества точек.

In [73]:
m = np.linspace(0, 5, 5)
print(m)

[0.   1.25 2.5  3.75 5.  ]


**Способ 3**

Еще массив можно создать совсем с нуля. Единственное, что нужно четко представлять – это его размерность, его форму, то есть опять же, число строк и столбцов. Библиотека `numpy` позволяет создать массивы, состоящие из нулей или единиц, а также  «пустые» массивы (на практике используются редко). Удобство заключается в том, что сначала можно создать массив, инициализировать его (например, заполнить нулями), а затем заменить нули на другие значения в соответствии с требуемыми условиями.

Так выглядит массив из нулей:

In [74]:
Z = np.zeros((3, 3, 3)) # размеры в виде кортежа - не теряйте еще одни круглые скобки
Z

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [75]:
# создание вектора из нулей
v = np.zeros(4)
print(v)

[0. 0. 0. 0.]


А так – массив из единиц:

In [76]:
O = np.ones((4, 2))
O

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

А так выглядит единичная матрица – таблица из 0 и 1, в которой число строк и столбцов одинаково, и где на главной диагонали стоят 1:

In [64]:
E = np.eye(5)
E

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### Создайте матрицу 5x5 со значениями строк в диапазоне от 0 до 4

In [78]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [77]:
m = np.zeros((5, 5))
print(m)
m += np.arange(5)
print(m)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
[[0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]]


**Способ 4**

Создание массива случайных чисел.

В `numpy` есть аналог модуля `random` - `numpy.random`. Используя типизацию из C, он как и свой аналог генерирует случайные данные.

In [98]:
np.random.rand(1, 1)

array([[0.15601864]])

In [102]:
# массив чисел из равномерного (uniform) распределения в диапазоне [0, 1)
# np.random.rand(d0, d1, d3, ...) d0, d1,... - pазмеры возвращаемого массива
np.random.seed(42)
print(np.random.rand(2, 2))
print(np.random.rand(2, 2).shape)

[[0.37454012 0.95071431]
 [0.73199394 0.59865848]]
(2, 2)


In [103]:
# массив чисел из стандартного нормального (norm) распределения
np.random.randn(2, 3, 2) 
# print(np.random.randn(2, 3, 2).shape)

array([[[ 1.57921282,  0.76743473],
        [-0.46947439,  0.54256004],
        [-0.46341769, -0.46572975]],

       [[ 0.24196227, -1.91328024],
        [-1.72491783, -0.56228753],
        [-1.01283112,  0.31424733]]])

In [107]:
a = np.array([0,0,0,0,0,0,0,0,0,0,1,1,1,1,1])

In [111]:
i = 0
for _ in range(100000):
    if np.random.choice(a=a, size=5, replace=True).sum()>=4:
        i+=1
print(i/100000)    

0.04559


In [40]:
# массив из случайно выбранных чисел
# size - размер возвращаемого массива, reaplce=False без замещения
np.random.choice(a=a, size=5, replace=False)

array([ 0, 17, 15,  1,  8])

In [41]:
np.random.choice(a=np.arange(20), size=(2, 3), replace=True)

array([[ 1,  0, 11],
       [11, 16,  9]])

## Почему нужно использовать векторизованные вычисления?

Несмотря на то, что для создания единичной матрицы есть специальный метод, давайте посмотрим, как бы мы создавали её «вручную». Для этого нам потребовались бы вложенные циклы:

In [112]:
%%time
I = np.zeros((100, 100))

for i in range(0, I.shape[0]):
    for j in range(0, I.shape[1]):
        if i == j:
            I[i][j] = 1
I

CPU times: user 1.29 ms, sys: 50 µs, total: 1.34 ms
Wall time: 1.32 ms


array([[1., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 0., 1.]])

In [113]:
%%time
I = np.eye(100,100)
I

CPU times: user 75 µs, sys: 41 µs, total: 116 µs
Wall time: 142 µs


array([[1., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 0., 1.]])

In [115]:
%%time
a = np.zeros(1000000, dtype=np.float64)
for i in range(1, 1000001):
    a[i - 1] = i ** 0.5
print(a)

[   1.            1.41421356    1.73205081 ...  999.999       999.9995
 1000.        ]
CPU times: user 334 ms, sys: 8.99 ms, total: 343 ms
Wall time: 471 ms


In [116]:
%%time
b = np.arange(1, 1000001, dtype=np.float64)
b = np.sqrt(b)
print(b)

[   1.            1.41421356    1.73205081 ...  999.999       999.9995
 1000.        ]
CPU times: user 4.8 ms, sys: 4.09 ms, total: 8.89 ms
Wall time: 14.9 ms


Данный пример заодно показывает одну важную особенность — массивы, как и списки, являются изменяемыми объектами в Python.

### Изменение размерности списков

Вспомним, что у нас есть массив оценок студентов `grades`:

In [120]:
grades

array([[3, 5, 5, 4, 3],
       [3, 3, 4, 3, 3],
       [5, 5, 5, 4, 5]])

Как поменять структуру массива так, чтобы, например, оценки были записаны группами по три оценки? Воспользоваться методом `.reshape()`, который позволяет поменять форму массива.

In [118]:
grades.reshape(5, 3)

array([[3, 5, 5],
       [4, 3, 3],
       [3, 4, 3],
       [3, 5, 5],
       [5, 4, 5]])

Теперь массив двумерный, и чтобы обратиться к элементу массива, нам нужно указывать две вещи: индекс списка и индекс элемента в этом списке. Метод `.reshape()` удобен, но при его использовании стоит помнить, что не любой массив можно превратить в массив другой формы – общее число элементов в массиве должно позволять получить новое число списков и элементов в них. Так, массив `grades`, в котором всего 15 элементов, нельзя превратить в массив вида `(2, 8)` (таблица $2 \times 8$), потому что для такой формы понадобится 16 элементов! И Python явно об этом сообщит:

In [119]:
grades.reshape(2, 8)

ValueError: cannot reshape array of size 15 into shape (2,8)

Если нам нужно просто поменять местами строки и столбцы в таблице, то есть списки в массиве, можно воспользоваться транспонированием, которое осуществляется в `NumPy` с помощью метода `.transpose()`:

In [121]:
grades.transpose() 

array([[3, 3, 5],
       [5, 3, 5],
       [5, 4, 5],
       [4, 3, 4],
       [3, 3, 5]])

Кроме того, в противоположность `.reshape()`, который часто используется для разбиения одномерного массива на многомерный из нескольких маленьких списков, в `NumPy` существует «обратный» метод `.ravel()`, который позволяет любой многомерный массив превратить в одномерный, состоящий из одного списка, другими словами, сделать массив «плоским»:

In [59]:
grades.ravel()

array([3, 5, 5, 4, 3, 3, 3, 4, 3, 3, 5, 5, 5, 4, 5])

In [122]:
grades.flatten()

array([3, 5, 5, 4, 3, 3, 3, 4, 3, 3, 5, 5, 5, 4, 5])

*Примечание:* в `NumPy` есть ещё другой метод для создания «плоских» массивов – `flatten()`.

### Проверка условий на массивах

Давайте посмотрим, каким образом можно проверять условия на массивах и отбирать элементы по условию. Создадим массив со значениями возраста:

In [123]:
ages = np.array([[15, 23, 32, 45, 52], 
               [68, 34, 55, 78, 20], 
               [25, 67, 33, 45, 14]])

Давайте попробуем узнать, какие значения массива соответствуют людям трудоспособного возраста: от 16 лет и старше:

In [124]:
ages >= 16  # больше или равно

array([[False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False]])

Все элементы, кроме первого в первом списке и кроме последнего в последнем списке: на всех позициях, кроме указанных, стоят значения `True`, что означает, что условие выполняется. То, что мы получили сейчас – это булев массив, массив, состоящий из булевых (логических) значений, значений `True` и `False`. 

Теперь попробуем сформулировать более сложное условие: проверим, какие элементы соответствуют людям старше 18, но младше 60 лет:

In [125]:
(ages > 18) & (ages < 60) # & - одновременное условие

array([[False,  True,  True,  True,  True],
       [False,  True,  True, False,  True],
       [ True, False,  True,  True, False]])

Как посчитать, сколько элементов массива удовлетворяют некоторым условиям?

Суммируем значения по всему массиву: Python понимает, что значение `True` – это 1, а `False` – это 0, поэтому нет необходимости превращать все значения в числовые, мы можем просто сложить все «единички»:

In [126]:
((ages > 18) & (ages < 60)).sum()

10

А теперь проверим, какие значения соответствуют людям либо младше 18, либо старше 60:

In [127]:
(ages < 18) | (ages > 60)  # | - или - хотя бы одно условие верно

array([[ True, False, False, False, False],
       [ True, False, False,  True, False],
       [False,  True, False, False,  True]])

А как увидеть сами значения, которые удовлетворяют определенным условиям? Заключить условие в квадратные скобочки:

In [128]:
ages[ages >= 16]

array([23, 32, 45, 52, 68, 34, 55, 78, 20, 25, 67, 33, 45])

In [129]:
ages[(ages >= 16) & (ages < 60)]

array([23, 32, 45, 52, 34, 55, 20, 25, 33, 45])

Внимание: не забудьте круглые скобки для каждого условия, иначе Python поймёт всё неправильно и вернёт ошибку:

In [130]:
ages[ages >= 16 & ages < 60]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

### Запись списков в файл и чтение файлов со списками

Чтобы было проще работать, сначала обсудим запись списков, тем самым сохранив списки себе на компьютер, а потом будем загружать их в Python. Это удобно для хранения больших списков с данными + например, для сохранения результатов разных моделей.

Запишем массив `ages` в файл формата `.npy`: сначала укажем название файла, а затем – сам массив, который сохраняем.

In [131]:
import os
os.getcwd()

'/Users/ianpile/DPO 2020'

In [132]:
np.save("ages.npy", ages)

Теперь этот файл можно увидеть во вкладке *Home* в Jupyter Notebook, в рабочей папке. Попробуем выполнить обратную операцию: считаем массив из numpy-файла:

In [133]:
np.load("ages.npy")

array([[15, 23, 32, 45, 52],
       [68, 34, 55, 78, 20],
       [25, 67, 33, 45, 14]])

Выгружать списки можно в разные форматы. Например, можно просто сохранить массив в текстовый файл с расширением `.txt`:

In [134]:
np.savetxt("ages.txt", ages)

И аналогичным образом считать:

In [135]:
np.loadtxt("ages.txt")

array([[15., 23., 32., 45., 52.],
       [68., 34., 55., 78., 20.],
       [25., 67., 33., 45., 14.]])

Если нет необходимости работать с файлами, можем просто превратить массив в другой объект Python. Например, в обычный список:

In [136]:
ages.tolist()

[[15, 23, 32, 45, 52], [68, 34, 55, 78, 20], [25, 67, 33, 45, 14]]

Или строку:

In [137]:
np.array2string(ages)

'[[15 23 32 45 52]\n [68 34 55 78 20]\n [25 67 33 45 14]]'

# Операции с векторами и матрицами в нампай

#### Скалярное произведение векторов

In [138]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4])
# <a, b> = 3*1 + 1*5 + 5*2 + 2*4
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

29
29
29


In [139]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4, 4])
print(a @ b)    # python 3 style

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 5 is different from 4)

#### Умножение матриц
  
Операция умножения определена для двух матриц, таких что число столбцов первой равно числу строк второй. 

Пусть матрицы $A$ и $B$ таковы, что $A \in \mathbb{R}^{n \times k}$ и $B \in \mathbb{R}^{k \times m}$.    
__Произведением__ матриц $A$ и $B$ называется матрица $C$, такая что 
$$c_{ij} = \sum_{r=1}^{k} a_{ir}b_{rj}$$, 
где  $c_{ij}$ — элемент матрицы $C$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

In [140]:
a = np.array([[1, 2], [2, 0]])
b = np.array([[2,5], [1, 3]])
# print(a)
# print(b)
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

[[ 4 11]
 [ 4 10]]
[[ 4 11]
 [ 4 10]]
[[ 4 11]
 [ 4 10]]


In [142]:
a = np.array([[1, 2], [2, 0]])
b = np.array([1, 2])
print(a @ b)

[5 2]


**!!!Не путайте поокординатное умножение с матричным!!!**

In [141]:
print(a * b)

[[ 2 10]
 [ 2  0]]


#### Умножение матриц и векторов

In [143]:
m = np.array([[1, 2], [0, 1], [2, 4]])
print(m)
v = np.array([2, 5])
print("v = ",v)
m @ v

[[1 2]
 [0 1]
 [2 4]]
v =  [2 5]


array([12,  5, 24])

## Полезные фукнции и методы для работы с массивами



In [144]:
a = np.random.choice(a=np.linspace(1, 50, 50), size=10, replace=True)
print(a)

[15.  4. 39. 34. 18. 49. 28.  8. 11. 16.]


**1. Замена элементов по индексу**

In [145]:
np.put(a, ind=[0, 2], v=[-44, -55])
a

array([-44.,   4., -55.,  34.,  18.,  49.,  28.,   8.,  11.,  16.])

**2. Выделение массива по условию**

In [147]:
# замена элементов массива по условию: a if a < 0 else 0
np.where(a < 0, a, 0)

array([-44.,   0., -55.,   0.,   0.,   0.,   0.,   0.,   0.,   0.])

In [148]:
# выбор элементов по условию
a[np.where(a < 0)]

array([-44., -55.])

**3. Сортировка**

In [149]:
# сортировка
np.sort(a)

array([-55., -44.,   4.,   8.,  11.,  16.,  18.,  28.,  34.,  49.])

In [150]:
# индексы сортированного списка
np.argsort(a)

array([2, 0, 1, 7, 8, 9, 4, 6, 3, 5])

**4. Any и All для сложных логических условий**

`Any` возвращает True, если хотя бы один элемент `True`   
`All` возвращает True, если все эедементы `True`

In [151]:
any([True, True, False, True, False, False, False])

True

In [152]:
all([True, True, False, True, False, False, False])

False

In [153]:
# сравнение векторов
np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2])

array([ True,  True,  True, False])

In [111]:
all(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

False

In [154]:
any(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

True