# Python для анализа данных


## Массивы `NumPy`

### Базовые операции с массивами

Сегодня мы познакомимся с библиотекой `NumPy` (сокращение от *Numeric Python*), которая часто используется в задачах, связанных с машинным обучением.

Чтобы мы смогли на конкретных примерах увидеть, зачем эта библиотека используется, давайте её импортируем. Если вы уже устанавливали Anaconda, то библиотека `numpy` также была установлена на ваш компьютер. Проверим: импортируем библиотеку с сокращённым названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – распространённое, можно даже сказать, общепринятое, его часто можно увидеть в документации или официальных тьюториалах.

In [40]:
import numpy as np


Основыным объектом `numpy` является Ndarray – это n-мерный массив (сокращение от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо только целые числа, либо числа с плавающей точкой, либо строки, либо булевы (логические) значения. Массивы могут быть одномерными, то есть визуально ничем не отличаться от простого списка значений:

In [41]:
np.array([0, 5,6])


array([0, 5, 6])

А могут быть многомерными (n-мерными), то есть представлять собой вложенный список («список списков»):

In [42]:
np.array([[1, 2], 
          [1, 10]])  # двумерный

array([[ 1,  2],
       [ 1, 10]])

Или даже «список таблиц»:

In [4]:
np.array([[[6, 5],
        [6, 8]],
      [[1, 0],
        [0, 1]]])  # трехмерный

array([[[6, 3],
        [6, 8]],

       [[1, 0],
        [0, 1]]])

Мы чаще всего будем работать с двумерными массивами. Про двумерный массив можно думать как про матрицу или про таблицу. Так, массив во втором примере выше можно рассматривать как таблицу, состояшую из двух строк и трёх столбцов, как таблицу $2 \times 3$ (сначала указывается число строк, затем – число столбцов). Отсюда следует важный факт: число элементов в списках внутри массива должно совпадать. Проверим на примере – возьмём списки разной длины, то есть списки, состоящие из разного числа элементов, и объединим их в массив:

In [10]:
np.array([[0, 0, 1],
         [0, 1, 23]]) 

array([[ 0,  0,  1],
       [ 0,  1, 23]])

Получилось что-то немного странное. Никакой ошибки Python не выдан, но воспринимать этот объект как полноценный массив он уже не будет: он будет считать, что в такой таблице у нас есть две строки и ноль столбцов!

Теперь давайте посмотрим, что будет, если мы попробуем объединить в массив объекты разных типов, например, целые числа и числа с плавающей точкой:

In [11]:
np.array([['a', 8.2], 
         [1.2, 1,]])

array([['a', '8.2'],
       ['1.2', '1']], dtype='<U3')

Все элементы были автоматически приведены к одному типу (можно считать, что тип *float* «сильнее» типа *integer*). Можете самостоятельно проверить, что будет, если мы «смешаем» в списке строковые и числовые значения.

Чем же удобны массивы? Во-первых, они занимают меньше места и памяти. Во-вторых, с ними очень удобно работать: все операции над массивами будут производиться поэлементно: то есть, для выполнения действий над каждым элементом массива, нам не придется использовать какие-то специальные конструкции вроде циклов, мы сможем обращаться сразу ко всему массиву. Например, давайте представим, что у нас есть массив со значениями явки на выборы в долях, а мы хотим получить результаты в процентах (домноженные на 100).

In [13]:
mas=np.array([0.62, 0.43, 0.79, 0.56])
mas


array([0.62, 0.43, 0.79, 0.56])

Чтобы домножить каждое число в массиве на 100, нам достаточно домножить на 100 `turnout`:

In [14]:
mas * 100  # готово!

array([62., 43., 79., 56.])

Точно так же можем производить операции с несколькими массивами — действия будут выполняться поэлементно:

In [16]:
A = np.array([2, 3, 5])
B = np.array([0, 8, 6])

A - B

array([ 2, -5, -1])

In [17]:
A * B

array([ 0, 24, 30])

Выполним сразу несколько действий — посчитаем явку на основе массивов с числом действительных и недействительных бюллетеней.

In [11]:
valid = np.array([32, 45, 50, 44])
invalid = np.array([3, 11, 2, 6])
total = np.array([65, 72, 80, 100])

(valid + invalid) / total * 100

array([53.84615385, 77.77777778, 65.        , 50.        ])

### Характеристики массива

Теперь познакомимся с характеристиками самого массива. Создадим массив `M` и будем с ним работать.

In [12]:
M = np.array([[2, 5], 
              [6, 8], 
              [1, 3]])
M

array([[2, 5],
       [6, 8],
       [1, 3]])

Массивы бывают многомерными, значит, у массива есть число измерений. Давайте его найдём:

In [13]:
M.ndim  # dimensions

2

Действительно, всего два измерения: чтобы указать на число 5 из этого массива, нам понадобятся всего две координаты – номер строки и номер столбца. Теперь посмотрим на форму или вид массива (*shape*):

In [14]:
M.shape  # 3 строки и 2 столбца, т.е. 3 списка по 2 элемента

(3, 2)

Кроме того, можем найти общее число элементов в массиве, его длину, размер (*size*):

In [15]:
M.size  # всего 6 элементов

6

### Работа с элементами массива

Если нам нужно обратиться к элементам массива, то эта операция будет похожа на работу со вложенными списками:

In [16]:
M

array([[2, 5],
       [6, 8],
       [1, 3]])

In [17]:
M[0]  # весь первый список в M

array([2, 5])

In [18]:
M[0][1]  # второй элемент первого списка в M

5

Или не совсем как со списками, без двойных скобок:

In [19]:
M[0, 1]

5

Ещё можно выбирать сразу несколько элементов массива. Для этого воспользуемся срезами (*slices*):

In [20]:
M[0:2]  # с элемента с индексом 0 до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Обратите внимание: правый конец среза не включается.

Концы среза можно опускать, если нас интересуют все элементы, начиная с некоторого элемента и до конца массива или начиная с первого элемента массива и до некоторого элемента (правый конец точно так же включаться не будет):

In [21]:
M[1:] # с элемента с индексом 1 до конца

array([[6, 8],
       [1, 3]])

In [22]:
M[:2] # с начала массива до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Еще можно взять полный срез – выбрать все элементы массива:

In [23]:
M[:] 

array([[2, 5],
       [6, 8],
       [1, 3]])

Кроме того, при выборе элементов можно выставлять шаг. По умолчанию мы выбираем все элементы подряд, шаг равен 1, но это можно изменить:

In [24]:
M[0:3:2]  # с нулевого по третий через 2

array([[2, 5],
       [1, 3]])

Концы среза по-прежнему можно опускать:

In [25]:
M[0::2]

array([[2, 5],
       [1, 3]])

Или сделать более интересную вещь, взять отрицательный шаг и выбрать все элементы в обратном порядке, с конца:

In [20]:

M[::-1]

array([[1, 3],
       [6, 8],
       [2, 5]])

### Ещё про операции с массивами

Теперь посмотрим на другие операции с массивами. Создадим простой одномерный массив, содержащий оценки группы школьников:

In [21]:
marks = np.array([5, 4, 3, 5, 5, 4, 3, 4]) 
marks

array([5, 4, 3, 5, 5, 4, 3, 4])

Найдем самую плохую, минимальную оценку:

In [28]:
marks.min()

3

А теперь самую высокую, максимальную:

In [29]:
marks.max()

5

И средний балл:

In [23]:
marks.mean()

4.125

Медиану мы так не найдём — нет метода `median()`, но зато есть такая функция:

In [31]:
np.median(marks)

4.0

А теперь найдем номер ученика с самой высокой оценкой:

In [32]:
marks.argmax()

0

И номер ученика с самой низкой оценкой:

In [33]:
marks.argmin()

2

**Внимание:** если таких несколько, будет выведено первое совпадение, как для `argmin()`, так и для`argmax()`.

Конечно, мы не сможем сейчас рассмотреть все доступные методы, относящиеся к массивам (некоторые часто используемые методы мы еще будем обсуждать в следующем модуле), но при желании на перечень доступных методов можно посмотреть, набрав название массива, поставив точку и нажав на *Tab* (показать).

Теперь посмотрим на многомерный массив, для удобства возьмём двумерный:

In [27]:

grades = np.array([[3, 5, 5, 4, 3], 
          [3, 3, 4, 3, 3], 
          [5, 5, 5, 4, 5]])
grades

array([[3, 5, 5, 4, 3],
       [3, 3, 4, 3, 3],
       [5, 5, 5, 4, 5]])

Пусть это будут оценки трёх студентов 5 контрольных работ. Попробуем теперь найти средний балл за контрольные по каждому группе. Для этого необходимо указать, по какому измерению мы будем двигаться (грубо говоря, по строкам или столбцам):

In [35]:
grades.mean(axis = 1) # по строкам, три оценки - одна для каждого студента

array([4. , 3.2, 4.8])

А теперь найдем средний балл по каждой контрольной работе:

In [30]:
grades.mean(axis = 0) # по столбцам, пять оценки - одна для каждой работы

array([3.66666667, 4.33333333, 4.66666667, 3.66666667, 3.66666667])

Таким же образом можно было посмотреть на минимальное и максимальное значение (можете потренироваться самостоятельно).

### Создание массивов

#### Как создать массив?

**Способ 1**

С первым способом мы уже отчасти познакомились: можно получить массив из готового списка, воспользовавшись функцией `array()`:

In [37]:
np.array([10.5, 45, 2.4])

array([10.5, 45. ,  2.4])

**Способ 2**

Можно создать массив на основе промежутка, созданного с помощью `arange()` – функции `numpy`, похожей на стандартный `range()`, только более гибкую. Посмотрим, как работает эта функция.

In [33]:
np.arange(2, 9,0.01) # по умолчанию шаг равен 1, как обычный range()

array([2.  , 2.01, 2.02, 2.03, 2.04, 2.05, 2.06, 2.07, 2.08, 2.09, 2.1 ,
       2.11, 2.12, 2.13, 2.14, 2.15, 2.16, 2.17, 2.18, 2.19, 2.2 , 2.21,
       2.22, 2.23, 2.24, 2.25, 2.26, 2.27, 2.28, 2.29, 2.3 , 2.31, 2.32,
       2.33, 2.34, 2.35, 2.36, 2.37, 2.38, 2.39, 2.4 , 2.41, 2.42, 2.43,
       2.44, 2.45, 2.46, 2.47, 2.48, 2.49, 2.5 , 2.51, 2.52, 2.53, 2.54,
       2.55, 2.56, 2.57, 2.58, 2.59, 2.6 , 2.61, 2.62, 2.63, 2.64, 2.65,
       2.66, 2.67, 2.68, 2.69, 2.7 , 2.71, 2.72, 2.73, 2.74, 2.75, 2.76,
       2.77, 2.78, 2.79, 2.8 , 2.81, 2.82, 2.83, 2.84, 2.85, 2.86, 2.87,
       2.88, 2.89, 2.9 , 2.91, 2.92, 2.93, 2.94, 2.95, 2.96, 2.97, 2.98,
       2.99, 3.  , 3.01, 3.02, 3.03, 3.04, 3.05, 3.06, 3.07, 3.08, 3.09,
       3.1 , 3.11, 3.12, 3.13, 3.14, 3.15, 3.16, 3.17, 3.18, 3.19, 3.2 ,
       3.21, 3.22, 3.23, 3.24, 3.25, 3.26, 3.27, 3.28, 3.29, 3.3 , 3.31,
       3.32, 3.33, 3.34, 3.35, 3.36, 3.37, 3.38, 3.39, 3.4 , 3.41, 3.42,
       3.43, 3.44, 3.45, 3.46, 3.47, 3.48, 3.49, 3.

По умолчанию эта функция создает массив, элементы которого начинаются со значения 2 и заканчиваются на значении 8 (правый конец промежутка не включается), следуя друг за другом с шагом 1. Но этот шаг можно менять:

In [39]:
np.arange(2, 9, 3) # с шагом 3

array([2, 5, 8])

И даже делать дробным!

In [40]:
np.arange(2, 9, 0.5)

array([2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. ,
       8.5])

**Способ 3**

Еще массив можно создать совсем с нуля. Единственное, что нужно четко представлять – это его размерность, его форму, то есть опять же, число строк и столбцов. Библиотека `numpy` позволяет создать массивы, состоящие из нулей или единиц, а также  «пустые» массивы (на практике используются редко). Удобство заключается в том, что сначала можно создать массив, инициализировать его (например, заполнить нулями), а затем заменить нули на другие значения в соответствии с требуемыми условиями.

Так выглядит массив из нулей:

In [41]:
Z = np.zeros((3, 3)) # размеры в виде кортежа - не теряйте еще одни круглые скобки
Z

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

А так – массив из единиц:

In [42]:
O = np.ones((4, 2))
O

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

А так выглядит единичная матрица – таблица из 0 и 1, в которой число строк и столбцов одинаково, и где на главной диагонали стоят 1:

In [34]:
E = np.eye(10)
E

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

Несмотря на то, что для создания единичной матрицы есть специальный метод, давайте посмотрим, как бы мы создавали её «вручную» (мы мало работали со вложенными списками, поэтому стоит повторить). Для этого нам потребовались бы вложенные циклы:

In [44]:
I = np.zeros((4, 4))

for i in range(0, I.shape[0]):
    for j in range(0, I.shape[1]):
        if i == j:
            I[i][j] = 1
I

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

Данный пример заодно показывает одну важную особенность — массивы, как и списки, являются изменяемыми объектами в Python.

### Изменение размерности списков

Вспомним, что у нас есть массив оценок студентов `grades`:

In [35]:
grades

array([[3, 5, 5, 4, 3],
       [3, 3, 4, 3, 3],
       [5, 5, 5, 4, 5]])

Как поменять структуру массива так, чтобы, например, оценки были записаны группами по три оценки? Воспользоваться методом `.reshape()`, который позволяет поменять форму массива.

In [46]:
grades.reshape(5, 3)

array([[3, 5, 5],
       [4, 3, 3],
       [3, 4, 3],
       [3, 5, 5],
       [5, 4, 5]])

Теперь массив двумерный, и чтобы обратиться к элементу массива, нам нужно указывать две вещи: индекс списка и индекс элемента в этом списке. Метод `.reshape()` удобен, но при его использовании стоит помнить, что не любой массив можно превратить в массив другой формы – общее число элементов в массиве должно позволять получить новое число списков и элементов в них. Так, массив `grades`, в котором всего 15 элементов, нельзя превратить в массив вида `(2, 8)` (таблица $2 \times 8$), потому что для такой формы понадобится 16 элементов! И Python явно об этом сообщит:

In [47]:
grades.reshape(2, 8)

ValueError: cannot reshape array of size 15 into shape (2,8)

Если нам нужно просто поменять местами строки и столбцы в таблице, то есть списки в массиве, можно воспользоваться транспонированием, которое осуществляется в `NumPy` с помощью метода `.transpose()`:

In [48]:
grades.transpose() 

array([[3, 3, 5],
       [5, 3, 5],
       [5, 4, 5],
       [4, 3, 4],
       [3, 3, 5]])

Кроме того, в противоположность `.reshape()`, который часто используется для разбиения одномерного массива на многомерный из нескольких маленьких списков, в `NumPy` существует «обратный» метод `.ravel()`, который позволяет любой многомерный массив превратить в одномерный, состоящий из одного списка, другими словами, сделать массив «плоским»:

In [49]:
grades.ravel()

array([3, 5, 5, 4, 3, 3, 3, 4, 3, 3, 5, 5, 5, 4, 5])

*Примечание:* в `NumPy` есть ещё другой метод для создания «плоских» массивов – `flatten()`.

### Проверка условий на массивах

Давайте посмотрим, каким образом можно проверять условия на массивах и отбирать элементы по условию. Создадим массив со значениями возраста:

In [36]:
ages = np.array([[15, 23, 32, 45, 52], 
               [68, 34, 55, 78, 20], 
               [25, 67, 33, 45, 14]])

Давайте попробуем узнать, какие значения массива соответствуют людям трудоспособного возраста: от 16 лет и старше:

In [51]:
ages >= 16  # больше или равно

array([[False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False]])

Все элементы, кроме первого в первом списке и кроме последнего в последнем списке: на всех позициях, кроме указанных, стоят значения `True`, что означает, что условие выполняется. То, что мы получили сейчас – это булев массив, массив, состоящий из булевых (логических) значений, значений `True` и `False`. 

Теперь попробуем сформулировать более сложное условие: проверим, какие элементы соответствуют людям старше 18, но младше 60 лет:

In [37]:
(ages > 18) & (ages < 60) # & - одновременное условие
((ages > 18) & (ages < 60)).sum()

10

Как посчитать, сколько элементов массива удовлетворяют некоторым условиям?

Суммируем значения по всему массиву: Python понимает, что значение `True` – это 1, а `False` – это 0, поэтому нет необходимости превращать все значения в числовые, мы можем просто сложить все «единички»:

In [53]:
((ages > 18) & (ages < 60)).sum()

10

А теперь проверим, какие значения соответствуют людям либо младше 18, либо старше 60:

In [54]:
(ages < 18) | (ages > 60)  # | - или - хотя бы одно условие верно

array([[ True, False, False, False, False],
       [ True, False, False,  True, False],
       [False,  True, False, False,  True]])

А как увидеть сами значения, которые удовлетворяют определенным условиям? Заключить условие в квадратные скобочки:

In [55]:
ages[ages >= 16]

array([23, 32, 45, 52, 68, 34, 55, 78, 20, 25, 67, 33, 45])

In [56]:
ages[(ages >= 16) & (ages < 60)]

array([23, 32, 45, 52, 34, 55, 20, 25, 33, 45])

Внимание: не забудьте круглые скобки для каждого условия, иначе Python поймёт всё неправильно и вернёт ошибку:

In [57]:
ages[ages >= 16 & ages < 60]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

### Запись списков в файл и чтение файлов со списками

Чтобы было проще работать, сначала обсудим запись списков, тем самым сохранив списки себе на компьютер, а потом будем загружать их в Python. Это удобно для хранения больших списков с данными + например, для сохранения результатов разных моделей.

Запишем массив `ages` в файл формата `.npy`: сначала укажем название файла, а затем – сам массив, который сохраняем.

In [58]:
np.save("ages.npy", ages)

Теперь этот файл можно увидеть во вкладке *Home* в Jupyter Notebook, в рабочей папке. Попробуем выполнить обратную операцию: считаем массив из numpy-файла:

In [59]:
np.load("ages.npy")

array([[15, 23, 32, 45, 52],
       [68, 34, 55, 78, 20],
       [25, 67, 33, 45, 14]])

Выгружать списки можно в разные форматы. Например, можно просто сохранить массив в текстовый файл с расширением `.txt`:

In [60]:
np.savetxt("ages.txt", ages)

И аналогичным образом считать:

In [61]:
np.loadtxt("ages.txt")

array([[15., 23., 32., 45., 52.],
       [68., 34., 55., 78., 20.],
       [25., 67., 33., 45., 14.]])

Если нет необходимости работать с файлами, можем просто превратить массив в другой объект Python. Например, в обычный список:

In [62]:
ages.tolist()

[[15, 23, 32, 45, 52], [68, 34, 55, 78, 20], [25, 67, 33, 45, 14]]

Или строку:

In [4]:
np.array2string(ages)

NameError: name 'ages' is not defined

Практическое задание NumPy

Задание 1

Импортируйте библиотеку Numpy и дайте ей псевдоним np. 

Создать одномерный массив Numpy под названием a из 12 последовательных целых чисел, массив b из чисел от 12 до 24 невключительно.

Создать 5 двумерных массивов разной формы. 


Создать массив из 3 строк и 4 столбцов, состоящий из случайных чисел с плавающей запятой. np.random()


Задание 2 
Создайте массив Numpy под названием a размером 5x2, то есть состоящий из 5 строк и 2 столбцов. Первый столбец должен содержать числа 1, 2, 3, 3, 1, а второй - числа 6, 8, 11, 10, 7. Будем считать, что каждый столбец - это признак, а строка - наблюдение. Затем найдите среднее значение по каждому признаку, используя метод mean, max,min массива Numpy.


Задание 3 

Вычислите массив a_centered, отняв от значений массива а средние значения соответствующих признаков, содержащиеся в массиве mean_a. Вычисление должно производиться в одно действие. Получившийся массив должен иметь размер 5x2.


Задание 4 

Число, которое мы получили в конце задания 3 является ковариацией двух признаков, содержащихся в массиве а. 
В этом задании проверьте получившееся число, вычислив ковариацию еще одним способом - с помощью функции np.cov. В качестве аргумента m функция np.cov должна принимать транспонированный массив a. В получившейся ковариационной матрице (массив Numpy размером 2x2) искомое значение ковариации будет равно элементу в строке с индексом 0 и столбце с индексом 1.

