## Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

### Библиотека `NumPy`: введение

Сегодня мы познакомимся с библиотекой `NumPy` (сокращение от *Numeric Python*), которая часто используется в задачах, связанных с машинным обучением и построением статистических моделей. 

Если вы уже устанавливали Anaconda, то библиотека `numpy` также была установлена на ваш компьютер. Проверим:

In [2]:
import numpy as np

В коде выше мы импортировали библиотеку с сокращённым названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – распространённое, можно даже сказать, общепринятое, его часто можно увидеть в документации или официальных тьюториалах.

**Для чего может понадобиться библиотека `NumPy`?**

Во-первых, для базовых вычислений: в `NumPy` тоже есть функции для математических операций (квадратный корень, логарифм и другие). Посмотрим на пример:

In [2]:
np.sqrt(17)  # квадратный корень 

4.123105625617661

Во-вторых, для статистических вычислений. Найдём среднее арифметическое набора значений – в Python такой набор называется списком и записывается в квадратных скобках:

In [12]:
np.mean([20, 40, 30, 450, 45, 30])

102.5

Или медиану – значение, которое стоит ровно посередине списка, если упорядочить его значения по возрастанию (в случае чётного числа элементов будет считаться среднее арифметическое двух чисел, которые находятся посередине). 

In [13]:
np.median([20, 40, 30, 450, 45, 30])

35.0

В-третьих, основной объект `NumPy` – это массивы (*numpy arrays* или *ndarrays*). Ndarray – это n-мерный массив (сокращение от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо только целые числа, либо числа с плавающей точкой, либо строки, либо булевы (логические) значения. Массивы могут быть одномерными, то есть представлять собой простой список значений:

In [3]:
np.array([2, 3, 4])

array([2, 3, 4])

А могут быть многомерными (n-мерными), то есть представлять собой вложенный список («список списков»):

In [5]:
np.array([[5, 2, 8.5], 
          [1, 9, 3.0]])  # двумерный

array([[5. , 2. , 8.5],
       [1. , 9. , 3. ]])

Или даже «список таблиц»:

In [38]:
np.array([[[6, 3],
        [6, 8]],
      [[1, 0],
        [0, 1]]])  # трехмерный

array([[[6, 3],
        [6, 8]],

       [[1, 0],
        [0, 1]]])

Мы чаще всего будем работать с двумерными массивами. Про двумерный массив можно думать как про таблицу. Так, массив во втором примере выше можно рассматривать как таблицу, состояшую из двух строк и трёх столбцов, как таблицу $2 \times 3$ (сначала указывается число строк, затем – число столбцов). Отсюда следует важный факт: число элементов в списках внутри массива должно совпадать. Проверим на примере – возьмём списки разной длины, то есть списки, состоящие из разного числа элементов, и объединим их в массив:

In [8]:
np.array([[0, 0, 1],
         [0, 1]]) 

Получилось что-то немного странное. Никакой ошибки Python не выдан, но воспринимать этот объект как полноценный массив он уже не будет: он будет считать, что в такой таблице у нас есть две строки и ноль столбцов!

Теперь давайте посмотрим, что будет, если мы попробуем объединить в массив объекты разных типов, например, целые числа и числа с плавающей точкой:

In [14]:
np.array([[5, 8.2], 
         [1.2, 1,]])

array([[5. , 8.2],
       [1.2, 1. ]])

Все элементы были автоматически приведены к одному типу (можно считать, что тип *float* «сильнее» типа *integer*). А что будет, если мы попробуем добавить в массив целые числа и строки?

In [16]:
np.array([["Ann", "Sam"],
        [23, 34]])

array([['Ann', 'Sam'],
       ['23', '34']], dtype='<U3')

Чем же удобны массивы? Во-первых, они занимают меньше места и памяти. Во-вторых, с ними очень удобно работать: все операции над массивами будут производиться поэлементно: то есть, для выполнения действий над каждым элементом массива, нам не придется использовать какие-то специальные конструкции вроде циклов, мы сможем обращаться сразу ко всему массиву. Например, давайте представим, что у нас есть массив со значениями явки на выборы в долях, а мы хотим получить результаты в процентах (домноженные на 100).

In [19]:
turnout = np.array([0.62, 0.43, 0.79, 0.56])
turnout

array([0.62, 0.43, 0.79, 0.56])

Чтобы домножить каждое число в массиве на 100, нам достаточно домножить на 100 `turnout`:

In [20]:
turnout * 100  # готово!

array([62., 43., 79., 56.])

Точно так же можно производить операции с несколькими массивами. Представим теперь, что есть два студента, которые подрабатывают репетиторами по математике, и у нас есть два массива, которые содержат их ежедневный доход за две рабочих недели:

In [26]:
week1 = np.array([4000, 0, 2000, 0, 1200]) # 5 рабочих дней
week2 = np.array([1000, 2000, 0, 0, 3500]) 

Какой день можно считать более «продуктивным» в плане дохода, если рассматривать общий доход этих студентов? Сложим два массива и посмотрим:

In [27]:
week1 + week2  # видимо, понедельник

array([5000, 2000, 2000,    0, 4700])

Мы могли бы также посчитать средний доход студентов по каждому дню:

In [29]:
(week1 + week2) / 2

array([2500., 1000., 1000.,    0., 2350.])