# Лекция 3. Библиотеки Numpy, Scipy, Pandas, Scikit-learn и matplotlib

В данной лекции будут рассмотрены следующие библиотеки для Python.

**NumPy** - это библиотека, которая предназначена для различных операций с массивами. Она предоставляет собственные массивы, которые отличаются от обычных плоских списков в Python в части того как они хранятся и обрабатываются. В памяти элементы такого массива располагаются рядом, что обеспечивает быстрый доступ к ним. NumPy также поддерживает subindexing, то есть выражение a[0, :, 2] выдаст все элементы массива, где первый индекс равен 0, а третий индекс равен 2.

Кроме того, NumPy предоставляет векторизованные математические функции. Когда, например, при вызове numpy.sin(a), функция синуса применяется к каждому элементу массива a. Это делается с использованием скомпилированного кода на C, поэтому он работает намного быстрее, чем цикл Python for. Даже быстрее, чем списки.

**SciPy** является библиотекой для научных вычислений: интегрирование, интерполяция, обработка сигналов, линейные алгебраические вычисления, статистические функции, обработка изображений, поиск экстремумов функций и т.д. Строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.

**Pandas** - предназначена для анализа числовых таблиц и временных рядов. Может использоваться для исследовательского анализа данных, статистики, визуализации. Строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.

**Scikit-learn** - это коллекция готовых алгоритмов машинного обучения. Строится поверх библиотек NumPy и SciPy, являющихся инструментами более низкого уровня.

## Для чего использовать каждую из библиотек?

* Если необходимо проанализировать данные и понять, что в них, то используется Pandas.

* Если Вы хотите использовать эти данные для обучения алгоритмов машинного обучения, используйте Scikit-learn.

* Если необходимо произвести какие-либо научные и инженерные вычисления, то приходит на помощь SciPy.

* Если необходимо визуализировать данные графически, используйте matplotlib.

И все эти библиотеки используют Numpy! Это означает, что вы должны при операциях со всеми Вашими данными использовать структуры данных NumPy.

## NumPy

NumPy это open-source модуль для Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами.

Сообщество NumPy и SciPy поддерживает онлайн руководство, включающие гайды и туториалы, тут: http://docs.scipy.org/doc.

### Импорт модуля numpy

Есть несколько путей импорта. Стандартный метод это — использовать простое выражение:

In [0]:
import numpy # не исполняйте код, нажатием на кнопку >

Тем не менее, для большого количества вызовов функций numpy, становится утомительно писать numpy.X снова и снова. Вместо этого намного легче сделать это так:

In [0]:
import numpy as np  # здесь можно нажать >, так как далее мы будем работать с numpy через синоним np. Это наиболее оптимальный вариант и best practice

Это выражение позволяет нам получать доступ к numpy объектам используя np.X вместо numpy.X. Также можно импортировать numpy прямо в используемое пространство имен, чтобы вообще не использовать функции через точку, а вызывать их напрямую:

In [0]:
from numpy import * # не исполняйте код, нажатием на кнопку >

Однако, этот вариант не приветствуется в программировании на python, так как убирает некоторые полезные структуры, которые модуль предоставляет. До конца этого туториала мы будем использовать второй вариант импорта (import numpy as np).

### Массивы

Главной особенностью numpy является объект array. Массивы схожи со списками в python, исключая тот факт, что элементы массива должны иметь одинаковый тип данных, как float и int. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее чем со списками.

Создание массива из списка:

In [6]:
a = np.array([1, 4, 5, 8], float)
a

array([1., 4., 5., 8.])

In [7]:
type(a)

numpy.ndarray

Здесь функция array принимает два аргумента: список для конвертации в массив и тип для каждого элемента. Ко всем элементам можно получить доступ и манипулировать ими также, как вы бы это делали с обычными списками:

In [8]:
a[:2]


array([1., 4.])

In [9]:
a[3]

8.0

In [10]:
a[0] = 5.
a

array([5., 4., 5., 8.])

Массивы могут быть и многомерными. В отличии от списков можно задавать команды в скобках. Вот пример двумерного массива (матрица):

In [11]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [12]:
a[0,0]

1.0

In [13]:
a[0,1]

2.0

Array slicing работает с многомерными массивами аналогично, как и с одномерными, применяя каждый срез, как фильтр для установленного измерения. Используйте ":" в измерении для указывания использования всех элементов этого измерения:

In [14]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a[1,:]

array([4., 5., 6.])

In [15]:
a[:,2]

array([3., 6.])

In [16]:
a[-1:, -2:]

array([[5., 6.]])

Метод shape возвращает количество строк и столбцов в матрице:

In [17]:
a.shape

(2, 3)

Метод dtype возвращает тип переменных, хранящихся в массиве:

In [18]:
a.dtype

dtype('float64')

Тут float64, это числовой тип данных в numpy, который используется для хранения вещественных чисел двойной точности. Так как же float в Python.

Метод len возвращает длину первого измерения (оси):

In [19]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
len(a)

2

Метод in используется для проверки на наличие элемента в массиве:

In [23]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
2 in a

True

In [24]:
0 in a

False

Массивы можно переформировать при помощи метода, который задает новый многомерный массив. Следуя следующему примеру, мы переформатируем одномерный массив из десяти элементов во двумерный массив, состоящий из пяти строк и двух столбцов:

In [25]:
a = np.array(range(10), float)
a

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [27]:
a = a.reshape((5, 2))
a

array([[0., 1.],
       [2., 3.],
       [4., 5.],
       [6., 7.],
       [8., 9.]])

In [28]:
a.shape

(5, 2)

Обратите внимание, метод reshape создает новый массив, а не модифицирует оригинальный.

Имейте ввиду, связывание имен в Python работает и с массивами. Метод copy используется для создания копии существующего массива в памяти:

In [29]:
a = np.array([1, 2, 3], float)
b = a
c = a.copy()
a[0] = 0
a

array([0., 2., 3.])

In [30]:
b

array([0., 2., 3.])

Обратите внимание, что после того, как мы выполнили a[0] = 0, массив, на который ссылается переменая b также изменился. Это объясняется тем, что в выражении b = a просто была создана ссылка на один и тот же массив, на который ссылалась переменная a. В памяти он располагается в одном месте и теперь на него стала ссылаться и переменная b. А вот использование метода copy создало копию массива в новом месте в памяти, поэтому массив c изменения массива, на который ссылается переменная a, не затронули:

In [31]:
c

array([1., 2., 3.])

Из numpy массивов можно также создавать обычные плоские списки Python вот так:


In [32]:
a = np.array([1, 2, 3], float)
a.tolist()

[1.0, 2.0, 3.0]

Или вот так:

In [33]:
list(a)

[1.0, 2.0, 3.0]

Массив можно заполнить одинаковыми значениями:

In [38]:
a = np.array([1, 2, 3], float)
a

array([1., 2., 3.])

In [39]:
a.fill(0)
a

array([0., 0., 0.])

Транспонирование массивов также возможно, при этом создается новый массив:

In [40]:
a = np.array(range(6), float).reshape((2, 3))
a

array([[0., 1., 2.],
       [3., 4., 5.]])

In [41]:
a.transpose()

array([[0., 3.],
       [1., 4.],
       [2., 5.]])

Многомерный массив можно переконвертировать в одномерный при помощи метода flatten:

In [42]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [43]:
a.flatten()

array([1., 2., 3., 4., 5., 6.])

Два или больше массивов можно сконкатенировать при помощи метода concatenate:

In [44]:
a = np.array([1,2], float)
b = np.array([3,4,5,6], float)
c = np.array([7,8,9], float)
np.concatenate((a, b, c))

array([1., 2., 3., 4., 5., 6., 7., 8., 9.])

Если массив не одномерный, можно задать ось, по которой будет происходить соединение. По умолчанию (не задавая значения оси), соединение будет происходить по первому измерению:

In [45]:
a = np.array([[1, 2], [3, 4]], float)
b = np.array([[5, 6], [7,8]], float)
np.concatenate((a,b))

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [46]:
np.concatenate((a,b), axis=0)

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [47]:
np.concatenate((a,b), axis=1)

array([[1., 2., 5., 6.],
       [3., 4., 7., 8.]])

Размерность массива может быть увеличена при использовании константы newaxis в квадратных скобках:

In [48]:
a = np.array([1, 2, 3], float)
a

array([1., 2., 3.])

In [49]:
a[:,np.newaxis]

array([[1.],
       [2.],
       [3.]])

In [50]:
a[:,np.newaxis].shape

(3, 1)

In [51]:
b[np.newaxis,:]

array([[[5., 6.],
        [7., 8.]]])

In [52]:
b[np.newaxis,:].shape

(1, 2, 2)

Заметьте, тут каждый массив двумерный; созданный при помощи newaxis имеет размерность один. Метод newaxis подходит для удобного создания надлежаще-мерных массивов в векторной и матричной математике.

### Другие пути создания массивов