# Лекция 3. Библиотеки Numpy, Scipy, Pandas, Scikit-learn и matplotlib

В данной лекции будут рассмотрены следующие библиотеки для Python.

**NumPy** - это библиотека, которая предназначена для различных операций с массивами. Она предоставляет собственные массивы, которые отличаются от обычных плоских списков в Python в части того как они хранятся и обрабатываются. В памяти элементы такого массива располагаются рядом, что обеспечивает быстрый доступ к ним. NumPy также поддерживает subindexing, то есть выражение a[0, :, 2] выдаст все элементы массива, где первый индекс равен 0, а третий индекс равен 2.

Кроме того, NumPy предоставляет векторизованные математические функции. Когда, например, при вызове numpy.sin(a), функция синуса применяется к каждому элементу массива a. Это делается с использованием скомпилированного кода на C, поэтому он работает намного быстрее, чем цикл Python for. Даже быстрее, чем списки.

**SciPy** является библиотекой для научных вычислений: интегрирование, интерполяция, обработка сигналов, линейные алгебраические вычисления, статистические функции, обработка изображений, поиск экстремумов функций и т.д. Строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.

**Pandas** - предназначена для анализа числовых таблиц и временных рядов. Может использоваться для исследовательского анализа данных, статистики, визуализации. Строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.

**Scikit-learn** - это коллекция готовых алгоритмов машинного обучения. Строится поверх библиотек NumPy и SciPy, являющихся инструментами более низкого уровня.

## Для чего использовать каждую из библиотек?

* Если необходимо проанализировать данные и понять, что в них, то используется Pandas.

* Если Вы хотите использовать эти данные для обучения алгоритмов машинного обучения, используйте Scikit-learn.

* Если необходимо произвести какие-либо научные и инженерные вычисления, то приходит на помощь SciPy.

* Если необходимо визуализировать данные графически, используйте matplotlib.

И все эти библиотеки используют Numpy! Это означает, что вы должны при операциях со всеми Вашими данными использовать структуры данных NumPy.

## NumPy

NumPy это open-source модуль для Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами.

Сообщество NumPy и SciPy поддерживает онлайн руководство, включающие гайды и туториалы, тут: http://docs.scipy.org/doc.

### Импорт модуля numpy

Есть несколько путей импорта. Стандартный метод это — использовать простое выражение:

In [0]:
import numpy # не исполняйте код нажатием на кнопку >

Тем не менее, для большого количества вызовов функций numpy, становится утомительно писать numpy.X снова и снова. Вместо этого намного легче сделать это так:

In [0]:
import numpy as np  # здесь можно нажать >, так как далее мы будем работать с numpy через синоним np. Это наиболее оптимальный вариант и best practice

Это выражение позволяет нам получать доступ к numpy объектам используя np.X вместо numpy.X. Также можно импортировать numpy прямо в используемое пространство имен, чтобы вообще не использовать функции через точку, а вызывать их напрямую:

In [0]:
from numpy import * # не исполняйте код нажатием на кнопку >

Однако, этот вариант не приветствуется в программировании на python, так как убирает некоторые полезные структуры, которые модуль предоставляет. До конца этого туториала мы будем использовать второй вариант импорта (import numpy as np).

### Массивы

Главной особенностью numpy является объект array. Массивы схожи со списками в python, исключая тот факт, что элементы массива должны иметь одинаковый тип данных, как float и int. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее чем со списками.

Создание массива из списка:

In [0]:
a = np.array([1, 4, 5, 8], float)
a

In [0]:
type(a)

Здесь функция array принимает два аргумента: список для конвертации в массив и тип для каждого элемента. Ко всем элементам можно получить доступ и манипулировать ими также, как вы бы это делали с обычными списками:

In [0]:
a[:2]


In [0]:
a[3]

In [0]:
a[0] = 5.
a

Массивы могут быть и многомерными. В отличии от списков можно задавать команды в скобках. Вот пример двумерного массива (матрица):

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

In [0]:
a[0,0]

In [0]:
a[0,1]

Array slicing работает с многомерными массивами аналогично, как и с одномерными, применяя каждый срез, как фильтр для установленного измерения. Используйте ":" в измерении для указывания использования всех элементов этого измерения:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a[1,:]

In [0]:
a[:,2]

In [0]:
a[-1:, -2:]

Метод shape возвращает количество строк и столбцов в матрице:

In [0]:
a.shape

Метод dtype возвращает тип переменных, хранящихся в массиве:

In [0]:
a.dtype

Тут float64, это числовой тип данных в numpy, который используется для хранения вещественных чисел двойной точности. Так как же float в Python.

Метод len возвращает длину первого измерения (оси):

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
len(a)

Метод in используется для проверки на наличие элемента в массиве:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
2 in a

In [0]:
0 in a

Массивы можно переформировать при помощи метода, который задает новый многомерный массив. Следуя следующему примеру, мы переформатируем одномерный массив из десяти элементов во двумерный массив, состоящий из пяти строк и двух столбцов:

In [0]:
a = np.array(range(10), float)
a

In [0]:
a = a.reshape((5, 2))
a

In [0]:
a.shape

Обратите внимание, метод reshape создает новый массив, а не модифицирует оригинальный.

Имейте ввиду, связывание имен в Python работает и с массивами. Метод copy используется для создания копии существующего массива в памяти:

In [0]:
a = np.array([1, 2, 3], float)
b = a
c = a.copy()
a[0] = 0
a

In [0]:
b

Обратите внимание, что после того, как мы выполнили a[0] = 0, массив, на который ссылается переменая b также изменился. Это объясняется тем, что в выражении b = a просто была создана ссылка на один и тот же массив, на который ссылалась переменная a. В памяти он располагается в одном месте и теперь на него стала ссылаться и переменная b. А вот использование метода copy создало копию массива в новом месте в памяти, поэтому массив c изменения массива, на который ссылается переменная a, не затронули:

In [0]:
c

Из numpy массивов можно также создавать обычные плоские списки Python вот так:


In [0]:
a = np.array([1, 2, 3], float)
a.tolist()

Или вот так:

In [0]:
list(a)

Массив можно заполнить одинаковыми значениями:

In [0]:
a = np.array([1, 2, 3], float)
a

In [0]:
a.fill(0)
a

Транспонирование массивов также возможно, при этом создается новый массив:

In [0]:
a = np.array(range(6), float).reshape((2, 3))
a

In [0]:
a.transpose()

Многомерный массив можно переконвертировать в одномерный при помощи метода flatten:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

In [0]:
a.flatten()

Два или больше массивов можно сконкатенировать при помощи метода concatenate:

In [0]:
a = np.array([1,2], float)
b = np.array([3,4,5,6], float)
c = np.array([7,8,9], float)
np.concatenate((a, b, c))

Если массив не одномерный, можно задать ось, по которой будет происходить соединение. По умолчанию (не задавая значения оси), соединение будет происходить по первому измерению:

In [0]:
a = np.array([[1, 2], [3, 4]], float)
b = np.array([[5, 6], [7,8]], float)
np.concatenate((a,b))

In [0]:
np.concatenate((a,b), axis=0)

In [0]:
np.concatenate((a,b), axis=1)

Размерность массива может быть увеличена при использовании константы newaxis в квадратных скобках:

In [0]:
a = np.array([1, 2, 3], float)
a

In [0]:
a[:,np.newaxis]

In [0]:
a[:,np.newaxis].shape

In [0]:
b[np.newaxis,:]

In [0]:
b[np.newaxis,:].shape

Заметьте, тут каждый массив двумерный; созданный при помощи newaxis имеет размерность один. Метод newaxis подходит для удобного создания надлежаще-мерных массивов в векторной и матричной математике.

### Другие пути создания массивов