<center>
<img src="../../img/ods_stickers.jpg">
## Открытый курс по машинному обучению
Авторы материала: программист-исследователь Mail.ru Group, старший преподаватель Факультета Компьютерных Наук ВШЭ Юрий Кашницкий и Data Scientist в Segmento Екатерина Демидова. Материал распространяется на условиях лицензии [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можно использовать в любых целях (редактировать, поправлять и брать за основу), кроме коммерческих, но с обязательным упоминанием автора материала.

# <center>Тема 1. Первичный анализ данных с Pandas</center>
## <center>Часть 0. Работа с векторами в библиотеке NumPy

**Numpy** - это библиотека Python для вычислительно эффективных операций с многомерными массивами, предназначенная в основном для научных вычислений.

In [1]:
# Python 2 and 3 compatibility
from __future__ import absolute_import, division, print_function, unicode_literals

# отключим предупреждения Anaconda
import warnings

warnings.simplefilter("ignore")
import numpy as np

In [2]:
a = np.array([0, 1, 2, 3])
a

array([0, 1, 2, 3])

Такой массив может содержать:
- значения физических величин в разые моменты времени при моделировании
- значения сигнала, измеренного прибором
- интенсивности пикселов 
- 3D координаты объектов, полученных, например, при МРТ
- ...


**Зачем NumPy:** Эффективность базовых операций 


In [7]:
L = range(1000)

In [8]:
%timeit [i**2 for i in L]

49.6 µs ± 156 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [12]:
a = np.arange(1000)

In [13]:
%timeit a**2

1.39 µs ± 4 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


Интерактивная справка


In [15]:
?np.array

поиск в документации


In [16]:
np.lookfor("create array")

Search results for 'create array'
---------------------------------
numpy.memmap
    Create a memory-map to an array stored in a *binary* file on disk.
numpy.char.array
    Create a `chararray`.
numpy.diagflat
    Create a two-dimensional array with the flattened input as a diagonal.
numpy.fromiter
    Create a new 1-dimensional array from an iterable object.
numpy.partition
    Return a partitioned copy of an array.
numpy.from_dlpack
    Create a NumPy array from an object implementing the ``__dlpack__``
numpy.rec.fromarrays
    Create a record array from a (flat) list of arrays
numpy.ctypeslib.as_array
    Create a numpy array from a ctypes array or POINTER.
numpy.ma.diagflat
    Create a two-dimensional array with the flattened input as a diagonal.
numpy.ma.make_mask
    Create a boolean mask from an array.
numpy.rec.fromfile
    Create an array from binary file data
numpy.rec.fromstring
    Create a record array from binary data
numpy.lib.Arrayterator
    Buffered iterator for big 

In [17]:
np.con*?

#### Библиотеку принято импортировать так

In [None]:
import numpy as np

## Создание массивов

* **1-D**:


In [18]:
a = np.array([0, 1, 2, 3])
a

array([0, 1, 2, 3])

In [19]:
a.ndim

1

In [20]:
a.shape

(4,)

In [21]:
len(a)

4

* **2-D, 3-D, ...**:


In [22]:
b = np.array([[0, 1, 2], [3, 4, 5]])  # 2 x 3 array
b

array([[0, 1, 2],
       [3, 4, 5]])

In [23]:
b.ndim

2

In [24]:
b.shape

(2, 3)

In [25]:
len(b)  # returns the size of the first dimension

2

In [26]:
c = np.array([[[1], [2]], [[3], [4]]])
c

array([[[1],
        [2]],

       [[3],
        [4]]])

In [27]:
c.shape

(2, 2, 1)

## Методы для создания массивов

На практике мы редко добавляем элементы по одному


- Равномерно распределенные элементы:


In [28]:
a = np.arange(10)  # 0 .. n-1  (!)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
b = np.arange(1, 9, 2)  # start, end (exclusive), step
b

array([1, 3, 5, 7])

- по числу элементов:


In [None]:
c = np.linspace(0, 1, 6)  # start, end, num-points
c

In [None]:
d = np.linspace(0, 1, 5, endpoint=False)
d

- Часто встречающиеся массивы:


In [None]:
a = np.ones((3, 3))  # reminder: (3, 3) is a tuple
a

In [None]:
b = np.zeros((2, 2))
b

In [None]:
c = np.eye(3)
c

In [None]:
d = np.diag(np.array([1, 2, 3, 4]))
d

* `np.random` генерация случайных чисел (Mersenne Twister PRNG):

In [None]:
a = np.random.rand(4)  # uniform in [0, 1]
a

In [None]:
b = np.random.randn(4)  # Gaussian
b

In [None]:
np.random.seed(1234)  # Setting the random seed

## Основные типы данных NumPy

Точка после числа означает, что это тип данных `float64`


In [None]:
a = np.array([1, 2, 3])
a.dtype

In [None]:
b = np.array([1.0, 2.0, 3.0])
b.dtype

Можно задать тип данных явно. По умолчанию - `float64`

In [None]:
c = np.array([1, 2, 3], dtype=float)
c.dtype

In [None]:
a = np.ones((3, 3))
a.dtype

Прочие типы данных:

- Комплексные числа


In [None]:
d = np.array([1 + 2j, 3 + 4j, 5 + 6 * 1j])
d.dtype

 - Bool


In [None]:
e = np.array([True, False, False, True])
e.dtype

- Строки

На строки память выделяется "жадно" - по максимальному числу литер в строке. 
В этом примере на каждую строку выделяется по 7 литер, и тип данных - 'S7'

In [None]:
f = np.array(["Bonjour", "Hello", "Hallo",])
f.dtype  # <--- strings containing max. 7 letters

## Основы визуализации

$ ipython notebook --pylab=inline

Или из тетрадки:

In [None]:
%pylab inline

Параметр `inline` говорит серверу IPython о том, что результаты будут отображаться в самой тетрадке, а не в новом окне. 


Импортируем *Matplotlib*


In [None]:
import matplotlib.pyplot as plt  # the tidy way

In [None]:
x = np.linspace(0, 3, 20)
y = np.linspace(0, 9, 20)
plt.plot(x, y)  # line plot
plt.show()  # <-- shows the plot (not needed with pylab)

Или с использованием *pylab*:


In [None]:
plot(x, y)  # line plot

Использование `import matplotlib.pyplot as plt` рекомендуется для скриптов, а `pylab` - в тетрадках IPython.

 - Отображение одномерных массивов:


In [None]:
x = np.linspace(0, 3, 20)
y = np.linspace(0, 9, 20)
plt.plot(x, y)  # line plot

In [None]:
plt.plot(x, y, "o")  # dot plot

- Отображение двухмерных массивов (например, изображений):


In [None]:
image = np.random.rand(30, 30)
plt.imshow(image, cmap=plt.cm.hot)
plt.colorbar()

## Индексирование массивов и срезы

В целом так же, как со встроенными последовательностями Python (например, как со списками).


In [None]:
a = np.arange(10)
a

In [None]:
a[0], a[2], a[-1]

Работает и популярный в Python способ отражения массива:


In [None]:
a[::-1]

Для многомерных массивов индексы - это кортежи целых чисел


In [None]:
a = np.diag(np.arange(3))
a

In [None]:
a[1, 1]

In [None]:
a[2, 1] = 10  # third line, second column
a

In [None]:
a[1]

**Срезы**

In [None]:
a = np.arange(10)
a

In [None]:
a[2:9:3]  # [start:end:step]

Последний индекс не включается

In [None]:
a[:4]

По умолчанию \`start\` -  0,
\`end\` - индекс последнего элемента, \`step\` - 1:


In [None]:
a[1:3]

In [None]:
a[::2]

In [None]:
a[3:]

Можно совмещать присваивание и срез:


In [None]:
a = np.arange(10)
a[5:] = 10
a

In [None]:
b = np.arange(5)
a[5:] = b[::-1]
a

## Пример. Матрица делителей

Отобразить матрицу, в которой вычеркивается **(x, y)**, если **y** делится на **x**.

In [None]:
from IPython.display import Image

Image(filename="../../img/prime-sieve.png")

* Создадим массив `is_prime`, заполненний значениями True


In [None]:
is_prime = np.ones((100,), dtype=bool)

* Вычеркнем 0 и 1 как не являющиеся простыми:


In [None]:
is_prime[:2] = 0

* Для каждого натурального `j` начиная с  2, "вычеркнем" числа, ему кратные:


In [None]:
N_max = int(np.sqrt(len(is_prime)))
for j in range(2, N_max):
    is_prime[2 * j :: j] = False

is_prime

## Индексирование масками

In [None]:
np.random.seed(3)
a = np.random.random_integers(0, 20, 15)
a

In [None]:
(a % 3 == 0)

In [None]:
mask = a % 3 == 0
extract_from_a = a[mask]  # or,  a[a%3==0]
extract_from_a  # extract a sub-array with the mask

Индексирование маской может быть очень полезным для присваивания значений части элементов массива:


In [None]:
a[a % 3 == 0] = -1
a

### Индексирование массивом целых чисел

In [None]:
a = np.arange(0, 100, 10)
a

In [None]:
a[[2, 3, 2, 4, 2]]  # note: [2, 3, 2, 4, 2] is a Python list

In [None]:
a[[9, 7]] = -100
a

In [None]:
a = np.arange(10)
idx = np.array([[3, 4], [9, 7]])
idx.shape

In [None]:
a[idx]