<center>
<img src="../../img/ml_theme.png">
# Майнор "Интеллектуальный анализ данных" 
# Курс "Введение в анализ данных"
<img src="../../img/faculty_logo.jpg" height="240" width="240">
## Авторы материала: преподаватель ФКН НИУ ВШЭ Зиннурова Эдьвира Альбертовна
</center>
Материал распространяется на условиях лицензии <a href="http://www.microsoft.com/en-us/openness/default.aspx#Ms-RL">Ms-RL</a>. Можно использовать в любых целях, но с обязательным упоминанием автора курса и аффилиации.

## Введение в NumPy. Часть 1

**NumPy** — это расширение языка Python, добавляющее поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых математических функций для операций с этими массивами.

Основным объектом NumPy является однородный _многомерный массив_. Это таблица элементов (обычно чисел), всех одного типа, индексированных последовательностями натуральных чисел.

In [2]:
vec = [1, 2, 3] #одномерный массив (1 измерение, ранг = 1)
mat = [[1, 2, 3], [4, 5, 6]] #двумерный массив (2 измерения, ранг = 2)

**Пример**

In [3]:
import numpy as np
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [4]:
a.shape # размеры array по каждому измерению

(3, 5)

In [5]:
a.ndim # количество измерений

2

In [6]:
a.dtype.name # тип данных элементов array

'int64'

In [7]:
a.itemsize # размер элементов

8

In [8]:
a.size # общее количество элементов

15

In [9]:
type(a)

numpy.ndarray

In [10]:
b = np.array([6, 7, 8])
b

array([6, 7, 8])

In [11]:
type(b)

numpy.ndarray

**Создание массивов**

Есть множество способов создания array, рассмотрим некоторые из них.


Могут быть созданы при помощи функции array() из одномерных кортежей или списков python:

In [12]:
a = np.array([2,3,4])
print(a)
print(a.dtype)
b = np.array([1.2, 3.5, 5.1])
print(b.dtype)

[2 3 4]
int64
float64


In [13]:
# При этом функция должна вызываться именно от объекта-последовательности, а не от набора аргументов одного типа
a = np.array((1,2,3,4))  # RIGHT
print(a)
a = np.array(1,2,3,4)    # WRONG


[1 2 3 4]


ValueError: only 2 non-keyword arguments accepted

Функция array() трансформирует вложенные последовательности в многомерные массивы:

In [14]:
b = np.array([(1.5,2,3), (4,5,6)])
print(b)

[[ 1.5  2.   3. ]
 [ 4.   5.   6. ]]


Тип элементов в array задается, исходя из типа данных в последовательности-прототипа, однако он может быть напрямую задан при создании:

In [15]:
c = np.array( [ [1,2], [3,4] ], dtype=complex) #комплексные числа
print(c)

[[ 1.+0.j  2.+0.j]
 [ 3.+0.j  4.+0.j]]


Также можно создавать array специального вида при помощи функций zeros(), ones(), empty() (тип данных по умолчанию — float64):

In [16]:
zeros_arr = np.zeros( (3,4) )
print(zeros_arr)

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]


In [17]:
ones_arr = np.ones( (2,3), dtype=np.int16 ) # тип данных также может быть задан при создании
print(ones_arr)

[[1 1 1]
 [1 1 1]]


In [18]:
random_arr = np.empty( (2,3) )  # данные не инициализируются, в массиве будет находиться то, что лежало в памяти раньше
print(random_arr)               # грубо говоря, "мусор"

[[  0.00000000e+000   4.94065646e-324   9.88131292e-324]
 [  1.48219694e-323   1.97626258e-323   2.47032823e-323]]


Также имеется аналог стандартной функции range() языка Python — функция arange() (но вместо списков результатом её работы является массив):


In [19]:
print(np.arange( 10, 30, 5 ))
print(np.arange( 0, 2, 0.3 ))  # it accepts float arguments, but it's dangerous
#np.linspace(...)


[10 15 20 25]
[ 0.   0.3  0.6  0.9  1.2  1.5  1.8]


**Базовые операции**

Все арифметические операции над массивами производятся _поэлементно_:

In [20]:
A = np.arange(10, 41, 10)
A

array([10, 20, 30, 40])

In [21]:
B = np.arange(1, 11, 3)
B

array([ 1,  4,  7, 10])

In [22]:
A + B

array([11, 24, 37, 50])

In [23]:
A - B

array([ 9, 16, 23, 30])

In [24]:
A / B

array([10,  5,  4,  4])

In [25]:
print(B)
B ** 2

[ 1  4  7 10]


array([  1,  16,  49, 100])

In [26]:
print(B)
B % 4 == 0

[ 1  4  7 10]


array([False,  True, False, False], dtype=bool)

Даже умножение матриц — поэлементное. Для использования стандартного матричного умножения необходимо использовать функцию dot():

In [27]:
A = np.array([[1, 2], [3, 4]])
A

array([[1, 2],
       [3, 4]])

In [28]:
B = np.array([[10, 20], [30, 40]])
B

array([[10, 20],
       [30, 40]])

In [29]:
A * B # elementwise product

array([[ 10,  40],
       [ 90, 160]])

In [30]:
A.dot(B) # matrix product

array([[ 70, 100],
       [150, 220]])

In [31]:
np.dot(A, B) # matrix product too

array([[ 70, 100],
       [150, 220]])

Также определены такие операции, как минимум, максимум и сумма:

In [32]:
A = np.arange(1, 16).reshape(3, 5)
A

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [33]:
print(np.min(A))
print(np.max(A))
print(np.sum(A))
print(np.prod(A))

1
15
120
1307674368000


In [34]:
np.min(A, 0) # можно вызывать для конкретного измерения

array([1, 2, 3, 4, 5])

In [35]:
np.prod(A, 0)

array([ 66, 168, 312, 504, 750])

Определены операции кумулятивных суммы и произведения:

In [36]:
b = np.arange(1, 6)
b

array([1, 2, 3, 4, 5])

In [37]:
print(np.cumsum(b))
print(np.cumprod(b))


[ 1  3  6 10 15]
[  1   2   6  24 120]


**Универсальные функции**

NumPy обеспечивает работу с известными математическими функциями sin, cos, exp и т.д. (поэлементно):

In [38]:
B = np.arange(3)
print(B)
print(np.exp(B))
print(np.sqrt(B))

[0 1 2]
[ 1.          2.71828183  7.3890561 ]
[ 0.          1.          1.41421356]


**Индексация**

_Одномерные_ массивы осуществляют операции индексирования, срезов и итераций очень схожим образом с обычными списками и другими последовательностями Python.

In [39]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [40]:
a[2]

8

In [41]:
a[2:5]

array([ 8, 27, 64])

In [42]:
a[:6:2] = -1000    # equivalent to a[0:6:2] = -1000; from start to position 6, exclusive, set every 2nd element to -1000
a

array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,   729])

In [43]:
a[ : :-1] # reversed a

array([  729,   512,   343,   216,   125, -1000,    27, -1000,     1, -1000])

У _многомерных_ массивов на каждое измерение приходится один индекс. Индексы передаются в виде последовательности чисел, разделенных запятыми:

In [44]:
b = np.arange(0, 30).reshape(6, 5)
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [45]:
b[2, 3]

13

In [46]:
b[0:6, 1]  # второй столбец

array([ 1,  6, 11, 16, 21, 26])

In [47]:
b[:,1]    # эквивалетно предыдущему примеру

array([ 1,  6, 11, 16, 21, 26])

In [48]:
print(b)
b[1:3, : ]  # все столбцы, 2-3 ряды

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]


array([[ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [49]:
b[-1]  # b[-1, :] если индексов меньше, чем измерений, недостающие дополняются полным срезом (:)

array([25, 26, 27, 28, 29])

Итерироваться можно следующим образом:

In [50]:
for row in b:
    print(row)

[0 1 2 3 4]
[5 6 7 8 9]
[10 11 12 13 14]
[15 16 17 18 19]
[20 21 22 23 24]
[25 26 27 28 29]


In [51]:
for element in b.flat: # поэлементно
    print(element)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


Возможна индексация при помощи списков индексов:

In [52]:
A = np.arange(0, 10) ** 2
A

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [53]:
ind = [1, 1, 5, 3, 8]
A[ind]

array([ 1,  1, 25,  9, 64])

In [54]:
A = np.arange(0, 15).reshape(3, 5)  # применяется и для многомерных массивов
row_ind = np.array([[1, 2], [1, 0]])
col_ind = np.array([[2, 4], [1, 3]])
print(A)
print(row_ind)
print(col_ind)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[1 2]
 [1 0]]
[[2 4]
 [1 3]]


In [55]:
A[row_ind, col_ind]

array([[ 7, 14],
       [ 6,  3]])

Также есть возможность индексации при помощи логических массивов вместо списков индексов:

In [56]:
A = np.arange(10)
A

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [57]:
log = np.array([True, False, False, True, True, True, False, False, True, False])
A[log]

array([0, 3, 4, 5, 8])

Удобно использовать данную возможность при решении задачи анализа данных для выделения той части данных, которая необходима на данном этапе по той или иной причине:

In [62]:
import matplotlib.pyplot as plt # загрузим titanic dataset
import pandas as pd
data = pd.read_csv('../../data/titanic_train.csv')
data['Pclass'] = data['Pclass'].map(str)
titanic_set = np.array(data)
titanic_set

array([[1, 0, '3', ..., 7.25, nan, 'S'],
       [2, 1, '1', ..., 71.2833, 'C85', 'C'],
       [3, 1, '3', ..., 7.925, nan, 'S'],
       ..., 
       [889, 0, '3', ..., 23.45, nan, 'S'],
       [890, 1, '1', ..., 30.0, 'C148', 'C'],
       [891, 0, '3', ..., 7.75, nan, 'Q']], dtype=object)

In [63]:
print(titanic_set[titanic_set[:, 4] > 60]) # пассажиры старше 60 на борту

[[1 0 '3' ..., 7.25 nan 'S']
 [2 1 '1' ..., 71.2833 'C85' 'C']
 [3 1 '3' ..., 7.925 nan 'S']
 ..., 
 [889 0 '3' ..., 23.45 nan 'S']
 [890 1 '1' ..., 30.0 'C148' 'C']
 [891 0 '3' ..., 7.75 nan 'Q']]


In [64]:
print(titanic_set[(titanic_set[:, 3] == 'female') & (titanic_set[:, 4] > 60)]) # женщины старше 60 на борту

[]
