## Анализ и визуализация данных на языке Python.

In [1]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
np.set_printoptions(linewidth=110)
np.set_printoptions(legacy="1.25")

## Булево индексирование

In [2]:
colors = np.array(['Red', 'Green', 'Blue', 'Red', 'Blue', 'Green', 'Green'])
colors

array(['Red', 'Green', 'Blue', 'Red', 'Blue', 'Green', 'Green'], dtype='<U5')

In [3]:
colors.shape

(7,)

In [4]:
colors.dtype.name

'str160'

In [5]:
# np.random.seed(<value>) фиксирует значения случайной выборки
np.random.seed(0)
data = np.random.randn(7, 4)
data

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

In [6]:
colors

array(['Red', 'Green', 'Blue', 'Red', 'Blue', 'Green', 'Green'], dtype='<U5')

In [7]:
colors == 'Red'

array([ True, False, False,  True, False, False, False])

In [8]:
colors == 'Red'

array([ True, False, False,  True, False, False, False])

In [9]:
data

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

In [10]:
data[colors == 'Red']   # тоже самое, что и data[colors == 'Red', :]

array([[1.76405235, 0.40015721, 0.97873798, 2.2408932 ],
       [0.76103773, 0.12167502, 0.44386323, 0.33367433]])

In [11]:
data[[0, 3]]  # Тот же результат, но явно указываем какие индексы брать для строк

array([[1.76405235, 0.40015721, 0.97873798, 2.2408932 ],
       [0.76103773, 0.12167502, 0.44386323, 0.33367433]])

In [12]:
## Применяем булево индексирование
data[(colors == 'Red') | (colors == 'Green')]   ## | это логическое "ИЛИ"

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

In [13]:
## Применяем булево индексирование
data[(colors == 'Red') | (colors == 'Green'), :]   ## data[[0, 1, 3, 5, 6], :]

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

In [14]:
data[colors == 'Red', 2:]

array([[0.97873798, 2.2408932 ],
       [0.44386323, 0.33367433]])

In [15]:
data[colors == 'Red', 3]

array([2.2408932 , 0.33367433])

In [16]:
data

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

In [17]:
# Здесь не 4 элемента, а 2
data[colors == 'Red', np.array([True, False, False, True])]

array([1.76405235, 0.33367433])

In [18]:
res = data[colors == 'Red']; res

array([[1.76405235, 0.40015721, 0.97873798, 2.2408932 ],
       [0.76103773, 0.12167502, 0.44386323, 0.33367433]])

In [19]:
res[:, np.array([False, False, True, True])]

array([[0.97873798, 2.2408932 ],
       [0.44386323, 0.33367433]])

In [20]:
data[colors == 'Red'][:, np.array([False, True, True, True])]

array([[0.40015721, 0.97873798, 2.2408932 ],
       [0.12167502, 0.44386323, 0.33367433]])

In [21]:
(colors != 'Red')

array([False,  True,  True, False,  True,  True,  True])

In [22]:
data[colors != 'Red']

array([[ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

#### Логические операторы
**and** и **or** не работают, поэтому нужны: **&**(и), **|**(или), **^**(xor), **~**(not)

In [23]:
mask = (colors == 'Red') | (colors == 'Blue'); mask

array([ True, False,  True,  True,  True, False, False])

In [24]:
mask.dtype

dtype('bool')

In [25]:
data[mask] # Всегда возвращается копия!

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574]])

In [26]:
data

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

In [27]:
data > 0

array([[ True,  True,  True,  True],
       [ True, False,  True, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True, False,  True, False],
       [False,  True,  True, False],
       [ True, False,  True, False]])

In [28]:
data[data > 0]  # work, out: flat array

array([1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799, 0.95008842, 0.4105985 , 0.14404357,
       1.45427351, 0.76103773, 0.12167502, 0.44386323, 0.33367433, 1.49407907, 0.3130677 , 0.6536186 ,
       0.8644362 , 2.26975462, 0.04575852])

In [29]:
# Для элементов со значением индекса True изменить значение на 0
data[data > 0] = 0
data

array([[ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        , -0.97727788,  0.        , -0.15135721],
       [-0.10321885,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        , -0.20515826,  0.        , -0.85409574],
       [-2.55298982,  0.        ,  0.        , -0.74216502],
       [ 0.        , -1.45436567,  0.        , -0.18718385]])

In [30]:
data[colors != 'Green'] = 5
data

array([[ 5.        ,  5.        ,  5.        ,  5.        ],
       [ 0.        , -0.97727788,  0.        , -0.15135721],
       [ 5.        ,  5.        ,  5.        ,  5.        ],
       [ 5.        ,  5.        ,  5.        ,  5.        ],
       [ 5.        ,  5.        ,  5.        ,  5.        ],
       [-2.55298982,  0.        ,  0.        , -0.74216502],
       [ 0.        , -1.45436567,  0.        , -0.18718385]])

### Практика

#### Задача 1

Есть массив, нужно вывести элементы, согласно условию:
1. Вывести все элементы кратные 3
2. Вывести все элементы кратные 5
3. Вывести все элементы кратные и 3 и 5
4. Вывести все элементы кратные 3 или 5, кроме четных

`&` - логическое `И`  

`|` - логическое `ИЛИ`

In [31]:
np.random.seed(345)
vector = np.random.randint(1, 100, size=20)
vector

array([25, 81, 84, 80, 10, 30, 43, 76, 25, 69, 30,  4,  5, 43, 98, 24, 81, 74, 87, 20])

In [32]:
# Маски
mask3 = (vector % 3 == 0)
mask5 = (vector % 5 == 0)
odd_mask = (vector % 2 != 0)
# Результаты
vector[mask3]
vector[mask5]
vector[mask3 & mask5]
vector[(mask3 | mask5) & odd_mask]

array([81, 84, 30, 69, 30, 24, 81, 87])

array([25, 80, 10, 30, 25, 30,  5, 20])

array([30, 30])

array([25, 81, 25, 69,  5, 81, 87])

#### Задача №2
Дан массив, поменять знак у элементов, значения которых между 3 и 8

In [33]:
array = np.random.randint(0, 10, (5, 4));
print(array)

[[8 0 3 1]
 [5 7 4 5]
 [4 0 8 5]
 [6 3 3 4]
 [2 8 5 2]]


In [34]:
mask_new = (array > 3) & (array < 8)
array[mask_new] *= -1
array

array([[ 8,  0,  3,  1],
       [-5, -7, -4, -5],
       [-4,  0,  8, -5],
       [-6,  3,  3, -4],
       [ 2,  8, -5,  2]])

## Fancy indexing

In [35]:
a = np.full((4, 8), np.arange(8))
a

array([[0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7]])

In [36]:
a = a.T

In [37]:
a

array([[0, 0, 0, 0],
       [1, 1, 1, 1],
       [2, 2, 2, 2],
       [3, 3, 3, 3],
       [4, 4, 4, 4],
       [5, 5, 5, 5],
       [6, 6, 6, 6],
       [7, 7, 7, 7]])

In [38]:
a[[4, 3, 0, 6]] # Изменяем порядок выдачи строк с указанными индексами

array([[4, 4, 4, 4],
       [3, 3, 3, 3],
       [0, 0, 0, 0],
       [6, 6, 6, 6]])

In [39]:
a
a[[-3, -5, -7]]

array([[0, 0, 0, 0],
       [1, 1, 1, 1],
       [2, 2, 2, 2],
       [3, 3, 3, 3],
       [4, 4, 4, 4],
       [5, 5, 5, 5],
       [6, 6, 6, 6],
       [7, 7, 7, 7]])

array([[5, 5, 5, 5],
       [3, 3, 3, 3],
       [1, 1, 1, 1]])

In [40]:
a = np.arange(32).reshape((8, 4)); a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [41]:
a[:, [-1, 1]]

array([[ 3,  1],
       [ 7,  5],
       [11,  9],
       [15, 13],
       [19, 17],
       [23, 21],
       [27, 25],
       [31, 29]])

#### Но здесь по-другому!!!

In [42]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [43]:
# (1, 0), (5, 3), (7, 1), (2, 2) это индексы элементов
a[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [44]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [45]:
a[[1, 5, 7, 2]]

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

#### Работа с осями с помощью функции np.ix_()

In [46]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [47]:
a
a[[1, 5, 7, 2]]
## Работа с осями
a[np.ix_([1, 5, 7, 2], [0, 0, 3, 1, 2, 0])]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

array([[ 4,  4,  7,  5,  6,  4],
       [20, 20, 23, 21, 22, 20],
       [28, 28, 31, 29, 30, 28],
       [ 8,  8, 11,  9, 10,  8]])

In [48]:
# Изменение порядка осей. В данном случае тоже самое, что и transpose()
a[np.ix_([1, 5, 7, 2], [0, 0, 3, 1, 2, 0])].swapaxes(1, 0)

array([[ 4, 20, 28,  8],
       [ 4, 20, 28,  8],
       [ 7, 23, 31, 11],
       [ 5, 21, 29,  9],
       [ 6, 22, 30, 10],
       [ 4, 20, 28,  8]])

### Функции np.put() и np.take()

In [49]:
a = np.arange(16) ** 2
a = a.reshape(4, 4)
print(a)
print(a.ravel())

[[  0   1   4   9]
 [ 16  25  36  49]
 [ 64  81 100 121]
 [144 169 196 225]]
[  0   1   4   9  16  25  36  49  64  81 100 121 144 169 196 225]


In [50]:
a
## Индексы вектор-строки (плоские индексы)
b = a.take([3, 5, 7, 15]); b

array([[  0,   1,   4,   9],
       [ 16,  25,  36,  49],
       [ 64,  81, 100, 121],
       [144, 169, 196, 225]])

array([  9,  25,  49, 225])

In [51]:
a

array([[  0,   1,   4,   9],
       [ 16,  25,  36,  49],
       [ 64,  81, 100, 121],
       [144, 169, 196, 225]])

In [52]:
a.take([1, 13])

array([  1, 169])

In [53]:
a

array([[  0,   1,   4,   9],
       [ 16,  25,  36,  49],
       [ 64,  81, 100, 121],
       [144, 169, 196, 225]])

In [54]:
## Меняем значения у элементов с индексами 2 и 10
a.put([2, 10], [33, 44]); a   # Индексы вектор-строки

array([[  0,   1,  33,   9],
       [ 16,  25,  36,  49],
       [ 64,  81,  44, 121],
       [144, 169, 196, 225]])

In [55]:
a2d = np.random.randint(50, size=[3, 5]); a2d

array([[43, 44, 14, 11, 12],
       [ 3, 16, 11, 21, 41],
       [37, 46, 23,  7, 22]])

In [56]:
a2d.shape

(3, 5)

In [57]:
a2d.put(
    [0, (1 * 5 + 1), (2 * 5 + 2), (1 * 5 + 3), 4],
    [100, 101, 102, 103, 104]
)
a2d

array([[100,  44,  14,  11, 104],
       [  3, 101,  11, 103,  41],
       [ 37,  46, 102,   7,  22]])

In [58]:
a2d
## Индекс минимального элемента массива-ленточки(flatten)
min_idx = np.argmin(a2d);
print(f'{min_idx = !s}') # !s -> str
np.take(a2d, min_idx)

array([[100,  44,  14,  11, 104],
       [  3, 101,  11, 103,  41],
       [ 37,  46, 102,   7,  22]])

min_idx = 5


3

In [59]:
a2d.shape

(3, 5)

In [60]:
a2d.shape
index = int(min_idx // a2d.shape[1]), int(min_idx % a2d.shape[1])
print(index)

(3, 5)

(1, 0)


In [61]:
print(a2d[index])

3


In [62]:
## Изменяет значение линейного индекса в индекс нужной размерности
np.unravel_index(min_idx, a2d.shape)

(1, 0)

In [63]:
max_idx = np.argmax(a2d);max_idx  ## Индекс максимального элемента массива

4

In [64]:
np.unravel_index(max_idx, a2d.shape)

(0, 4)

In [65]:
min_idx = 14
axis0, others_axis = divmod(min_idx, 2 * 4)  # min_idx // 8, min_idx % 8
axis1, offset_axis2 = divmod(others_axis, 4)
print(axis0, axis1, offset_axis2, sep=',')

1,1,2


In [66]:
# Изменяет значение линейного индекса в индекс нужной размерности
np.unravel_index(min_idx, (3, 2, 4))  # Вспомнить и проверить

(1, 1, 2)

In [67]:
np.unravel_index(11, (3, 3, 3))  # (1, 0, 2)

(1, 0, 2)

In [68]:
a2d
# Максимальный элемент массива
a2d[np.unravel_index(max_idx, a2d.shape)]

array([[100,  44,  14,  11, 104],
       [  3, 101,  11, 103,  41],
       [ 37,  46, 102,   7,  22]])

104

In [69]:
# Индекс максимального элемент массива
np.unravel_index(max_idx, (3, 5))

(0, 4)

In [70]:
# тот же самый результат, но с помощью flat индекса
np.take(a2d, max_idx)

104

### Numpy.where()
Векторный вариант тернарного выражения **x if condition else y**

In [71]:
# 1 Вариант
if len('hello') > 4:
    print('good')
else:
    print('bad')

# 2 Вариант: a if True else b
print('good') if len('hello') > 4 else print('bad')

res = 'good line' if len('hello') > 5 else 'bad line'
print(res)

i = 3
result = i ** 2 if i > 4 else i ** 3
print(result)

good
good
bad line
27


In [72]:
x_array = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
y_array = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
condition = np.array([True, False, True, True, False])

In [73]:
list(zip(x_array, y_array, condition))

[(1.1, 2.1, True),
 (1.2, 2.2, False),
 (1.3, 2.3, True),
 (1.4, 2.4, True),
 (1.5, 2.5, False)]

In [74]:
x_array
y_array
condition
result = [(x if c else y) for x, y, c in zip(x_array, y_array, condition)]
result

array([1.1, 1.2, 1.3, 1.4, 1.5])

array([2.1, 2.2, 2.3, 2.4, 2.5])

array([ True, False,  True,  True, False])

[1.1, 2.2, 1.3, 1.4, 2.5]

In [75]:
condition
## Результат - это индексы, в которых значение True
np.where(condition)

array([ True, False,  True,  True, False])

(array([0, 2, 3]),)

In [76]:
# Если condition == True тогда берем элемент из x_array, иначе из y_array
result = np.where(condition, x_array, y_array)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

In [77]:
# Возращает индексы элементов, для которых верно условие (x_array > 1.3)
idx = np.where(x_array > 1.3); idx

(array([3, 4]),)

In [78]:
x_array[idx]

array([1.4, 1.5])

In [79]:
np.random.seed(5)
a = np.random.randn(4, 4); a

array([[ 0.44122749, -0.33087015,  2.43077119, -0.25209213],
       [ 0.10960984,  1.58248112, -0.9092324 , -0.59163666],
       [ 0.18760323, -0.32986996, -1.19276461, -0.20487651],
       [-0.35882895,  0.6034716 , -1.66478853, -0.70017904]])

In [80]:
np.where(a > 0, 2, -2) # положительные меняем на 2, отрицательные на -2

array([[ 2, -2,  2, -2],
       [ 2,  2, -2, -2],
       [ 2, -2, -2, -2],
       [-2,  2, -2, -2]])

In [81]:
# Для чисел из интервала (-1;0) установим значение 99
np.where((a > -1) & ( a < 0), 99, a)

array([[ 0.44122749, 99.        ,  2.43077119, 99.        ],
       [ 0.10960984,  1.58248112, 99.        , 99.        ],
       [ 0.18760323, 99.        , -1.19276461, 99.        ],
       [99.        ,  0.6034716 , -1.66478853, 99.        ]])

In [82]:
np.where((a[0] > -1) & ( a[0] < 0), 99, a[0])

array([ 0.44122749, 99.        ,  2.43077119, 99.        ])

In [83]:
np.where((a[:, 0] > -1) & ( a[:, 0] < 0), 99, a[:, 0])[:, None]

array([[ 0.44122749],
       [ 0.10960984],
       [ 0.18760323],
       [99.        ]])