# Введение в инструменты Python для анализа данных

## [NumPy](https://docs.scipy.org/doc/numpy/user/index.html)

Библеотека NumPy предоставляет следующие **возможности**: 
* работать с многомерными массивами (включая матрицы)
* производить быстрое вычисление математических функций на многомерных массивах

Ядром пакета NumPy является объект [ndarray](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html)

**Важные отличия** между NumPy arrays и Python sequences: 
* NumPy array имеет фиксированную длину, которая определяется в момент его создания (в отличие от Python lists, которые могут расти динамически)
* Элементы в NumPy array должны быть одного типа
* Можно выполнять операции непосредственно над NumPy arrays

**Сильные стороны** NumPy: 
* Vectorization 
* Broadcasting

**Мотивирующий пример**
![Imgur](https://i.imgur.com/z4GzOX6.png)

In [1]:
import numpy as np

### Способы создания Numpy arrays
* Конвертация из Python structures
* Генерация с помощью встроенных функций
* Чтение с диска

### Конвертация из Python structures

In [18]:
np.array([1, 2, 3, 4, 5, '5'])

array(['1', '2', '3', '4', '5', '5'], dtype='<U21')

In [16]:
list_ = [1, 2, 3]

При конвертации можно задавать тип данных с помощью аргумента [dtype](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dtype.html): 

In [14]:
np.array([1, 2, 3, 4, 5], dtype=np.float32)

array([1., 2., 3., 4., 5.], dtype=float32)

In [19]:
np.array([1, 2, 3, 4, 'ads'], dtype=np.float32)

ValueError: could not convert string to float: 'ads'

Аналогичное преобразование:

In [4]:
np.float32([1, 2, 3, 4, 5])

array([1., 2., 3., 4., 5.], dtype=float32)

### Генерация Numpy arrays

* [arange](https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html) — аналог range из Python, которому можно передать нецелочисленный шаг
* [linspace](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linspace.html) — способ равномерно разбить отрезок на n-1 интервал
* [logspace](https://docs.scipy.org/doc/numpy/reference/generated/numpy.logspace.html) — способ разбить отрезок по логарифмической шкале
* [zeros](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html) — создаёт массив заполненный нулями заданной размерности
* [ones](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html) — создаёт массив заполненный единицами заданной размерности
* [empty](https://docs.scipy.org/doc/numpy/reference/generated/numpy.empty.html) — создаёт массив неинициализированный никаким значением заданной размерности

In [22]:
list(range(1, 10, 2))

[1, 3, 5, 7, 9]

In [5]:
np.arange(0, 5, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [25]:
x = np.linspace(0, 5, 200)

In [26]:
y = x ** 2

In [2]:
np.logspace(0, 9, 10)

array([1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06, 1.e+07,
       1.e+08, 1.e+09])

In [28]:
np.logspace(0, 9, num=6, base=10)

array([1.00000000e+00, 6.30957344e+01, 3.98107171e+03, 2.51188643e+05,
       1.58489319e+07, 1.00000000e+09])

In [30]:
np.zeros()

array([0., 0.])

In [31]:
a = np.array([[1, 2], [3, 4]])
a

array([[1, 2],
       [3, 4]])

In [32]:
np.zeros_like(a)

array([[0, 0],
       [0, 0]])

In [9]:
np.ones((2, 2))

array([[1., 1.],
       [1., 1.]])

In [14]:
np.empty((2, 2))

array([[5.e-324, 5.e-324],
       [5.e-324, 0.e+000]])

In [2]:
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

Pазмеры массива храниться в поле **shape**, а количество размерностей - в **ndim**

In [55]:
array = np.ones((2, 3))
print('Размерность массива - %s, количество размерностей - %d'%(array.shape, array.ndim))

Размерность массива - (2, 3), количество размерностей - 2


In [41]:
array[0].shape

(3, 256, 256)

In [45]:
array.reshape(array.shape[0], 3, -1).shape

(10, 3, 65536)

Метод [reshape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html) позволяет преобразовать размеры массива без изменения данных

In [56]:
array = np.arange(0, 6, 0.5)
array = a.reshape((2, 6))
array

ValueError: cannot reshape array of size 4 into shape (2,6)

In [47]:
import pandas as pd

In [49]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=['a', 'b'])

In [53]:
df[['a', 'b']].values

array([[1, 2],
       [3, 4]])

In [91]:
array

array([[  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121],
       [100, 121, 144, 169, 196, 225, 256, 289, 324, 361, 400, 441]])

Для того что бы развернуть многомерный массив в вектор, можно воспользоваться функцией [ravel](ravel)

In [92]:
array = np.ravel(array)
array

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121, 100,
       121, 144, 169, 196, 225, 256, 289, 324, 361, 400, 441])

### Индексация

В NumPy работает привычная индексация Python, включая использование отрицательных индексов и срезов

In [48]:
print(array[0])
print(array[-1])
print(array[1:-1])
print(array[1:-1:2])
print(array[::-1])

0.0
5.5
[0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5. ]
[0.5 1.5 2.5 3.5 4.5]
[5.5 5.  4.5 4.  3.5 3.  2.5 2.  1.5 1.  0.5 0. ]


**Замечание**: Индексы и срезы в многомерных массивах не нужно разделять квадратными скобками 

т.е. вместо ```matrix[i][j]``` нужно использовать ```matrix[i, j]```

В качестве индексов можно использовать массивы:

In [73]:
array = np.array([[i**2 for i in range(12)], [i**2 for i in range(10, 22)]])

In [90]:
array + 1

array([[  1,   2,   5,  10,  17,  26,  37,  50,  65,  82, 101, 122],
       [101, 122, 145, 170, 197, 226, 257, 290, 325, 362, 401, 442]])

In [87]:
[1, 2, 3] + [3, 4, 5]

[1, 2, 3, 3, 4, 5]

In [85]:
(array @ array.T)

array([[ 39974, 177694],
       [177694, 901814]])

In [62]:
array[[0, 2, 4, 6, 8, 10]]

array([  0,   4,  16,  36,  64, 100])

In [64]:
array[[True, False, True, False, True, False, True, False, True, False, True, False]]

array([  0,   4,  16,  36,  64, 100])

In [66]:
x = np.array([[1, 2, 3]])
y = np.array([1, 2, 3])

print (x.shape, y.shape)

print(np.array_equal(x, y))
print(np.array_equal(x, y[np.newaxis, :]))

(1, 3) (3,)
False
True


In [67]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [68]:
x[(x % 2 == 0) & (x > 5)]

array([6, 8])

In [11]:
print(x)
x[x > 3] *= 2
print(x)

[0 1 2 3 4 5 6 7 8 9]
[ 0  1  2  3  8 10 12 14 16 18]


Для копирования в numpy есть метод copy

In [12]:
x.copy()

array([ 0,  1,  2,  3,  8, 10, 12, 14, 16, 18])

In [69]:
y = x[:]

**Замечание:** Все арифметические операции над массивами одинаковой размерности производятся поэлементно

### [Broadcasting](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html)

Broadcasting снимает правило одной размерности и позволяет производить арифметические операции над массивами разных, но всётаки созгласованных размерностей. Простейшим примером является умножение вектора на число:

![Imgur](https://i.imgur.com/tE3ZCWG.gif)

In [65]:
2*np.arange(1, 4)

array([2, 4, 6])

Правило согласования размерностей выражается в одном предложение: 

```In order to broadcast, the size of the trailing axes for both arrays in an operation must either be the same size or one of them must be one```

Если количество размерностей не совпадают, то к массиву меньшей размерности добавляются фиктивные размерности "слева", например:
```
a  = np.ones((2,3,4))
b = np.ones(4)
c = a * b # here a.shape=(2,3,4) and b.shape is considered to be (1,1,4)
```

Прибавим к каждой строчки матрицы один и тот же вектор:

![Imgur](https://i.imgur.com/VsP2dqT.gif)

In [66]:
np.array([[0, 0, 0], [10, 10, 10], [20, 20, 20], [30, 30, 30]]) + np.arange(3)

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

Теперь если мы хотим, проделать тот же трюк но со столбцами, то мы не можем просто добавить вектор состоящий из 4 элементов т.к. в данном случае размеры будут не согласованы

![Imgur](https://i.imgur.com/9LvGoeL.gif)

Сначала нужно преоброзовать вектор к виду:

In [72]:
np.arange(4)[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3]])

А затем к нему добавить матрицу:

In [69]:
np.arange(4)[:, np.newaxis]+np.array([[0, 0, 0], [10, 10, 10], [20, 20, 20], [30, 30, 30]])

array([[ 0,  0,  0],
       [11, 11, 11],
       [22, 22, 22],
       [33, 33, 33]])

Если нужно перемножить многомерные массивы не поэлеметно, а по правилу перемножения матриц, то следует воспользоваться [np.dot](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html)

Транспонирование производится с помощью array**.T**

Так же в NumPy реализованно много полезных операций для работы с массивами: [np.min](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.min.html), [np.max](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.max.html), [np.sum](https://docs.scipy.org/doc/numpy/reference/generated/numpy.sum.html), [np.mean](https://docs.scipy.org/doc/numpy/reference/generated/numpy.mean.html) и т.д.

**Замечание:** В каждой из перечисленных функций есть параметр **axis**, который указывает по какому измерению производить данную операцию. По умолчанию операция производится по всем значениям массива

Например,

In [9]:
print('Среднее значение всех значений класса versicolor: %s'%np.mean(features_versicolor))
print('Среднее значение каждого признака класса versicolor: %s'%np.mean(features_versicolor, axis=1))

Среднее значение всех значений класса versicolor: 3.84
Среднее значение каждого признака класса versicolor: [4.075 3.9   4.1   3.275 3.85 ]


Теперь эффективно посчитаем $\frac{1}{n} \sum\limits_{i=1}^n |x_i-y_i|$ для каждой пары $(x, y)$, где $x$ - вектор признаков объекта из класса setosa, а $y$ - вектор признаков объекта из класса versicolor

In [103]:
np.mean(np.abs(features_setosa - features_versicolor[:, np.newaxis]), axis=2)

array([[1.675, 1.7  , 1.725, 1.725, 1.725],
       [1.5  , 1.525, 1.55 , 1.55 , 1.55 ],
       [1.75 , 1.725, 1.8  , 1.75 , 1.8  ],
       [1.325, 1.25 , 1.375, 1.325, 1.375],
       [1.65 , 1.575, 1.7  , 1.65 , 1.7  ]])

### Операции

In [25]:
x = np.arange(40).reshape(5, 2, 4)
print(x)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]

 [[24 25 26 27]
  [28 29 30 31]]

 [[32 33 34 35]
  [36 37 38 39]]]


In [24]:
print(x.mean())
print(np.mean(x))

19.5
19.5


In [27]:
x.mean(axis=0)

array([[16., 17., 18., 19.],
       [20., 21., 22., 23.]])

In [29]:
x.mean(axis=1)

array([[ 2.,  3.,  4.,  5.],
       [10., 11., 12., 13.],
       [18., 19., 20., 21.],
       [26., 27., 28., 29.],
       [34., 35., 36., 37.]])

In [30]:
x.mean(axis=2)

array([[ 1.5,  5.5],
       [ 9.5, 13.5],
       [17.5, 21.5],
       [25.5, 29.5],
       [33.5, 37.5]])

In [34]:
x.mean(axis=(0,2))

array([17.5, 21.5])

In [35]:
x.mean(axis=(0,1,2))

19.5

### Конкатенация многомерных массивов

Конкатенировать несколько массивом можно с помощью функций **np.concatenate, np.hstack, np.vstack, np.dstack**

In [36]:
x = np.arange(10).reshape(5, 2)
y = np.arange(100, 120).reshape(5, 4)

In [39]:
x

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [40]:
y

array([[100, 101, 102, 103],
       [104, 105, 106, 107],
       [108, 109, 110, 111],
       [112, 113, 114, 115],
       [116, 117, 118, 119]])

In [38]:
np.hstack((x, y))

array([[  0,   1, 100, 101, 102, 103],
       [  2,   3, 104, 105, 106, 107],
       [  4,   5, 108, 109, 110, 111],
       [  6,   7, 112, 113, 114, 115],
       [  8,   9, 116, 117, 118, 119]])

In [41]:
z = np.arange(1000, 1020).reshape(10, 2)

In [42]:
z

array([[1000, 1001],
       [1002, 1003],
       [1004, 1005],
       [1006, 1007],
       [1008, 1009],
       [1010, 1011],
       [1012, 1013],
       [1014, 1015],
       [1016, 1017],
       [1018, 1019]])

In [54]:
p = np.arange(1).reshape([1, 1, 1, 1])
p

In [57]:
print("vstack: ", np.vstack((p, p)).shape)
print("hstack: ", np.hstack((p, p)).shape)
print("dstack: ", np.dstack((p, p)).shape)

('vstack: ', (2, 1, 1, 1))
('hstack: ', (1, 2, 1, 1))
('dstack: ', (1, 1, 2, 1))


In [61]:
np.concatenate((p, p), axis=3).shape

(1, 1, 1, 2)

### Типы

In [62]:
x = [1, 2, 70000]

In [63]:
np.array(x, dtype=np.float128)

array([1.e+00, 2.e+00, 7.e+04], dtype=float128)

In [64]:
np.array(x, dtype=np.uint16)

array([   1,    2, 4464], dtype=uint16)

In [65]:
np.array(x, dtype=np.unicode_)

array([u'1', u'2', u'70000'], dtype='<U5')

### Функциональное программирование

In [66]:
def f(value):
    return np.sqrt(value)

vf = np.vectorize(f)

In [73]:
vf(np.arange(10))

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])