<a href="https://colab.research.google.com/github/Krahjotdaan/MachineLearning/blob/main/NumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Введение в Numpy.


**NumPy** — библиотека языка Python, позволяющая [удобно] работать с многомерными массивами и матрицами, содержащая математические функции.

- быстрые векторные операции:
    - переформатирование данных
    - очистка/удаление дубликатов
    - выборка подмножества
    - фильтрация
- описательные статистики, агрегирование
- объединения и соединения разнородных данных
- выражения-массивы для условной логики
- групповое применение функций

 [numpy](http://www.numpy.org)


In [None]:
# импорт библиотеки - самое начало!
import numpy as np

Основной тип данных - многомерный массив элементов одного типа — [numpy.ndarray] - контейнер для хранения больших наборов данных.

Одномерный массив называем ВЕКТОР

In [None]:
# вектор из обычного списка
vec = np.array([1, 2, 3, 4])

In [None]:
# количество осей/измерений
vec.ndim

1

In [None]:
# длина массива по каждой из осей
vec.shape

(4,)

In [None]:
# тип элемента массива
vec.dtype.name

'int64'

In [None]:
# размер элемента массива
vec.itemsize

8

## Создание массивов

* Передать итерируемый объект в качестве параметра функции array (можно также явно указать тип элементов):

In [None]:
ls = [1, 2, 3, 4]
vec = np.array(ls)
vec

array([1, 2, 3, 4])

In [None]:
ls = [1, 2, 3, 4]
vec = np.array(ls, dtype=float)
vec

array([1., 2., 3., 4.])

* Создание массивов специального вида при помощи функций :

In [None]:
np.zeros((5, 8))

array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]])

In [None]:
np.ones(5)

array([1., 1., 1., 1., 1.])

* Создание последовательностей при помощи функций arange (в качестве парметров принимает левую и правую границы последовательности и **шаг**) и linspace (принимает левую и правую границы и **количество элементов**):

In [None]:
np.arange(1, 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(1, 10, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. ,
       7.5, 8. , 8.5, 9. , 9.5])

In [None]:
np.linspace(1, 10, 44)

array([ 1.        ,  1.20930233,  1.41860465,  1.62790698,  1.8372093 ,
        2.04651163,  2.25581395,  2.46511628,  2.6744186 ,  2.88372093,
        3.09302326,  3.30232558,  3.51162791,  3.72093023,  3.93023256,
        4.13953488,  4.34883721,  4.55813953,  4.76744186,  4.97674419,
        5.18604651,  5.39534884,  5.60465116,  5.81395349,  6.02325581,
        6.23255814,  6.44186047,  6.65116279,  6.86046512,  7.06976744,
        7.27906977,  7.48837209,  7.69767442,  7.90697674,  8.11627907,
        8.3255814 ,  8.53488372,  8.74418605,  8.95348837,  9.1627907 ,
        9.37209302,  9.58139535,  9.79069767, 10.        ])

## Базовые операции

* Базовые арифметические операции над массивами выполняются поэлементно:

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

In [None]:
a + b

array([ 6,  8, 10, 12])

In [None]:
a - b

array([-4, -4, -4, -4])

In [None]:
a * 3

array([ 3,  6,  9, 12])

In [None]:
a ** 2

array([ 1,  4,  9, 16])

In [None]:
a * b

array([ 5, 12, 21, 32])

In [None]:
a ** b

array([    1,    64,  2187, 65536])

Для выполнения скалярного умножения необходимо использовать функцию dot:

In [None]:
a.dot(b)

70

In [None]:
a.max()

4

In [None]:
a.min()

1

In [None]:
a.mean()

2.5

In [None]:
a.sum()

10

## Индексация

Для доступа к элементам может использоваться [много различных способов](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html), рассмотрим основные.

In [None]:
a[0]

1

### Индексация

In [None]:
a[-2]

3

In [None]:
a[2:]

array([3, 4])

### Индексация списком индексов

In [None]:
c = np.array([1, 2, 3, 4, 5, 6, 7, 8])
ind = [1, 3, 5]
c[ind]

array([2, 4, 6])

### Логическая индексация

In [None]:
c[c > 4]

array([5, 6, 7, 8])

array([5, 6, 7, 8])

### Срезы / slice

In [None]:
c[1:]

array([2, 3, 4, 5, 6, 7, 8])

In [None]:
c[:1]

array([1])

In [None]:
c[2:4]

array([3, 4])

In [None]:
c[::-1]


array([8, 7, 6, 5, 4, 3, 2, 1])

## Вектор случайных значений

In [None]:
np.random.randint(0, 10, 8)

array([4, 7, 3, 8, 3, 1, 3, 9])

In [None]:
np.random.randint(0, 10, (2, 8))

array([[5, 8, 3, 0, 6, 3, 4, 8],
       [6, 6, 5, 5, 5, 1, 1, 6]])

## Зачем?

Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?

Причина заключается в скорости работы. Попробуем посчитать сумму поэлементых произведений 2 больших векторов:

In [None]:
s1 = np.random.randint(0, 20, 10000000)
s2 = np.random.randint(0, 20, 10000000)

In [None]:
import time
t1 = time.time()
s1 * s2
t1 = time.time() - t1

In [None]:
from random import randint
s3 = [randint(0, 20) for i in range(10000000)]
s4 = [randint(0, 20) for i in range(10000000)]
t2 = time.time()
for i in range(len(s3)):
  s3[i] *= s4[i]
t2 = time.time() - t2

In [None]:
t2 / t1

43.44129527512864