<a href="https://colab.research.google.com/github/amhtj/ML-HSE/blob/main/01_introduction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Необходимые инструменты и библиотеки 

Для начала, конечно, необходимо установить сам Python на https://www.python.org/. 
Наиболее удобные и популярные инструменты для работы с задачами Data Science на Python: 
1. Jupyter Notebook (https://jupyter.org/). 
2. Google Colaboratory (https://colab.research.google.com/). 
 
Для работы с Jupyter Notebook лучше устанавливать его не отдельно, а путем установки дистрибутивом Anaconda: https://www.anaconda.com/. В таком случае автоматически поставится Jupyter Notebook, а также и Spyder (это IDE, но конкретно нам в дальнейшем не понадобится). В Anaconda встроены тысячи библиотек, и очень удобно для разных проектов создаются отдельные виртуальные среды. Библиотеки можно ставить как через командную строку Anaconda, так и через IDE (например, внутри PyCharm все это очень хорошо устроено).

Для работы с Google Colaboratory не потребуется устанавливать совсем ничего. Все библиотеки уже установлены и работают (только онлайн с использованием интернета), а данные можно загружать или напрямую по ссылкам, или с облака в GDrive. Подключиться напрямую к папке с компьютера, как в Jyputer, не получится. 

В этом ноутбуке попробуем поработать с Google Colaboratory c библиотекой NumPy:



In [2]:
import numpy as np
from numpy import *

**Основные операции над массивами**


Одним из самых главных объектов в работе с библиотекой NumPy являются массивы. Они схожи со списками, однако элементы массива должны быть одинакового типа данных (имееется в виду float, int). Работать с большими данными в рамках массивов, конечно, много удобнее и эффективнее, чем со списками. 

In [3]:
# Создание массива из списка 
a = np.array([1, 4, 5, 8], float)
a

array([1., 4., 5., 8.])

In [6]:
# Ко всем элементам, конечно, можно получить доступ
a[:2]

array([1., 4.])

In [9]:
# Многомерные массивы 
a = np.array([[1, 2, 3], [4,5,6]], float)
a

In [12]:
a[1:]

array([[4., 5., 6.]])

In [13]:
# Размеры строк и столбцов массива 
a.shape

(2, 3)

In [14]:
a.dtype

dtype('float64')

In [15]:
# Длина первого измерения
len(a)

2

In [17]:
# Проверка наличия того или иного элемента в массиве 
2 in a

False

In [18]:
# Преобразование одномерного массива в двумерный (это создание нового массива, а не замена прежнего)
a = np.array(range(10), float)
a = a.reshape((5, 2))

In [20]:
a

array([[0., 1.],
       [2., 3.],
       [4., 5.],
       [6., 7.],
       [8., 9.]])

In [22]:
a = np.array([1,2,3], float)
b = a 
c = a.copy() # можно копировать массив в памяти 

In [23]:
a

array([1., 2., 3.])

In [24]:
b

array([1., 2., 3.])

In [25]:
c

array([1., 2., 3.])

In [26]:
a = np.array([1,2,3], float) 
a.tolist()
list(a) # Создание списка по массиву 

[1.0, 2.0, 3.0]

In [27]:
a.fill(1) # Можно заполнить весь список одинаковым значением 
a

array([1., 1., 1.])

In [33]:
# Транспонирование матриц (опять же с созданием новой матрицы)
a = np.array(range(6), float).reshape((2,3))
a
a.transpose()

array([[0., 3.],
       [1., 4.],
       [2., 5.]])

In [36]:
# Преобразование массива в одномерный 
a = np.array([[1,2,3], [4,5,6]], float)
a
a.flatten() 

array([1., 2., 3., 4., 5., 6.])

In [37]:
# Конкатенация массивов (+ вариант с заданием оси при n-мерности массива)

a = np.array([1,2], float)
b = np.array([3,4,5,6], float)
c = np.array([7,8,9], float)
np.concatenate((a,b,c))

array([1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [41]:
a = np.array([[1, 2], [3, 4]], float)
b = np.array([[5, 6], [7, 8]], float)
np.concatenate((a,b), axis=1) 

array([[1., 2., 5., 6.],
       [3., 4., 7., 8.]])

In [45]:
a = np.array([1,2,3,4], float)
a
a[:,np.newaxis].shape

(3, 1)

In [47]:
# Создание массива с равномерно распеделенными значениями и его возврат

np.arange(5, dtype=float)
np.arange(1, 6, 2, dtype=int)

array([1, 3, 5])

In [49]:
# Создание массивов с установленной размерностью (будут заполнены этими же значениями)

np.ones((2,3), dtype=float)
np.zeros(6, dtype=int)

np.ones_like(a)

array([0, 0, 0, 0, 0, 0])

In [50]:
# Создадим квадратичную матрицу с единичнымт элементами по диагонали 

np.identity(4, dtype=float)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [51]:
np.eye(4, k=1, dtype=float) # Возможность установить k-ую диагональ

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.]])

**Математические операции над массивами**

In [60]:
a = np.array([[1,2], [3,4], [5,6]], float)
b = np.array([-2, 2], float)

a + b 

array([[-1.,  4.],
       [ 1.,  6.],
       [ 3.,  8.]])

In [63]:
a = np.zeros((2,2), float)
b = np.array([-1,3.], float)
a
b

a + b 

array([[-1.,  3.],
       [-1.,  3.]])

In [64]:
a + b[np.newaxis,:]

array([[-1.,  3.],
       [-1.,  3.]])

In [65]:
a + b[:,np.newaxis]

array([[-1., -1.],
       [ 3.,  3.]])

In [66]:
a = np.array([1,4,9], float)
np.sqrt(a)

array([1., 2., 3.])

In [67]:
a = np.array([1.1, 1.5, 1.9], float)
np.floor(a)

array([1., 1., 1.])

In [68]:
np.ceil(a)

array([2., 2., 2.])

In [69]:
np.rint(a)

array([1., 2., 2.])

In [71]:
np.pi
np.e

2.718281828459045

In [73]:
a = np.array([1,4,5], int)
for x in a:
  print(x)

1
4
5


In [74]:
a = np.array([[1,2],[3,4],[5,6]], float)
for x in a:
  print(x)

[1. 2.]
[3. 4.]
[5. 6.]


In [78]:
a = np.array([2,5,4], float)
a.sum()
a.prod()
np.sum(a)
np.prod(a)

40.0

In [81]:
a = np.array([2,5,4], float)
a.mean()
a.var()
a.std()

1.247219128924647

In [83]:
a = np.array([2,5,4], float)
a.min()
a.max()

5.0

In [87]:
a = np.array([5,2,4], float)
a.argmin()
a.argmax()

0

In [90]:
a = np.array([6, 2, 5, -1, 3], float)
sorted(a)

a.sort()
a

array([-1.,  2.,  3.,  5.,  6.])

In [91]:
a = np.array([6, 2, 5, -1, 3], float)
a.clip(1,5)

array([5., 2., 5., 1., 3.])

In [None]:
np.unique(a)

In [93]:
a = np.array([[1,2], [3,4]], float)
a.diagonal()

array([1., 4.])

In [97]:
a = np.array([1,3,0], float)
b = np.array([0,4,2], float)
a > b 
a == b 
a <= b 

array([False,  True,  True])

In [98]:
c = a > b 
c

array([ True, False, False])

In [99]:
a = np.array([1,3,0], float)
a > 5

array([False, False, False])

In [101]:
c = np.array([True, False, False], bool)
any(c)
all(c)

False

In [102]:
a = np.array([1, 3, 0], float)
np.logical_and(a>0, a<3)

# np.logical_not(b)
# np.logical_or(b, c) 

array([ True, False, False])

In [103]:
a = np.array([1,3,5], float)
np.where(a != 0, 1 / a, a)

array([1.        , 0.33333333, 0.2       ])

In [104]:
a = np.array([[0,1], [3,0]], float) 
a.nonzero()

(array([0, 1]), array([1, 0]))

In [106]:
a = np.array([[6,4], [5, 9]], float)
a >=6 

array([[ True, False],
       [False,  True]])

In [107]:
a = np.array([[6,4], [5, 9]], float)
sel = (a>=6)
a[sel]

array([6., 9.])

In [108]:
a[np.logical_and(a > 5, a < 9)]

array([6.])

In [109]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 2, 2, 1], int)
a[b]

array([2., 2., 4., 6., 6., 4.])

In [110]:
a = np.array([2, 4, 6, 8], float)
a[[0, 0, 1, 2, 2, 1]]

array([2., 2., 4., 6., 6., 4.])

In [113]:
a = np.array([[1,4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
a[b,c]

array([ 1.,  4., 16., 16.,  4.])

In [114]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0,0, 1, 3, 2, 1], int)
a.take(b)

array([2., 2., 4., 8., 6., 4.])

**Операции линейной алгебры над векторами и матрицами**

Кстати, для усложненных операций используется модуль np.linalg, благодаря которому, например, можно решать системы уравнений или выполнять разложение.

In [None]:
# Возвращаем скалярное произведение векторов

a = np.array([1, 2, 3], float)
b = np.array([0, 1, 1], float)
np.dot(a, b)

In [None]:
# Перемножение матрицы на матрицу 

a = np.array([[0, 1], [2, 3]], float)
b = np.array([2, 3], float)
c = np.array([[1, 1], [4, 0]], float)

np.dot(b, a)

In [None]:
np.dot(a, b)

In [None]:
np.dot(c, a)

In [None]:
# Скалярное, тензорное и внешнее произведение матриц и векторов

a = np.array([1, 4, 0], float)
b = np.array([2, 2, 1], float)

np.outer(a, b)

In [None]:
np.inner(a, b)

In [None]:
np.cross(a, b)

In [None]:
# Нахождение определителя матрицы 

a = np.array([[4, 2, 0], [9, 3, 7], [1, 2, 1]], float)
np.linalg.det(a) 

In [None]:
# Нахождение собственных векторов и собственных значений матрицы

vals, vecs = np.linalg.eig(a)

vals

In [None]:
vecs

In [None]:
# Нахождеение невырожденной матрицы 

b = np.linalg.inv(a)
np.dot(a, b)

In [None]:
# Одиночное разложение

a = np.array([[1, 3,4], [5, 2, 3]], float)
U, s, Vh = np.linalg.svd(a)

U

In [None]:
s

In [None]:
Vh