# Введение в numpy
#### [Ссылка на видео](https://youtu.be/cm9r1hTXxk4)

<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/05-numpy.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

In [None]:
import pandas as pd
import numpy as np

#### Вектор - упорядоченный набор чисел

In [None]:
[1, 2, 3, 4]

#### Матрица - набор векторов

In [None]:
[
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

#### Вектор - столбец

In [None]:
[
    [1],
    [2],
    [3],
    [4]
]

#### Однако для списков не заданы векторные операции

In [None]:
[1, 2, 3, 4] * 2

### np.array
Функция превращает список в многомерный массив

In [None]:
np.array([1, 2, 3, 4])

In [None]:
np.array([
    [1, 2, 3],
    [4, 5, 6], 
    [7, 8, 9]
])

In [None]:
type(np.array([1, 2, 3, 4]))

In [None]:
type(np.array([
    [1, 2, 3],
    [4, 5, 6], 
    [7, 8, 9]
]))

Векторы можно умножать

In [None]:
np.array([1, 2, 3, 4]) * 2

На основе матриц можно создавать таблицы

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6], 
    [7, 8, 9]
], columns=['Колонка 1', 'Колонка 2', 'Колонка 3'])

#### У матриц всего один тип на весь объект

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6], 
    [7, 8, 9]
], columns=['Колонка 1', 'Колонка 2', 'Колонка 3']).info()

Чтобы из таблицы или колонки сделать многомерный массив, можно воспользоваться методом to_numpy

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6], 
    [7, 8, 9]
], columns=['Колонка 1', 'Колонка 2', 'Колонка 3']).to_numpy()

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, '6'], 
    [7, 8, 9]
], columns=['Колонка 1', 'Колонка 2', 'Колонка 3']).info()

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, '6'], 
    [7, 8, 9]
], columns=['Колонка 1', 'Колонка 2', 'Колонка 3']).to_numpy()

## Операции с матрицами и векторами

#### Транспонирование

In [None]:
np.array([
    [1, 2, 3],
    [4, 5, 6], 
    [7, 8, 9]
]).T

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, '6'], 
    [7, 8, 9]
], columns=['Колонка 1', 'Колонка 2', 'Колонка 3']).T

### reshape

Изменяет размерность массива

In [None]:
vector = np.arange(20)
vector

In [None]:
vector.shape

Делаем из вектора матрицу, в которой 5 строк и 4 столбца

In [None]:
vector.reshape(5, 4)

In [None]:
(vector
    .reshape(5, 4)
    .reshape(2, 10)
)

#### Вместо одного из значений можно указывать -1

In [None]:
vector.reshape(5, -1)

In [None]:
(vector
    .reshape(5, -1)
    .reshape(-1)
)

Вытягиваем вектор-строку в вектор-столбец

In [None]:
vector.reshape(-1, 1)

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

В переменной marks_6d_corr лежит некоторая матрица. Посмотрите на ее размер. Создайте на ее основе таблицу. В индексе и в шапке таблицы должен лежать список:

['Математика', 'Русский язык', 'Литература', 'Физика', 'История', 'Физическая культура']

Это можно сделать передав в pd.DataFrame матрицу. Чтобы добавить названия колонок используйте параметр columns. Чтобы добавить названия индекса используйте парметр index

In [None]:
import os
import pandas as pd
path_marks_6d = '../tables/оценки 6Д.csv' if os.path.exists('../tables/оценки 6Д.csv') else 'https://drive.google.com/uc?id=1aMvwur2zrISbVPRo86qWgbHPEpw5km0n'
marks_6d_corr = pd.read_csv(path_marks_6d).iloc[:, 2:].corr().to_numpy()
marks_6d_corr

In [None]:
# Напишите свой код здесь

### Задание 2

Из списка ['Вася', 'Лена', 'Антон', 'Настя'] создайте объект ndarray

In [None]:
import numpy as np
lst = ['Вася', 'Лена', 'Антон', 'Настя']

# Напишите свой код здесь

### Задание 3
Создайте вектор, содержащий значения от 0 до 80. На его основе создайте матрицу размером 8 на 10 (8 строк и 10 колонок). Затем транспонируйте таблицу. После всего этого разверните матрицу в вектор-стоблец 

In [None]:
import numpy as np

# Напишите свой код здесь

### Задание 4

Матрицы бывают самыми разными. 

Функция __np.eye__ создает матрицу в которой, по диагонале располагаются единицы, а во всех других точках местах нули. Такая матрица называется единичной.

np.eye(n) - создает матрицу размером n x n 

np.eye(n, m) - создает матрицу размером n x m

Создайте единичную матрицу размером 8 х 8

In [None]:
import numpy as np

# Напишите свой код здесь

### Задание 5

Функция __np.ones__ создает вектор матрицу из единиц

np.ones(n) - создает вектор из единиц, длинною n

np.ones((n, m)) - создает матрицу из единиц размером n x m (обратите внимание, что внутрь передается кортеж)

Создайте матрицу из единиц размеров 7 на 8

In [None]:
import numpy as np

# Напишите свой код здесь

### Задание 6

Функция __np.zeros__ создает матрицу из нулей и работает точно так же как и функция np.ones

np.zeros(n) - создает вектор из нулей, длинною n

np.zeros((n, m)) - создает матрицу из нулей размером n x m (обратите внимание, что внутрь передается кортеж)

Создайте вектор нулей длинны 25

In [None]:
import numpy as np

# Напишите свой код здесь

### Задание 7

Функция __np.full__ позволяет передавать объект, который будет лежать внутри вектора или матрицы. Синтаксис у функции похож на предыдущие методы

np.full(n, value) - создает вектор из value, длинною n

np.full((n, m), value) - создает матрицу из value размером n x m (обратите внимание, что внутрь передается кортеж)

Создайте пустую матрицу размером 8 на 9 (то есть внутри матрицы должен лежать None или np.nan)

In [None]:
import numpy as np

# Напишите свой код здесь

### Задание 8

Для некоторых функций, рассмотренных выше существуют очень похожие функции, имеющие в своем составе суффикс _like.

ones_like, zeros_like, full_like

На вход в качестве первого аргумента вместо размера эти функции принимают другой массив. После чего функция генерирует соответсвтующую матрицу

In [None]:
import numpy as np

m = np.arange(20).reshape(4, 5)
m

In [None]:
np.zeros_like(m)

np.zeros_like(m) - это то же самое, что и

In [None]:
np.zeros(m.shape)

На основе матрицы m создайте матрицу из единиц того же размера

In [None]:
# Напишите свой код здесь

### Задание 9

Функция __np.triu__ обнуляет элементы матрицы ниже диагонали

Функция __np.tril__ обнуляет элементы матрицы выше диагонали

In [None]:
import numpy as np

m = np.arange(1, 37).reshape(6, -1)
m

In [None]:
np.triu(m)

In [None]:
np.tril(m)

На основе матрицы x создайте треугольную матрицу с нулями под диагонялтными элементами

In [None]:
x = np.arange(1, 43)
x

In [None]:
# Напишите свой код здесь

### Задание 10

Создайте матрицу 5 на 5, в которой по диагонали и ниже будут наны (пропуски), а выше строять нули

In [None]:
import numpy as np

# Напишите свой код здесь

### Задание 11

Создайте матрицу 5 на 5, в которой по диагонали и выше будут наны (пропуски), а выше строять нули

In [None]:
import numpy as np

# Напишите свой код здесь

### Задание 12

При помощи функции np.repeat можно создать матрицу из повторяющихся элементов.
Внутри функции сначала надо указать элемент, который вы хотите повторить, а затем число повторений.

In [None]:
import numpy as np

np.repeat(2, 30)

In [None]:
np.repeat([1, 2, 3], 10)

In [None]:
np.repeat([10, 20, 30], [1, 2, 3])

Создайте вектор, в котором сначала 100 раз будет идти 1, затем 99 раз будет идти 2, после чего 98 раз будет идти 3 и так далее. Последний элемент 100 должен идти 1 раз. Посчитайте длинну этого массива

In [None]:
# Напишите свой код здесь

### Задание 13

Помимо прочего в нампае есть возможность создавать матрицы из случайных чисел.

Например, функция np.random.rand() генерирует случайные числа на интервале от нуля до единицы. Внутрь функции передаются размерности массива, который вы хотите получить

In [None]:
# Когда используете случайные числа, не забывайте фиксировать seed
# np.random.seed(6)
np.random.rand(5)

In [None]:
# Когда используете случайные числа, не забывайте фиксировать seed
# np.random.seed(9)
np.random.rand(2, 3)

Создайте матрицу из случайных чисел размером 5 на 8 (5 строк и 8 стобцов)

In [None]:
# Напишите свой код здесь

Помимо этого, можно генерировать массив, состоящий из случайных целых чисел.

Для этого можно использовать функцию np.random.randint(минимальное число, максимальное число (невключительно), размерность массива (целое число или кортеж))

In [None]:
# Когда используете случайные числа, не забывайте фиксировать seed
# np.random.seed(90)
np.random.randint(0, 10, (3, 8))

Создайте массив из случайных целых чисел длиною 80

In [None]:
# Напишите свой код здесь

Помимо этого есть еще много дургих функций, которые моделируют различные распределения

### Задание 14

Многомерные массивы могут быть не только одномерными (векторы) и двумерными (матрицы), но и трехмерными и четырехмерными. Например, большую часть видимого спектра можно представить в виде комбинации красного, зеленого и синего цветов. Поэтому картинки часто представляют в виде трех матриц. Каждая матрица отвечает за яркость соответствующего цвета.

In [None]:
import numpy as np
import os
import pandas as pd
import matplotlib.pyplot as plt

path_array = '../tables/hse.parquet' if os.path.exists('../tables/hse.parquet') else 'https://drive.google.com/uc?id=1rexnf15Sm3WMSqZUi-AH1flul4P_u7cx'

array = pd.read_parquet(path_array).to_numpy().reshape(-1)

В переменной array лежит картинка 2500 на 1663. Приведите вектор к трем матрицам 1663 (количество строк) на 2500 (количество столбцов). Сначала укажите количество строк, затем количество столбцов, после чего укажите количество каналов

In [None]:
# Напишите свой код здесь

Передайте полученный массив в функцию plt.imshow

In [None]:
# Напишите свой код здесь

plt.imshow(array.reshape(-1, 2500, 3))

### Задание 15

Иногда возникает необходимость матрице или вектору добавить дополнительную разменость. Сделать это можно различными способами, например, при помощи метода reshape

In [None]:
import numpy as np
np.arange(5)

In [None]:
np.arange(5).reshape(1, -1)

Посмотрите на размерности первого и второго векторов

In [None]:
# Напишите свой код здесь

Добавьте дополнительную размерность вектру

In [None]:
np.random.seed(50)
vec = np.random.normal(0, 1, 10)
vec

In [None]:
# Напишите свой код здесь

Однако если у вас большая размерность, то вам придется переписывать прошлые размерности. Чтобы этого избежать можно использовать квадратные скобки

In [None]:
vec = np.random.rand(3, 4)
vec.shape

In [None]:
# Добавляем размерность в начало (как мы делали в прошлый раз)
vec[None, ...].shape

In [None]:
vec[None, ...]

In [None]:
# Добавляем размерность в конец
vec[..., None].shape

In [None]:
vec[..., None]

In [None]:
# Добавляем размерноть в центр
# None указывает на отступ
# ...  говорят о том, что бы питон взял все оставшиеся размерности как есть
# : говорит о том, что мы должныо сделать отступ в одну размерноть справа 
vec[..., None, :].shape

In [None]:
# Здесь мы делаем 2 оступа справа
vec[..., None, :, :].shape

Попробуйте создать пятимерную матрицу и добавить к ней одну размерность в разные места

In [None]:
# Напишите свой код здесь

Для того, чтобы избавиться от ненужной размерности можно использовать метод squeeze. В него необходимо передать номер размерности от которой вы хотите избавиться. Важно, чтобы эта размерность была равна единице

In [None]:
# Нулевая размерность равна единице, поэтому от нее можно избавится
vec[None, ...].shape

In [None]:
vec[None, ...].squeeze(0)

In [None]:
vec[None, ...].squeeze(0).shape

Создайте массив размерности 4, которого одна из размерностей будет равна единице. Избавьтесь от нее при помощи метода squeeze

In [None]:
# Напишите свой код здесь

### Задание 16

Для того, чтобы транспонировать матрицу (отразить ее по вертикали) можно воспользоваться атритубом T. Однако бывают ситуации когда нужно транспанировать  трехмерный или четырехменрый массив. В этом случае операция выполняется неединсвенным образом и нужно указывать оси вдоль которых вы хотите выполнить транспонирование. Чтобы это сделать необходимо использовать метод transpoze с указанием нового порядка осей.

Такая операция может пригодиться если у вас, например, есть картинка в формате канал (красный, зеленый, синий), высота, ширина а вам ее нужно привести к виду: ширина, высота, канал

In [None]:
import numpy as np
import os
import pandas as pd
import matplotlib.pyplot as plt

path_picture = '../tables/hse.parquet' if os.path.exists('../tables/hse.parquet') else 'https://drive.google.com/uc?id=1rexnf15Sm3WMSqZUi-AH1flul4P_u7cx'

picture = pd.read_parquet(path_array).to_numpy().reshape(-1, 2500, 3)
plt.imshow(picture)

In [None]:
plt.imshow(picture[:1600, :, :])

In [None]:
plt.imshow(picture[:1600, :, :].reshape(100, 16, 100, 25, 3).mean(axis=(1, 3)) / 255)

In [None]:
plt.imshow(picture[:1600:16, ::25, :])

In [None]:
# transpose(0, 1, 2) вернет вам ту же самую матрицу, что и было, поскольку оси идут по порядку
picture.transpose(0, 1, 2)

In [None]:
# Сначала у нас идет первая рзамерность, затем вторая, а потом нулевая
picture.transpose(1, 2, 0)

Поменяйте местами первые две оси. В этому случае картинка должна отразиться по диагонали

In [None]:
# Напишите свой код здесь

Представьте, что у вас есть 10 картинок в представленных в виде матрицы размером (номер картинки, канал, высота, ширина). Привидите ее к размеру (номер картинки, высота, ширина, канал)

In [None]:
np.random.seed(53423456)
images = np.random.rand(10, 3, 1080, 1920)

In [None]:
# Напишите свой код здесь