# Основы линейной алгебры в Numpy

In [None]:
# Импортируем нужные библиотеки
import numpy as np

## Векторы

In [15]:
# вектор-строка
a = np.array([0, 1, 2, 3, 4])
print(f'Размерность вектора {a.shape}')
a

Размерность вектора (5,)


array([0, 1, 2, 3, 4])

In [18]:
a.size

5

In [19]:
# вектор-столбец
a = np.array([[0], [1], [2], [3], [4]])
print(f'Размерность вектора {a.shape}')
a

Размерность вектора (5, 1)


array([[0],
       [1],
       [2],
       [3],
       [4]])

In [20]:
# Количество объектов
a.size

5

In [21]:
# аналог range
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [22]:
np.arange(10, 5, -2)

array([10,  8,  6])

In [23]:
# возвращает числа равноудаленные в заданном интервале
np.linspace(0, 10, num=17)

array([ 0.   ,  0.625,  1.25 ,  1.875,  2.5  ,  3.125,  3.75 ,  4.375,
        5.   ,  5.625,  6.25 ,  6.875,  7.5  ,  8.125,  8.75 ,  9.375,
       10.   ])

In [None]:
np.linspace(0, 1, num=5)

In [None]:
z = np.zeros(10, dtype='int')
# z = np.zeros(10)
z

In [None]:
z.dtype

In [None]:
o = np.ones(5, dtype='int')
o

In [None]:
o.dtype = 'int'
print(o)
o.dtype

In [None]:
oo = np.zeros_like(o)
oo.append(10)

In [None]:
o[1:3] = 10
o

In [None]:
np.where(o == 10)

In [None]:
o

In [None]:
np.where(o != 1, 2, o)

## Матрицы

In [None]:
a = np.array([[0, 1], [1, 1], [2, 1], [3, 1], [4, 1]])
a.shape

In [None]:
# Количество объектов
a.size

In [None]:
A = np.array([[1, 2],
              [6, 3]])
A / 2

In [None]:
A.shape

In [None]:
A.reshape(1, -1).shape

In [None]:
A

In [None]:
A.resize(4)

In [None]:
A

In [None]:
A = np.array([[1, 2],
              [6, 3]])
A + 2

In [None]:
A * 2

### Математика с несколькими матрицами

In [None]:
A = np.array([[1, 2],
              [6, 3]])

B = np.array([[0, 4],
              [0, 2]])

# сложение матриц
A + B

In [None]:
# поэлементное переменожение матриц
A * B

In [None]:
# матричное переменожение (строка на столбец)
A @ B
A.dot(B)
np.dot(A, B)

In [None]:
# строка на столбец
print(f'Первая строка {A[0]}')
print(f'Первый столбец {B[:, 0]}')

A[0] * B[:, 0]

In [None]:
# строка на столбец
print(f'Первая строка {A[0]}')
print(f'Второй столбец {B[:, 1]}')
A[0] * B[:, 1]

In [None]:
# для перемножения матриц нужно, чтобы кол-во столбцов совпадало с кол-вом строк
A.shape, B.shape

In [None]:
A = np.array([[1, 2],
              [6, 3]])

C = np.array([[0, 1],
              [0, 3],
              [9, 3]])
A @ C

In [None]:
A.shape, C.shape

In [None]:
# конкатенация массивов
np.concatenate([A, C[:2]], axis=1)

In [None]:
np.linalg.det(A)

### Получение статистик

In [None]:
a = np.array([1, 2, 3, 4, 5])
a

**Среднее арифметическое**

In [None]:
mean = a.sum() / len(a)
mean

**Дисперсия и стандартное отклонение**

*Дисперсия* - это показатель вариации, который представляет собой средний квадрат отклонений от математического ожидания (среднее арифметическое). Она выражает разброс чисел относительно среднего значения.

*Стандартное отклонение* (среднеквадратичное отклонение) - это величина, характеризующая разброс данных относительно среднего значения.

In [None]:
a - mean

In [None]:
variance = np.mean((a - mean) ** 2)
std = np.sqrt(variance)
variance, std

Подсчет с помощью numpy

In [None]:
mean_np = np.mean(a)
mean_np

In [None]:
std_np = np.std(a)
std_np

In [None]:
np.var(a)

**Медиана**

*Медиана* - значение, которая делит его на две равные части или же проще говоря, это середина отсортированной выборки.

In [None]:
a = [3, 4, 5, 6, 1, 2, 2, 6]
a = np.sort(a)
a

In [None]:
len(a)

In [None]:
np.median(a)

**Квантили**

*Квартили* - это значения, которые делят выборку на 4 равные (по количеству объектов) части.
Откуда следует, что вторая квартиль - это медиана.


КваНтиль 50% = КваРтиль 2 = медиана

In [None]:
np.quantile(a, 0.5)

In [None]:
np.median(a)

КваНтиль 25% = КваРтиль 1

In [None]:
a

In [None]:
np.quantile(a, q=0.25)

КваНтиль 75% = КваРтиль 3

In [None]:
np.quantile(a=a, q=0.75)

**Мода**

Мода - это объект с максимальной частотой или проще говоря, самый популярный (частовстречаемый) объект в выборке.

In [None]:
a

In [None]:
import pandas as pd

pd.Series(a).mode()

#### Статистики на примере

In [None]:
np.random.seed(1)
salary1 = np.random.randint(10000, 80000, size=400)
salary2 = np.random.randint(1e6, 1e7, size=5)
salary = np.r_[(salary1, salary2)]

pd.Series(salary).hist();

In [None]:
salary.min(), salary.max()

In [None]:
salary.mean()

In [None]:
np.median(salary)

In [None]:
np.where(salary > np.median(salary))[0].shape

In [None]:
np.std(salary)

In [None]:
np.quantile(salary, q=0.5)

In [None]:
np.quantile(salary, q=0.25)

In [None]:
np.quantile(salary, q=0.75)

In [None]:
np.quantile(salary, q=0.01)

In [None]:
pd.Series(salary).mode()

In [None]:
pd.Series(salary).value_counts()

#### С матрицами

In [None]:
np.sum(A) / A.size

In [None]:
A[:, 0].sum() / A[:, 0].size  # axis=0

In [None]:
A[:, 1].sum() / A[:, 1].size  # axis=0

In [None]:
A[0].sum() / A[0].size, A[1].sum() / A[1].size  # axis=1

In [None]:
print(f'Среднее по всему массиву {np.mean(A)}')
print(f'Среднее по столбцам {np.mean(A, axis=0)}')
print(f'Среднее по строкам {np.mean(A, axis=1)}')

### Модуль random в numpy

In [None]:
np.random.seed(1)  # фиксация случайности
np.random.randint(0, 5, size=3)

In [24]:
np.random.randn(2, 5)

array([[ 0.79795396,  0.36929797, -0.70694245, -0.29535402, -0.10362975],
       [-0.15295427, -0.43533704,  0.13624039, -0.98899325, -1.54270799]])

In [None]:
np.random.choice(np.array([2, 1, 3, 4]), size=3, replace=False)

In [None]:
np.random.choice(
    ['white', 'black', 'red', 'blue'],
    size=2,
    replace=False)

### 🧠 Упражнение: поиск среднего значение в строках

Создайте двумерный массив numpy размером 5x5, заполненный случайными целыми числами от 1 до 10. Найдите среднее значение каждой строки и выведите результат.


#### 🧠 Упражнение: поиск среднего значение в строках (ответ)

Создайте двумерный массив numpy размером 5x5, заполненный случайными целыми числами от 1 до 10. Найдите среднее значение каждой строки и выведите результат.


In [26]:
np.random.seed(1)

n = 5
array = np.random.randint(1, 10, size=n*n)
array = array.reshape((n, n))
array.mean(axis=1)

array([4.6, 5. , 4.4, 5.4, 5. ])

In [None]:
array

In [None]:
array[0].mean(), array[1].mean()

### 🧠 Упражнение: замена столбца на среднее


Создайте двумерный массив numpy размером 6x6, заполненный случайными числами. Найдите среднее значение каждого столбца и замените все элементы столбца на это среднее значение.

#### 🧠 Упражнение: замена столбца на среднее (ответ)


In [None]:
np.random.seed(1)

n = 6
array = np.random.randint(1, 10, size=n*n)
array = array.reshape((n, n))
mean_values = array.mean(axis=0)

In [None]:
array

In [None]:
array[:, 0].mean(), array[:, 1].mean()

In [None]:
array.dtype = 'float'
array.dtype

In [None]:
for i in range(array.shape[1]):
    array[:, i] = mean_values[i]

array

## Векторы в пространстве

In [None]:
import matplotlib.pyplot as plt

vec0 = np.array([0, 1])
vec1 = np.array([5, 0])


plt.figure(figsize=(8, 6))

for i, vector in enumerate([vec0, vec1]):
    plt.plot([0, vector[0]], [0, vector[1]], label=f'{i} vector')

plt.legend();

In [None]:
# найти гипотенузу прямоугольника
# a^2 + b^2 = c^2

((5 - 0) ** 2 + (1 - 0) ** 2) ** 0.5

In [None]:
vec0 - vec1

In [None]:
np.sqrt(((vec0 - vec1) ** 2).sum())

In [None]:
np.linalg.norm(vec0 - vec1, ord=1)

## Применение numpy массивов

In [None]:
import matplotlib.pyplot as plt
import requests
import cv2


response = requests.get('https://web-zoopark.ru/wp-content/uploads/2018/07/7-9.jpg')
response

In [None]:
img_bytes = response.content
img_bytes

In [None]:
np.frombuffer(img_bytes, np.uint8)

In [None]:
img = cv2.imdecode(np.frombuffer(img_bytes, np.uint8), -1)
plt.imshow(img);

In [None]:
img

In [None]:
img.shape

BGR -> RGB

In [None]:
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.imshow(img);

In [None]:
img

In [None]:
img.shape

In [None]:
print(f'Высота {img.shape[0]}')
print(f'Ширина {img.shape[1]}')
print(f'Количество каналов {img.shape[2]}')

In [None]:
x_min, x_max = 400, 900
y_min, y_max = 200, 600

crop_img = img[y_min:y_max, x_min:x_max]
print('Срез фотки', crop_img.shape)
plt.imshow(crop_img);

In [None]:
cv2.imwrite('img.jpeg', crop_img)

In [None]:
crop_img = cv2.imread('img.jpeg')
plt.imshow(crop_img);

In [None]:
crop_img.shape

In [None]:
crop_img = cv2.resize(crop_img, (1000, 800))
plt.imshow(crop_img);

In [None]:
crop_img.shape

### 🧠 Упражнение: объединение изображений

Загрузите два изображения с помощью библиотеки OpenCV и преобразуйте их в массивы numpy. Объедините эти два массива в один, используя операции numpy, и сохраните полученный массив как новое изображение.

Если у изображений разный размер, отмасштабируйте изображения до одного размера (через `cv2.resize`)

In [None]:
!wget 'https://laplaya-rus.ru/wp-content/uploads/4/3/8/4382527fd4dbee20bc240764919f8c12.jpeg' -O img1.jpeg
!wget 'https://laplaya-rus.ru/wp-content/uploads/5/b/8/5b8316fc1354f9a8be2a3506942850c1.jpeg' -O img2.jpeg

#### 🧠 Упражнение: объединение изображений (ответ)


In [None]:
img1 = cv2.imread('img1.jpeg')
img1 = cv2.cvtColor(img1, cv2.COLOR_BGR2RGB)
img1.shape

In [None]:
img2 = cv2.imread('img2.jpeg')
img2 = cv2.cvtColor(img2, cv2.COLOR_BGR2RGB)
img2.shape

In [None]:
img2 = cv2.resize(img2, (img1.shape[1], img1.shape[0]))

In [None]:
img = np.concatenate([
    img1,
    img2
])

plt.imshow(img);

# Система рекомендаций

## Подготовка данных

In [None]:
# Источник и описание полей датасета: http://archive.ics.uci.edu/ml/datasets/online+retail#

In [None]:
# Импортируем нужные библиотеки
import pandas as pd

In [None]:
%%time
# Загружаем и читаем датасет
df = pd.read_excel('http://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx')
# df = pd.read_excel('OnlineRetail.xlsx')
df.head()

In [None]:
# Смотрим размеры датасета
df.shape

In [None]:
df[df['Quantity'] <= 0]

In [None]:
# Чистим датасет: удаляем записи с нулевыми покупками
df = df[df['Quantity'] > 0]

In [None]:
df.isna().sum()

In [None]:
# Чистим датасет: удаляем записи с пропусками в customer_id
df = df.dropna(subset=['CustomerID'])

In [None]:
df.isna().sum()

In [None]:
df['CustomerID'] = df['CustomerID'].astype('int')

In [None]:
# Агрегируем данные в сводную таблицу "покупатель - товар"
customer_item_matrix = df.pivot_table(
    index='CustomerID',
    columns='StockCode',
    values='Quantity',
    aggfunc='sum'
)

customer_item_matrix.head()

In [None]:
# Смотрим на размеры таблицы
customer_item_matrix.shape

In [None]:
# Сравниваем кол-во строк с кол-вом уникальных покупателей в исходном датафрейме
df['CustomerID'].nunique()

In [None]:
# Сравниваем кол-во столбцов с кол-вом уникальных товаров в исходном датафрейме
df['StockCode'].nunique()

In [None]:
# Заменяем кол-во покупок на событие: 1 - факт покупки, 0 - отсутствие покупки
customer_item_matrix = customer_item_matrix.map(lambda x: 1 if x > 0 else 0)
customer_item_matrix.head()

## Коллаборативная фильтрация (Collaborative Filtering)

<img src='https://repository-images.githubusercontent.com/107717770/e1dfeb9b-ac36-4a49-8150-d6136705186b'>

Ссылка на изображение: https://repository-images.githubusercontent.com/107717770/e1dfeb9b-ac36-4a49-8150-d6136705186b

In [None]:
# Импортируем библиотеку для создания разреженной матрицы
from scipy.sparse import csr_matrix

In [None]:
n = np.array([[1, 0.5, 0],
              [3, 0, 5],
              [0, 5, 0]])

In [None]:
csr_n = csr_matrix(n)  # sparse matrix
csr_n

In [None]:
print(csr_n)

In [None]:
csr_n.data

In [None]:
csr_n.indices

In [None]:
csr_n.toarray()

<table>
<tr>
<td>
<img src='https://drive.google.com/uc?export=view&id=1TrLSown1yxEswyJd_PeBl3yjnzioKTuQ' width=400>
</td>
<td>
<img src='https://drive.google.com/uc?export=view&id=1FbARc1vHbEURgDlwY_qkaq2YWRLFk8db' width=400>
</td>
</tr>
</table>

In [None]:
# Задаем функцию расчета косинуса между векторами-строками покупателей
def cos_sim(array):
    # преобразуем
    csr_array = csr_matrix(array)
    numerator = np.dot(csr_array, csr_array.T).toarray()
    denomenator = np.linalg.norm(array, axis=1, keepdims=True) * np.linalg.norm(array.T, axis=0, keepdims=True)
    return numerator / denomenator

In [None]:
# A

In [None]:
# np.linalg.norm(A, axis=1, keepdims=True)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6))

for i, vector in enumerate(n):
    plt.plot([0, vector[0]], [0, vector[1]], label=f'{i} vector')

plt.legend();

In [None]:
n[0], n[1], n[2]

In [None]:
# Вычисляем косинусную меру сходства между векторами-строками игрушечного массива
cos_sim(n)

In [None]:
# Преобразуем исходную матрицу "покупатель - товар" в массив numpy
m = customer_item_matrix.values
m

In [None]:
# Вычисляем косинусную меру сходства между векторами-строками покупателей
user_user_sim_matrix = cos_sim(m)
user_user_sim_matrix

In [None]:
# Добавляем название столбцов и индексов в матрицу мер близости между векторами-строками покупателей
user_user_sim_matrix = pd.DataFrame(user_user_sim_matrix)

user_user_sim_matrix.columns = customer_item_matrix.index

user_user_sim_matrix['CustomerID'] = customer_item_matrix.index
user_user_sim_matrix = user_user_sim_matrix.set_index('CustomerID')

user_user_sim_matrix.head()

## Рекомендации на основе коллаборативной фильтрации

In [None]:
# На примере эталонного покупателя находим тех покупателей, которые близки к нему по косинусной мере
user_user_sim_matrix.loc[12350].sort_values(ascending=False)

In [None]:
# customer_item_matrix

In [None]:
# Определяем перечень уникальных покупок нашего эталонного покупателя
A = customer_item_matrix.loc[12350]
items_bought_by_A = A[A > 0].index.tolist()
items_bought_by_A

In [None]:
# Определяем перечень уникальных покупок покупателя наиболее близкого к нашему
B = customer_item_matrix.loc[17935]
items_bought_by_B = B[B > 0].index.tolist()
items_bought_by_B

In [None]:
# Отбираем те покупки, которые есть у близкого к нашему покупателю, но нет у нашего покупателя
items_to_recommend_to_A = set(items_bought_by_B) - set(items_bought_by_A)
items_to_recommend_to_A

In [None]:
# Выводим перечень товаров, рекомендованных для нашего эталонного покупателя
df[df['StockCode'].isin(items_to_recommend_to_A)][['StockCode', 'Description']].drop_duplicates().set_index('StockCode')

### 🧠 Упражнение: item_based коллаборативная фильтрация

1. Используйте датасет с  текущего урока.
2. Создайте матрицу item-customer (по строкам - товары, по столбцам - покупатели)
3.Проведите оценку мер близости товаров, получив матрицу item_item_sim_matrix со значениями косинусов между векторами товаров.
4. Отберите ТОП-10 похожих товаров по StockCode. 23166
5. Выведите список ТОП-10 похожих товаров с названиями (Description) на экран.

#### 🧠 Упражнение: item_based коллаборативная фильтрация (ответ)


In [None]:
# Импортируем нужные библиотеки
import pandas as pd
import numpy as np
from scipy.sparse import csr_matrix

In [None]:
%%time
# Загружаем и читаем датасет
df = pd.read_excel('http://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx')
# df = pd.read_excel('OnlineRetail.xlsx')
df.head()

In [None]:
# Чистим датасет: удаляем записи с нулевыми покупками
df = df[df['Quantity'] > 0]

# Чистим датасет: удаляем записи с пропусками в customer_id
df = df.dropna(subset=['CustomerID'])
df['CustomerID'] = df['CustomerID'].astype('int')

In [None]:
# Агрегируем данные в сводную таблицу "товар - покупатель"
item_customer_matrix = df.pivot_table(
    index='StockCode',
    columns='CustomerID',
    values='Quantity',
    aggfunc='sum'
)

item_customer_matrix.head()

In [None]:
# Заменяем кол-во покупок на событие: 1 - факт покупки, 0 - отсутствие покупки
item_customer_matrix = item_customer_matrix.applymap(lambda x: 1 if x > 0 else 0)
item_customer_matrix.head()

In [None]:
# Задаем функцию расчета косинуса между векторами-строками покупателей
def cos_sim(array):
    # преобразуем
    csr_array = csr_matrix(array)
    numerator = np.dot(csr_array, csr_array.T).toarray()
    denomenator = np.linalg.norm(array, axis=1, keepdims=True) * np.linalg.norm(array.T, axis=0, keepdims=True)
    return numerator / denomenator

In [None]:
# Преобразуем исходную матрицу "товар - покупатель" в массив numpy
m = item_customer_matrix.values
m

In [None]:
# Вычисляем косинусную меру сходства между векторами-строками товаров
item_item_sim_matrix = cos_sim(m)
item_item_sim_matrix

In [None]:
# Добавляем название столбцов и индексов в матрицу мер близости между векторами-строками покупателей
item_item_sim_matrix = pd.DataFrame(item_item_sim_matrix)

item_item_sim_matrix.columns = item_customer_matrix.index

item_item_sim_matrix['StockCode'] = item_customer_matrix.index
item_item_sim_matrix = item_item_sim_matrix.set_index('StockCode')

item_item_sim_matrix.head()

In [None]:
# На примере товара находим те товары, которые близки к нему по косинусной мере
top_10_similar_items = item_item_sim_matrix.loc[23166].sort_values(ascending=False).iloc[1:11].index
top_10_similar_items

In [None]:
df[df['StockCode'] == 23166].drop_duplicates('StockCode')[['StockCode', 'Description']]

In [None]:
df[df['StockCode'].isin(top_10_similar_items)][['StockCode', 'Description']].drop_duplicates().set_index('StockCode').loc[top_10_similar_items]