### Отзывы о продуктах питания и гурманской пище file_path = 'Grocery_and_Gourmet_Food_5

- Рекомендательные системы — это комплекс сервисов и программ, который анализирует предпочтения пользователей и пытается предсказать, что может их заинтересовать. Они помогают клиентам определиться с выбором товара или контента, а также повышают лояльность, конверсию и средний чек интернет-магазинов, предприятий быстрого питания, телекоммуникационных и финансовых организаций.
- Существует два основных типа рекомендательных систем: контентно-ориентированная и коллаборативная фильтрация.
- Контентно-ориентированная фильтрация основана на анализе характеристик товаров и предпочтениях пользователя. Система анализирует содержание товаров, такие как текстовые описания, категории, ключевые слова и т. д., и сопоставляет их с предпочтениями пользователя. На основе этого анализа система предлагает рекомендации, соответствующие интересам пользователя.
- Коллаборативная фильтрация рекомендует продукты как на основе оценок самого покупателя, так и на основе явных и неявных предпочтений других пользователей. Например, если вы купили стиральную машину, то коллаборативная система предложит товары, которыми интересовались другие покупатели стиральных машин, а не машину другого бренда.
- Универсальных методов не существует, и всё чаще применяется гибридный подход, который сочетает методы для получения максимально точных рекомендаций на имеющихся данных и при минимальных затратах времени.

- Alternating Least Squares (ALS) — это метод матричной факторизации, который используется в рекомендательных системах для предсказания предпочтений пользователей. ALS работает путем разложения исходной матрицы рейтингов на две меньшие матрицы: одну для пользователей, которая представляет их личные предпочтения, и другую для товаров, которая представляет характеристики товаров.
- Алгоритм ALS работает в два шага, которые чередуются:
- Итерация по пользователям: Матрица товаров фиксируется, а матрица пользователей обновляется таким образом, чтобы минимизировать ошибку между рейтингами пользователей и предсказанными рейтингами, основанными на текущем состоянии матрицы товаров.
- Итерация по товарам: Матрица пользователей фиксируется, а матрица товаров обновляется аналогичным образом, чтобы минимизировать ошибку между рейтингами товаров и предсказанными рейтингами, основанными на текущем состоянии матрицы пользователей.
- Этот процесс повторяется до тех пор, пока не будет достигнута достаточная точность или не будет выполнено максимальное количество итераций. ALS также включает регуляризацию, чтобы предотвратить переобучение и улучшить обобщающую способность модели.
- ALS особенно эффективен для работы с большими наборами данных и может быть распараллелен для ускорения процесса обучения на кластерах машин. Это делает ALS подходящим выбором для рекомендательных систем, где требуется обработка больших объемов данных/

- Скачаем набор данных Amazon, который включает отзывы пользователей о различных продуктах. Данные предоставляются в формате JSON и могут быть использованы для экспериментов и анализа данных.
- "5-core" и "ratings only" относятся к двум разным типам данных, доступных на сайте Amazon Review Data.
- "5-core" относится к подмножеству данных, в котором каждое из оставшихся пользователей и элементов имеет 5 отзывов каждый. Это означает, что если у пользователя было менее 5 отзывов, он был исключен из этого набора данных. Эти данные обычно используются для экспериментов, где требуется большое количество отзывов от каждого пользователя и каждого товара.
- "ratings only" относится к набору данных, который включает только кортежи (item, user, rating, timestamp). 
- Каждый поднабор включает информацию об отзывах пользователей, такую как рейтинг, время отзыва, идентификатор отзывателя и текст отзыва. Это означает, что в этих данных нет метаданных или самих отзывов, они включают только рейтинги. 

In [2]:
# Установка ширины контейнера для отображения
from IPython.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

In [3]:
# Импорт библиотеки pandas для работы с данными в формате DataFrame
import pandas as pd

# Импорт модуля scipy.sparse для работы с разреженными матрицами
import scipy.sparse as sparse

# Импорт библиотеки numpy для выполнения математических операций
import numpy as np

# Импорт функции spsolve из модуля scipy.sparse.linalg для решения систем линейных уравнений
from scipy.sparse.linalg import spsolve

# Импорт модуля warnings для управления предупреждениями
import warnings

# Отключение предупреждений, которые могут появляться при выполнении кода
# Это может быть полезно, если вы хотите избежать прерывания выполнения кода из-за предупреждений
warnings.filterwarnings("ignore")

In [4]:
import pandas as pd

# Путь к файлу с отзывами о продуктах питания и гурманской пище
file_path = 'Grocery_and_Gourmet_Food_5.json.gz' 

# Чтение JSON файла по частям с использованием chunksize
chunk_size =  10000  # Размер части данных для чтения за один раз
chunks = []

for chunk in pd.read_json(file_path, lines=True, chunksize=chunk_size):
    chunks.append(chunk)

# Объединение всех частей в один DataFrame
retail_data = pd.concat(chunks, ignore_index=True)

# Вывод первых пяти строк DataFrame
print(retail_data.head())


   overall  verified   reviewTime      reviewerID        asin  \
0        5      True  11 19, 2014  A1QVBUH9E1V6I8  4639725183   
1        5      True  10 13, 2016  A3GEOILWLK86XM  4639725183   
2        5      True  11 21, 2015  A32RD6L701BIGP  4639725183   
3        5      True  08 12, 2015  A2UY1O1FBGKIE6  4639725183   
4        5      True  05 28, 2015  A3QHVBQYDV7Z6U  4639725183   

      reviewerName                                         reviewText  \
0   Jamshed Mathur                                No adverse comment.   
1        itsjustme                          Gift for college student.   
2  Krystal Clifton  If you like strong tea, this is for you. It mi...   
3          U. Kane  Love the tea. The flavor is way better than th...   
4         The Nana  I have searched everywhere until I browsed Ama...   

                         summary  unixReviewTime vote style image  
0                     Five Stars      1416355200  NaN   NaN   NaN  
1                 Great product.  

In [5]:
# Прочитаем 5 строк
retail_data.head()

Unnamed: 0,overall,verified,reviewTime,reviewerID,asin,reviewerName,reviewText,summary,unixReviewTime,vote,style,image
0,5,True,"11 19, 2014",A1QVBUH9E1V6I8,4639725183,Jamshed Mathur,No adverse comment.,Five Stars,1416355200,,,
1,5,True,"10 13, 2016",A3GEOILWLK86XM,4639725183,itsjustme,Gift for college student.,Great product.,1476316800,,,
2,5,True,"11 21, 2015",A32RD6L701BIGP,4639725183,Krystal Clifton,"If you like strong tea, this is for you. It mi...",Strong,1448064000,,,
3,5,True,"08 12, 2015",A2UY1O1FBGKIE6,4639725183,U. Kane,Love the tea. The flavor is way better than th...,Great tea,1439337600,,,
4,5,True,"05 28, 2015",A3QHVBQYDV7Z6U,4639725183,The Nana,I have searched everywhere until I browsed Ama...,This is the tea I remembered!,1432771200,,,


- Используем библиотеку pandas для чтения данных из сжатого JSON файла с отзывами о продуктах питания и гурманской пище. 
- ниже представлен перевод на русский язык:
- overall — общий рейтинг товара.
- verified — флаг подтверждения отзыва.
- reviewTime — время отзыва в читаемом формате.
- reviewerID — идентификатор пользователя-автора отзыва.
- asin — идентификатор товара Amazon Standard Identification Number.
- reviewerName — имя пользователя-автора отзыва.
- reviewText — текст отзыва.
- summary — краткое содержание отзыва.
- unixReviewTime — время отзыва в формате Unix timestamp.
- vote — количество полезных голосов для отзыва.
- style — метаданные товара (например, формат, цвет и т.д.).
- image — изображения, добавленные пользователем после получения товара.


- Проверим, нет ли в данных недостающих значений.

In [6]:
# Просмотр информации
retail_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1143860 entries, 0 to 1143859
Data columns (total 12 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   overall         1143860 non-null  int64 
 1   verified        1143860 non-null  bool  
 2   reviewTime      1143860 non-null  object
 3   reviewerID      1143860 non-null  object
 4   asin            1143860 non-null  object
 5   reviewerName    1143722 non-null  object
 6   reviewText      1143470 non-null  object
 7   summary         1143641 non-null  object
 8   unixReviewTime  1143860 non-null  int64 
 9   vote            158202 non-null   object
 10  style           592086 non-null   object
 11  image           9510 non-null     object
dtypes: bool(1), int64(2), object(9)
memory usage: 97.1+ MB


- У нас нет пропущенных значений, и все покупки могут быть сопоставлены с конкретным клиентом.


In [7]:
#cleaned_retail = retail_data.loc[pd.isnull(retail_data.reviewerID) == False]
cleaned_retail = retail_data # переменуем переменную для удобства

In [8]:
# Просмотр информации
cleaned_retail.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1143860 entries, 0 to 1143859
Data columns (total 12 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   overall         1143860 non-null  int64 
 1   verified        1143860 non-null  bool  
 2   reviewTime      1143860 non-null  object
 3   reviewerID      1143860 non-null  object
 4   asin            1143860 non-null  object
 5   reviewerName    1143722 non-null  object
 6   reviewText      1143470 non-null  object
 7   summary         1143641 non-null  object
 8   unixReviewTime  1143860 non-null  int64 
 9   vote            158202 non-null   object
 10  style           592086 non-null   object
 11  image           9510 non-null     object
dtypes: bool(1), int64(2), object(9)
memory usage: 97.1+ MB


- Прежде чем мы сделаем какую-либо матрицу рейтингов, было бы неплохо иметь таблицу поиска, в которой отслеживался бы идентификатор каждого товара вместе с его описанием. 
- Возьмём
- asin — идентификатор товара Amazon Standard Identification Number.
- reviewText — текст отзыва.

In [9]:
# DataFrame под названием cleaned_retail
# Создаем временный DataFrame item_lookup, который содержит только столбцы 'asin' и 'reviewText'
# Используем метод drop_duplicates() для удаления дубликатов в этом временном DataFrame
item_lookup = cleaned_retail[['asin', 'reviewText']].drop_duplicates()

# 'asin' является столбцом в исходном DataFrame, который мы хотим преобразовать в строку
# Используем метод astype(str) для преобразования данных в столбце 'asin' в строковый формат
# Затем присваиваем преобразованные данные обратно в столбец 'asin' в DataFrame item_lookup
item_lookup['asin'] = item_lookup.asin.astype(str)

# Теперь у нас есть DataFrame item_lookup, который содержит уникальные комбинации 'asin' и 'reviewText'
# И все значения в столбце 'asin' преобразованы в строковый формат

In [10]:
# Просматриваем матрицу, где ID товара 
item_lookup.head()

Unnamed: 0,asin,reviewText
0,4639725183,No adverse comment.
1,4639725183,Gift for college student.
2,4639725183,"If you like strong tea, this is for you. It mi..."
3,4639725183,Love the tea. The flavor is way better than th...
4,4639725183,I have searched everywhere until I browsed Ama...


- Из представленных транзакций, транзакция с reviewText "No adverse comment." может быть нерелевантна для рекомендательной системы, так как она не предоставляет конкретной информации о предпочтениях пользователя.
- Рекомендательные системы обычно основываются на отзывах, которые содержат полезную информацию о предпочтениях пользователя, такую как оценки, обзоры или описания.
- Транзакции, которые содержат конкретные отзывы, такие как "Gift for college student." или "If you like strong tea, this is for you. It mi...", могут быть более полезными для рекомендательной системы, так как они предоставляют конкретные данные о предпочтениях пользователя и могут быть использованы для предсказания его интересов. 

Это может сказать нам, что каждый предмет, например, 4639725183 коммент - Если вы любите крепкий чай, это для вас.. Теперь, когда он создан, нам нужно:

- Групповое количество покупок вместе по коду и идентификатору товара
- Выкинуть фейковую транзакцию `No adverse comment`, соотвествующую печати чека и присутвующую во всех покупках
- Изменить любые суммы, равные нулю на единицу (это может произойти, если товар был возвращен, но мы хотим указать, что пользователь действительно приобрел товар, вместо того, чтобы предполагать, что взаимодействие между пользователем и товаром никогда не происходило).
- Определяем:
- vote — количество полезных голосов для отзыва.
- reviewerID — идентификатор пользователя-автора отзыва
- asin — идентификатор товара Amazon Standard Identification Number.

Этот последний шаг особенно важен, если вы не хотите иметь ненужных проблем с памятью! Если подумать, то наша матрица будет содержать тысячи элементов и тысячи пользователей со значением "пользователь/элемент", необходимым для каждой возможной комбинации. Это БОЛЬШАЯ матрица, поэтому мы можем сэкономить много памяти, сохраняя только те места и значения элементов, которые не являются нулевыми.

Приведенный ниже код завершит шаги препроцессирования, необходимые для нашей матрицы с разреженными итоговыми рейтингами:

In [11]:
# Выбор строк DataFrame, где столбец 'Description' равен 'No adverse comment'
# Это делается с помощью булевой индексации, где условие 'reviewText == 'No adverse comment'' возвращает Series булевых значений
# С помощью этого Series фильтруются строки DataFrame
filtered_items = item_lookup[item_lookup.reviewText == 'No adverse comment']

# Теперь filtered_items содержит только те строки из item_lookup, где 'reviewText' равен 'No adverse comment'
# Мы можем работать с filtered_items, как с обычным DataFrame

- Определяем:
- vote — количество полезных голосов для отзыва.
- reviewerID — идентификатор пользователя-автора отзыва
- asin — идентификатор товара Amazon Standard Identification Number.

In [12]:
# Выполняем серию операций с DataFrame cleaned_retail, включая фильтрацию, 
# преобразование типов данных, группировку и фильтрацию данных для подготовки к анализу или моделированию/

# cleaned_retail = pd.DataFrame
# Фильтрация DataFrame, чтобы оставить только те строки, где столбец 'asin' не равен 'POST'
# Это делается с помощью булевой индексации, где условие 'asin != 'POST'' возвращает Series булевых значений
# С помощью этого Series фильтруются строки DataFrame
cleaned_retail = cleaned_retail[cleaned_retail['asin'] != 'POST']

In [13]:
# Преобразование столбца 'reviewerID' в категориальный тип данных
# Это делается для оптимизации использования памяти и улучшения производительности при работе с большими наборами данных
# Категориальные данные соответствуют категориальным переменным в статистике, которые принимают ограниченное количество возможных значений
cleaned_retail['reviewerID'] = cleaned_retail['reviewerID'].astype('category')

# Получение кодов категорий для каждого значения в столбце 'reviewerID'
# Коды категорий - это целые числа, которые используются для ссылки на реальные значения в массиве категорий
# Это позволяет эффективно хранить и обрабатывать категориальные данные, особенно когда у нас есть много уникальных значений
cleaned_retail['reviewerID'] = cleaned_retail['reviewerID'].cat.codes

# astype('category') преобразует столбец reviewerID в категориальный тип данных, а cat.codes заменяет каждую уникальную категорию на уникальное целое число

In [14]:
# Преобразование столбца 'reviewerID' в целочисленный тип данных и присвоение его столбцу 'reviewerID'
# Это может быть необходимо для выполнения математических операций или для совместимости с другими данными
# cleaned_retail['reviewerID'] = cleaned_retail.reviewerID.astype(int)

In [15]:
# Выбор только определенных столбцов из DataFrame: 'asin', 'vote', 'reviewerID'
# Это делается для упрощения дальнейшего анализа и уменьшения объема данных
cleaned_retail = cleaned_retail[['asin', 'vote', 'reviewerID']]

In [16]:
# Группировка данных по 'reviewerID' и 'asin', суммирование 'vote' для каждой группы
# reset_index() используется для сброса индекса после группировки, чтобы вернуть DataFrame в обычный вид
grouped_cleaned = cleaned_retail.groupby(['reviewerID', 'asin']).sum().reset_index()

In [17]:
# Замена всех значений в столбце 'vote', равных  0, на  1
# Метод loc используется для выбора строк и столбцов по метке или булевым массивам
# grouped_cleaned.vote ==  0 возвращает Series булевых значений, где True соответствует строкам, где 'vote' равен  0
# grouped_cleaned.vote.loc[grouped_cleaned.vote ==  0] =  1 заменяет значения в столбце 'vote', где условие выполняется, на  1
grouped_cleaned.vote.loc[grouped_cleaned.vote ==  0] =  1

In [18]:
# Посмотрим на тип данных
grouped_cleaned.vote.head()

0    1
1    1
2    1
3    1
4    1
Name: vote, dtype: object

In [19]:
# Убедитесь, что столбец 'vote' является строкой
grouped_cleaned['vote'] = grouped_cleaned['vote'].astype(str)

# Удаление запятых в столбце 'vote'
grouped_cleaned['vote'] = grouped_cleaned['vote'].str.replace(',', '')

# Преобразование столбца 'vote' в тип данных с плавающей точкой
grouped_cleaned['vote'] = grouped_cleaned['vote'].astype(float)


In [20]:
# Посмотрим на тип данных
grouped_cleaned.vote.head()

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
Name: vote, dtype: float64

In [21]:
# для преобразования столбца ‘vote’ в числовой формат. Параметр errors='coerce' гарантирует, что любые ошибки при преобразовании 
# (например, если в столбце есть нечисловые значения) будут приводить к присвоению этим значениям NaN. Затем мы выполняем операцию сравнения как обычно.
# Использование функции pd.to_numeric() с параметром errors='coerce' позволяет преобразовать данные в числовой формат, заменяя нечисловые значения на NaN.
#grouped_cleaned['vote'] = pd.to_numeric(grouped_cleaned['vote'], errors='coerce')


In [22]:
# Используем метод query для фильтрации строк DataFrame, где значение в столбце 'vote' больше  0
# Метод query принимает строку, которая содержит условия для фильтрации, и возвращает новый DataFrame,
# содержащий только те строки, которые удовлетворяют этим условиям
# В данном случае, мы хотим оставить только те строки, где 'vote' больше  0
grouped_purchased = grouped_cleaned.query('vote >   0')

# Теперь grouped_purchased содержит только те строки из grouped_cleaned, где 'vote' больше  0
# Это может быть полезно для последующего анализа, так как оно позволяет сосредоточиться только на строках 
# с положительными оценками

In [23]:
grouped_purchased.vote.head()

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
Name: vote, dtype: float64

- Определяем:
- vote — количество полезных голосов для отзыва.
- reviewerID — идентификатор пользователя-автора отзыва
- asin — идентификатор товара Amazon Standard Identification Number.

In [24]:
# Просмотр матрицы
grouped_purchased.head()

Unnamed: 0,reviewerID,asin,vote
0,0,B000HDI5O8,1.0
1,0,B0013OX8II,1.0
2,0,B002UGMH9Y,1.0
3,0,B006RNQ7YW,1.0
4,1,B000CQE3HS,1.0


In [25]:
# Посмотрим на уникальные значения
grouped_purchased.asin.nunique()

41320

In [26]:
grouped_purchased.reviewerID.nunique()

127496

In [27]:
2392*9758

23341136

In [28]:
#!pip install purl

In [29]:
# Импорт модуля scipy.sparse для работы с разреженными матрицами
import scipy.sparse as sparse

# grouped_purchased = pd.DataFrame
# Получение уникальных значений из столбца 'reviewerID' и их сортировка
# Метод unique() возвращает уникальные значения из столбца DataFrame
# Метод sort() из numpy используется для сортировки уникальных значений
# Метод list() преобразует результат в список
customers = list(np.sort(grouped_purchased.reviewerID.unique()))

# Получение уникальных значений из столбца 'asin' и их преобразование в список
# Это делается для удобства работы с данными, так как уникальные значения можно использовать для индексации
products = list(grouped_purchased.asin.unique())

# Получение списка значений столбца 'vote' из DataFrame grouped_purchased
# Это делается для создания списка, который можно использовать вместе с уникальными пользователями и товарами
quantity = list(grouped_purchased.vote)

# Теперь у нас есть три списка: customers, products и vote
# Список customers содержит уникальных пользователей, отсортированных в порядке возрастания
# Список products содержит уникальные товары
# Список quantity содержит количество покупок для каждого товара каждого пользователя
# Преобразование столбцов 'reviewerID' и 'asin' в категориальные типы данных
# Это делается для улучшения производительности при работе с большими наборами данных
rows = grouped_purchased.reviewerID.astype('category').cat.codes
cols = grouped_purchased.asin.astype('category').cat.codes

# Создание разреженной матрицы с использованием данных из столбца 'vote'
# Строки и столбцы матрицы определяются на основе преобразованных категориальных данных
# Размер матрицы определяется на основе количества уникальных пользователей и товаров
# Значения матрицы берутся из столбца 'vote'
purchases_sparse = sparse.csr_matrix((grouped_purchased.vote, (rows, cols)), shape=(len(customers), len(products)))

# Теперь у нас есть разреженная матрица purchases_sparse, которая представляет собой матрицу оценок пользователей для товаров
# Разреженная матрица эффективна для хранения и обработки больших объемов данных с большим количеством нулей


In [30]:
purchases_sparse

<127496x41320 sparse matrix of type '<class 'numpy.float64'>'
	with 1065424 stored elements in Compressed Sparse Row format>

Вместо того, чтобы представлять явный рейтинг, количество покупки может представлять собой "уверенность" в том, насколько сильным было взаимодействие. Товары с большим количеством покупок покупателя могут иметь больший вес в нашей рейтинговой матрице покупок.

Наш последний шаг - это создание матрицы разреженных рейтингов пользователей и товаров с помощью приведенного ниже кода:


У нас 9758 клиентов с 2392 товарами. Для этих взаимодействий между пользователями и элементами 11645 из них были приобретены. С точки зрения матрицы:

In [31]:
# purchases_sparse = sparse.csr_matrix

# Вычисление размера матрицы purchases_sparse
# Размер матрицы - это количество строк, умноженное на количество столбцов
# purchases_sparse.shape возвращает кортеж (количество строк, количество столбцов)
matrix_size = purchases_sparse.shape[0] * purchases_sparse.shape[1]

# Вычисление количества взаимодействий в матрице purchases_sparse
# Метод nonzero() возвращает индексы ненулевых элементов матрицы
# len(purchases_sparse.nonzero()[0]) возвращает количество ненулевых элементов
num_purchases = len(purchases_sparse.nonzero()[0])

# Вычисление разреженности матрицы purchases_sparse
# Разреженность - это процентное отношение количества ненулевых элементов к общему числу элементов
#  100*(1 - (num_purchases/matrix_size)) вычисляет процентное отношение
sparsity =  100 * (1 - (num_purchases / matrix_size))

# Вывод разреженности матрицы
print("Sparsity:", sparsity)

Sparsity: 99.97977606768568


- 99,95% матрицы разреженно. Для того, чтобы фильтрация работала, разреженность должна быть меньше чем приблизительно 99.5%. 


 - Вычисляем разреженность матрицы purchases_sparse, которая представляет собой матрицу рейтингов пользователей для товаров. Вы вычисляете количество взаимодействий (ненулевых элементов) и общее количество возможных взаимодействий (размер матрицы), а затем вычисляете разреженность как процентное отношение количества взаимодействий к общему количеству элементов

Теоритическая справка
- Разреженность матрицы — это показатель того, насколько часто в матрице встречаются ненулевые значения. Матрицы с высокой разреженностью обычно более эффективны для хранения и обработки, поскольку они используют меньше памяти и ресурсов для обработки.
- Мы вычисляем разреженность матрицы purchases_sparse, которая представляет собой матрицу рейтингов пользователей для товаров. 
Вычисляем количество взаимодействий (ненулевых элементов) и общее количество возможных взаимодействий (размер матрицы), а затем вычисляем разреженность как процентное отношение количества взаимодействий к общему количеству элементов.
- Это может быть полезно для определения, насколько "полной" является наша матрица рейтингов, и для выбора подходящих алгоритмов рекомендаций, которые могут работать эффективно с разреженными данными.

- Вывод:
- Наша матрица имеет очень высокий уровень разреженности, что может затруднить применение некоторых методов фильтрации. Разреженность матрицы означает, что большинство ее элементов равны нулю. В вашем случае 99,95% элементов матрицы равны нулю.

- Возможно, стоит рассмотреть использование методов, специально предназначенных для работы с разреженными данными. Например, вместо обычных матричных операций мы можем использовать специализированные алгоритмы и структуры данных для разреженных матриц, которые эффективно работают с большим количеством нулевых значений.
- Также стоит отметить, что некоторые методы машинного обучения могут работать неправильно или неэффективно на сильно разреженных данных. Возможно, нам придется применить методы уменьшения размерности, такие как PCA (метод главных компонент), чтобы сделать данные менее разреженными.

- Наконец, возможно, нам стоит рассмотреть другие критерии фильтрации, которые могут быть более подходящими для вашего случая. 

## Создание тренировочного и валидационного сета

In [32]:
# Импорт библиотеки random для генерации случайных чисел
import random
import numpy as np

# Функция make_train принимает матрицу рейтингов и процент тестовых данных
# и возвращает обучающий и тестовый наборы, а также список уникальных пользователей
def make_train(ratings, pct_test=0.2):
    # Создание копии тестового набора данных
    test_set = ratings.copy()
    
    # Замена всех ненулевых значений в тестовом наборе на  1
    # Это делается для удобства последующего сравнения с обучающим набором
    test_set[test_set !=  0] =  1
    
    # Создание копии обучающего набора данных
    training_set = ratings.copy()
    
    # Получение индексов ненулевых элементов в обучающем наборе
    nonzero_inds = training_set.nonzero()
    
    # Создание списка пар индексов (пользователь, товар) для ненулевых элементов
    nonzero_pairs = list(zip(nonzero_inds[0], nonzero_inds[1]))
    
    # Установка семени для генератора случайных чисел
    # Это делается для воспроизводимости результатов
    random.seed(0)
    
    # Вычисление количества тестовых образцов
    num_samples = int(np.ceil(pct_test * len(nonzero_pairs)))
    
    # Выбор случайных тестовых образцов из списка пар индексов
    samples = random.sample(nonzero_pairs, num_samples)
    
    # Извлечение индексов пользователей и товаров из выбранных образцов
    user_inds = [index[0] for index in samples]
    item_inds = [index[1] for index in samples]
    
    # Замена выбранных образцов в обучающем наборе на  0
    # Это делается для создания "пустоты" в обучающем наборе, где рейтинги неизвестны
    training_set[user_inds, item_inds] =  0
    
    # Удаление ненулевых элементов из обучающего набора, которые стали равными  0
    training_set.eliminate_zeros()
    
    # Возвращение обучающего и тестового наборов, а также списка уникальных пользователей
    return training_set, test_set, list(set(user_inds))

Это вернет наш набор для обучения, тестовый набор, который был бинаризован в 0/1 для купленных/не купленных, и список пользователей, у которых по крайней мере один пункт был замаскирован. Мы протестируем работу системы рекомендующих только на этих пользователях. В этом примере я маскирую 20% взаимодействия пользователя с элементом.

In [33]:
# Разреженная матрица purchases_sparse
# purchases_sparse = sparse.csr_matrix

# Использование функции make_train для разделения данных
# pct_test =  0.2 означает, что  20% данных будут использоваться для тестирования
# функция возвращает три объекта: product_train, product_test и product_users_altered
# product_train - обучающая выборка данных
# product_test - тестовая выборка данных
# product_users_altered - возможно, это измененный список пользователей, соответствующий тестовой выборке
product_train, product_test, product_users_altered = make_train(purchases_sparse, pct_test=0.2)

# Теперь у нас есть обучающая и тестовая выборки, которые можно использовать для обучения и тестирования модели рекомендаций

In [34]:
product_train, product_test, product_users_altered = make_train(purchases_sparse, pct_test = 0.2)

In [35]:
# product_train - это DataFrame, содержащий обучающие данные

# Вывод типа объекта product_train
type(product_train)

scipy.sparse._csr.csr_matrix

In [36]:
# product_train - это матрица рейтингов пользователей для товаров

# Получение размерности матрицы product_train
# .shape возвращает кортеж (количество строк, количество столбцов)
product_train.shape

(127496, 41320)

##  ALS

In [37]:
# !pip install implicit
#!apt install cuda
#!conda install -c conda-forge git+https://github.com/benfred/implicit.git@18a8010b07e8a86f8eb37f837b5bbda11647501f

- Теритическая справка
- Библиотека implicit является библиотекой Python, которая предоставляет реализацию алгоритма Alternating Least Squares (ALS) для рекомендательных систем.
- ALS — это метод матричного факторизации, который используется для обнаружения скрытых структур в данных и может быть применен к рекомендательным системам для предсказания предпочтений пользователей.

In [38]:
# Импорт библиотеки implicit для работы с алгоритмами машинного обучения рекомендаций
import implicit

**Caution: bag in new ALS version**

Обратите внимание, в новой версии `implicit.als.AlternatingLeastSquares` появила поддержка GPU по умолчанию. Однако она пока работает некорректно, и качество полученной модели может оказаться на уровне рандома. Поэтому для надежности использовать GPU не рекомендуется. Для этого необходимо в явном виде задать параметр `use_gpu = False`.

- Используем библиотеку implicit для обучения модели на основе метода альтернативных наименьших квадратов (ALS). 

In [39]:
# Создание экземпляра модели ALS с заданными параметрами
# factors - количество факторов для факторизации матрицы
# regularization - параметр регуляризации для предотвращения переобучения
# iterations - количество итераций обучения
# use_gpu - флаг, указывающий использовать ли GPU для обучения (False означает использование CPU)
algo = implicit.als.AlternatingLeastSquares(factors=32, regularization=0.1, iterations=50, use_gpu=False)

# Обучение модели на данных, представленных в виде разреженной матрицы (product_train)
# .astype('double') преобразует данные в тип double для более точных вычислений
algo.fit((product_train).astype('double'))


  0%|          | 0/50 [00:00<?, ?it/s]

В новой версии также надо быть аккуратнее в векторами для юзеров и для айтемов.


Вектора для юзеров:
```
user_vecs = algo.user_factors
```

Вектора для товаров:
```
item_vecs = algo.item_factors
```




In [40]:
# Получение векторов факторов для пользователей и товаров из обученной модели
# user_factors содержит векторы факторов для каждого пользователя
# item_factors содержит векторы факторов для каждого товара
user_vecs = algo.user_factors
item_vecs = algo.item_factors

# Проверка размеров матриц, чтобы убедиться, что мы не перепутали пользователей и товары
# product_train.shape возвращает размерность исходной матрицы рейтингов
# user_vecs.shape и item_vecs.shape возвращают размерности матриц векторов факторов
print(product_train.shape)
print(user_vecs.shape, item_vecs.shape)

(127496, 41320)
(127496, 32) (41320, 32)


- Кол-во пользоватеей 9758, товары 2392

In [41]:
# Вычисление скалярного произведения между векторами пользователей и товаров
# Оператор .T транспонирует массив item_vecs, чтобы его можно было использовать в скалярном произведении
# Результатом является матрица, где каждый элемент представляет собой "оценку" пользователя для товара
# user_vecs.dot(item_vecs.T).shape

In [42]:
# Посмотрим какое количество товара с индексом 13 пользователь купит с индексом 2.
# вычисляем сходство между конкретным пользователем и конкретным элементом, используя их векторные представления. 
# `user_vecs[13,:]` выбирает 14-й вектор пользователя (индексация в Python начинается с 0)
# `item_vecs[2,:]` выбирает 3-й вектор элемента

# `.dot(item_vecs[2,:])` выполняет операцию скалярного произведения между 14-м вектором пользователя и 3-м вектором элемента.
# Скалярное произведение измеряет сходство между двумя векторами: большое скалярное произведение указывает на большое сходство.

# Результат - "ноль", которое представляет сходство между 14-м пользователем и 3-м элементом.

user_vecs[13,:].dot(item_vecs[2,:])

-1.862483e-05

In [43]:
# product_train - это DataFrame, содержащий обучающие данные

# Вывод размерности матрицы product_train
print(product_train.shape)

(127496, 41320)


## Оценка Системы

Мы отложили в тест 20% покупок. Это позволит нам оценить работу нашей системы рекомендаций. По сути, нам нужно посмотреть, соответствует ли порядок рекомендаций для каждого пользователя тем предметам, которые он в итоге приобрел. Часто используемой метрикой для такого рода проблем является область под кривой [Receiver Operating Characteristic](https://en.wikipedia.org/wiki/Receiver_operating_characteristic) (или ROC). Большая площадь под кривой означает, что мы рекомендуем товары, которые в конечном итоге были приобретены в верхней части списка рекомендуемых товаров. Обычно эта метрика используется в более типичных проблемах бинарной классификации для определения того, насколько хорошо модель может предсказать положительный пример по сравнению с отрицательным. Она также будет хорошо работать для наших целей ранжирования рекомендаций.

Для этого нам нужно написать функцию, которая может вычислить среднюю область под кривой (AUC) для любого пользователя, у которого хотя бы один элемент был замаскирован. В качестве эталона мы также вычислим, каким был бы средний AUC, если бы мы просто рекомендовали наиболее популярные элементы. Популярность, как правило, трудно превзойти в большинстве проблем рекомендательных систем, так что это - хороший baseline.

Во-первых, давайте сделаем простую функцию, которая может вычислить наш AUC. У Scikit-learn есть функция, которую мы можем немного изменить.

- Функция roc_curve из библиотеки sklearn.metrics используется для вычисления значений для построения ROC-кривой (Receiver Operating Characteristic curve) — графика, который показывает производительность бинарного классификатора в зависимости от порога классификации.
- ROC-кривая — это инструмент для визуализации качества бинарного классификатора, и она строится по двум значениям: чувствительность (true positive rate, TPR) и 1 минус специфичность (false positive rate, FPR)

In [44]:
# импортируем функцию roc_curve из модуля sklearn.metrics и используем ее для вычисления значений, необходимых для построения ROC-кривой
from sklearn import metrics
metrics.roc_curve?

In [45]:
metrics.auc?

In [46]:
# Эта функция принимает два аргумента: predictions, который содержит предсказанные вероятности класса, и test, 
# который содержит истинные метки класса. Функция возвращает значение AUC, которое представляет собой площадь под ROC-кривой,
# отражающую качество бинарного классификатора.

# Функция для вычисления площади под ROC-кривой (AUC)
def auc_score(predictions, test):
    # Вычисление значений для построения ROC-кривой
    # fpr (false positive rate), tpr (true positive rate), thresholds (пороги классификации)
    fpr, tpr, thresholds = metrics.roc_curve(test, predictions)

    # Вычисление площади под ROC-кривой (AUC)
    # AUC оценивает способность модели различать классы на различных порогах классификации
    return metrics.auc(fpr, tpr)


Теперь используем эту вспомогательную функцию внутри второй функции, которая будет вычислять AUC для каждого пользователя в нашем train наборе, у которого хотя бы один элемент был скрыт. Она также должна вычислить AUC для самых популярных элементов для сравнения наших пользователей.

In [47]:
# Импорт необходимых библиотек
import numpy as np
from sklearn.metrics import roc_auc_score

# Определение функции для вычисления среднего значения AUC по пользователю
def calc_mean_auc(training_set, altered_users, predictions, test_set):
    '''
    Эта функция вычислит среднее значение AUC по пользователю для любого пользователя,
    у которого была изменена матрица пользовательского элемента.

    возвращает:

    Среднее AUC (область под кривой характеристик оператора приемника) тестового набора только по взаимодействию между пользователем и элементом.
    Изначально, в дополнение к наиболее популярным объектам в качестве эталона, было нулевым, чтобы протестировать способность ранжирования.
    '''

    # Инициализация списков для хранения AUC значений
    store_auc = []
    popularity_auc = []
    
    # Вычисление популярности элементов
    pop_items = np.array(test_set.sum(axis =  0)).reshape(-1)
    
    # Извлечение векторов элементов из предсказаний
    item_vecs = predictions[1]
    
    # Проход по пользователям с измененными матрицами
    for user in altered_users:
        # Извлечение строки обучающего набора для текущего пользователя
        training_row = training_set[user,:].toarray().reshape(-1)
        
        # Нахождение индексов нулевых значений в строке обучающего набора
        zero_inds = np.where(training_row ==  0)
        
        # Извлечение вектора пользователя из предсказаний
        user_vec = predictions[0][user,:]
        
        # Вычисление предсказаний для нулевых элементов тестового набора
        pred = user_vec.dot(item_vecs).toarray()[0,zero_inds].reshape(-1)
        
        # Извлечение фактических значений для нулевых элементов тестового набора
        actual = test_set[user,:].toarray()[0,zero_inds].reshape(-1)
        
        # Вычисление популярности для нулевых элементов тестового набора
        pop = pop_items[zero_inds]
        
        # Вычисление и сохранение AUC для пользовательских предсказаний
        store_auc.append(roc_auc_score(actual, pred))
        
        # Вычисление и сохранение AUC для предсказаний на основе популярности
        popularity_auc.append(roc_auc_score(actual, pop))
    
    # Возврат среднего значения AUC для пользовательских предсказаний и предсказаний на основе популярности
    return float('%.3f'%np.mean(store_auc)), float('%.3f'%np.mean(popularity_auc))


Теперь мы можем использовать эту функцию, чтобы посмотреть, как работает наша система рекомендаций. Чтобы использовать эту функцию, нам нужно будет преобразовать наш вывод из функции ALS в формат csr_matrix и переместить векторы элементов. Оригинальная чистая версия Python уже выводит векторы пользователя и элемента в правильном формате.

In [48]:
# Функция calc_mean_auc вычисляет среднее значение AUC (Area Under the Curve) для каждого пользователя.
# AUC - это метрика, которая измеряет качество ранжирования предсказаний модели.

# product_train - это обучающий набор данных, содержащий информацию о взаимодействиях пользователей с продуктами.
# product_users_altered - это список пользователей, для которых изменилась история взаимодействий с продуктами.
# [sparse.csr_matrix(user_vecs), sparse.csr_matrix(item_vecs.T)] - это список двух матриц: матрицы векторов пользователей и транспонированной матрицы векторов продуктов.
# product_test - это тестовый набор данных, содержащий информацию о взаимодействиях пользователей с продуктами.

# Вызов функции calc_mean_auc с этими параметрами вычислит среднее значение AUC для каждого пользователя на основе его взаимодействий с продуктами в обучающем и тестовом наборах данных.
calc_mean_auc(product_train, product_users_altered,
                         [sparse.csr_matrix(user_vecs), sparse.csr_matrix(item_vecs.T)], product_test)

(0.72, 0.814)

In [None]:
# Функция calc_mean_auc вычисляет среднее значение AUC (Area Under the Curve) для каждого пользователя.
# AUC - это метрика, которая измеряет качество ранжирования предсказаний модели.

# product_train - это обучающий набор данных, содержащий информацию о взаимодействиях пользователей с продуктами.
# product_users_altered - это список пользователей, для которых изменилась история взаимодействий с продуктами.
# [sparse.csr_matrix(user_vecs), sparse.csr_matrix(item_vecs.T)] - это список двух матриц: матрицы векторов пользователей и транспонированной матрицы векторов продуктов.
# product_test - это тестовый набор данных, содержащий информацию о взаимодействиях пользователей с продуктами.

# Вызов функции calc_mean_auc с этими параметрами вычислит среднее значение AUC для каждого пользователя на основе его взаимодействий с продуктами в обучающем и тестовом наборах данных.
mean_auc = calc_mean_auc(product_train, product_users_altered,
                         [sparse.csr_matrix(user_vecs), sparse.csr_matrix(item_vecs.T)], product_test)

# Вывод результата
print(mean_auc)


- При вычислении среднего значения AUC для каждого пользователя, используя их взаимодействия с продуктами в обучающем и тестовом наборах данных,
- можно сделать вывод, что два значения AUC (0.72, 0.814) представляют средние значения AUC для двух разных типов предсказаний, которые вы делаете в вашей модели.
- Первое значение AUC, 0.72, скорее всего, относится к среднему значению AUC для предсказаний, основанных на ваших пользовательских предсказаниях. Это предсказания, сделанные на основе взаимодействий пользователя с элементами.
- Второе значение AUC, 0.814, скорее всего, относится к среднему значению AUC для предсказаний, основанных на популярности элементов. Это предсказания, сделанные на основе общей популярности элементов среди всех пользователей.
- Таким образом, эти два значения AUC демонстрируют эффективность двух разных подходов к предсказанию взаимодействий пользователя с элементами.
- Модель, основанная на взаимодействиях пользователя, имеет AUC 0.72, что указывает на то, что она едва превосходит случайное угадывание. С другой стороны, наша модель, основанная на популярности элементов, имеет AUC 0.814, что указывает на то, что она значительно превосходит случайное угадывание и имеет неплохое качество предсказаний.
- Это может указывать на то, что в данных есть сильные популярные тенденции, которые модель, основанная на взаимодействиях пользователя, не смогла уловить. 

#### Оптимизация

Методы оптимизации представлены ниже:
- В идеале у нас должны быть отдельные наборы для train, перекрестной проверки и тестирования, чтобы вы перегружаться при настройке гиперпараметров, но эта настройка адекватна для демонстрации того, как проверить, что система работает.
- Возможно, нам стоит рассмотреть возможность интеграции этих популярных тенденций в основную модель, чтобы улучшить ее производительность.

- Настройка гиперпараметров:
- Мы можем попробовать разные значения для параметров factors, regularization и iterations.
- Например, мы можем увеличить количество факторов или итераций или изменить коэффициент регуляризации.

- Либо найти и потом применить настройку лучших параметров.

- Пример ниже, осторожно в нем нужно добавить в код наши переменные:

# Пример настройки гиперпараметров
latent_factors = [5, 10, 20, 40, 80]
regularizations = [0.01, 0.1, 1., 10., 100.]
iter_array = [1, 2, 5, 10, 25, 50, 100]

best_params = {}
best_params['n_factors'] = latent_factors[0]
best_params['reg'] = regularizations[0]
best_params['n_iter'] = 0
best_params['auc_result'] = np.inf
best_params['model'] = None

for fact in latent_factors:
    for reg in regularizations:
        for ite in iter_array:
            model = implicit.als.AlternatingLeastSquares(factors=fact, regularization=reg, iterations=ite)
            model.fit((training2_set.T * 15).astype('double'))
            customers_vecs = model.user_factors
            restaurant_vecs = model.item_factors
            auc_result = calc_mean_auc(training2_set, cust_altered2, [sparse.csr_matrix(customers_vecs), sparse.csr_matrix(restaurant_vecs.T)], validation_set)
            if auc_result > best_params['auc_result']:
                best_params['n_factors'] = fact
                best_params['reg'] = reg
                best_params['n_iter'] = ite
                best_params['auc_result'] = auc_result
                best_params['model'] = 'AlternatingLeastSquare'


- Использование дополнительных данных: Если у нас есть доступ к дополнительным данным, таким как метаданные о пользователях или элементах, мы можем использовать их для улучшения модели.
- Использование различных моделей: В библиотеке implicit есть и другие модели, такие как BayesianPersonalizedRanking и LogisticMatrixFactorization, которые вы можете попробовать.
- Предварительная обработка данных: Мы можем попробовать различные методы предварительной обработки данных, такие как нормализация или взвешивание наших данных.
- Нужно помнить, что настройка модели - это итеративный процесс, и важно проводить кросс-валидацию и тестирование на отложенной выборке, чтобы убедиться, что модель не переобучается. 

Спасибо за внимание!