# 2. Рекомендательная система на базе корреляции Пирсона

Использование рекомендаций на основе только на общей популярности продукта не обеспечивает персонального подхода к потребителямэ Мы разработаем рекомендательную систему на основе показателя корреляции, которая будут давать рекомендации на основе сходства товаров (в данном случае, книг) с предпочтениями конкретного читателя. Основная идея такой системы заключается в том, что если вам нравится какой-либо предмет (продукт), то вам, скорее всего, понравится и предмет, похожий на него. 
Рекомендация на основе корреляции — это одна из самых простых рекомендаций на основе алгоритма совместной фильтрации (collaborative filtering).

В качестве меры сходства товаров в нашей рекомендательной системе мы собираемся использовать корреляцию Пирсона. Эта система рекомендаций будет использовать сходство на основе элементов; сопоставлять элементы на основе оценок пользователей.
Как и в прошлом примере используем библиотеки Pandas и NumPy

In [1]:
# импортируем библиотеки
import pandas as pd
import numpy as np

In [2]:
# Считываем файлы данных
data = pd.read_csv('listing.csv', encoding = 'latin-1')
books = pd.read_csv('books.csv', encoding = 'latin-1')

In [3]:
# Проверяем структуру таблицы, используя функцию head
books.head()

Unnamed: 0,book_id,avg_rating,no_of_ratings,user_id,user_rating
0,4833,4.25,7156.0,3466,0
1,590,4.31,7821.0,3466,5
2,4264,4.08,3836.0,3453,5
3,3361,3.52,1245.0,3453,4
4,4535,4.13,3107.0,3453,0


In [4]:
# Рассчитываем средние рейтинги книг, группируя строки по номеру книги
rating = pd.DataFrame(books.groupby('book_id')['no_of_ratings'].mean())
rating.head()

Unnamed: 0_level_0,no_of_ratings
book_id,Unnamed: 1_level_1
6,953.0
7,2012.0
9,172.0
15,118.0
21,3916.0


In [5]:
# выведем детализацию статистики рейтингов книг
rating.describe()

Unnamed: 0,no_of_ratings
count,708.0
mean,2040.384181
std,2666.44996
min,0.0
25%,90.75
50%,629.0
75%,3225.25
max,9936.0


In [6]:
# отсортируем книги на основании рассчитанных значений рейтингов книг
rating.sort_values('no_of_ratings', ascending=False).head()

Unnamed: 0_level_0,no_of_ratings
book_id,Unnamed: 1_level_1
4755,9936.0
2409,9768.0
4696,9754.0
2194,9754.0
1616,9542.0


In [7]:
# Подготовим таблицу данных для анализа
user_rating= pd.pivot_table(data=books, values='user_rating', index='user_id', columns='book_id')
user_rating.head()

book_id,6,7,9,15,21,29,43,45,47,61,...,4931,4941,4942,4968,4971,4975,4978,4991,4995,4999
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
117,,,,,,,,,,,...,,,,,,,4.0,,2.0,
176,,,,,,,,,5.0,,...,,,,,,,,,,
232,,,,,,,,,,,...,,,,,,,,,,
295,,,,,,,,,,,...,,,,,,,,,,
318,,,,,,,,,,,...,,,,,,,,,,


## Коэффициент корреляции Пирсона
**Критерий корреляции Пирсона** – метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, изменяется ли (возрастает или уменьшается) один показатель в ответ на изменения другого? В статистических расчетах и выводах коэффициент корреляции обычно обозначается как **r**<sub>xy</sub> или **R**<sub>xy</sub>.
Формула расчета выборочной корреляции Пирсона:
![image.png](attachment:image.png)

In [8]:
# Рассчитаем корреляционную матрицу по всему набору книг 
correlation_matrix  = user_rating.corr(method='pearson')
correlation_matrix.head(10)

book_id,6,7,9,15,21,29,43,45,47,61,...,4931,4941,4942,4968,4971,4975,4978,4991,4995,4999
book_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
6,1.0,,,,,,,,,,...,,,,,,,,,,
7,,1.0,,,,,,1.0,,,...,,,,,1.0,,,,,
9,,,1.0,,,,,,,,...,,,,,,,,,,
15,,,,,,,,,,,...,,,,,,,,,,
21,,,,,1.0,,,,,,...,,,,,,,,,,
29,,,,,,1.0,,,,,...,,,,,,,,,,
43,,,,,,,1.0,,,,...,,,,,,,,,,
45,,1.0,,,,,,1.0,,,...,,,,,0.944911,,,,,
47,,,,,,,,,1.0,,...,,,,,,,,,,
61,,,,,,,,,,,...,,,,,,,,,,


In [9]:
# отберем пользователей, которые оценили эту конкретную книгу, убедимся, что рейтинг не равен нулю
OneManOut_rating = user_rating[4755]
OneManOut_rating[OneManOut_rating>=0]

user_id
577     2.0
3472    4.0
3476    2.0
3483    3.0
Name: 4755, dtype: float64

In [10]:
# оценим сходство с использованием корреляции Пирсона
similar_to_OneManOut = user_rating.corrwith(OneManOut_rating)

corr_OneManOut = pd.DataFrame(similar_to_OneManOut, columns=['PearsonR'])
corr_OneManOut.dropna(inplace=True)
corr_OneManOut.head()

  c = cov(x, y, rowvar, dtype=dtype)
  c *= np.true_divide(1, fact)


Unnamed: 0_level_0,PearsonR
book_id,Unnamed: 1_level_1
9,-0.981981
481,-1.0
493,1.0
535,-1.0
755,1.0


In [11]:
OneManOut_corr_summary = corr_OneManOut.join(rating)
# выведем самые похожие книги, отсортировав их при равном сходстве по рейтингу книги
most_rated_books=OneManOut_corr_summary.sort_values(by = ['PearsonR', 'no_of_ratings'], ascending=False).head(10)
detail = pd.merge(most_rated_books, data, on='book_id')
detail

Unnamed: 0,book_id,PearsonR,no_of_ratings,genre,name,author
0,4755,1.0,9936.0,Law,One Man Out: Curt Flood versus Baseball (Landm...,Robert M. Goldman
1,2900,1.0,2027.0,Travel,Robert Adams: The New West,
2,2629,1.0,635.0,Travel,Moroccan Arabic: Lonely Planet Phrasebook,Dan Bacon
3,4571,1.0,323.0,Teen & Young Adult,The Story of the Tampa Bay Buccaneers (NFL Tod...,Sara Gilbert
4,493,1.0,211.0,"Health, Fitness & Dieting",The Gene Makeover: The 21st Century Anti-Aging...,Vincent C. Giampapa
5,4854,1.0,8818.0,Computers & Technology,Take Back Your Life!: Using Microsoft Office O...,Sally McGhee
6,3720,1.0,8455.0,Travel,"Laos 1:600,000 Travel Map, waterproof, GPS-com...",Reise Knowhow
7,1676,1.0,5374.0,Science & Math,"Rare Earth Minerals: Chemistry, Origin and Ore...",A.P. Jones
8,3708,1.0,5244.0,Christian Books & Bibles,"The Bible, Rocks and Time: Geological Evidence...",Davis A. Young
9,2595,1.0,2869.0,Religion & Spirituality,When Zarathustra Spoke: The Reformation Of Neo...,Mary Settegast


Мы вывели список книг с самыми высокими рейтингами в нашем наборе данных. На первое место попала книга **One Man Out: Curt Flood Versus Baseball** , относится к жанру права, но наш механизм рекомендаций дает нам смешанные рекомендации, включая путешествия, право и т. д. Это потому, что мы используем для рекомендаций только соотношение между рейтингами. Эта книга была оценена 4 раза в нашем наборе данных и поэтому была самой первой рекомендованной нашей системой рекомендаций. Это означает, что наш рекомендатель работает.