# Recommendation System

## 1. Train/Test - 75%, 25%

Train and test data separation is a fundamental practice in machine learning and recommender systems for several key reasons:

1. Model Training:
Training Data: This subset of the data is used to train the model. The model learns patterns, similarities, and relationships from this data to make predictions or recommendations.
Learning Parameters: During training, the model tunes its parameters to minimize the error or maximize the accuracy of predictions based on the training data.
2. Model Evaluation:
Testing Data: This subset is kept separate from the training data and is used to evaluate the model's performance. It simulates how the model will perform on unseen data, providing an estimate of its real-world effectiveness.
Unbiased Performance Metrics: Using a separate test set helps ensure that the evaluation metrics (such as accuracy, precision, recall, etc.) are unbiased and not overly optimistic.
3. Preventing Overfitting:
Overfitting: This occurs when a model learns the training data too well, capturing noise and details that do not generalize to new data. The model performs well on the training data but poorly on unseen data.
Generalization: By testing on unseen data, we can assess whether the model generalizes well and avoid overfitting. If the model performs well on both training and test data, it indicates good generalization.
4. Hyperparameter Tuning:
Validation Set: Sometimes, the data is split into three sets: training, validation, and testing. The validation set is used to tune hyperparameters and make model selection decisions without peeking into the test set.
Improved Model Selection: This helps in selecting the best model and tuning parameters for optimal performance on unseen data.
Practical Example in Your Context:
In the context of your recommendation system, separating the data into training and test sets allows you to:

Train the Recommendation Model: Use the training set to build the user-item matrix and compute item similarities.
Generate Recommendations: Use the trained model to generate recommendations for users in the test set.
Evaluate Recommendations: Compare the recommendations against the actual purchases in the test set to assess the model’s performance. Metrics such as precision, recall, and F1 score can be calculated to determine how well the model is performing.
Iterate and Improve: Use the insights from the evaluation to refine your model. This may involve trying different algorithms, adjusting parameters, or incorporating additional data.
Code Example Recap:
In the provided code example, the data is split into training and test sets using train_test_split. The model is trained using the training data, and recommendations are generated for users in the test data. This process allows you to objectively evaluate how well your recommendation system is likely to perform in a real-world scenario.

python
Copy code
#### Split the data into training and testing sets
train_data, test_data = train_test_split(purchase_history, test_size=0.2, random_state=42)
print(f"Train size: {len(train_data)}, Test size: {len(test_data)}")

#### Create the user-item matrix for training data
train_counts = train_data.groupby(['user_id', 'book_id']).size().unstack(fill_value=0)
sparse_train_counts = sparse.csr_matrix(train_counts)
cosine_similarities = cosine_similarity(sparse_train_counts.T)
user_id_to_index = {user_id: index for index, user_id in enumerate(train_counts.index)}

#### Generate recommendations and evaluate for the test set
Conclusion:
Separating data into training and testing sets is crucial for building robust and reliable recommendation systems. It ensures that the model you develop is evaluated fairly and can generalize well to new, unseen data, thereby providing meaningful and accurate recommendations to users.

## 2. Cross Validation - 25%, 25%, 25%, 25%

## 3. Accuracy Metrics
Accuracy metrics - Average error
#### Mean absolute error (MAE) metric
System rating - User rating = Error (difference)
#### Root mean square error (RMSE)

## 4. Top-N Hit Rate
Test set
Hits(users rated) / users = Hit RATE
[3, 2, 1] 

Measuring - Хэмжих

Average reciprocal hit rate (ARHR)
Sum(1/rank) / users
[1/3, 1/2, 1]

Cumulative hit rate (cHR)

Rating hit rate (rHR)

## 5. Coverage, Diversity, and Novel

#### Coverage (Хамрах хүрээ)
Percentage of user, item pairs that can be predicted
Percentage of possible recommendations that system is able to provide.
IMDB хэдэн сая кинотой бөгөөд эдгээрээс маш олон нь rating байхгүй. Тийм учраас coverage буюу санал болгох хувь бага байна. Шинэ ном гарч ирээд хэрэглэгчид худалдан авч эхлэх хүртэл тухайн ном нь санал болгох coverage-ын хувийг бууруулна. Хэрэглэгчид санал болгох магадлалтай хэсэг буюу хувь.

#### Diversity (Олон талт байдал) metric
(1 - S)
S = average similarity between recommendation pairs
Recommendation-үүдийн ижил төстэй байдлыг эсрэгээр нь авч хэт их ижил төстэй бус хамааралгүй item-уудыг олох боломжтой.
Жишээ нь: Next book of series-ийг санал болгох магадлал өндөр боловч шинээр орж ирж буй item-ийг санал болгох магадлал бага байх болно.
High diversity нь муу санал болгож байгаатай ойролцоо утгатай. Жишээ нь random books.

Translation
Мэдээлэл зөвлөмжийн системийн ойлголт ба сайжруулалт
Мэдээлэл зөвлөмжийн системийн зөвхөн үнэн зөв байдал чухал биш. Хэрэв тэдгээр нь бидэнд чухал бол хэмжих бусад зүйлс байдаг, жишээлбэл, хамрах хүрээ. Хамрах хүрээ нь таны системийн зөвлөмж өгөх боломжтой нийт боломжийн хувийг харуулдаг. Жишээлбэл, энэ курс дээр бид ашиглаж байгаа MovieLens мэдээллийн сан хэдэн мянган киноны үнэлгээг агуулдаг ч олон кино дутуу байна. Хэрэв та энэ мэдээллийг IMDb дээр зөвлөмж өгөхөд ашиглаж байсан бол, IMDb-д хэдэн мянган биш харин хэдэн сая кино байгаа тул зөвлөмжийн системийн хамрах хүрээ бага байх болно.

Хамрах хүрээ нь үнэн зөв байдалтай зөрчилдөж болно. Хэрэв та өгч буй зөвлөмжийн чанарын босго өндөр тавьбал, үнэн зөв байдлыг сайжруулах боломжтой ч хамрах хүрээг золиослох болно. Тухайн зүйлд юу ч зөвлөмж өгөхгүй байх нь дээр гэдэг нь нарийн зүйл юм. Хамрах хүрээ нь таны каталогийн шинэ зүйлсийг хэр хурдан зөвлөмжид гарч ирэхийг мэдэхэд чухал байж болно. Шинэ ном Amazon дээр гарсан үед, тэр зөвлөмжид гарч ирэхгүй хэд хэдэн хүн худалдаж авах хүртэл, бусад зүйлстэй худалдан авах хээтэй болдог. Эдгээр хээнүүд байхгүй байвал, тэр шинэ ном Amazon-ийн хамрах хүрээний хэмжүүрийг багасгах болно.

Олон талт байдал ба түүний хэмжүүр
Бусад нэг хэмжүүрийг олон талт байдал гэж нэрлэдэг. Та үүнийг таны зөвлөмжийн системийн хүмүүст тавьж буй зүйлсийн өргөн хүрээг хэмжих гэж ойлгож болно. Бага олон талт байдлын жишээ бол зөвхөн таны эхэлсэн цуврал номыг зөвлөмжлөх зөвлөмжийн систем байх болно, гэхдээ бусад зохиолчдын ном эсвэл уншсан зүйлстэй холбоотой кинонуудыг зөвлөмжлөхгүй байх болно. Энэ нь субъектив зүйл мэт санагдаж болох ч, хэмжиж болдог.

Олон зөвлөмжийн системүүд ямар нэгэн төрлийн зүйлсийн ижил төстэй байдлыг тооцоолж эхэлдэг, тэгэхээр бид эдгээр ижил төстэй байдлын оноог олон талт байдлыг хэмжихэд ашиглаж болно. Хэрэв бид шилдэг-N зөвлөмжийн жагсаалтын бүх боломжит хосуудын ижил төстэй байдлын оноог харвал, бид тэдгээрийг дундажлан авах боломжтой, жагсаал дахь зөвлөмжүүд хоорондоо хэр ижил төстэй байгааг хэмжих. Бид түүнийг S гэж нэрлэх болно. Олон талт байдал нь дундаж ижил төстэй байдлын эсрэг зүйл тул, бид үүнийг 1-ээс хасаж авдаг олон талт байдалтай холбоотой тоо авахын тулд.

Олон талт байдал ба шинэлэг зүйлсийн ач холбогдол
Энэ нь чухал гэдгийг ойлгох хэрэгтэй, ялангуяа зөвлөмжийн системийн хүрээнд олон талт байдал үргэлж сайн зүйл биш. Зүгээр л санамсаргүй зүйлсийг зөвлөмжлөх замаар маш өндөр олон талт байдлыг олж авч болно. Гэхдээ тэдгээр нь ямар ч ойлголтгүй зөвлөмжүүд юм. Үнэхээр өндөр олон талт байдлын оноо нь та ихэвчлэн муу зөвлөмжтэй гэсэн үг. Та үргэлж олон талт байдлыг зөвлөмжийн чанарыг хэмжих хэмжүүрүүдтэй хамт харах хэрэгтэй.

Шинэлэг зүйлс сайхан сонсогдож болох ч, ихэнхдээ тийм биш. Шинэ зүйл гэдэг нь таны зөвлөмжлөх зүйлсийн хэр алдартайг хэмжих хэмжүүр юм. Мөн дахин, зүгээр л санамсаргүй зүйлсийг зөвлөмжлөх нь маш өндөр шинэ зүйл оноо өгдөг, учир нь ихэнх зүйлс нь хамгийн их борлуулалттай биш юм. Хэдийгээр шинэ зүйл хэмжиж болдог ч, түүнийг юу хийх нь олон талаар субъектив юм.

Зөвлөмжийн системийн хэрэглэгчийн итгэл гэсэн ойлголт байдаг. Хүмүүс зөвлөмж дотор хэд хэдэн танил зүйлсийг харахыг хүсдэг бөгөөд "Тийм ээ, энэ надад сайн зөвлөмж байна. Энэ систем сайн байна." гэж хэлэх болно. Хэрэв та зөвхөн хүмүүсийн хэзээ ч сонсоогүй зүйлсийг зөвлөмжлөх бол тэд таны системийг сайн мэдэхгүй гэж дүгнэж магадгүй, тэд зөвлөмжүүдтэйгээ бага харилцах болно. Мөн алдартай зүйлс ихэвчлэн учиртай алдартай байдаг. Тэдгээрийг олон хүн тааламжтай байдаг, тиймээс та тэдгээрийг уншаагүй эсвэл үзээгүй олон хүнд сайн зөвлөмж байх болно гэж найдах ёстой. Хэрэв та зарим алдартай зүйлсийг зөвлөмжлөхгүй байгаа бол таны зөвлөмжийн систем үнэхээр ажиллаж байгаа эсэхийг асуух хэрэгтэй.

Итгэл ба шинэ зүйлсийн тэнцвэр
Энэ бол чухал зүйл. Таны танил, алдартай зүйлс болон шинэ зүйлсийг зөвлөмжлөхөд зөвшөөрөгдөх зөвшилцөл олох хэрэгтэй. Танил зүйлс нь хэрэглэгчийн итгэлийг олж авдаг, мөн шинэ зүйлс нь хэрэглэгчид өөрсдийн шинэ зүйлсийг нээх боломжийг олгодог. Шинэ зүйл чухал боловч, зөвлөмжийн системүүдийн бүх зорилго нь "урт сүүл" зүйлсийг гаргах явдал юм.

Энэ бол таны каталогийн бүх зүйлсийн борлуулалтын график гэж төсөөлөөрэй, борлуулалтыг ангилсан. Тэгэхээр борлуулалтын тоо, эсвэл алдартай байдал нь Y тэнхлэг дээр, бүх бүтээгдэхүүнүүд нь X тэнхлэг дээр байрлана. Та үргэлж ийм хуваарилалтыг хардаг. Ихэнх борлуулалт нь маш бага зүйлээс ирдэг, гэхдээ нийтдээ "урт сүүл" нь их хэмжээний борлуулалт болдог. Тэр урт сүүлэн дэх зүйлс, графикийн шар хэсэг, тэдгээр нь өвөрмөц сонирхолтой хүмүүст зориулсан зүйлс юм. Зөвлөмжийн системүүд нь хүмүүст өөрсдийн өвөрмөц сонирхолтой зүйлсийг нээхэд туслах боломжтой.

Хэрэв та үүнийг амжилттай хийж чадвал, таны системийн зөвлөмжүүд нь шинэ зохиолчдыг нээхэд туслах, хүмүүст өөрсдийн сонирхлыг илрүүлэхэд туслах, мөн хэн нэгэнд мөнгө олоход туслах болно. Хүн бүр ашигтай болно. Зөв хийсэн зөвлөмжийн системүүд нь сайн шинэ зүйл оноотой байх нь үнэхээр дэлхийг сайхан газар болгодог. Гэхдээ дахин, шинэ зүйл болон итгэлийн хоорондох тэнцвэрийг олох хэрэгтэй. Би хэлсэнчлэн, зөвлөмжийн системийг бий болгох нь багахан урлаг бөгөөд энэ нь яагаад нэг жишээ юм.

#### Novelty
Novelty is a measure of how popular the items are that you're recommending.
Recommending random stuff would yield very high novelty scores since the vast majority of items are not top sellers.

Шинэлэг байдал нь таны санал болгож буй зүйлсийн хэр их алдартай байгааг хэмждэг. Санамсаргүй зүйлсийг санал болгох нь шинэлэг байдлын оноог маш өндөр байлгах бөгөөд учир нь ихэнх зүйлс нь хамгийн их борлуулалттай биш юм.

There's a concept of user trust in a recommender system. People want to see at least a few familiar items in their recommendations that make them say, "Yeah, that's a good recommendation for me. This system seems good."

Зөвлөмжийн системд хэрэглэгчийн итгэлийн ойлголт байдаг. Хүмүүс зөвлөмж дотроос дор хаяж хэдэн танил зүйлсийг харахыг хүсдэг бөгөөд энэ нь тэдэнд "Тиймээ, энэ миний хувьд сайн зөвлөмж байна. Энэ систем сайн юм шиг байна." гэж хэлэхэд хүргэдэг.

Popular items are enjoyable by a large segment of the population.
The familiar items establish trust with the user, and the new ones allow the user to discover entirely new things that they might love. 

The long tail - зургийг хар.
Items in that long tail, the yellow part in the graph, are items that cater to people with unique niche interests.
өвөрмөц сонирхолтой хүмүүст зориулагдсан зүйлс

Recommender systems can help people, discover those items in the long tail

If you can do that successfully, then the recommendations your system makes can help new authors get discovered, can help people explore their own passions, and make money for whoever you're building the system for as well. Everybody wins.

But again, you need to strike a balance between novelty and trust.

Novelty score нь өндөр байх тусам шинэлэг байдлыг нэмэгдүүлнэ.

19. Churn
How often do the recommendations for a user change?
In part, churn can measure how sensitive your recommender system is to new user behavior. If a user rates a new movie, does that substantially change their recommendations? If so, then your churn score will be high. Maybe just showing someone the same recommendations too many times is a bad idea in itself. If a user keeps seeing the same recommendation but doesn't click on it, at some point should you just stop trying to recommend it and show the user something else instead? Sometimes a little bit of randomization in your top-N recommendations can keep them looking fresh, and expose your users to more items than they would have seen otherwise. But, just like diversity and novelty, high churn is not in itself a good thing. You could maximize your churn metric by just recommending items completely at random, and of course, those would not be good recommendations. All of these metrics need to be looked at together, and you need to understand the trade-offs between them. 

Responsiveness
how quickly does new user behavior influence your recommendations?
If you rate a new movie, does it affect your recommendations immediately or does it only affect your recommendations the next day after some nightly job runs? More responsiveness would always seem to be a good thing, but in the world of business you have to decide how responsive your recommender really needs to be, since recommender systems that have instantaneous responsiveness are complex, difficult to maintain, and expensive to build. You need to strike your own balance between responsiveness and simplicity. 

 A/B Tests
 Netflix 1m USD accuacy system-ийг ашиглаагүй. A/B тест хийснээр үр дүнг нь харж түүнээсээ recommendation ажиллуулах болсон.
You can put recommendations from different algorithms in front of different sets of users, and measure if they actually buy, watch, or otherwise indicate interest in the recommendations you've presented. By always testing changes to your recommender system using controlled, online experiments, you can see if they actually cause people to discover and purchase more new things than they would have otherwise. 

Perceived quality - Хүлээн зөвшөөрөгдсөн чанар
Another thing you can do is just straight up ask your users if they think specific recommendations are good. Just like you can ask for explicit feedback on items with ratings, you can ask users to rate your recommendations, too. This is called measuring the "perceived quality" of recommendations, and it seems like a good idea on paper, since, as you've learned, defining what makes a "good" recommendation is by no means clear. In practice though, it's a tough thing to do. Users will probably be confused over whether you're asking them to rate the item or rate the recommendation, so you won't really know how to interpret this data. It also requires extra work from your customers with no clear payoff for them, so you're unlikely to get enough ratings on your recommendations to be useful. It's best to just stick with online A/B tests, and measure how your customers vote with their wallets on the quality of your recommendations.
 

















In [5]:
a = 13
print(a)

13
