<a href="https://colab.research.google.com/github/veyselalevcan/Amazon_RatingProduct_SortingReview/blob/main/Amazon_Rating_and_Sorting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


###################################################
# PROJE: Rating Product & Sorting Reviews in Amazon
###################################################

###################################################
# Problem
###################################################
#ENGLISH:
# One of the most important problems in e-commerce is the correct calculation of the scores given to products after sales.
# The solution to this problem means providing more customer satisfaction for the e-commerce site, highlighting the product for sellers, and a smooth shopping experience for buyers.
# Another problem is the correct ranking of the comments given to the products. Since the prominence of misleading comments will directly affect the sales of the product, it will cause both financial loss
# and loss of customers. In the solution of these 2 basic problems, the e-commerce site and sellers will increase their sales, while customers
# will complete the purchasing journey without any problems.

# The **Wilson Lower Bound (WLB)** principle is used especially in rating and comment systems to better reflect the reliability and quality of a product or service. Instead of only considering the average score, the WLB score also takes into account the number of comments and the distribution of comments, providing a more reliable ranking. The application of this principle ensures that the results seen by users are more fair and reliable.

### What is the Wilson Lower Bound Principle?

Wilson Lower Bound is based on a binomial distribution and calculates a **lower bound** for the average rating of a product at a given confidence level. Essentially, it estimates the lower limit of the rating's confidence interval.

WLB is particularly important in the following scenarios:

1. **Products with Fewer Reviews:**
   - Products with a small number of reviews can easily have their average rating skewed by a few high scores. WLB assumes that a smaller number of reviews may be less reliable and provides a more cautious estimate in such cases.

2. **Distribution of Reviews:**
   - A product may have a mix of high and low ratings. The average rating alone might be misleading. WLB takes into account the distribution of these ratings, mitigating the impact of outliers.

3. **Increasing User Trust:**
   - When users find ratings and reviews reliable, they feel more confident in their purchasing decisions. WLB helps to prevent misleading high ratings, thereby boosting user trust.

### Why is the Wilson Lower Bound Principle Important?

1. **Preventing Misleading Ratings:**
   - Ranking based solely on average ratings can be easily manipulated by a few positive reviews. WLB reduces the impact of such manipulations.

2. **Addressing the Effect of Low Review Counts:**
   - High ratings based on only a few reviews might not accurately reflect the true quality of a product. WLB ensures that products with few reviews do not unfairly dominate the rankings.

3. **Providing Fair and Balanced Rankings:**
   - WLB allows for a fair comparison between products with a high number of positive reviews and those with fewer but higher ratings. It ranks products not just by their average score but also by the reliability of that score.

4. **Improving User Experience:**
   - When users encounter high-quality, trustworthy ratings and reviews, they are more likely to make informed and satisfying purchase decisions. WLB enhances this experience by presenting accurate and reliable information.

### How is the Wilson Lower Bound Score Calculated?

The WLB score is calculated using the following formula:

\[
WLB = \frac{p + \frac{z^2}{2n} - z \sqrt{\frac{p(1-p) + \frac{z^2}{4n}}{n}}}{1 + \frac{z^2}{n}}
\]

- **p**: Proportion of positive reviews (e.g., the ratio of five-star reviews to the total number of reviews).
- **n**: Total number of reviews.
- **z**: Z-score corresponding to the desired confidence level (typically 1.96 for a 95% confidence level).

### Summary

The Wilson Lower Bound principle is used to rank product reviews and ratings more reliably. This principle corrects for potentially misleading situations where a small number of reviews or an uneven distribution of reviews could distort the average rating. As a result, the WLB score helps users make more informed decisions, enhancing the shopping experience and increasing customer satisfaction.

# TÜRKÇE:
# E-ticaretteki en önemli problemlerden bir tanesi ürünlere satış sonrası verilen puanların doğru şekilde hesaplanmasıdır.
# Bu problemin çözümü e-ticaret sitesi için daha fazla müşteri memnuniyeti sağlamak, satıcılar için ürünün öne çıkması ve satın
# alanlar için sorunsuz bir alışveriş deneyimi demektir.

#Bir diğer problem ise ürünlere verilen yorumların doğru bir şekilde sıralanması
# olarak karşımıza çıkmaktadır. Yanıltıcı yorumların öne çıkması ürünün satışını doğrudan etkileyeceğinden dolayı hem maddi kayıp
# hem de müşteri kaybına neden olacaktır. Bu 2 temel problemin çözümünde e-ticaret sitesi ve satıcılar satışlarını arttırırken müşteriler
# ise satın alma yolculuğunu sorunsuz olarak tamamlayacaktır.

#**Wilson Lower Bound (WLB)** ilkesi, özellikle derecelendirme ve yorum sistemlerinde, bir ürünün veya hizmetin güvenilirlik ve kalitesini daha iyi yansıtmak amacıyla kullanılır. WLB skoru, yalnızca ortalama puanı dikkate almak yerine, aynı zamanda yorum sayısını ve yorumların dağılımını da göz önünde bulundurarak daha güvenilir bir sıralama sağlar. Bu ilkenin uygulanması, kullanıcıların gördüğü sonuçların daha adil ve güvenilir olmasını sağlar.

### Wilson Lower Bound İlkesi Nedir?

Wilson Lower Bound, binom dağılımına dayalı bir istatistiksel yöntemdir ve bir ürünün puan ortalamasına güven aralığı ekleyerek bu ortalamanın ne kadar güvenilir olduğunu belirler. Temel olarak, belirli bir güven seviyesine göre, bu puanın **alt sınırını** hesaplar.

WLB skoru, özellikle aşağıdaki durumlarda önemlidir:
1. **Daha Az Yorum İçeren Ürünler:**
   - Az sayıda yoruma sahip ürünlerde, birkaç yüksek puanlı yorum ortalamayı kolayca yukarı çekebilir. Ancak WLB, az sayıda yorumun güvenilirliğinin düşük olabileceğini varsayar ve bu durumda daha temkinli bir değerlendirme sağlar.
   
2. **Yorumların Dağılımı:**
   - Yorumların büyük bir kısmı yüksek puanlı, ancak bazıları çok düşük puanlı olabilir. Bu durumda, ortalama puan yanıltıcı olabilir. WLB bu dağılımı dikkate alarak, ekstrem durumların etkisini azaltır.
   
3. **Kullanıcıların Güvenini Artırmak:**
   - Kullanıcılar, puanları ve yorumları güvenilir bulduklarında, satın alma kararlarında daha emin olurlar. WLB, yanıltıcı yüksek puanları engelleyerek kullanıcı güvenini artırır.

### Neden Wilson Lower Bound İlkesi Önemlidir?

1. **Yanıltıcı Derecelendirmelerin Önlenmesi:**
   - Sadece ortalama puana dayalı sıralamalar, birkaç yüksek puanlı yorumla kolayca manipüle edilebilir. WLB, bu manipülasyonun etkisini azaltır.

2. **Düşük Yorum Sayısının Etkisi:**
   - Yalnızca birkaç yoruma dayalı yüksek puanlar, ürünün gerçekte ne kadar iyi olduğunu tam olarak yansıtmayabilir. WLB, yorum sayısı az olan ürünlerin sıralamada haksız bir avantaja sahip olmasını engeller.

3. **Adil ve Dengeli Bir Sıralama:**
   - Yüksek sayıda olumlu yorum alan ürünler ile daha az ama yüksek puan alan ürünler arasında adil bir karşılaştırma sağlar. WLB, ürünleri yalnızca ortalama puanlarına göre değil, aynı zamanda bu puanların güvenilirliğine göre de sıralar.

4. **Kullanıcı Deneyimini İyileştirmek:**
   - Kullanıcılar, aradıkları ürünlerde yüksek kaliteli yorum ve puanlamalarla karşılaştıklarında, daha bilinçli ve tatmin edici alışveriş deneyimleri yaşarlar. WLB, doğru ve güvenilir bilgi sunarak bu deneyimi iyileştirir.

### Wilson Lower Bound Skoru Nasıl Hesaplanır?

WLB skoru hesaplanırken aşağıdaki formül kullanılır:

\[
WLB = \frac{p + \frac{z^2}{2n} - z \sqrt{\frac{p(1-p) + \frac{z^2}{4n}}{n}}}{1 + \frac{z^2}{n}}
\]

- **p**: Olumlu yorumların oranı (örneğin, beş yıldızlı yorumların toplam yorum sayısına oranı).
- **n**: Toplam yorum sayısı.
- **z**: Güven seviyesine karşılık gelen z-skoru (genellikle %95 güven seviyesi için 1.96 kullanılır).

### Özet

Wilson Lower Bound ilkesi, ürün yorumlarını ve derecelendirmeleri daha güvenilir bir şekilde sıralamak için kullanılır. Bu ilke, özellikle az sayıda yoruma sahip veya dengesiz yorum dağılımına sahip ürünlerde ortalama puanların yanıltıcı olabileceği durumları düzeltir. Sonuç olarak, WLB skoru kullanıcıların daha bilinçli kararlar vermesine yardımcı olur, bu da alışveriş deneyimini iyileştirir ve müşteri memnuniyetini artırır.

In [1]:

###################################################
# Veri Seti Hikayesi
###################################################

# Amazon ürün verilerini içeren bu veri seti ürün kategorileri ile çeşitli metadataları içermektedir.
# Elektronik kategorisindeki en fazla yorum alan ürünün kullanıcı puanları ve yorumları vardır.

# Değişkenler:
# reviewerID: Kullanıcı ID’si
# asin: Ürün ID’si
# reviewerName: Kullanıcı Adı
# helpful: Faydalı değerlendirme derecesi
# reviewText: Değerlendirme
# overall: Ürün rating’i
# summary: Değerlendirme özeti
# unixReviewTime: Değerlendirme zamanı
# reviewTime: Değerlendirme zamanı Raw
# day_diff: Değerlendirmeden itibaren geçen gün sayısı
# helpful_yes: Değerlendirmenin faydalı bulunma sayısı
# total_vote: Değerlendirmeye verilen oy sayısı

import matplotlib.pyplot as plt
import pandas as pd
import math
import scipy.stats as st

###################################################
# GÖREV 1: Average Rating'i Güncel Yorumlara Göre Hesaplayınız ve Var Olan Average Rating ile Kıyaslayınız.
###################################################

# Paylaşılan veri setinde kullanıcılar bir ürüne puanlar vermiş ve yorumlar yapmıştır.
# Bu görevde amacımız verilen puanları tarihe göre ağırlıklandırarak değerlendirmek.
# İlk ortalama puan ile elde edilecek tarihe göre ağırlıklı puanın karşılaştırılması gerekmektedir.

In [2]:
###################################################
# Adım 1: Veri Setini Okutunuz ve Ürünün Ortalama Puanını Hesaplayınız.
###################################################

df = pd.read_csv("amazon_review.csv")

df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime,day_diff,helpful_yes,total_vote
0,A3SBTW3WS4IQSN,B007WTAJTO,,"[0, 0]",No issues.,4.0,Four Stars,1406073600,2014-07-23,138,0,0
1,A18K1ODH1I2MVB,B007WTAJTO,0mie,"[0, 0]","Purchased this for my device, it worked as adv...",5.0,MOAR SPACE!!!,1382659200,2013-10-25,409,0,0
2,A2FII3I2MBMUIA,B007WTAJTO,1K3,"[0, 0]",it works as expected. I should have sprung for...,4.0,nothing to really say....,1356220800,2012-12-23,715,0,0
3,A3H99DFEG68SR,B007WTAJTO,1m2,"[0, 0]",This think has worked out great.Had a diff. br...,5.0,Great buy at this price!!! *** UPDATE,1384992000,2013-11-21,382,0,0
4,A375ZM4U047O79,B007WTAJTO,2&amp;1/2Men,"[0, 0]","Bought it with Retail Packaging, arrived legit...",5.0,best deal around,1373673600,2013-07-13,513,0,0


In [11]:
def check_df(dataframe, head=5):
    print("##################### Shape #####################")
    print(dataframe.shape)
    print("##################### Types #####################")
    print(dataframe.dtypes)
    print("##################### Head #####################")
    print(dataframe.head(head))
    print("##################### Tail #####################")
    print(dataframe.tail(head))
    print("##################### NA #####################")
    print(dataframe.isnull().sum())
    print("##################### Quantiles #####################")
    print(dataframe.describe([0, 0.05, 0.50, 0.95, 0.99, 1]).T)


check_df(df)

##################### Shape #####################
(4915, 12)
##################### Types #####################
reviewerID         object
asin               object
reviewerName       object
helpful            object
reviewText         object
overall           float64
summary            object
unixReviewTime      int64
reviewTime         object
day_diff            int64
helpful_yes         int64
total_vote          int64
dtype: object
##################### Head #####################
       reviewerID        asin  reviewerName helpful  \
0  A3SBTW3WS4IQSN  B007WTAJTO           NaN  [0, 0]   
1  A18K1ODH1I2MVB  B007WTAJTO          0mie  [0, 0]   
2  A2FII3I2MBMUIA  B007WTAJTO           1K3  [0, 0]   
3   A3H99DFEG68SR  B007WTAJTO           1m2  [0, 0]   
4  A375ZM4U047O79  B007WTAJTO  2&amp;1/2Men  [0, 0]   

                                          reviewText  overall  \
0                                         No issues.      4.0   
1  Purchased this for my device, it worked as adv... 

In [3]:
df['overall'].mean()

4.587589013224822

###################################################
# Adım 2: Tarihe Göre Ağırlıklı Puan Ortalamasını Hesaplayınız.
###################################################

In [10]:
df.loc[df['day_diff'] <= df['day_diff'].quantile(0.25), 'overall'].mean() #4,69
df.loc[(df['day_diff']> df['day_diff'].quantile(0.25)) & (df['day_diff'] <= df['day_diff'].quantile(0.5)), 'overall'].mean() #4,63
df.loc[(df['day_diff']> df['day_diff'].quantile(0.5)) & (df['day_diff'] <= df['day_diff'].quantile(0.75)), 'overall'].mean() #4,57
df.loc[(df['day_diff']> df['day_diff'].quantile(0.75)), 'overall'].mean() #4.44

4.4462540716612375

In [13]:
# zaman bazlı ortalama ağırlıkların belirlenmesi
def time_based_weighted_average(dataframe, w1=28, w2=26, w3=24, w4=22):
  return dataframe.loc[df['day_diff'] <= df['day_diff'].quantile(0.25), 'overall'].mean() * w1/100 + \
         dataframe.loc[(df['day_diff']> df['day_diff'].quantile(0.25)) & (df['day_diff'] <= df['day_diff'].quantile(0.5)), 'overall'].mean() * w2/100 + \
         dataframe.loc[(df['day_diff']> df['day_diff'].quantile(0.5)) & (df['day_diff'] <= df['day_diff'].quantile(0.75)), 'overall'].mean() * w3/100 + \
         dataframe.loc[(df['day_diff']> df['day_diff'].quantile(0.75)), 'overall'].mean() * w4/100

time_based_weighted_average(df)

4.595593165128118

###################################################
# Görev 2: Ürün için Ürün Detay Sayfasında Görüntülenecek 10 Review'i Belirleyiniz.
###################################################

In [14]:
###################################################
# Adım 1. helpful_no Değişkenini Üretiniz
###################################################
# Not:
# total_vote bir yoruma verilen toplam up-down sayısıdır.
# up, helpful demektir.
# veri setinde helpful_no değişkeni yoktur, var olan değişkenler üzerinden üretilmesi gerekmektedir.

df['helpful_no'] = df['total_vote'] - df['helpful_yes']


In [15]:
#filtrelere kullanılmayan kolonları

df = df[["reviewerName", "overall", "summary", "helpful_yes", "helpful_no", "total_vote", "reviewTime"]]
df.head()

Unnamed: 0,reviewerName,overall,summary,helpful_yes,helpful_no,total_vote,reviewTime
0,,4.0,Four Stars,0,0,0,2014-07-23
1,0mie,5.0,MOAR SPACE!!!,0,0,0,2013-10-25
2,1K3,4.0,nothing to really say....,0,0,0,2012-12-23
3,1m2,5.0,Great buy at this price!!! *** UPDATE,0,0,0,2013-11-21
4,2&amp;1/2Men,5.0,best deal around,0,0,0,2013-07-13


In [16]:
###################################################
# Adım 2. score_pos_neg_diff, score_average_rating ve wilson_lower_bound Skorlarını Hesaplayıp Veriye Ekleyiniz
###################################################

def wilson_lower_bound(up, down, confidence=0.95):
    """
    Wilson Lower Bound Score hesapla

    - Bernoulli parametresi p için hesaplanacak güven aralığının alt sınırı WLB skoru olarak kabul edilir.
    - Hesaplanacak skor ürün sıralaması için kullanılır.
    - Not:
    Eğer skorlar 1-5 arasıdaysa 1-3 negatif, 4-5 pozitif olarak işaretlenir ve bernoulli'ye uygun hale getirilebilir.
    Bu beraberinde bazı problemleri de getirir. Bu sebeple bayesian average rating yapmak gerekir.

    Parameters
    ----------
    up: int
        up count
    down: int
        down count
    confidence: float
        confidence

    Returns
    -------
    wilson score: float

    """
    n = up + down
    if n == 0:
        return 0
    z = st.norm.ppf(1 - (1 - confidence) / 2)
    phat = 1.0 * up / n
    return (phat + z * z / (2 * n) - z * math.sqrt((phat * (1 - phat) + z * z / (4 * n)) / n)) / (1 + z * z / n)


def score_up_down_diff(up, down):
    return up - down


def score_average_rating(up, down):
    if up + down == 0:
        return 0
    return up / (up + down)


In [18]:
#####################
# score_pos_neg_diff
#####################
df['score_pos_neg_diff']= df.apply(lambda x: score_up_down_diff(x['helpful_yes'], x['helpful_no']), axis=1)
df.sort_values('score_pos_neg_diff', ascending=False).head(10)

Unnamed: 0,reviewerName,overall,summary,helpful_yes,helpful_no,total_vote,reviewTime,score_pos_neg_diff
2031,"Hyoun Kim ""Faluzure""",5.0,UPDATED - Great w/ Galaxy S4 & Galaxy Tab 4 10...,1952,68,2020,2013-01-05,1884
4212,SkincareCEO,1.0,1 Star reviews - Micro SDXC card unmounts itse...,1568,126,1694,2013-05-08,1442
3449,NLee the Engineer,5.0,Top of the class among all (budget-priced) mic...,1428,77,1505,2012-09-26,1351
317,"Amazon Customer ""Kelly""",1.0,"Warning, read this!",422,73,495,2012-02-09,349
3981,"R. Sutton, Jr. ""RWSynergy""",5.0,"Resolving confusion between ""Mobile Ultra"" and...",112,27,139,2012-10-22,85
4596,"Tom Henriksen ""Doggy Diner""",1.0,Designed incompatibility/Don't support SanDisk,82,27,109,2012-09-22,55
1835,goconfigure,5.0,I own it,60,8,68,2014-02-28,52
4672,Twister,5.0,Super high capacity!!! Excellent price (on Am...,45,4,49,2014-07-03,41
4306,Stellar Eller,5.0,Awesome Card!,51,14,65,2012-09-06,37
315,"Amazon Customer ""johncrea""",5.0,Samsung Galaxy Tab2 works with this card if re...,38,10,48,2012-08-13,28


In [19]:
# score_average_rating
df["score_average_rating"] = df.apply(lambda x: score_average_rating(x["helpful_yes"], x["helpful_no"]), axis=1)
df.sort_values("score_average_rating", ascending=False).head(10)

Unnamed: 0,reviewerName,overall,summary,helpful_yes,helpful_no,total_vote,reviewTime,score_pos_neg_diff,score_average_rating
4277,S. Q.,5.0,Perfect!!,1,0,1,2012-12-19,1,1.0
2881,Lou Thomas,5.0,Nexus One Loves This Card!,1,0,1,2012-01-10,1,1.0
1073,C. Sanchez,5.0,Tons of space for phone,1,0,1,2013-08-13,1,1.0
445,"Apache ""Elizabeth""",4.0,Amazon Great Prices,1,0,1,2013-12-18,1,1.0
3923,Rock Your Roots,5.0,What more to say?,1,0,1,2013-12-30,1,1.0
435,Anthony L cate,5.0,Love the extra storage,1,0,1,2012-07-24,1,1.0
2901,luis,5.0,Awesome and fast card :),1,0,1,2013-05-13,1,1.0
2204,"jbwam ""jbwam""",2.0,Sandisk will replace failures due to bad batch...,1,0,1,2013-06-14,1,1.0
2206,JCBiker,5.0,Great card,1,0,1,2013-10-31,1,1.0
3408,"Neng Vang ""Neng2012""",5.0,working no problem,1,0,1,2013-07-25,1,1.0


In [21]:
# wilson_lower_bound
df["wilson_lower_bound"] = df.apply(lambda x: wilson_lower_bound(x["helpful_yes"], x["helpful_no"]), axis=1)
df.sort_values("wilson_lower_bound", ascending=False).head(10)

Unnamed: 0,reviewerName,overall,summary,helpful_yes,helpful_no,total_vote,reviewTime,score_pos_neg_diff,score_average_rating,wilson_lower_bound
2031,"Hyoun Kim ""Faluzure""",5.0,UPDATED - Great w/ Galaxy S4 & Galaxy Tab 4 10...,1952,68,2020,2013-01-05,1884,0.966337,0.957544
3449,NLee the Engineer,5.0,Top of the class among all (budget-priced) mic...,1428,77,1505,2012-09-26,1351,0.948837,0.936519
4212,SkincareCEO,1.0,1 Star reviews - Micro SDXC card unmounts itse...,1568,126,1694,2013-05-08,1442,0.92562,0.912139
317,"Amazon Customer ""Kelly""",1.0,"Warning, read this!",422,73,495,2012-02-09,349,0.852525,0.818577
4672,Twister,5.0,Super high capacity!!! Excellent price (on Am...,45,4,49,2014-07-03,41,0.918367,0.808109
1835,goconfigure,5.0,I own it,60,8,68,2014-02-28,52,0.882353,0.784651
3981,"R. Sutton, Jr. ""RWSynergy""",5.0,"Resolving confusion between ""Mobile Ultra"" and...",112,27,139,2012-10-22,85,0.805755,0.732136
3807,R. Heisler,3.0,"Good buy for the money but wait, I had an issue!",22,3,25,2013-02-27,19,0.88,0.700442
4306,Stellar Eller,5.0,Awesome Card!,51,14,65,2012-09-06,37,0.784615,0.670334
4596,"Tom Henriksen ""Doggy Diner""",1.0,Designed incompatibility/Don't support SanDisk,82,27,109,2012-09-22,55,0.752294,0.663595
