## **Produktbewertung und Bewertungen auf Amazon sortieren**
### Geschäftsproblem
Auf E-Commerce-Plattformen ist es von großer Bedeutung, die Produktbewertungen korrekt zu berechnen und die Kommentare effektiv zu sortieren. Dies erhöht die Kundenzufriedenheit, ermöglicht es Verkäufern, ihre Produkte hervorzuheben, und hilft den Nutzern, ein reibungsloseres Einkaufserlebnis zu haben.

Jedoch können irreführende oder falsch sortierte Bewertungen den Produktverkauf negativ beeinflussen und sowohl zu finanziellen Verlusten als auch zum Verlust von Kunden führen.

In diesem Projekt ist es unser Ziel, die Produktbewertungen basierend auf aktuellen Kommentaren gewichtet zu berechnen und die Bewertungen effektiv zu sortieren.

### Datensatz
In diesem Projekt werden wir Produktbewertungsdaten von einer E-Commerce-Plattform verwenden.
Der Datensatz enthält Benutzerbewertungen und Kommentare für ein Produkt aus der Elektronik-Kategorie.

Der Datensatz umfasst die folgenden Variablen:

- **reviewerID:** Benutzer-ID

- **asin:** Produkt-ID

- **reviewerName:** Benutzername

- **helpful:** Grad der hilfreichen Bewertung

- **reviewText:** Bewertungstext

- **overall:** Produktbewertung (Rating)

- **summary:** Zusammenfassung der Bewertung

- **unixReviewTime:** Zeitpunkt der Bewertung (Unix-Zeit)

- **reviewTime:** Zeitpunkt der Bewertung (lesbares Datum)

- **day_diff:** Anzahl der Tage seit der Bewertung

- **helpful_yes:** Anzahl der Nutzer, die die Bewertung als hilfreich empfanden

- **total_vote:** Gesamtzahl der Stimmen für die Bewertung

In [1]:
import pandas as pd
import math
import scipy.stats as st
from sklearn.preprocessing import MinMaxScaler

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

df = pd.read_csv("C:/Users/nesri/repos/Produktbewertung und Bewertungen auf Amazon sortieren/amazon_review.csv")
df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime,day_diff,helpful_yes,total_vote
0,A3SBTW3WS4IQSN,B007WTAJTO,,"[0, 0]",No issues.,4.0,Four Stars,1406073600,2014-07-23,138,0,0
1,A18K1ODH1I2MVB,B007WTAJTO,0mie,"[0, 0]","Purchased this for my device, it worked as adv...",5.0,MOAR SPACE!!!,1382659200,2013-10-25,409,0,0
2,A2FII3I2MBMUIA,B007WTAJTO,1K3,"[0, 0]",it works as expected. I should have sprung for...,4.0,nothing to really say....,1356220800,2012-12-23,715,0,0
3,A3H99DFEG68SR,B007WTAJTO,1m2,"[0, 0]",This think has worked out great.Had a diff. br...,5.0,Great buy at this price!!! *** UPDATE,1384992000,2013-11-21,382,0,0
4,A375ZM4U047O79,B007WTAJTO,2&amp;1/2Men,"[0, 0]","Bought it with Retail Packaging, arrived legit...",5.0,best deal around,1373673600,2013-07-13,513,0,0


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4915 entries, 0 to 4914
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   reviewerID      4915 non-null   object 
 1   asin            4915 non-null   object 
 2   reviewerName    4914 non-null   object 
 3   helpful         4915 non-null   object 
 4   reviewText      4914 non-null   object 
 5   overall         4915 non-null   float64
 6   summary         4915 non-null   object 
 7   unixReviewTime  4915 non-null   int64  
 8   reviewTime      4915 non-null   object 
 9   day_diff        4915 non-null   int64  
 10  helpful_yes     4915 non-null   int64  
 11  total_vote      4915 non-null   int64  
dtypes: float64(1), int64(4), object(7)
memory usage: 460.9+ KB


**AUFGABE 1:** Durchschnittliche Bewertung basierend auf aktuellen Rezensionen berechnen.  
In dieser Aufgabe wird die durchschnittliche Bewertung des Produkts basierend auf aktuellen Rezensionen gewichtet berechnet und anschließend mit der aktuellen Durchschnittsbewertung verglichen.

In [3]:
# Schritt 1: Aktuelle Durchschnittsbewertung des Produkts
df["overall"].mean()

np.float64(4.587589013224822)

In [4]:
# Schritt 2: Gewichtete Durchschnittsbewertung nach Datum (neuere Rezensionen stärker gewichtet)
# day_diff: Anzahl der Tage seit der Rezension
df["reviewTime"] = pd.to_datetime(df["reviewTime"])
current_date = df["reviewTime"].max()
df["day_diff"] = (current_date - df["reviewTime"]).dt.days

In [5]:
df["day_diff"].describe().T

count    4915.000000
mean      436.367040
std       209.439871
min         0.000000
25%       280.000000
50%       430.000000
75%       600.000000
max      1063.000000
Name: day_diff, dtype: float64

In [6]:
q1= df["day_diff"].quantile(0.25)
q2= df["day_diff"].quantile(0.50)
q3= df["day_diff"].quantile(0.75)

In [7]:
# Festlegung der zeitbasierten durchschnittlichen Gewichtungen
def weighted_average_time_based(dataframe, w1=28, w2=26, w3=24, w4=22):
    return dataframe.loc[df["day_diff"] <= 280, "overall"].mean() * w1 / 100 + \
           dataframe.loc[(dataframe["day_diff"] > 280) & (dataframe["day_diff"] <= 430), "overall"].mean() * w2 / 100 + \
           dataframe.loc[(dataframe["day_diff"] > 430) & (dataframe["day_diff"] <= 600), "overall"].mean() * w3 / 100 + \
           dataframe.loc[(dataframe["day_diff"] > 600), "overall"].mean() * w4 / 100

In [8]:
weighted_average_time_based(df)
#4.595593165128118#

np.float64(4.595593165128118)

In [9]:
weighted_average_time_based(df, 30, 28, 22, 20)
#4.6018735292998905#

np.float64(4.6018735292998905)

In [10]:
weighted_average_time_based(df, 32, 28, 22, 18)
#4.606864305471843#

np.float64(4.606864305471843)

In [11]:
# Schritt 3: Vergleich des gewichteten Durchschnittswerts mit dem aktuellen Durchschnittswert

#Aktueller Durchschnitt: 4.5876
#Zeitgewichteter Durchschnitt: 4.6069
#Differenz: 4.6069 − 4.5876 ≈ 0.019

#Der zeitgewichtete Durchschnitt zeigt, dass neuere Bewertungen etwas höhere Punkte vergeben haben.
#Der Unterschied ist jedoch immer noch sehr klein, das heißt, es gibt keine signifikanten Unterschiede zwischen alten und neuen Bewertungen.
#Insgesamt ist die Bewertung des Produkts stabil, und die neuesten Bewertungen liegen nahezu auf dem gleichen Niveau wie die älteren.

**AUFGABE 2:** Festlegung der 20 Bewertungen, die auf der Produktdetailseite für das Produkt angezeigt werden sollen.

In [12]:
# Schritt 1. Erstellung die Variable helpful_no

# total_vote ist die Gesamtanzahl der Up- und Down-Stimmen für eine Bewertung.
# up bedeutet helpful.
# Die Variable helpful_no wird berechnet, indem die Anzahl der hilfreichen Stimmen von der Gesamtzahl der Stimmen subtrahiert wird.

df["helpful_no"] = df["total_vote"] - df["helpful_yes"]
df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime,day_diff,helpful_yes,total_vote,helpful_no
0,A3SBTW3WS4IQSN,B007WTAJTO,,"[0, 0]",No issues.,4.0,Four Stars,1406073600,2014-07-23,137,0,0,0
1,A18K1ODH1I2MVB,B007WTAJTO,0mie,"[0, 0]","Purchased this for my device, it worked as adv...",5.0,MOAR SPACE!!!,1382659200,2013-10-25,408,0,0,0
2,A2FII3I2MBMUIA,B007WTAJTO,1K3,"[0, 0]",it works as expected. I should have sprung for...,4.0,nothing to really say....,1356220800,2012-12-23,714,0,0,0
3,A3H99DFEG68SR,B007WTAJTO,1m2,"[0, 0]",This think has worked out great.Had a diff. br...,5.0,Great buy at this price!!! *** UPDATE,1384992000,2013-11-21,381,0,0,0
4,A375ZM4U047O79,B007WTAJTO,2&amp;1/2Men,"[0, 0]","Bought it with Retail Packaging, arrived legit...",5.0,best deal around,1373673600,2013-07-13,512,0,0,0


In [13]:
# Schritt 2: Berechnung der Scores score_pos_neg_diff, score_average_rating und wilson_lower_bound und Hinzufügen zum Datensatz.

# score_pos_neg_diff

def score_pos_neg_diff(up, down):
    return up - down
df["score_pos_neg_diff"] = df.apply(lambda x: score_pos_neg_diff(x["helpful_yes"], x["helpful_no"]), axis=1)

# score_average_rating

def score_average_rating(up, down):
    if up + down == 0:
        return 0
    return up / (up + down)
df["score_average_rating"] = df.apply(lambda x: score_average_rating(x["helpful_yes"], x["helpful_no"]), axis=1)

# wilson_lower_bound

def wilson_lower_bound(up, down, confidence=0.95):
    n = up + down
    if n == 0:
        return 0
    z = st.norm.ppf(1 - (1 - confidence) / 2)
    phat = 1.0 * up / n
    return (phat + z * z / (2 * n) - z * math.sqrt((phat * (1 - phat) + z * z / (4 * n)) / n)) / (1 + z * z / n)
df["wilson_lower_bound"] = df.apply(lambda x:wilson_lower_bound(x["helpful_yes"], x["helpful_no"]), axis=1)
df["wilson_lower_bound"].describe().T

count    4915.000000
mean        0.020053
std         0.077187
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max         0.957544
Name: wilson_lower_bound, dtype: float64

In [14]:
# Schritt 3: Bestimmung der 20 Bewertungen mit den höchsten Scores nach der Wilson-Untere-Grenze
df.sort_values("wilson_lower_bound", ascending=False).head(20)

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime,day_diff,helpful_yes,total_vote,helpful_no,score_pos_neg_diff,score_average_rating,wilson_lower_bound
2031,A12B7ZMXFI6IXY,B007WTAJTO,"Hyoun Kim ""Faluzure""","[1952, 2020]",[[ UPDATE - 6/19/2014 ]]So my lovely wife boug...,5.0,UPDATED - Great w/ Galaxy S4 & Galaxy Tab 4 10...,1367366400,2013-01-05,701,1952,2020,68,1884,0.966337,0.957544
3449,AOEAD7DPLZE53,B007WTAJTO,NLee the Engineer,"[1428, 1505]",I have tested dozens of SDHC and micro-SDHC ca...,5.0,Top of the class among all (budget-priced) mic...,1348617600,2012-09-26,802,1428,1505,77,1351,0.948837,0.936519
4212,AVBMZZAFEKO58,B007WTAJTO,SkincareCEO,"[1568, 1694]",NOTE: please read the last update (scroll to ...,1.0,1 Star reviews - Micro SDXC card unmounts itse...,1375660800,2013-05-08,578,1568,1694,126,1442,0.92562,0.912139
317,A1ZQAQFYSXL5MQ,B007WTAJTO,"Amazon Customer ""Kelly""","[422, 495]","If your card gets hot enough to be painful, it...",1.0,"Warning, read this!",1346544000,2012-02-09,1032,422,495,73,349,0.852525,0.818577
4672,A2DKQQIZ793AV5,B007WTAJTO,Twister,"[45, 49]",Sandisk announcement of the first 128GB micro ...,5.0,Super high capacity!!! Excellent price (on Am...,1394150400,2014-07-03,157,45,49,4,41,0.918367,0.808109
1835,A1J6VSUM80UAF8,B007WTAJTO,goconfigure,"[60, 68]",Bought from BestBuy online the day it was anno...,5.0,I own it,1393545600,2014-02-28,282,60,68,8,52,0.882353,0.784651
3981,A1K91XXQ6ZEBQR,B007WTAJTO,"R. Sutton, Jr. ""RWSynergy""","[112, 139]",The last few days I have been diligently shopp...,5.0,"Resolving confusion between ""Mobile Ultra"" and...",1350864000,2012-10-22,776,112,139,27,85,0.805755,0.732136
3807,AFGRMORWY2QNX,B007WTAJTO,R. Heisler,"[22, 25]",I bought this card to replace a lost 16 gig in...,3.0,"Good buy for the money but wait, I had an issue!",1361923200,2013-02-27,648,22,25,3,19,0.88,0.700442
4306,AOHXKM5URSKAB,B007WTAJTO,Stellar Eller,"[51, 65]","While I got this card as a ""deal of the day"" o...",5.0,Awesome Card!,1339200000,2012-09-06,822,51,65,14,37,0.784615,0.670334
4596,A1WTQUOQ4WG9AI,B007WTAJTO,"Tom Henriksen ""Doggy Diner""","[82, 109]",Hi:I ordered two card and they arrived the nex...,1.0,Designed incompatibility/Don't support SanDisk,1348272000,2012-09-22,806,82,109,27,55,0.752294,0.663595


Der Kommentar an erster Stelle hat mit einem Wilson-Lower-Bound-Wert von 0,95754 die höchste Vertrauenswürdigkeit.
Auffällig ist, dass dieser Kommentar insgesamt 2020 Stimmen erhalten hat, davon 1952 „helpful_yes“, also größtenteils als hilfreich angesehen wurde.
Dies zeigt, dass der Kommentar sehr zuverlässig und nützlich ist.
Seine durchschnittliche Bewertung beträgt 5,0, also die höchstmögliche Punktzahl.

Bei der Rangfolge nach WLB stehen an den ersten Positionen die Kommentare mit den meisten Stimmen.
Gleichzeitig wird auch die Hilfreichkeitsrate berücksichtigt.
Hätten wir nach dem score_average_rating sortiert, würde Beobachtung 5 vor Beobachtung 4 stehen.
Da jedoch bei Beobachtung 4 mehr Stimmen vorliegen, wird sie bei der WLB-Berechnung über Beobachtung 5 gereiht.

Am unteren Ende der Liste fällt der Wilson-Lower-Bound-Wert auf einen Bereich von 0,56 bis 0,65.
Gemeinsam ist diesen Kommentaren, dass sie weniger Stimmen erhalten haben.
Einige 5-Sterne-Kommentare haben einen niedrigen WLB-Wert, da sie nur sehr wenige Stimmen erhalten haben (z. B. Kommentare mit 5 Stimmen, die alle „helpful“ sind).
Dies zeigt, dass eine höhere Anzahl von Stimmen für die Vertrauenswürdigkeit entscheidend ist.
Eine geringe Anzahl von Stimmen schwächt die statistische Zuverlässigkeit eines Kommentars.

Die Wilson-Lower-Bound-Rangfolge ist eine effektive Methode, um zuverlässige und nützliche Kommentare hervorzuheben.
Kommentare mit vielen Stimmen und hoher Hilfreichkeitsrate stehen oben in der Rangliste.
Kommentare mit wenigen Stimmen fallen trotz positiver Bewertungen zurück, da ihr Vertrauensintervall niedrig ist.
Wenn eine Plattform die vertrauenswürdigsten Kommentare anzeigen möchte, ist eine Sortierung nach dem WLB-Wert eine sinnvolle Methode.