# Steam Als

#### Kullanılan kütüphaneleri yüklüyoruz 

In [5]:
import pandas as pd 
import numpy as np

import scipy.sparse as sparse
from scipy.sparse.linalg import spsolve
import random
import implicit
from sklearn import metrics
from sklearn.preprocessing import MinMaxScaler

import time
from datetime import datetime

pd.set_option("display.max_rows", None, "display.max_columns", None) #Çıktı satırlarının tümünün gösterilmesini sağlar

np.set_printoptions(threshold=np.inf)

### Ana df'de index listesi oluşturmak için 

In [6]:
def df_list (index):
    df_list = []
    for x in index:
        df_keep = df[df.index == x ]
        df_list.extend(df_keep)
    return df_list

### User ID listesini İndex listesine dönüştürmek için forksiyon

In [7]:
#User ID listesini İndex listesine dönüştürmek için forksiyon
def index_list (user_id):
    index_list = []
    for user in user_id:
        index_keep = df.index[df.user == user ]
        index_list.extend(index_keep)
    return index_list

### Kullanıcı istatistikleri oluşturmak için

In [8]:
def UserStatistics (df):
    """
    Oluşturduğumuz user_statistics DataFrame'ine kullancıların statisticslerini depoluyoruz
    """
    user_statistics = pd.DataFrame(columns = ["zero_len", 
                                              "played_len", 
                                              "played_medyan", 
                                              "played_mean", 
                                              "played_max", 
                                              "played_min",
                                              "user_id"])
    for user in df.user.unique():
        keep = df.playtime_forever[df.user == user ]
        zero_len_keep = len(keep [keep==0])
        played_len_keep = len(keep [keep!=0])
        played_medyan_keep = keep [keep!=0].median()
        played_mean_keep = keep [keep!=0].mean()
        played_max_keep = keep [keep!=0].max()
        played_min_keep = keep [keep!=0].min()
        
        dictionary = {"zero_len": zero_len_keep, 
                      "played_len": played_len_keep, 
                      "played_medyan": played_medyan_keep, 
                      "played_mean": played_mean_keep, 
                      "played_max": played_max_keep, 
                      "played_min": played_min_keep,
                      "user_id": user} 
        df1 = pd.DataFrame(dictionary,index=[0])
        user_statistics = pd.concat([user_statistics,df1], axis=0,ignore_index=bool)
    return user_statistics       

## Veriyi ön işleme

In [9]:
df = pd.read_json (r'..\SteamData\SteamGameTime_clear.json')

In [10]:
df = df.drop("playtime_2weeks" , axis = 1) #playtime_2weeks sütununu sildim

In [11]:
df.head()

Unnamed: 0,appid,playtime_forever,user
0,620,76,76561198258109920
1,261550,2885,76561198258109920
2,255710,1061,76561198258109920
3,381210,498,76561198258109920
4,289070,211,76561198258109920


In [12]:
zero_playtime_id = df.index[df.playtime_forever < 121] # Satın alınıp hiç oynanmayan oyunları siliyoruz (2 saatten az oynananlarıda siliyoruz çünkü iade edilebilirler)

In [13]:
len(zero_playtime_id)

2465788

In [14]:
#2 saatten az oynanan oyunların indexlerine göre silinmesi 
df_checkpoints = df.copy()
df.drop(zero_playtime_id, axis = 0, inplace = True)

In [15]:
print("*Satır sayısı checkpoints = ",len(df_checkpoints))
print("*Satır sayısı = ",len(df))

*Satır sayısı checkpoints =  3670344
*Satır sayısı =  1204556


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1204556 entries, 1 to 3877974
Data columns (total 3 columns):
 #   Column            Non-Null Count    Dtype
---  ------            --------------    -----
 0   appid             1204556 non-null  int64
 1   playtime_forever  1204556 non-null  int64
 2   user              1204556 non-null  int64
dtypes: int64(3)
memory usage: 36.8 MB


### 20 Kişiden az sayıda oyuncusu olan oyunların çıkartılması

In [17]:
#20 Kişiden az sayıda oyuncusu olan oyunların çıkartılması
appid_value = df["appid"].value_counts()
df_checkpoints = df.copy()

for i in appid_value.index:
    if (appid_value[i] < 20): 
        index_keep = df.index[df.appid == i]
        df.drop(index_keep, axis = 0, inplace = True)

In [18]:
print("*Oyun sayısı checkpoints = ",len(df_checkpoints.appid.unique()))
print("*Oyun sayısı = ",len(df.appid.unique()))
print(" Eksilen oyun sayısı = ",len(df_checkpoints.appid.unique()) - len(df.appid.unique()))

*Oyun sayısı checkpoints =  17241
*Oyun sayısı =  5981
 Eksilen oyun sayısı =  11260


### Kullanıcı istatistiklerinin oluşturulması

In [19]:
user_statistics = UserStatistics(df)

In [20]:
print("*Satır sayısı = ",len(df))
print("*Benzersiz kullanıcı sayısı = ",len(df.user.unique()))

*Satır sayısı =  1150897
*Benzersiz kullanıcı sayısı =  19438


In [21]:
"""
id_list = user_statistics.user_id[user_statistics.played_len>300] #300'den büyük değerlerin veri seti içinde tesbit edilmesi
indexler = index_list(id_list)
df_checkpoints = df.copy()
df.drop(indexler, axis = 0, inplace = True)
"""

"\nid_list = user_statistics.user_id[user_statistics.played_len>300] #300'den büyük değerlerin veri seti içinde tesbit edilmesi\nindexler = index_list(id_list)\ndf_checkpoints = df.copy()\ndf.drop(indexler, axis = 0, inplace = True)\n"

### 10'dan az oyunu olan kişilerin silinmesi

In [22]:
len(user_statistics.user_id[user_statistics.played_len < 10])

3563

In [23]:
df_index = index_list(user_statistics.user_id[user_statistics.played_len < 10])

In [24]:
df.drop(df_index, axis = 0, inplace = True)

In [25]:
print("*Satır sayısı = ",len(df))
print("*Benzersiz kullanıcı sayısı = ",len(df.user.unique()))

*Satır sayısı =  1132518
*Benzersiz kullanıcı sayısı =  15875


#### Kontrol noktası

In [26]:
df.to_json(r'..\SteamData\SteamGameTime_GameClear.json', index = bool )

In [28]:
df = pd.read_json('..\SteamData\SteamGameTime_GameClear.json')

--------------------------------------------------------------------------------------------------

Tüm oyunlar varken:

    <17825x13214 sparse matrix of type '<class 'numpy.intc'>'
	with 1019790 stored elements in Compressed Sparse Row format>
    
    99.5670408642625
    
Oyunlar n>10 olduğunda:

    <17825x4625 sparse matrix of type '<class 'numpy.intc'>'
	with 993817 stored elements in Compressed Sparse Row format>
    
    98.79450574276942
    
Oyunlar n>18 olduğunda (0,001):

    <17825x3551 sparse matrix of type '<class 'numpy.intc'>'
	with 978682 stored elements in Compressed Sparse Row format>
    
    98.45381523407862
    
Oyunlar n>18 olduğunda (0,001), kişiler oyun sayısı 10'dan küçük olanlar:

    <15769x3551 sparse matrix of type '<class 'numpy.intc'>'
	with 966876 stored elements in Compressed Sparse Row format>
    
    98.27330371452146
    
Oyunlar n=>10 olduğunda (0,001), kişiler oyun sayısı 16< x <155:

    <10152x2580 sparse matrix of type '<class 'numpy.intc'>'
	with 417469 stored elements in Compressed Sparse Row format>
    
    98.40612992590148

### Ana csr matrisinin oluşturulması

In [29]:
users = list(np.sort(df.user.unique())) #unique kulanıcı listesi sıralı
appids = list(df.appid.unique()) #unique appid listesi
playtime_forever = list(df.playtime_forever)
#astype('category') veriyi katagorik yapıyor #.cat.codes veriye katagori veriyor #örnek 76561198258109920 = 8606 oluyor
rows = df.user.astype('category').cat.codes 
cols = df.appid.astype('category').cat.codes 
playtime_sparse = sparse.csr_matrix((playtime_forever, (rows, cols)), shape=(len(users), len(appids)))

In [30]:
playtime_sparse

<15875x5981 sparse matrix of type '<class 'numpy.intc'>'
	with 1131401 stored elements in Compressed Sparse Row format>

### Ana crs matrisinin boş alanının hesaplanması

In [31]:
matrix_size = playtime_sparse.shape[0]*playtime_sparse.shape[1] # Number of possible interactions in the matrix
num_purchases = len(playtime_sparse.nonzero()[0]) # Number of items interacted with
sparsity = 100*(1 - (num_purchases/matrix_size))
sparsity

98.80840404061681

### Verinin eğitim ve test verisine bölünmesi

In [32]:
def make_train(ratings, pct_test = 0.2):
    '''
    Bu işlev, orijinal kullanıcı öğesi matrisini alacak ve orijinal derecelendirmelerin bir yüzdesini "maskeleyecektir"; 
    bir test seti olarak kullanılmak üzere kullanıcı-öğe etkileşimi gerçekleşmiştir. Test seti tüm orijinal derecelendirmeleri 
    içerecektir, eğitim seti ise orijinal derecelendirme matrisinde belirtilen yüzdesini sıfır ile değiştirir.
    
    parameters: 
    
    ratings - bir tren / test seti oluşturmak istediğiniz orijinal derecelendirme matrisi. Test sadece tamamlandı 
              orijinal setin kopyası. Bu seyrek bir csr_matrix biçimindedir.
    
    pct_test - Maskelemek istediğiniz bir etkileşimin gerçekleştiği kullanıcı-öğe etkileşimlerinin yüzdesi 
               Tüm orijinal derecelendirmeleri içeren test setiyle daha sonra karşılaştırmak için eğitim seti.
    
    returns:
    
    training_set - Kullanıcı-öğe çiftlerinin belirli bir yüzdesine sahip orijinal verilerin değiştirilmiş 
                    versiyonu başlangıçta etkileşimi sıfıra ayarlanmış.
    
    test_set - Orijinal derecelendirme matrisinin bir kopyası, değiştirilmemiştir, böylece sıralama 
                sırasının nasıl olduğunu görmek için kullanılabilir gerçek etkileşimlerle karşılaştırır.
    
    user_inds - Rastgele seçilen kullanıcı öğesi endekslerinden, eğitim verilerinde hangi kullanıcı satırlarının 
                değiştirildiği. Bu, performansı AUC aracılığıyla değerlendirirken daha sonra gerekli olacaktır.
    '''
    
    
    test_set = ratings.copy() # Test seti olarak orijinal setin bir kopyasını alın. 
    test_set[test_set != 0] = 1 # Test setini ikili tercih matrisi olarak saklayın
    training_set = ratings.copy() # Eğitim setimiz olarak değiştirebileceğimiz orijinal verilerin bir kopyasını alın. 
    nonzero_inds = training_set.nonzero() # Sıfır olmayanların indislerini 2 array olarak döndürür
    nonzero_pairs = list(zip(nonzero_inds[0], nonzero_inds[1])) # Kullanıcı çiftlerini bir araya sıkıştırın, öğe dizinini listeye alın
    random.seed(0) # Tekrarlanabilirlik için rastgele tohumu sıfıra ayarlayın
    num_samples = int(np.ceil(pct_test*len(nonzero_pairs))) # Gerekli örnek sayısını en yakın tam sayıya yuvarlayın
    samples = random.sample(nonzero_pairs, num_samples) # Sample a random number of user-item pairs without replacement
    user_inds = [index[0] for index in samples] # Get the user row indices
    item_inds = [index[1] for index in samples] # Get the item column indices
    training_set[user_inds, item_inds] = 0 # Assign all of the randomly chosen user-item pairs to zero
    training_set.eliminate_zeros() # Get rid of zeros in sparse array storage after update to save space
    return training_set, test_set, list(set(user_inds)) # Output the unique list of user rows that were altered

In [38]:
product_train, product_test, product_users_altered = make_train(playtime_sparse, pct_test = 0.2)

### Eğitim veri matrisnin boş alanının hesaplanması

In [39]:
product_train

<15875x5981 sparse matrix of type '<class 'numpy.intc'>'
	with 905120 stored elements in Compressed Sparse Row format>

In [40]:
matrix_size = product_train.shape[0]*product_train.shape[1] # Number of possible interactions in the matrix
num_purchases = len(product_train.nonzero()[0]) # Number of items interacted with
sparsity = 100*(1 - (num_purchases/matrix_size))
sparsity

99.04672407505657

### Als'nin oluşturulması

In [41]:
def implicit_weighted_ALS(training_set, lambda_val = 0.1, alpha = 40, iterations = 10, rank_size = 20, seed = 0):
    '''
    Implicit weighted ALS taken from Hu, Koren, and Volinsky 2008. Designed for alternating least squares and implicit
    feedback based collaborative filtering. 
    
    parameters:
    
    training_set - Our matrix of ratings with shape m x n, where m is the number of users and n is the number of items.
    Should be a sparse csr matrix to save space. 
    
    lambda_val - Used for regularization during alternating least squares. Increasing this value may increase bias
    but decrease variance. Default is 0.1. 
    
    alpha - The parameter associated with the confidence matrix discussed in the paper, where Cui = 1 + alpha*Rui. 
    The paper found a default of 40 most effective. Decreasing this will decrease the variability in confidence between
    various ratings.
    
    iterations - The number of times to alternate between both user feature vector and item feature vector in
    alternating least squares. More iterations will allow better convergence at the cost of increased computation. 
    The authors found 10 iterations was sufficient, but more may be required to converge. 
    
    rank_size - The number of latent features in the user/item feature vectors. The paper recommends varying this 
    between 20-200. Increasing the number of features may overfit but could reduce bias. 
    
    seed - Set the seed for reproducible results
    
    returns:
    
    The feature vectors for users and items. The dot product of these feature vectors should give you the expected 
    "rating" at each point in your original matrix. 
    '''
    
    # first set up our confidence matrix
    
    conf = (alpha*training_set) # To allow the matrix to stay sparse, I will add one later when each row is taken 
                                # and converted to dense. 
    num_user = conf.shape[0]
    num_item = conf.shape[1] # Get the size of our original ratings matrix, m x n
    
    # initialize our X/Y feature vectors randomly with a set seed
    rstate = np.random.RandomState(seed)
    
    X = sparse.csr_matrix(rstate.normal(size = (num_user, rank_size))) # Random numbers in a m x rank shape
    Y = sparse.csr_matrix(rstate.normal(size = (num_item, rank_size))) # Normally this would be rank x n but we can 
                                                                 # transpose at the end. Makes calculation more simple.
    X_eye = sparse.eye(num_user)
    Y_eye = sparse.eye(num_item)
    lambda_eye = lambda_val * sparse.eye(rank_size) # Our regularization term lambda*I. 
    
    # We can compute this before iteration starts. 
    
    # Begin iterations
   
    for iter_step in range(iterations): # Iterate back and forth between solving X given fixed Y and vice versa
        # Compute yTy and xTx at beginning of each iteration to save computing time
        yTy = Y.T.dot(Y)
        xTx = X.T.dot(X)
        # Being iteration to solve for X based on fixed Y
        for u in range(num_user):
            conf_samp = conf[u,:].toarray() # Grab user row from confidence matrix and convert to dense
            pref = conf_samp.copy() 
            pref[pref != 0] = 1 # Create binarized preference vector 
            CuI = sparse.diags(conf_samp, [0]) # Get Cu - I term, which is just CuI since we never added 1
            yTCuIY = Y.T.dot(CuI).dot(Y) # This is the yT(Cu-I)Y term 
            yTCupu = Y.T.dot(CuI + Y_eye).dot(pref.T) # This is the yTCuPu term, where we add the eye back in
                                                      # Cu - I + I = Cu
            X[u] = spsolve(yTy + yTCuIY + lambda_eye, yTCupu) 
            # Solve for Xu = ((yTy + yT(Cu-I)Y + lambda*I)^-1)yTCuPu, equation 4 from the paper  
        # Begin iteration to solve for Y based on fixed X 
        for i in range(num_item):
            conf_samp = conf[:,i].T.toarray() # transpose to get it in row format and convert to dense
            pref = conf_samp.copy()
            pref[pref != 0] = 1 # Create binarized preference vector
            CiI = sparse.diags(conf_samp, [0]) # Get Ci - I term, which is just CiI since we never added 1
            xTCiIX = X.T.dot(CiI).dot(X) # This is the xT(Cu-I)X term
            xTCiPi = X.T.dot(CiI + X_eye).dot(pref.T) # This is the xTCiPi term
            Y[i] = spsolve(xTx + xTCiIX + lambda_eye, xTCiPi)
            # Solve for Yi = ((xTx + xT(Cu-I)X) + lambda*I)^-1)xTCiPi, equation 5 from the paper
    # End iterations
    return X, Y.T # Transpose at the end to make up for not being transposed at the beginning. 
                         # Y needs to be rank x n. Keep these as separate matrices for scale reasons. 

In [42]:
alpha = 15
user_vecs, item_vecs = implicit.alternating_least_squares((product_train*alpha).astype('double'), 
                                                          factors=20, 
                                                          regularization = 0.1, 
                                                          iterations = 50)

This method is deprecated. Please use the AlternatingLeastSquares class instead


  0%|          | 0/50 [00:00<?, ?it/s]

In [43]:
def auc_score(predictions, test):
    '''
    Bu basit fonksiyon, sklearn ölçümlerini kullanarak eğrinin altındaki alanı çıkaracaktır.
    
    parameters:
    
    - predictions: tahmin çıktınız
    
    - test: karşılaştırdığınız gerçek hedef sonuç
    
    returns:
    
    - AUC (Alıcı Çalışma Karakteristik eğrisinin altındaki alan)
    '''
    fpr, tpr, thresholds = metrics.roc_curve(test, predictions)
    return metrics.auc(fpr, tpr)   

In [44]:
def calc_mean_auc(training_set, altered_users, predictions, test_set):
    '''
    Bu işlev, kullanıcı öğesi matrisi değiştirilen herhangi bir kullanıcı 
    için kullanıcı tarafından ortalama AUC'yi hesaplayacaktır.
    
    parameters:
    
    training_set - Make_train'den ortaya çıkan eğitim seti, burada orijinalin belirli bir yüzdesi modelden gizlemek 
                   için kullanıcı / öğe etkileşimleri sıfırlanır 
    
    predictions - Örtük MF'den çıktı olarak her kullanıcı / öğe çifti için tahmin ettiğiniz derecelendirmelerinizin matrisi. 
                  Bunlar, kullanıcı vektörleri sıfır öğesi ve öğe vektörleri birinci öğe olacak şekilde bir listede 
                  saklanmalıdır. 
    
    altered_users - Make_train işlevinden en az bir kullanıcı / öğe çiftinin değiştirildiği kullanıcıların indisleri
    
    test_set - Make_train fonksiyonundan daha önce oluşturulmuş test seti
    
    
    
    returns:
    
    Test setinin ortalama AUC'si (Alıcı Operatör Karakteristik eğrisinin altındaki alan) yalnızca kullanıcı-öğe 
    etkileşimlerinde karşılaştırma ölçütü olarak en popüler öğelere ek olarak sıralama yeteneğini test etmek için 
    başlangıçta sıfır vardı.
    '''
    
    
    store_auc = [] # Eğitim setinden bir öğe kaldırılan her kullanıcı için AUC'yi depolamak için boş bir liste
    popularity_auc = [] # Popüler AUC puanlarını saklamak için
    pop_items = np.array(test_set.sum(axis = 0)).reshape(-1) # En popüler olanları bulmak için öğe yinelemelerinin toplamını alın
    item_vecs = predictions[1]
    for user in altered_users: # Değiştirilmiş bir öğeye sahip her bir kullanıcıyı yineleyin
        training_row = training_set[user,:].toarray().reshape(-1) # Eğitim seti satırını alın
        zero_inds = np.where(training_row == 0) # Etkileşimin henüz gerçekleşmediği yerleri bulun
        # Kullanıcı / ürün vektörlerimize göre tahmin edilen değerleri alın
        user_vec = predictions[0][user,:]
        pred = user_vec.dot(item_vecs).toarray()[0,zero_inds].reshape(-1)
        # Yalnızca başlangıçta sıfır olan öğeleri alın
        # Orijinalde yineleme olmayan bu kullanıcı için MF tahmininden tüm derecelendirmeleri seçin
        actual = test_set[user,:].toarray()[0,zero_inds].reshape(-1) 
        # Orijinal tam verilerden ikilileştirilmiş evet / hayır etkileşim çiftlerini seçin
        # eğitimde aynı çiftlerle hizalanan
        pop = pop_items[zero_inds] # Seçtiğimiz ürünler için ürün popülaritesini öğrenin
        store_auc.append(auc_score(pred, actual)) # Verilen kullanıcı ve mağaza için AUC'yi hesaplayın
        popularity_auc.append(auc_score(pop, actual)) # AUC'yi en popüler kullanarak hesaplayın ve puanlayın
    # Son kullanıcıların yinelemesi
    
    return float('%.3f'%np.mean(store_auc)), float('%.3f'%np.mean(popularity_auc))  
   # Hem test hem de popülerlik karşılaştırması için ortalama AUC'yi üç ondalık basamağa yuvarlayarak döndürün

In [45]:
calc_mean_auc(product_train, product_users_altered, 
              [sparse.csr_matrix(user_vecs), sparse.csr_matrix(item_vecs.T)], product_test)
# AUC for our recommender system

(0.931, 0.925)

In [44]:
users_arr = np.array(users) # Array of customer IDs from the ratings matrix
appids_arr = np.array(appids) # Array of product IDs from the ratings matrix

In [80]:
def get_items_purchased(customer_id, mf_train, customers_list, products_list, item_lookup):
    '''
    This just tells me which items have been already purchased by a specific user in the training set. 
    
    parameters: 
    
    customer_id - Input the customer's id number that you want to see prior purchases of at least once
    
    mf_train - The initial ratings training set used (without weights applied)
    
    customers_list - The array of customers used in the ratings matrix
    
    products_list - The array of products used in the ratings matrix
    
    item_lookup - A simple pandas dataframe of the unique product ID/product descriptions available
    
    returns:
    
    A list of item IDs and item descriptions for a particular customer that were already purchased in the training set
    '''
    cust_ind = np.where(customers_list == customer_id)[0][0] # Returns the index row of our customer id
    purchased_ind = mf_train[cust_ind,:].nonzero()[1] # Get column indices of purchased items
    prod_codes = products_list[purchased_ind] # Get the stock codes for our purchased items
    return item_lookup.loc[item_lookup.appid.isin(prod_codes)]


In [46]:
users_arr[:5]

array([76561197960330560, 76561197960351360, 76561197960402288,
       76561197960505440, 76561197960518800], dtype=int64)

In [52]:
appistatistics = pd.read_json (r'..\SteamData\AppiStatistics.json')

In [53]:
appistatistics.columns

Index(['appid', 'name', 'developer', 'publisher', 'score_rank', 'positive',
       'negative', 'userscore', 'owners', 'average_forever', 'average_2weeks',
       'median_forever', 'median_2weeks', 'price', 'initialprice', 'discount',
       'ccu'],
      dtype='object')

In [77]:
item_lookup = appistatistics[['appid', 'name']].drop_duplicates() # Only get unique item/description pairs
item_lookup['appid'] = item_lookup.appid.astype(str) # Encode as strings for future lookup ease

In [78]:
item_lookup.head()

Unnamed: 0,appid,name
570,570,Dota 2
730,730,Counter-Strike: Global Offensive
578080,578080,PLAYERUNKNOWN'S BATTLEGROUNDS
440,440,Team Fortress 2
304930,304930,Unturned


In [144]:
get_items_purchased(76561197960330560, product_train, users_arr, appids_arr, dfappi)

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
116,3910,Sid Meier's Civilization® III Complete,2006-10-25,1,Firaxis Games,2K,windows,0,Single-player;Multi-player;Includes level editor,Strategy,Strategy;Turn-Based Strategy;Turn-Based,0,2578,405,1166,13,2000000-5000000,2.99
346,15120,Tom Clancy's Rainbow Six® Vegas 2,2008-04-16,1,Ubisoft Montreal,Ubisoft,windows,0,Single-player;Multi-player;Co-op,Action,Action;Tactical;FPS,0,2582,456,1349,1936,500000-1000000,8.59
475,22230,Rock of Ages,2011-09-07,1,ACE Team,SEGA,windows,0,Single-player;Multi-player;Steam Achievements;...,Action;Indie;Racing;Strategy,Comedy;Indie;Strategy,19,2604,244,235,231,200000-500000,6.99
830,45450,Fortix 2,2011-05-06,1,Nemesys Games,Nemesys Games,windows;mac;linux,0,Single-player;Steam Achievements;Steam Trading...,Casual;Indie,Indie;Casual;Puzzle,26,462,45,487,487,100000-200000,1.59
1003,70100,Hacker Evolution,2010-09-14,1,exosyphen studios,exosyphen studios,windows;mac;linux,0,Single-player;Steam Trading Cards,Simulation,Simulation;Hacking;Puzzle,0,598,308,189,214,200000-500000,0.79
1183,200710,Torchlight II,2012-09-20,1,Runic Games,Runic Games,windows;mac;linux,0,Single-player;Multi-player;Co-op;Cross-Platfor...,Action;Adventure;Indie;RPG,RPG;Action RPG;Hack and Slash,119,29539,1757,1037,508,2000000-5000000,14.99
1301,207430,"Hack, Slash, Loot",2012-04-05,1,David Williamson,David Williamson,windows;mac,0,Single-player;Steam Achievements;Steam Trading...,Casual;Indie;RPG,Rogue-like;Indie;RPG,17,337,332,133,139,100000-200000,4.99
1369,211440,Adventures of Shuggy,2012-06-13,1,Smudged Cat Games Ltd,Smudged Cat Games Ltd,windows;mac;linux,0,Single-player;Shared/Split Screen;Steam Achiev...,Indie,Platformer;Indie;Puzzle,13,955,149,69,83,200000-500000,3.99
1573,225540,Just Cause™ 3,2015-11-30,1,Avalanche Studios,Square Enix,windows,18,Single-player;Steam Achievements;Full controll...,Action;Adventure,Open World;Action;Destruction,66,37747,14024,2086,438,2000000-5000000,11.99
1598,227560,Scourge: Outbreak,2014-04-02,1,Tragnarion Studios,Bitbox S.L.,windows;mac,16,Single-player;Multi-player;Co-op;Cross-Platfor...,Action;Indie,Action;Third-Person Shooter;Indie,43,321,166,289,381,100000-200000,5.59


In [102]:
appids_arr_d = pd.DataFrame(appids_arr)

In [118]:
appids_arr_d.columns = ["appid"]

In [119]:
appids_arr_d["Description"] = 1

In [124]:
dfappi = pd.read_csv(r"C:\Users\90554\Desktop\steam.csv")

In [120]:
get_items_purchased(76561197960518800, product_train, users_arr, dfappi, appids_arr_d)

Unnamed: 0,appid,Description
0,70100,1
4,224220,1
6,271860,1
22,327410,1
23,333740,1
33,351150,1
82,428430,1
222,579230,1
254,233510,1
537,240720,1


In [142]:
def rec_items(customer_id, mf_train, user_vecs, item_vecs, customer_list, item_list, item_lookup, num_items = 10):
    '''
    This function will return the top recommended items to our users 
    
    parameters:
    
    customer_id - Input the customer's id number that you want to get recommendations for
    
    mf_train - The training matrix you used for matrix factorization fitting
    
    user_vecs - the user vectors from your fitted matrix factorization
    
    item_vecs - the item vectors from your fitted matrix factorization
    
    customer_list - an array of the customer's ID numbers that make up the rows of your ratings matrix 
                    (in order of matrix)
    
    item_list - an array of the products that make up the columns of your ratings matrix
                    (in order of matrix)
    
    item_lookup - A simple pandas dataframe of the unique product ID/product descriptions available
    
    num_items - The number of items you want to recommend in order of best recommendations. Default is 10. 
    
    returns:
    
    - The top n recommendations chosen based on the user/item vectors for items never interacted with/purchased
    '''
    
    cust_ind = np.where(customer_list == customer_id)[0][0] # Returns the index row of our customer id
    pref_vec = mf_train[cust_ind,:].toarray() # Get the ratings from the training set ratings matrix
    pref_vec = pref_vec.reshape(-1) + 1 # Add 1 to everything, so that items not purchased yet become equal to 1
    pref_vec[pref_vec > 1] = 0 # Make everything already purchased zero
    rec_vector = user_vecs[cust_ind,:].dot(item_vecs.T) # Get dot product of user vector and all item vectors
    # Scale this recommendation vector between 0 and 1
    min_max = MinMaxScaler()
    rec_vector_scaled = min_max.fit_transform(rec_vector.reshape(-1,1))[:,0] 
    recommend_vector = pref_vec*rec_vector_scaled 
    # Items already purchased have their recommendation multiplied by zero
    product_idx = np.argsort(recommend_vector)[::-1][:num_items] # Sort the indices of the items into order 
    # of best recommendations
    rec_list = [] # start empty list to store items
    for index in product_idx:
        code = item_list[index]
        rec_list.append([code, item_lookup.name.loc[item_lookup.appid == code].iloc[0]]) 
        # Append our descriptions to the list
    codes = [item[0] for item in rec_list]
    descriptions = [item[1] for item in rec_list]
    final_frame = pd.DataFrame({'appid': codes, 'name': descriptions}) # Create a dataframe 
    return final_frame[['appid', 'name']] # Switch order of columns around

In [148]:
rec_items(76561197960518800, product_train, user_vecs, item_vecs, users_arr, appids_arr, dfappi,
                       num_items = 10)

Unnamed: 0,appid,name
0,327260,Super Life of Pixel
1,11130,Sherlock Holmes: The Mystery of the Mummy
2,307070,Memories of a Vagabond
3,689180,Trivia Vault: 1980's Trivia
4,361890,Chronostorm: Siberian Border
5,362130,Ashes of Immortality
6,294750,Anomaly Defenders
7,668630,Tricolour Lovestory
8,347430,Frankenstein: Master of Death
9,419480,Starpoint Gemini Warlords


In [139]:
user_statistics.user_id[user_statistics.played_len == 50]

5        76561198317320752
130      76561198326051888
284      76561198272332256
535      76561198991976944
588      76561198071305280
846      76561198247091024
1023     76561198370134848
1036     76561198134148768
1068     76561198063044688
1106     76561198137397104
1136     76561198258230848
1215     76561198035632928
1740     76561198334005216
2090     76561198038116752
2148     76561198050801568
2247     76561198255927024
2728     76561198319555856
3054     76561198140581424
3136     76561198827927440
3185     76561198062439072
3187     76561198314422048
3398     76561198370975552
3528     76561198161148992
3654     76561198135609552
3684     76561198973470672
3835     76561198311920304
3862     76561198141454928
4193     76561198074340736
4279     76561198144812800
4367     76561198118663888
4490     76561198149593280
4756     76561198132973728
4962     76561198065687728
5698     76561198082579056
5800     76561198017231728
6120     76561198796136512
6208     76561198250678400
6