In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from nltk.tokenize import sent_tokenize, word_tokenize
from textblob import TextBlob
from surprise import SVD
from surprise import Dataset
from surprise import Reader
from surprise.model_selection import train_test_split
import gc
from surprise import accuracy
from surprise.model_selection import cross_validate
from surprise.model_selection import GridSearchCV

### IMPORTACION DE DATASET

In [2]:
import gzip
import pandas as pd

def parse(path):
    g = gzip.open(path, 'r')
    for l in g:
        yield eval(l)

In [3]:
#contador = 0
#data_reviews = []
# Vamos a guardar una de cada 10 reviews para no llenar la memoria RAM. Si pones n = 3, 
# abrira uno de cada tres, y asi.
#n = 3
#for l in parse('C:\\Users\\Usuario\\source\\repos\\steam_reviews.json.gz'):
#    if contador%n == 0:
#        data_reviews.append(l)
#    else:
 #         pass
 #         contador += 1
    
 


In [65]:
data_games = []
for l in parse('C:\\Users\\Usuario\\source\\repos\\steam_games.json.gz'):
        data_games.append(l)

In [5]:
#data_reviews = pd.DataFrame(data_reviews)
#data_reviews.drop('Unnamed: 0',axis=1,inplace=True)


In [6]:
#data_reviews.to_csv('C:\\Users\\Usuario\\source\\repos\\data_reviews.csv')
#del data_reviews

In [4]:
data_reviews= pd.read_csv('C:\\Users\\Usuario\\source\\repos\\data_reviews.csv')



KeyboardInterrupt: 

In [None]:
data_reviews.drop('Unnamed: 0', axis=1,inplace=True)

In [66]:
data_games = pd.DataFrame(data_games)

### DESCRIPCIÓN DE FEATURES DATA_REVIEWS

**username:** Nombre del usuario que ha dejado la reseña

**hours:** Cantidad de horas jugadas (acumuladas) en el juego al cual se le ha hecho la reseña

**products:** Cantidad de otros juegos probados

**product_id:** Identificacion númerica del juego reseñado

**page_order:** Número de página en el cual se encuentra el juego dentro de la plataforma

**date:** Fecha en la cual se ha creado la reseña

**text:** Comentario sobre el juego

**early_access:** Si es True significa que el juego puede ser adquirido durante su etapa de desarrollo

**page:** No es interpretable

**user_id:** Identificacion númerica del usuario creador de la reseña

**found_funny:** Cantidad de calificaciones positivas creadas por otros usuarios

**compensation:** Variable no interpretable dada la cantidad de valores nulos contenidos en ella


### DESCRIPCIÓN DE FEATURES INCLUIDOS EN DATA_GAMES

**desarrollador:** Creador del juego

**genres:** Géneros, caracteristicas del juego

**app_name:** Editor del juego

**title:** Nombre del juego

**url:** Dirección web donde encontrarlo

**release_date:** Fecha de lanzamiento

**tags:** Etiquetas relacionadas con el juego

**discount_price:** Precio con descuento incluido

**reviews_url:** Dirección web donde encontrar las reseñas sobre el juego

**specs:** Especificaciones

**price:** Precio sin descuento

**early_access:** Si es True significa que el juego puede ser adquirido durante su etapa de desarrollo

**id:** Identificacion númerica del juego publicado

**sentiment:** Emoción promedio generada en los usuarios

**metascore:** Puntaje promedio recibido por los usuarios


### ANALISIS EXPLORATORIO DATA_REVIEWS

In [None]:
data_reviews.head()

Cantidad de filas y columnas

In [None]:
data_reviews.shape

Información del tipo de dato contenido en cada feature

In [None]:
data_reviews.info()

Visualización de valores nulos contenidos en cada feature

In [None]:
data_reviews.isna().sum()

Estadisticos de las variables númericas que contribuyen a definir la calificación del usuario

In [None]:
data_reviews.loc[:,['hours','products']].describe().round(2)

De los estadisticos obtenidos podemos decir que la base de datos contiene valores que no deberían ser considerados dentro del análisis. Estos son los valores extremos como:

*Usuarios que han probado el juego por menos de 10 horas acumuladas (no tienen el expertise necesario como para que su review sea considerada)

*Usuarios que han probado menos de 20 juegos

*Usuarios que han destinado mas de 100 horas a un juego

*Usuarios que han probado mas de 300 juegos 

In [None]:
data_reviews2=data_reviews[(data_reviews.products>20) & (data_reviews.products<300)]
data_reviews2=data_reviews2[(data_reviews2.hours>10) & (data_reviews2.hours<100)]
del data_reviews

In [None]:
data_reviews2.shape

In [None]:
data_reviews2.isna().sum()

In [None]:
indices_vacios=data_reviews2[data_reviews2.username.isna()].index
indices_vacios

In [None]:
data_reviews2.drop(indices_vacios,inplace=True)

Filtro el dataset quitando aquellos features que considero no van a ser útiles para el modelo

In [None]:
text_vacio=data_reviews2[data_reviews2.text.isna()].index

In [None]:
data_reviews2.drop(text_vacio,inplace=True)

In [None]:
data_reviews2.reset_index(drop=True,inplace=True)

In [None]:
data_reviews3=data_reviews2.loc[:,['username','hours','products','product_id','text']]
data_reviews3.isna().sum()
del data_reviews2

Visualización de la distribución de la variable "hours"

In [None]:

plt.figure(figsize=(20, 10))


plt.subplot(3,1,1)
sns.kdeplot(data=data_reviews3.hours)

plt.subplot(3,1,2)
sns.boxplot(data=data_reviews3.hours)

Visualización de la distribución de la variable "products"

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(3,1,1)
sns.kdeplot(data=data_reviews3.products)

plt.subplot(3,1,2)
sns.boxplot(data=data_reviews3.products)

#### Algunas preguntas que respondemos 

1. Que cantidad de reviews deja en promedio cada usuario?

In [None]:
reviews_prom=data_reviews3.username.value_counts().mean()
print(f'El promedio de reviews por usuario es:{reviews_prom}')

2. Dentro de los limites establecidos, cual fue el usuario que mas reviews dejo y cual el que menos dejo?

In [None]:
print(f'El usuario que mas veces dejó un review fue:')
pd.DataFrame(data_reviews3.username.value_counts()).iloc[0]

In [None]:
print(f'Lo usuarios que dejaron unicamente un review son:')
min_rev=pd.DataFrame(data_reviews3.username.value_counts())==1
df_min=pd.DataFrame(data_reviews3.username.value_counts())[min_rev]
df_min.dropna()

3. Cual es el juego que mas reviews tuvo? cual el que menos reviews tuvo?

In [None]:
pd.DataFrame(data_reviews3.product_id.value_counts()).iloc[0]


In [None]:
data_reviews3.product_id.value_counts()

Fin del analisis exploratorio. A continuación determino por medio de TextBlob, la polaridad de un review analizando la variable Text. 

Polaridad es un número décimal que oscila entre -1 y 1, donde 1 significa que el comentario transmite un sentimiento positivo y, -1 un sentimiento negativo

In [100]:
polarity_list=[]
for i in range(len(data_reviews3.text)):
    frase=TextBlob(data_reviews3.text[i])
    polarity=frase.sentiment.polarity
    polarity_list.append(polarity)

In [101]:
data_reviews3['Polarity']=pd.Series(polarity_list)

In [102]:
data_reviews3.to_csv('C:\\Users\\Usuario\\source\\repos\\data_reviews4.csv')
del data_reviews3

In [6]:
data_reviews4= pd.read_csv('C:\\Users\\Usuario\\source\\repos\\data_reviews4.csv')

In [None]:
data_reviews4.head()

In [7]:
data_reviews4.drop(['Unnamed: 0'], axis=1,inplace=True)

In [None]:
correlacion=data_reviews4.loc[:,['hours','products','Polarity']].corr()

In [None]:
sns.heatmap(correlacion, cbar = True,annot = True)

Del mapa de calor se concluye que no existe ninguna relación directa entre un comentario positivo dejado por el usuario a un juego y la cantidad de horas jugadas, ni otros juegos probados. Esto nos permite afirmar que la relación es bivariable y por ende,no apreciable en el heatmap.

Con el fin de reafirmar lo concluido aquí, a continuación exponemos estadisticos y filtramos polaridad según dos criterios al mismo tiempo: horas y cantidad de juegos probados.

In [None]:
data_reviews4.loc[:,['hours','products','Polarity']].describe().round(2)

Criterio determinacion de Score: **Si la cantidad de productos está dentro de los valores del primer cuartil y la cantidad de horas jugadas es mayor al 75% de los valores de la muestra---> Calificación positiva (corroborado con el indice de polaridad)

**Si la cantidad de productos es mayor al 75% de los valores contenidos en la muestra y la cantidad de horas jugadas está dentro del primer 25% de los valores---> Calificación negativa (corroborado con el índice de polaridad)



In [None]:
positive_mask= (data_reviews4.hours>48) & (data_reviews4.products<55)

In [None]:
data_reviews4[positive_mask].Polarity.mean()

El resultado obtenido es considerado suficiente para determinar como minimo de polaridad con la que un usuario calificaría como positivo al juego ya que, 0.13 es mayor al promedio de polaridad y, dado que la polaridad es un número que oscila entre -1 y 1 siendo -1 negativo y 1 positvo, el valor obtenido se encuentra mas cercano al extremo positivo que al extremo negativo

In [None]:
negative_mask=(data_reviews4.hours<16) & (data_reviews4.products>166)

In [None]:
data_reviews4[negative_mask].Polarity.mean()

In [18]:
undefined_mask=(data_reviews4.Polarity<0.13117870234093953) & (data_reviews4.Polarity>0.0567740481140225)

NameError: name 'data_reviews4' is not defined

In [61]:
data_reviews4[positive_mask]

Unnamed: 0,username,hours,products,product_id,text,Polarity
58,Mky,64.4,45.0,1840,It's a lot of fun if you know what you're doin...,0.521429
64,Kachigga,69.9,23.0,1840,Quite difficult to learn to use but after a co...,0.315556
79,SwaggerBallz,55.2,31.0,8880,I wish Steam would patch this game. I always e...,0.026667
93,Bricks04,73.9,32.0,1840,"Great tool, renders are crisp and resemble the...",0.224000
100,DatGuyT_T,94.5,46.0,1840,Very good best of all its free but REALLY need...,0.627500
...,...,...,...,...,...,...
2227165,Pobot,48.9,21.0,252490,this game is soo good.,0.150000
2227188,Cloud,65.2,50.0,252490,EPIC !,0.125000
2227218,Haetcher upgrader.gg,93.8,51.0,252490,The game is cool only it laagt extremely chopp...,-0.062500
2227253,]TDF[Gomer,91.4,43.0,252490,In the day and age were Dayz/Minecraft clones ...,0.071429


In [62]:
calif_pos=data_reviews4[positive_mask].shape[0]/data_reviews4.shape[0]
print(f'El {calif_pos*100}% de las reviews son positivas')

El 6.72549342688626% de las reviews son positivas


In [8]:
def conditions(data):
    if (data['Polarity'] > 0.13175401820734617):
        return 3
    elif (data['Polarity'] < 0.11806886378669548):
        return 1
    else:
        return 2

In [9]:
data_reviews4['Calif'] = data_reviews4.apply(conditions, axis=1)

In [10]:
data_reviews4.head()

Unnamed: 0,username,hours,products,product_id,text,Polarity,Calif
0,MR_SERENITY,14.8,147.0,35140,aweosme game great story and some epic moments...,0.375,3
1,Duha Nubie,11.3,73.0,35140,first debut feel sweet,0.3,3
2,The Undead StalkeR,17.0,87.0,35140,9/10\nEven after all these years. this game re...,0.471429,3
3,Mono,14.1,54.0,506510,A Charming game with colourful pixel graphics ...,0.3,3
4,Uncle-Noob,24.7,37.0,350280,"I really like this game, but no one plays it. ...",-0.117532,1


### ANALISIS EXPLORATORIO DATA_GAMES

In [49]:
data_games.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,discount_price,reviews_url,specs,price,early_access,id,developer,sentiment,metascore
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",4.49,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,Kotoshiro,,
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",,http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,False,643980,Secret Level SRL,Mostly Positive,
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",,http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,False,670290,Poolians.com,Mostly Positive,
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"[Action, Adventure, Casual]",0.83,http://steamcommunity.com/app/767400/reviews/?...,[Single-player],0.99,False,767400,彼岸领域,,
4,,,Log Challenge,,http://store.steampowered.com/app/773570/Log_C...,,"[Action, Indie, Casual, Sports]",1.79,http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,False,773570,,,


In [50]:
data_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32135 entries, 0 to 32134
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   publisher       24083 non-null  object 
 1   genres          28852 non-null  object 
 2   app_name        32133 non-null  object 
 3   title           30085 non-null  object 
 4   url             32135 non-null  object 
 5   release_date    30068 non-null  object 
 6   tags            31972 non-null  object 
 7   discount_price  225 non-null    float64
 8   reviews_url     32133 non-null  object 
 9   specs           31465 non-null  object 
 10  price           30758 non-null  object 
 11  early_access    32135 non-null  bool   
 12  id              32133 non-null  object 
 13  developer       28836 non-null  object 
 14  sentiment       24953 non-null  object 
 15  metascore       2677 non-null   object 
dtypes: bool(1), float64(1), object(14)
memory usage: 3.7+ MB


In [51]:
data_games.isna().sum()

publisher          8052
genres             3283
app_name              2
title              2050
url                   0
release_date       2067
tags                163
discount_price    31910
reviews_url           2
specs               670
price              1377
early_access          0
id                    2
developer          3299
sentiment          7182
metascore         29458
dtype: int64

In [67]:
data_games.drop_duplicates(subset ="id",keep = False, inplace = True)

In [68]:
data_games.reset_index(inplace=True,drop=True)

In [69]:
data_games.shape

(32131, 16)

Llenamos los valores nulos del feature title, extrayendo el nombre del juego desde la url

In [70]:
url_splited = data_games.url.str.split('/')

In [71]:
resultados = []
data_games["URL_NAME"] = ""
k=0
m = 5
for i in url_splited:
    data_games["URL_NAME"][k] = i[m]
    resultados.append(i[m])
    k=k+1
k=0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_games["URL_NAME"][k] = i[m]


In [72]:
data_games.drop(['title'],inplace=True,axis=1)

In [73]:
data_games.early_access.value_counts()
print( f'El {1947/(30184+1947)*100}% son juegos que permiten ser probados antes de su lanzamiento ')

El 6.059568640876412% son juegos que permiten ser probados antes de su lanzamiento 


In [74]:
data_games['price'].fillna('nulo',inplace=True)

In [79]:
data_games['precio']=data_games['price']

In [83]:
data_games['precio']

0        4.99
1         0.0
2         0.0
3        0.99
4        2.99
         ... 
32126    1.99
32127    4.99
32128    1.99
32129    4.99
32130    4.99
Name: precio, Length: 32131, dtype: object

In [86]:
k=0
for y in data_games.precio:
    if(isinstance(y, str)):
        if (y.find('Starting')!=-1):
            data_games.precio[k]=y.split(' ')[-1]
            data_games.precio[k]= data_games.precio[k].replace("$", "")
        else:
            data_games.precio[k]=0.00
    k=k+1
    


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_games.precio[k]=0.00


In [87]:
data_games.precio.unique()

array([4.99, 0.0, 0.99, 2.99, 3.99, 9.99, 18.99, 29.99, 10.99, 1.59,
       14.99, 1.99, 59.99, 8.99, 6.99, 7.99, 39.99, 19.99, 7.49, 12.99,
       5.99, 2.49, 15.99, 1.25, 24.99, 17.99, 61.99, 3.49, 11.99, 13.99,
       34.99, 74.76, 1.49, 32.99, 99.99, 14.95, 69.99, 16.99, 79.99,
       49.99, 5.0, 44.99, 13.98, 29.96, 119.99, 109.99, 149.99, 771.71,
       21.99, 89.99, 0.98, 139.92, 4.29, 64.99, 54.99, 74.99, 0.89, 0.5,
       299.99, 1.29, 3.0, 15.0, 5.49, 23.99, 49.0, 20.99, 10.93, 1.39,
       36.99, 4.49, 2.0, 4.0, 9.0, 234.99, 1.95, 1.5, 199.0, 189.0, 6.66,
       27.99, 10.49, 129.99, 179.0, 26.99, 399.99, 31.99, 399.0, 20.0,
       40.0, 3.33, 199.99, 22.99, 320.0, 38.85, 71.7, 59.95, 995.0, 27.49,
       3.39, 6.0, 19.95, 499.99, 16.06, 4.68, 131.4, 44.98, 202.76, 1.0,
       2.3, 0.95, 172.24, 249.99, 2.97, 10.96, 10.0, 30.0, 2.66, 6.48,
       19.29, 11.15, 18.9, 2.89, 99.0, 87.94, 599.0, 8.98, 9.69, 0.49,
       9.98, 9.95, 7.0, 12.89, 6.49, 1.87, 42.99, 41.99, 289.99, 2

In [88]:
data_games2=data_games.loc[:,['URL_NAME','id']]

In [None]:
plt.figure(figsize=(20, 10))
sns.boxplot(x=data_games.precio[data_games.precio<399])##ver como cambiar escala abajo

In [183]:
#data_games2.title.fillna('buscar_valor',inplace=True)

In [184]:
#data_games2.id.fillna(0000,inplace=True)

In [89]:
data_games2.id=pd.to_numeric(data_games2.id,downcast='integer')

In [186]:
#data_reviews2[data_reviews2.product_id==764110]

### SISTEMA DE RECOMENDACION

In [90]:
reader=Reader()

In [91]:
data=Dataset.load_from_df(data_reviews4[['username','product_id','Calif']],reader=reader)

In [92]:
trainset,testset=train_test_split(data,test_size=.3)

In [93]:
algo=SVD()

In [95]:
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x1ddb984bb20>

In [96]:
prediction=algo.test(testset)

In [97]:
usuario='Alex'

In [98]:
data_reviews_ok=data_reviews4.loc[:,['username','Calif','product_id']]

In [99]:
no_vista_usuario=data_reviews_ok[data_reviews_ok["username"]!=usuario]
no_vista_usuario.reset_index(drop=True,inplace=True)
no_vista_usuario=no_vista_usuario['product_id']

In [100]:
data_games.id=pd.to_numeric(data_games.id)

In [101]:
no_vista_usuario=pd.merge(left=pd.DataFrame(no_vista_usuario),right=data_games2, left_on='product_id', right_on='id')

In [102]:
no_vista_usuario.drop_duplicates(inplace=True)

In [103]:
no_vista_usuario.reset_index(drop=True,inplace=True)

In [104]:
no_vista_usuario

Unnamed: 0,product_id,URL_NAME,id
0,35140,Batman_Arkham_Asylum_Game_of_the_Year_Edition,35140
1,506510,Shadows_of_Adam,506510
2,350280,LawBreakers,350280
3,620900,Witchinour,620900
4,431320,Recourse_Demo,431320
...,...,...,...
9652,673760,Air_Tactical,673760
9653,460340,Guards,460340
9654,34420,XIII_Century__Gold_Edition,34420
9655,546380,Crispy_Chicken,546380


In [105]:
no_vista_usuario['Score_model']=no_vista_usuario['product_id'].apply(lambda x: algo.predict(usuario,x).est)

In [106]:
no_vista_usuario['Username']=usuario

In [107]:
no_vista_usuario

Unnamed: 0,product_id,URL_NAME,id,Score_model,Username
0,35140,Batman_Arkham_Asylum_Game_of_the_Year_Edition,35140,2.464996,Alex
1,506510,Shadows_of_Adam,506510,1.864304,Alex
2,350280,LawBreakers,350280,2.366609,Alex
3,620900,Witchinour,620900,1.876728,Alex
4,431320,Recourse_Demo,431320,2.090448,Alex
...,...,...,...,...,...
9652,673760,Air_Tactical,673760,1.855502,Alex
9653,460340,Guards,460340,1.713526,Alex
9654,34420,XIII_Century__Gold_Edition,34420,1.805197,Alex
9655,546380,Crispy_Chicken,546380,1.763343,Alex


In [108]:
accuracy.rmse(prediction)

RMSE: 0.9276


0.9275630482930879

In [None]:
rmse_test_means = []
factores = [1,2,4,8,16,32]

for factor in factores:
    print(f'\nNúmero de Factores: {factor}')
    algo = SVD(n_factors=factor)
    cv = cross_validate(algo, data, measures=['RMSE'], cv = 3, verbose=True)
    rmse_test_means.append(np.mean(cv['test_rmse']))


Número de Factores: 1


In [None]:
plt.scatter(factores, rmse_test_means)
plt.xlabel('Numero de factores')
plt.ylabel('Error RMSE')
plt.show()

In [112]:
del data_reviews4
del data_games

In [113]:
from surprise.model_selection import GridSearchCV

param_grid = {'n_factors': [5,50,100],'n_epochs': [5, 10,20], 'lr_all': [0.001, 0.002, 0.005],
              'reg_all': [0.002, 0.02, 0.2]}
gs = GridSearchCV(SVD, param_grid, measures=['rmse'], cv=3, n_jobs = -1)


In [114]:
gs.fit(data)

MemoryError: 

In [None]:
print(gs.best_score['rmse'])
print(gs.best_params['rmse'])

In [67]:
#-----------------------------------------------------------------------------------------------#

In [68]:
n_usuarios=len(data_rev.reset_index(drop=True).iloc[0:1000])
n_items=len(data_games.id)
usuarios=data_rev.iloc[0:1000].username
items=data_games.id

NameError: name 'data_rev' is not defined

In [None]:
user=data_reviews_ok.username.value_counts()[data_reviews_ok.username.value_counts()>3].index
items=title_id.id.unique()
n_user=len(user)
n_items=len(items)

In [None]:
matriz_utilidad=pd.DataFrame(np.zeros((n_user,n_items)), index=user, columns=items).astype(pd.SparseDtype('float'))
matriz_utilidad

In [None]:
for column in matriz_utilidad:
    spdtypes=matriz_utilidad.dtypes[column]
    
    matriz_utilidad[column] = matriz_utilidad[column].sparse.to_dense()
    
    
    mask_calif_columns=items==column
    calificaciones_column=data_reviews_ok.username.value_counts()[data_reviews_ok.username.value_counts()>3]
    
    
    matriz_utilidad[column].loc[calificaciones_column.index]=calificaciones_column
    

In [None]:
items

In [None]:
data_reviews_ok[data_reviews_ok.username.value_counts()>3]