## Asociación estadística [género -> éxito]

Ahora que obtuvimos una categorización de los datos de juegos exitosos y las variables numéricos que lo determinan, observaremos cómo se comportan los diferentes géneros de videojuegos frente a este resultado mediante parámetros propios del análisis de reglas de asociación.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('https://raw.githubusercontent.com/SoraSpace769/CC5206_steam_games/GMatamoro/data/steam_target.csv')
df.drop(df.columns[0], axis=1, inplace=True)
df.head()

Unnamed: 0,appid,name,developer,publisher,price,year,duenos_promedio,rating_neto,rating_perc,Action,...,Simulation,Racing,Violent,Massively Multiplayer,Nudity,Sports,Early Access,Gore,Sexual Content,Target
0,10,Counter-Strike,Valve,Valve,7801,2000,15000000.0,121195,0.973888,1,...,0,0,0,0,0,0,0,0,0,5
1,20,Team Fortress Classic,Valve,Valve,4329,1999,7500000.0,2685,0.839787,1,...,0,0,0,0,0,0,0,0,0,8
2,30,Day of Defeat,Valve,Valve,4329,2003,7500000.0,3018,0.895648,1,...,0,0,0,0,0,0,0,0,0,8
3,40,Deathmatch Classic,Valve,Valve,4329,2001,7500000.0,1006,0.826623,1,...,0,0,0,0,0,0,0,0,0,8
4,50,Half-Life: Opposing Force,Gearbox Software,Valve,4329,1999,7500000.0,4962,0.947996,1,...,0,0,0,0,0,0,0,0,0,8


In [103]:
genres = df.columns[9:25]
N = len(df)
supEx = len(df.loc[df["Target"] > 0]) / N
asocData = []

for g in genres:
    # support(g)
    sup = len(df.loc[df[g] == 1]) / N 
    # support(g -> e)
    sup2 = len((df.loc[df[g] == 1]).loc[(df.loc[df[g] == 1])["Target"] > 0]) / N
    # confidence(g -> e)
    conf = sup2 / sup
    # lift(g -> e)
    lift = conf / supEx
    
    asocData.append([g,sup,sup2,conf,lift])
    
asocData = np.asarray(asocData)    

#     print("Análisis asociativo del género \"" + str(g) +"\"")
    
#     print("support("+str(g)+") = "+str(round(sup,4)))
#     # Frecuencia relativa de la varaible con respecto al total de datos
#     # Porcentaje de juegos de cierto género
    
#     print("support("+str(g)+" -> Éxito) = "+str(round(sup2,4)))
#     # Frecuencia relativa de la variable siendo exitosa con respecto al total de datos
#     # Porcentaje de juegos exitosos de cierto género
    
#     print("confidence("+str(g)+" -> Éxito) = "+str(round(conf,4)))
#     # Frecuencia relativa de la variable siendo exitosa con respecto a los datos de la variable
#     # Porcentaje de juegos exitosos dentro de cierto género
    
#     print("lift("+str(g)+" -> Éxito) = "+str(round(lift,4))+"\n")
#     # Independencia estadística y relatividad de las variables
#     # Probabilidad que las variables ocurran juntas en vez de por separado
    


Veamos estos resultados de una forma más comprensiva.

In [104]:
# Ordenar por support de cada genero
# Frecuencia relativa de la varaible con respecto al total de datos
# Porcentaje de juegos de cierto género

print("Los generos de videojuegos ordenados por frecuencia:")

for i in np.flipud(asocData[np.lexsort(asocData.T[[1]])]):
    print(i[0]+" = "+str(round(100*float(i[1]) , 2))+"%")

Los generos de videojuegos ordenados por frecuencia:
Indie = 72.15%
Action = 44.22%
Casual = 37.93%
Adventure = 37.26%
Strategy = 19.49%
Simulation = 19.28%
RPG = 16.02%
Early Access = 10.97%
Free to Play = 6.33%
Sports = 4.91%
Racing = 3.8%
Violent = 3.13%
Massively Multiplayer = 2.68%
Gore = 1.99%
Nudity = 0.99%
Sexual Content = 0.91%


In [108]:
# Ordenar por support de [genero -> exito]
# Frecuencia relativa de la variable siendo exitosa con respecto al total de datos
# Porcentaje de juegos exitosos de cierto género

print("Porcentaje de juegos exitosos de cada género (con respecto al total):")

for i in np.flipud(asocData[np.lexsort(asocData.T[[2]])]):
    print(i[0]+" = "+str(round(100*float(i[2]) , 2))+"%")

Porcentaje de juegos exitosos de cada género (con respecto al total):
Action = 0.94%
Indie = 0.43%
Adventure = 0.4%
Free to Play = 0.34%
RPG = 0.3%
Strategy = 0.24%
Simulation = 0.23%
Massively Multiplayer = 0.16%
Casual = 0.13%
Early Access = 0.06%
Sports = 0.04%
Racing = 0.03%
Nudity = 0.01%
Violent = 0.01%
Sexual Content = 0.01%
Gore = 0.01%


In [106]:
# Ordenar por confidence de [genero -> exito]
# Frecuencia relativa de la variable siendo exitosa con respecto a los datos de la variable
# Porcentaje de juegos exitosos dentro de cierto género

print("Porcentaje de juegos exitosos dentro cada género:")

for i in np.flipud(asocData[np.lexsort(asocData.T[[3]])]):
    print(i[0]+" = "+str(round(100*float(i[3]) , 2))+"%")

Porcentaje de juegos exitosos dentro cada género:
Massively Multiplayer = 5.96%
Free to Play = 5.4%
Action = 2.13%
RPG = 1.88%
Nudity = 1.5%
Strategy = 1.24%
Sexual Content = 1.22%
Simulation = 1.21%
Adventure = 1.08%
Racing = 0.88%
Sports = 0.83%
Indie = 0.6%
Gore = 0.56%
Early Access = 0.51%
Violent = 0.48%
Casual = 0.34%


In [111]:
# Ordenar por lift de [genero -> exito]
# Independencia estadística y correlación de las variables género-éxito
# Mide si es probable que un juego sea exitoso cuando es de cierto género comparado a que si fuese de cualquier género
# Si lift(g -> e) > 1, significa que hay una correlación positiva
# Es decir, que si un juego del genero g es exitoso, podemos decir que hubo cierto grado de implicancia
# Si lift(g -> e) < 1, significa que hay una correlación negativa
# Es decir, que si un juego del genero g es exitoso, pudo haber sido solo por coincidencia
print("Géneros ordenados por el paránetro \"Lift\":")

for i in np.flipud(asocData[np.lexsort(asocData.T[[4]])]):
    print(i[0]+" = "+str(round(float(i[4]) , 2)))

Géneros ordenados por el paránetro "Lift":
Massively Multiplayer = 4.33
Free to Play = 3.93
Action = 1.55
RPG = 1.37
Nudity = 1.09
Strategy = 0.9
Sexual Content = 0.89
Simulation = 0.88
Adventure = 0.78
Racing = 0.64
Sports = 0.61
Indie = 0.44
Gore = 0.41
Early Access = 0.37
Violent = 0.35
Casual = 0.25
