# Introducción

Los videojuegos son aplicaciones interactivas orientadas al entretenimiento que, a través de ciertos mandos o controles, permite simular experiencias en la pantalla de un televisor, una computadora u otro dispositivo electrónico. Están desarrolladas de acuerdo a la plataforma en la que se va a ejecutar.
Las plataformas de videojuegos son sistemas que se crean como bases para hacer funcionar determinados hardware y software concretos. Son los distintos tipos de dispositivo en los que se ejecutan los videojuegos. Los cuatro tipos de plataforma más populares son el PC, las videoconsolas, los dispositivos portátiles y las máquinas arcade. Estas dependen también de la empresa fabricante y/o distribuidora. También los videojuegos pueden clasificarse de acuerdo al género para el que se desarrolla, esto dependiendo de la temática y el propósito del juego en sí.
En las últimas décadas, la industria de los videojuegos ha avanzado a pasos agigantados, por lo que muchas empresas de tecnología que existían desde hace medio siglo decidieron invertir en esta forma de entretenimiento. Desde apoyar a pequeñas empresas de desarrollo de videojuegos hasta crear consolas para los mismos, generó y genera un impacto en el mercado mundial. Las cifras sobre las ventas de cada videojuego demuestran el interés de toda una generación a nivel mundial que incluso puede ser catalogado desde ventas por países hasta ventas por continente.
El presente dataset obtenido del sitio Kaggle representa las ventas de los diferentes videojuegos, describiendo dentro de que plataforma se ejecuta, el año de lanzamiento, el género al que pertenece, la empresa que desarrolla y/o distribuye, y las ventas por país o continente, además de un ranking de acuerdo al número de ventas totales. Consta de 11 columnas y 16598 registros en total de los cuales se utilizarán los primeros 1000 registros para el presente trabajo.
Presenta las siguientes columnas expresadas en el idioma inglés:
•	Rank: Clasificación de las ventas generales
•	Name: Nombre del juego
•	Platform: Plataforma de lanzamiento del juego (es decir, PC, PS4, etc.)
•	Year: Año del lanzamiento del juego
•	Genre: Género del juego
•	Publisher: Editor del juego
•	NA_Sales - Ventas en Norteamérica (en millones)
•	EU_Sales - Ventas en Europa (en millones)
•	JP_Sales - Ventas en Japón (en millones)
•	Other_Sales - Ventas en el resto del mundo (en millones)
•	Global_Sales: Ventas mundiales totales
Con la librería panda de Python se procede a leer todos los datos del dataset ‘vgsales.csv’, y así poder realizar diferentes operaciones.

In [1]:
import pandas as pd
datos = pd.read_csv('vgsales.csv', sep=',')
datos = datos[:999]
datos

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
994,996,Tom Clancy's Ghost Recon,XB,2002.0,Shooter,Ubisoft,1.23,0.46,0.00,0.07,1.76
995,997,State of Emergency,PS2,2002.0,Action,Take-Two Interactive,0.86,0.67,0.00,0.22,1.76
996,998,BioShock Infinite,PS3,2013.0,Shooter,Take-Two Interactive,0.72,0.69,0.04,0.31,1.76
997,999,Hitman: Absolution,X360,2012.0,Action,Square Enix,0.68,0.90,0.01,0.17,1.76


# Preprocesamiento

En primera instancia, se detectan los datos nulos de las columnas con la librería numpy y preprocesing, sobretodo con el comando imputer.

In [2]:
datos.info()
datos.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          999 non-null    int64  
 1   Name          999 non-null    object 
 2   Platform      999 non-null    object 
 3   Year          989 non-null    float64
 4   Genre         999 non-null    object 
 5   Publisher     998 non-null    object 
 6   NA_Sales      999 non-null    float64
 7   EU_Sales      999 non-null    float64
 8   JP_Sales      999 non-null    float64
 9   Other_Sales   999 non-null    float64
 10  Global_Sales  999 non-null    float64
dtypes: float64(6), int64(1), object(4)
memory usage: 86.0+ KB


Rank             0
Name             0
Platform         0
Year            10
Genre            0
Publisher        1
NA_Sales         0
EU_Sales         0
JP_Sales         0
Other_Sales      0
Global_Sales     0
dtype: int64

In [3]:
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn import preprocessing
data=datos.iloc[:,:].values
imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequent', verbose=0)
imputer = imputer.fit(data[:, 1:3])
data[:, 1:3] = imputer.transform(data[:, 1:3])
imputer = SimpleImputer(missing_values=np.nan, strategy='mean', verbose=0)
imputer = imputer.fit(data[:, 3:4])
data[:, 3:4] = imputer.transform(data[:, 3:4])
imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequent', verbose=0)
imputer = imputer.fit(data[:, 4:6])
data[:, 4:6] = imputer.transform(data[:, 4:6])
#Normalización
data[:, 6:11] = preprocessing.normalize(data[:, 6:11])
data[:, 6:11]
header = ["Rank", "Name", "Platform", "Year", "Genre", "Publisher", "NA_Sales", "EU_Sales", "JP_Sales", "Other_Sales", "Global_Sales"]
juegos = pd.DataFrame(data)
juegos.columns = header
juegos.info()
juegos.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Rank          999 non-null    object
 1   Name          999 non-null    object
 2   Platform      999 non-null    object
 3   Year          999 non-null    object
 4   Genre         999 non-null    object
 5   Publisher     999 non-null    object
 6   NA_Sales      999 non-null    object
 7   EU_Sales      999 non-null    object
 8   JP_Sales      999 non-null    object
 9   Other_Sales   999 non-null    object
 10  Global_Sales  999 non-null    object
dtypes: object(11)
memory usage: 86.0+ KB


Rank            0
Name            0
Platform        0
Year            0
Genre           0
Publisher       0
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64

In [4]:
juegos["Rank"]=juegos["Rank"].astype(int)
juegos["Year"]=juegos["Year"].astype(int)
juegos["NA_Sales"]=juegos["NA_Sales"].astype(float)
juegos["EU_Sales"]=juegos["EU_Sales"].astype(float)
juegos["JP_Sales"]=juegos["JP_Sales"].astype(float)
juegos["Other_Sales"]=juegos["Other_Sales"].astype(float)
juegos["Global_Sales"]=juegos["Global_Sales"].astype(float)
juegos.info()
juegos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          999 non-null    int32  
 1   Name          999 non-null    object 
 2   Platform      999 non-null    object 
 3   Year          999 non-null    int32  
 4   Genre         999 non-null    object 
 5   Publisher     999 non-null    object 
 6   NA_Sales      999 non-null    float64
 7   EU_Sales      999 non-null    float64
 8   JP_Sales      999 non-null    float64
 9   Other_Sales   999 non-null    float64
 10  Global_Sales  999 non-null    float64
dtypes: float64(5), int32(2), object(4)
memory usage: 78.2+ KB


Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006,Sports,Nintendo,0.425784,0.297813,0.038689,0.086819,0.849106
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,0.578749,0.071249,0.135532,0.015325,0.800855
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,0.381567,0.310068,0.091239,0.079684,0.862317
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,0.409706,0.286404,0.085323,0.076999,0.858432
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,0.313107,0.246985,0.283936,0.027782,0.871533
...,...,...,...,...,...,...,...,...,...,...,...
994,996,Tom Clancy's Ghost Recon,XB,2002,Shooter,Ubisoft,0.559843,0.209372,0.000000,0.031861,0.801077
995,997,State of Emergency,PS2,2002,Action,Take-Two Interactive,0.413075,0.321814,0.000000,0.105670,0.845363
996,998,BioShock Infinite,PS3,2013,Shooter,Take-Two Interactive,0.351751,0.337095,0.019542,0.151449,0.859837
997,999,Hitman: Absolution,X360,2012,Action,Square Enix,0.324214,0.429107,0.004768,0.081054,0.839142


In [5]:
juegos.describe()

Unnamed: 0,Rank,Year,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
count,999.0,999.0,999.0,999.0,999.0,999.0,999.0
mean,500.346346,2004.843844,0.403947,0.242337,0.104063,0.077878,0.828203
std,288.923203,7.197308,0.155753,0.134909,0.163517,0.069081,0.037299
min,1.0,1980.0,0.0,0.0,0.0,0.0,0.707107
25%,250.5,2001.0,0.31654,0.157753,0.0,0.034601,0.814684
50%,500.0,2006.0,0.424164,0.245347,0.017684,0.069923,0.835544
75%,750.5,2010.0,0.507823,0.326365,0.159376,0.103872,0.855438
max,1000.0,2016.0,0.707107,0.704568,0.707107,0.631385,0.890229


In [6]:
X=juegos.iloc[:,[2,3,5,6,7,8,9,10]].values
X

array([['Wii', 2006, 'Nintendo', ..., 0.038689011304727815,
        0.08681937284827515, 0.8491057812607902],
       ['NES', 1985, 'Nintendo', ..., 0.13553240147660955,
        0.015324515291775236, 0.8008551887545916],
       ['Wii', 2008, 'Nintendo', ..., 0.09123900335201554,
        0.07968366783513758, 0.8623169129470176],
       ...,
       ['PS3', 2013, 'Take-Two Interactive', ..., 0.019541745145505846,
        0.1514485248776703, 0.8598367864022572],
       ['X360', 2012, 'Square Enix', ..., 0.0047678547786950435,
        0.08105353123781575, 0.8391424410503276],
       ['GBA', 2007, 'THQ', ..., 0.0, 0.013542948461331784,
        0.794519643064798]], dtype=object)

In [7]:
y=juegos.iloc[:,4]
y

0            Sports
1          Platform
2            Racing
3            Sports
4      Role-Playing
           ...     
994         Shooter
995          Action
996         Shooter
997          Action
998          Action
Name: Genre, Length: 999, dtype: object

In [8]:
from sklearn.preprocessing  import LabelEncoder
encoder=LabelEncoder()
for i in range(8):
    encoder.fit(X[:,i])
    X[:,i]=encoder.fit_transform(X[:,i])
X

array([[19, 26, 32, ..., 361, 655, 669],
       [9, 5, 32, ..., 473, 73, 173],
       [19, 28, 32, ..., 423, 591, 857],
       ...,
       [13, 33, 44, ..., 259, 909, 825],
       [21, 32, 41, ..., 68, 602, 537],
       [5, 27, 43, ..., 0, 60, 145]], dtype=object)

In [9]:
encoder.fit(y)
y=encoder.fit_transform(y)
y

array([10,  4,  6, 10,  7,  5,  4,  3,  4,  8,  9,  6,  7, 10, 10,  3,  0,
        0,  4,  3,  7,  4,  4,  0,  0,  7,  7,  5,  6,  8,  7,  8,  7,  8,
        8,  8,  8,  8,  0,  2,  8,  9,  6,  8,  0,  0,  4,  6,  4,  7,  1,
        0,  6,  4,  6,  8,  0,  4,  7,  4,  3,  8,  8,  6,  4,  8,  7,  8,
        3,  6,  8,  4,  3,  9,  3,  7,  6, 10,  3,  8,  3,  7,  0,  9,  8,
       10,  7,  7,  7,  5,  0,  4,  8,  8,  0,  4,  4,  2,  8,  8,  0,  8,
        3,  8,  6,  2,  4,  2,  6,  7,  6,  3, 10,  6,  8,  0,  4, 10,  8,
        0,  8, 10,  3,  0, 10,  4,  7,  0,  0,  8,  7,  7,  7,  8,  0,  4,
        2,  7,  0, 10,  8,  8,  0,  4,  0,  0,  0,  7,  4,  7,  0,  0,  2,
        9,  8,  5,  0,  2,  1,  0,  6,  7,  4,  6,  4, 11,  8,  4,  3,  7,
        5,  3,  0,  7,  7,  4,  0,  5,  0, 10,  7,  7,  4,  4,  4,  0,  0,
        4,  9, 10,  8,  4,  7,  8,  9,  3,  0,  0,  0, 10,  4,  0, 10,  2,
       11,  4,  8,  3,  7,  7,  0, 10,  0,  6,  7,  5,  0, 11,  1, 10,  6,
       10,  0,  0,  6, 10

In [10]:
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
X=scaler.fit_transform(X)
X

array([[ 1.0712912 ,  0.16071776,  0.32439665, ...,  0.32904752,
         0.62569   ,  0.61245625],
       [-0.60669549, -2.75850126,  0.32439665, ...,  0.78201162,
        -1.39813965, -1.1101278 ],
       [ 1.0712912 ,  0.43873862,  0.32439665, ...,  0.5797955 ,
         0.40313828,  1.26537118],
       ...,
       [ 0.06449919,  1.13379077,  1.16998635, ..., -0.08347335,
         1.50894211,  1.15423672],
       [ 1.40688854,  0.99478034,  0.95858893, ..., -0.85593891,
         0.44138936,  0.15402663],
       [-1.27789017,  0.29972819,  1.09952055, ..., -1.13095283,
        -1.44334547, -1.20737045]])

In [11]:
from sklearn.model_selection import StratifiedShuffleSplit
cv = StratifiedShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
cv.get_n_splits(X, y)
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix
cont=0
for train_index, test_index in cv.split(X, y):
    cont+=1
    print('**SPLIT: ',cont,'**')
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    print('**Red neuronal**')
    mlp = MLPClassifier(hidden_layer_sizes=(10,10,10), max_iter=5000, alpha=0.0001,solver='adam', random_state=300)
    mlp.fit(X_train, y_train)
    prediccion_y=mlp.predict(X_test)
    score=mlp.score(X_test, y_test)
    print('Prediccion y:\n',prediccion_y)
    print('Score Red Neuronal: ',score)
    print(confusion_matrix(y_test, prediccion_y))
    
    print('Arbol de decisión')
    arbol = DecisionTreeClassifier(max_depth = 2, random_state = 21)
    arbol.fit(X_train, y_train)
    prediccionad=arbol.predict(X_test)
    scoread=arbol.score(X_test, y_test)
    print("Score Árbol de decisión: ", scoread)

**SPLIT:  1 **
**Red neuronal**
Prediccion y:
 [ 4  9  0  4  8  7  7  7  0  7  0 11  8 10  0  6  4  7 10  8  3  0 10  0
  8  8  4  7  8 10  7  8 10  8  9 10  4  3  3  7  0  0 10  0 10  0 10  8
  6  8  3  0 10  3  0  8  7  0  0  8  0  0  8  4  4  0 10  0  7  9  0  8
  0  0  4  0  7  0 10  7  3 10  8  8  8  7  4  7  4  8  8  2 10  2 10  7
  8  0  0 10  6  7  0  4  8 10  0  8 10  5  0  1 10 10 10  7 11  1  3  0
  5  4  0  4  4  3  8  9 10  8  2  2  0 10  0  3 10  8  0  4  0  0  8 10
  0  8  3  0 10  4  0  5  8  0  0  0  0  0  0  6 10  7 11  4  0  2  2  4
  8  4  0  0 10  7  6  0  4  0  7  0  7  3  7 10  7  3  7  8  0  0  0  0
  8 10  9 10 10 10  0  3]
Score Red Neuronal:  0.34
[[16  2  1  2  3  0  1  7  6  0  3  0]
 [ 0  0  0  0  3  0  0  0  1  0  0  0]
 [ 4  0  1  2  2  0  0  0  2  0  0  0]
 [ 5  0  0  1  1  2  0  3  1  1  4  0]
 [ 9  0  0  0  5  0  0  3  2  0  2  0]
 [ 2  0  0  1  0  1  0  0  0  0  0  1]
 [ 3  0  0  2  2  0  3  0  0  0  5  0]
 [ 1  0  3  0  0  0  0 10  4  0  4  0]
 [ 7 

Prediccion y:
 [ 4  4  7  0  8  7  6  0 10  4  0 10  4  4  3  0  8  0  6  8 10  9  4  0
  8  8  8 10  0  4  7  0  4  0  4  7  0  0  0  0  0  3  8  8  4  4  0  4
  8  4  0  7  3  8  3  8  3 11  9  0  4  3  7 10  6  4  0  6  7  7 10  8
  0  7  8  0  8  0  8  4  4 10  4  0  0  4  0  0  8  3  8  2 10  7 10  7
  0  8  7  8  8 10  4  0  8  0  7  0  0  8  3  7  4  7  7  0  6  4  0  0
  7  3  8  4  4  0  0  0  9  0  8  8  8  0  6  0  8  0 10 10  5  0  7 10
  0 10  8 10  9  0  7  4  7  4  8  0  0  8  0  0  7  8  4  0 10  0  2  4
  4  4  7  6  0  0  0  0  3  4 10 10  0  0  4  3  0  0  4  4  4  0  2 10
  4  4  7  7  4 10  0  2]
Score Red Neuronal:  0.355
[[23  0  0  2  7  0  2  1  4  0  2  0]
 [ 4  0  0  0  0  0  0  0  0  0  0  0]
 [ 1  0  2  0  5  0  0  1  1  0  1  0]
 [ 3  0  1  3  2  0  0  2  4  2  1  0]
 [ 8  0  0  0  8  0  0  2  1  0  2  0]
 [ 2  0  0  1  2  0  0  0  0  0  0  0]
 [ 1  0  0  2  6  0  1  0  4  0  1  0]
 [ 3  0  0  1  0  0  1 13  4  0  0  0]
 [ 8  0  0  0  5  1  1  2  8  0  1  

# Conclusiones

Si bien los puntajes son bajos, esto puede deberse a la cantidad de categorías dentro de la variable categórica y las otras columnas. Se puede destacar que para este caso el uso de redes neuronales es mas efectivo que el uso de árboles de decisión como modelos de predicción.