In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC, LinearSVC
import os
import time
from IPython.display import display


In [2]:
df = pd.read_csv('numeric_vgsales.csv')
df_pure = df[list(['Platform', 'Year', 'Genre', 'Publisher'])]
df_class = df[list(['Exito'])]

In [19]:
X_trainPID, X_testPID, y_trainPID, y_testPID = train_test_split(
    df_pure.values, df_class.values.ravel(), test_size=.2)

In [4]:
svmLineal = LinearSVC()
start_time = time.time()
svmLineal.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Lineal = svmLineal.predict(X_trainPID)
fails_train_Lineal = np.sum(y_trainPID != preds_train_Lineal)

preds_Lineal = svmLineal.predict(X_testPID)
fails_Lineal = np.sum(y_testPID != preds_Lineal)

print("SVM Lineal, C=1 (default)\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Lineal, len(y_trainPID), 100*fails_train_Lineal/len(y_trainPID),
              fails_Lineal, len(y_testPID), 100*fails_Lineal/len(y_testPID), 
              svmLineal.score(X_testPID, y_testPID)*100, elapsed_time))

SVM Lineal, C=1 (default)
Puntos mal clasificados (entrenamiento): 2365 de 9488 (24.926222596964585%)       
Puntos mal clasificados (prueba): 625 de 2373 (26.33796881584492%)       
Aciertos del 73.66203118415507%
Tiempo: 0.33539700508117676



In [12]:
svmLineal = LinearSVC(C=100.0)
start_time = time.time()
svmLineal.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Lineal = svmLineal.predict(X_trainPID)
fails_train_Lineal = np.sum(y_trainPID != preds_train_Lineal)

preds_Lineal = svmLineal.predict(X_testPID)
fails_Lineal = np.sum(y_testPID != preds_Lineal)

print("SVM Lineal, C= (default)\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Lineal, len(y_trainPID), 100*fails_train_Lineal/len(y_trainPID),
              fails_Lineal, len(y_testPID), 100*fails_Lineal/len(y_testPID), 
              svmLineal.score(X_testPID, y_testPID)*100, elapsed_time))

SVM Lineal, C= (default)
Puntos mal clasificados (entrenamiento): 2382 de 9488 (25.10539629005059%)       
Puntos mal clasificados (prueba): 608 de 2373 (25.62157606405394%)       
Aciertos del 74.37842393594606%
Tiempo: 0.7500295639038086



A continuacion usaremos ahora un modelo de Kernel radial

In [14]:
svmRbf = SVC(kernel='rbf')
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=1.0
Puntos mal clasificados (entrenamiento): 2378 de 9488 (25.063237774030355%)       
Puntos mal clasificados (prueba): 612 de 2373 (25.790139064475348%)       
Aciertos del 74.20986093552465%
Tiempo: 1.3792262077331543



In [16]:
svmRbf = SVC(kernel='rbf', C=50)
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=50.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=50.0
Puntos mal clasificados (entrenamiento): 2437 de 9488 (25.685075885328835%)       
Puntos mal clasificados (prueba): 553 de 2373 (23.303834808259587%)       
Aciertos del 76.69616519174042%
Tiempo: 1.523871898651123



In [18]:
svmRbf = SVC(kernel='rbf', C=500, gamma=0.1)
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=500\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=500
Puntos mal clasificados (entrenamiento): 2409 de 9488 (25.389966273187184%)       
Puntos mal clasificados (prueba): 581 de 2373 (24.48377581120944%)       
Aciertos del 75.51622418879056%
Tiempo: 2.2922396659851074



Ahora usaremo la funcion de kernel sigmoid

In [20]:


svmSgm = SVC(kernel='sigmoid')
start_time = time.time()
svmSgm.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Sgm = svmSgm.predict(X_trainPID)
fails_train_Sgm = np.sum(y_trainPID != preds_train_Sgm)

preds_Sgm = svmSgm.predict(X_testPID)
fails_Sgm = np.sum(y_testPID != preds_Sgm)

print("Video Juegos\nSVM Sigmoide, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Sgm, len(y_trainPID), 100*fails_train_Sgm/len(y_trainPID),
              fails_Sgm, len(y_testPID), 100*fails_Sgm/len(y_testPID), 
              svmSgm.score(X_testPID, y_testPID)*100, elapsed_time))



Video Juegos
SVM Sigmoide, C=1.0
Puntos mal clasificados (entrenamiento): 2400 de 9488 (25.29510961214165%)       
Puntos mal clasificados (prueba): 590 de 2373 (24.863042562157606%)       
Aciertos del 75.13695743784238%
Tiempo: 1.285463809967041



En estos datos se hicieron repetidas pruebas en los distintos datos y siempre dio un error entre 24% y 26%