In [37]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC, LinearSVC
import os
import time
from IPython.display import display


In [41]:
df = pd.read_csv('numeric_vgsales.csv')
df_pure = df[list(['Platform', 'Year', 'Genre', 'Publisher'])]
df_class = df[list(['Exito'])]

In [42]:
X_trainPID, X_testPID, y_trainPID, y_testPID = train_test_split(
    df_pure.values, df_class.values.ravel(), test_size=.2)

In [32]:
svmLineal = LinearSVC()
start_time = time.time()
svmLineal.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Lineal = svmLineal.predict(X_trainPID)
fails_train_Lineal = np.sum(y_trainPID != preds_train_Lineal)

preds_Lineal = svmLineal.predict(X_testPID)
fails_Lineal = np.sum(y_testPID != preds_Lineal)

print("SVM Lineal, C=1 (default)\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Lineal, len(y_trainPID), 100*fails_train_Lineal/len(y_trainPID),
              fails_Lineal, len(y_testPID), 100*fails_Lineal/len(y_testPID), 
              svmLineal.score(X_testPID, y_testPID)*100, elapsed_time))

SVM Lineal, C=1 (default)
Puntos mal clasificados (entrenamiento): 2397 de 9488 (25.263490725126477%)       
Puntos mal clasificados (prueba): 593 de 2373 (24.989464812473663%)       
Aciertos del 75.01053518752634%
Tiempo: 0.03052377700805664



In [5]:
svmLineal = LinearSVC(C=100.0)
start_time = time.time()
svmLineal.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Lineal = svmLineal.predict(X_trainPID)
fails_train_Lineal = np.sum(y_trainPID != preds_train_Lineal)

preds_Lineal = svmLineal.predict(X_testPID)
fails_Lineal = np.sum(y_testPID != preds_Lineal)

print("SVM Lineal, C= (default)\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Lineal, len(y_trainPID), 100*fails_train_Lineal/len(y_trainPID),
              fails_Lineal, len(y_testPID), 100*fails_Lineal/len(y_testPID), 
              svmLineal.score(X_testPID, y_testPID)*100, elapsed_time))

SVM Lineal, C= (default)
Puntos mal clasificados (entrenamiento): 2409 de 9488 (25.389966273187184%)       
Puntos mal clasificados (prueba): 581 de 2373 (24.48377581120944%)       
Aciertos del 75.51622418879056%
Tiempo: 0.5288922786712646



A continuacion usaremos ahora un modelo de Kernel radial

In [36]:
svmRbf = SVC(kernel='rbf')
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=1.0
Puntos mal clasificados (entrenamiento): 2363 de 9488 (24.90514333895447%)       
Puntos mal clasificados (prueba): 627 de 2373 (26.422250316055624%)       
Aciertos del 73.57774968394438%
Tiempo: 1.3205251693725586



In [40]:
svmRbf = SVC(kernel='rbf', C=50)
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=50.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=50.0
Puntos mal clasificados (entrenamiento): 2351 de 9488 (24.77866779089376%)       
Puntos mal clasificados (prueba): 639 de 2373 (26.927939317319847%)       
Aciertos del 73.07206068268015%
Tiempo: 1.2900362014770508



In [8]:
svmRbf = SVC(kernel='rbf', C=500, gamma=0.1)
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=500\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=500
Puntos mal clasificados (entrenamiento): 2409 de 9488 (25.389966273187184%)       
Puntos mal clasificados (prueba): 581 de 2373 (24.48377581120944%)       
Aciertos del 75.51622418879056%
Tiempo: 2.1861495971679688



In [None]:
Ahora usaremo la funcion de kernel sigmoid

In [43]:


svmSgm = SVC(kernel='sigmoid')
start_time = time.time()
svmSgm.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Sgm = svmSgm.predict(X_trainPID)
fails_train_Sgm = np.sum(y_trainPID != preds_train_Sgm)

preds_Sgm = svmSgm.predict(X_testPID)
fails_Sgm = np.sum(y_testPID != preds_Sgm)

print("Video Juegos\nSVM Sigmoide, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Sgm, len(y_trainPID), 100*fails_train_Sgm/len(y_trainPID),
              fails_Sgm, len(y_testPID), 100*fails_Sgm/len(y_testPID), 
              svmSgm.score(X_testPID, y_testPID)*100, elapsed_time))



Diabetes
SVM Sigmoide, C=1.0
Puntos mal clasificados (entrenamiento): 2412 de 9488 (25.421585160202362%)       
Puntos mal clasificados (prueba): 578 de 2373 (24.357353560893383%)       
Aciertos del 75.64264643910661%
Tiempo: 1.2799923419952393



En estos datos se hicieron repetidas pruebas en los distintos datos y siempre dio un error entre 24& y 26%