In [None]:
import numpy as np
from sklearn.preprocessing import StandardScaler
import pandas as pd
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split

In [None]:
# Carga de datos.
csv = pd.read_csv('penguins_clean.csv', sep=';')
print(csv.head())

In [None]:
# Convertir dataframe en numpy array
data = np.array(csv)
X = data[:,:-1]
y = data[:,-1]

In [None]:
# Mostrar características de la tabla de datos.
print("Tabla de datos: %d instancias y %d atributos" % (X.shape[0], X.shape[1]))
print("Valores de la clase:", set(y))

In [None]:
# Test: hold-out split 80-20%. PARTICIÓN EXTERNA
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

valores_test, ocur_test = np.unique(y_test, return_counts=True)
print('Test: ', 'clases:', valores_test, ' ocurrencias: ', ocur_test)

valores_train, ocur_train = np.unique(y_train, return_counts=True)
print('Entrenamiento: ', ' clases:', valores_train, '  ocurrencias:', ocur_train)

In [None]:
# Estandarizar las características de entrenamiento y de test
standardizer = StandardScaler()
X_train = standardizer.fit_transform(X_train)
X_test = standardizer.transform(X_test)

In [None]:
# Hacemos el cross-validation interno para seleccionar los mejores hiperparámetros
from sklearn.svm import SVC
svc = SVC(C=100, gamma='auto', kernel='linear')
results = cross_val_score(svc, X_train, y_train, cv = KFold(n_splits=5, shuffle=True, random_state=42))
print("Resultados por bolsa: ", results)
print("Accuracy (media +/- desv.): %0.4f +/- %0.4f" % (results.mean(), results.std()))

In [None]:
# Una vez entrenado y validado el modelo para seleccionar los mejores hyperparameters, utilizamos todos los datos de 
# "train" y "val" para entrenar el modelo definitivo
svc = SVC(C=100, gamma='auto', kernel='linear')
svc = svc.fit(X_train, y_train) # Entrenamiento


In [None]:
# Calcular la accuracy del conjunto de test
accuracy_test = svc.score(X_test, y_test) # Evaluación en test
print('Accuracy en test: ', accuracy_test*100, '%')

# La Accuracy es equivalente a:
accuracy_test_2 = np.sum(y_test==y_pred)/len(y_test)
print('Accuracy equivalente: ', accuracy_test_2*100, '%')

In [None]:
# También podemos extraer las predicciones, en lugar de directamente la accuracy
y_pred = svc.predict(X_test)
print('Predicciones:     ', y_pred)
print('Etiquetas reales: ', y_test)