# Iris con Cross - validation

En este notebook haremos una clasificación con SVM al problema ya visto: Iris, pero en esta oportunidad veremos como funciona el Cross-Validation

In [None]:
# importamos las librerias
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import svm

In [None]:
# Extraemos los datos y las etiquetas
X, y = datasets.load_iris(return_X_y=True)

In [None]:
# Dividimos en train y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=771)

In [None]:
# Creamos el modelo
model = svm.SVC(kernel='linear', C=1)

In [None]:
# Entrenamos
model.fit(X_train, y_train)

SVC(C=1, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='linear',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [None]:
# Obtenemos el accuracy. Esta es una forma rapida de optener la metrica, pero solo es el accuracy.
model.score(X_test, y_test)

0.9555555555555556

In [None]:
# Preferimos obtener un resultado más completo
from sklearn.metrics import classification_report

In [None]:
print(classification_report(y_test, model.predict(X_test)))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       0.87      1.00      0.93        13
           2       1.00      0.90      0.95        21

    accuracy                           0.96        45
   macro avg       0.96      0.97      0.96        45
weighted avg       0.96      0.96      0.96        45



## Cross-Validation

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
# Obtendremos 5 resultados, ya que cv=5. Si cambiamos este valor, la cantidad de resultados cambiara.
scores = cross_val_score(model, X_train, y_train, cv=5)
print(scores)

[1.         1.         1.         0.95238095 0.95238095]


Modifique el parámetro "cv" y vea como cambian los resultados.

¿Observan que dependiendo que datos toquen en la aleatoriedad es el resultado que entrega?

Una forma de entregar un resumen como resultado es calcular el promedio y la desviación estandar

In [None]:
print('El promedio es:', np.mean(scores))
print('La desviacion estandar es:', np.std(scores) )

El promedio es: 0.980952380952381
La desviacion estandar es: 0.023328473740792197


##¿Qué dice este resultado? ¿es confiable el comportamiento del algoritmo?

###Veamos otra función que entrega un poco más de información.

In [None]:
from sklearn.model_selection import cross_validate

In [None]:
cv_results = cross_validate(model, X_train, y_train, cv=5)

In [None]:
cv_results.keys()

dict_keys(['fit_time', 'score_time', 'test_score'])

###Revise los resultados que entrega

In [None]:
cv_results['fit_time']

array([0.00107551, 0.00078654, 0.00077677, 0.00075436, 0.00054002])

Nos gustaria obtener el resultado del entrenamiento del proceso.
Revise en la documentación [Acá](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html#sklearn.model_selection.cross_validate) y averigue como hacerlo.

In [None]:
# Escriba su código aquí.