Clasificación de las flores IRIS usando SDG
===

* *60 min* | Última modificación: Junio 22, 2019.


**Bibliografia.**

* Learning scikit-learn: Machine Learning in Python. R. Garreta, G. Moncecchi. Packt Publishing, 2013.

## Definición del problema

Se desea realizar la identificación del tipo de flor (virginica, setosa, versicolor) a partir de la medición del tamaño del sépalo y el pétalo.

![assets/iris.jpg](assets/iris.jpg)

Se tienen 150 medidiciones del ancho y el largo del sépalo y el pétalo para las tres especies de la flor Iris, con 50 mediciones para cada especie. Se desea construir un clasificador que pronostique la especie de la flor a partir de dichas mediciones.

In [1]:
##
## los datos se encuentran disponibles directamente en scikit-learn
##
from sklearn import datasets
data = datasets.load_iris()
print(data.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## Carga de datos

In [2]:
X, y = data.data, data.target
print(X.shape, y.shape)

(150, 4) (150,)


In [3]:
print(data.target_names)

['setosa' 'versicolor' 'virginica']


In [4]:
## primer ejemplo
print(X[0], y[0])

[5.1 3.5 1.4 0.2] 0


In [5]:
## Clases
data.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [6]:
data.target_names[data.target]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

## Partición de los datos

In [7]:
## Partición de los datos
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)

In [8]:
print(X_train.shape, y_train.shape)

(112, 4) (112,)


In [9]:
print(X_test.shape, y_test.shape)

(38, 4) (38,)


## Preprocesamiento

In [10]:
from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test  = scaler.transform(X_test)

## Clasificador lineal usando gradiente descendente estocástico

In [11]:
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier(max_iter=10, tol=None)
clf.fit(X_train, y_train)

SGDClassifier(alpha=0.0001, average=False, class_weight=None,
              early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,
              l1_ratio=0.15, learning_rate='optimal', loss='hinge', max_iter=10,
              n_iter_no_change=5, n_jobs=None, penalty='l2', power_t=0.5,
              random_state=None, shuffle=True, tol=None,
              validation_fraction=0.1, verbose=0, warm_start=False)

In [12]:
print(clf.coef_)

[[ -4.47502255   7.54013091  -7.66530119  -6.92602862]
 [ -2.82993767 -11.31462652  19.60575204 -20.90287917]
 [ -8.20584003  -0.40757464  29.00358924  30.23401519]]


In [13]:
print(clf.intercept_)

[ -9.86189169 -11.0559832  -50.0116181 ]


## Métricas de desempeño

In [14]:
from sklearn import metrics
y_train_pred = clf.predict(X_train)
metrics.accuracy_score(y_train, y_train_pred)

0.9375

In [15]:
y_pred = clf.predict(X_test)
metrics.accuracy_score(y_test, y_pred)

0.9210526315789473

In [16]:
metrics.classification_report(y_test, y_pred, target_names=data.target_names)

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00         8
  versicolor       0.83      0.91      0.87        11
   virginica       0.94      0.89      0.92        19

    accuracy                           0.92        38
   macro avg       0.93      0.93      0.93        38
weighted avg       0.92      0.92      0.92        38



In [17]:
metrics.confusion_matrix(y_test, y_pred)

[[ 8  0  0]
 [ 0 10  1]
 [ 0  2 17]]


**Ejercicio.---** ¿Es posible mejorar la distribución de la matriz de confusión usando otras métricas de error?

## Construcción de un pipeline

In [18]:
from sklearn.model_selection import cross_val_score, KFold
from sklearn.pipeline import Pipeline

clf = Pipeline([
    ('scaler', preprocessing.StandardScaler()),
    ('linear_model', SGDClassifier(max_iter=10, tol=None))
])

## Evaluación del desempeño usando validación cruzada

In [18]:
kf = KFold(n_splits=5, shuffle=True, random_state=33)
cv = kf.get_n_splits(X)

scores = cross_val_score(clf, X, y, cv=cv)
print(scores)

[0.93333333 0.93333333 0.8        0.9        0.93333333]


In [19]:
from scipy.stats import sem
import numpy as np
def mean_score(scores):
    return ("Mean score: {0:.3f} (+/- {1:.3f})").format(np.mean(scores), sem(scores))
print(mean_score(scores))

Mean score: 0.900 (+/- 0.026)
