# Ejemplo de uso de ADALINE: el problema "iris"

Como siempre, comenzamos por cargar los paquetes requeridos

In [1]:
from sklearn.linear_model import SGDClassifier, SGDRegressor
from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler, LabelBinarizer
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

Como puedes ver, el paquete/biblioteca sklearn incluye algunos conjuntos de datos estándar que podemos usar como ejemplos sencillos. Entre ellos está el famoso conjunto "iris".

In [2]:
iris = load_iris()

In [3]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [4]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## Primera aproximación: clasificación

### Preparación de datos (preprocesamiento)

El conjunto de datos tiene 4 atributos numéricos. 

Como ya se indicó antes, es conveniente normalizar cada atributo (columna) para hacer que su valor no depende de las unidades de medida.

Utilizados una normalización al intervalo [0,1]

In [5]:
scaler = MinMaxScaler ()

In [6]:
X = scaler.fit_transform (iris.data)

Ahora cargamos las etiquetas de salida del conjunto de datos

In [7]:
y = iris.target

In [8]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

Observa que la etiqueta es tan solo un número entero. Esto dista bastante de lo queentendemos por "etiqueta" (cada anúmero identifica una clase de iris).

### División entre conjunto de entrenamiento y de test

In [9]:
X_train, X_test, y_train, y_test = train_test_split (X, y,
                                                     test_size=1/3,
                                                     stratify=y)

### Definición del modelo (Clasificador)

In [10]:
clf = SGDClassifier (tol=1e-5, random_state=20)

### Creación del modelo (aprendizaje/ajuste)

In [11]:
clf.fit(X_train, y_train)

SGDClassifier(random_state=20, tol=1e-05)

In [12]:
clf.predict (X_train)

array([1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 2, 2, 1, 1, 2, 0, 0, 0, 1, 1, 1, 2,
       1, 0, 2, 1, 2, 1, 1, 2, 0, 2, 2, 1, 1, 1, 0, 0, 1, 1, 2, 2, 2, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 2, 0, 1, 0, 1, 2, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 2, 0, 1, 1, 1, 2, 0, 0, 1, 1, 1, 1, 0, 1, 1,
       0, 0, 0, 2, 2, 0, 1, 1, 2, 0, 1, 1])

### Evaluación del modelo

In [13]:
clf.score(X_test,y_test)# comparando los test

0.72

## Segunda aproximación: Clasificación

### Un método experimental un poco más serio usando Validación Cruzada

Una configuración habitual de la validación cruzada utiliza 10 particiones (carpetas), con lo que podremos construir 10 modelos (clasificadores), cada uno de ellos entrenado con 9 de esas particiones y probado con la que quedó fuera.

La bondad (score) final será la media de las precisiones obtenidas.

**OJO**: estamos dando la bondad media del modelo, pero al final del todo, NO tenemos un modelo que usar.

* ¿Cuál de todos los 10 modelos creados es el que usamos?
    * NINGUNO en particular.

La Validación Cruzada sólo sirve para permitir la comparación de modelos.

In [14]:
K = 10
skf = StratifiedKFold (n_splits=K)#validacion stratificada

In [17]:
r_class = pd.DataFrame (columns=['Fold', 'Score'])# pongo las columnas estas
k = 0
#recorro los indice que me ha asignado, entreno y anado valoracion
for train_index, test_index in skf.split (X,y):
    #separa en indices para test y train
    # El clf es el que se usó en la aproximación anterior (SGDClassifier)
    #entrena el modelo
    #train_index indices que para iteracion de las 10 son de train
    #busco el valor asociado a ese indice
    clf.fit(X[train_index], y[train_index])#ambos train
    # en la fila pone el k, y el score
    r_class.loc[k,:] = [k,clf.score(X[test_index], y[test_index])]#ambos test
    #aumenta 1 fila
    k +=1
    #imprime lo que ha alamcenado
r_class

Unnamed: 0,Fold,Score
0,0,1.0
1,1,0.933333
2,2,0.933333
3,3,0.933333
4,4,0.866667
5,5,0.866667
6,6,0.733333
7,7,0.933333
8,8,0.933333
9,9,0.866667


[[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 [0.11111111 0.5        0.05084746 0.04166667]
 [0.08333333 0.45833333 0.08474576 0.04166667]
 [0.19444444 0.66666667 0.06779661 0.04166667]
 [0.30555556 0.79166667 0.11864407 0.125     ]
 [0.08333333 0.58333333 0.06779661 0.08333333]
 [0.19444444 0.58333333 0.08474576 0.04166667]
 [0.02777778 0.375      0.06779661 0.04166667]
 [0.16666667 0.45833333 0.08474576 0.        ]
 [0.30555556 0.70833333 0.08474576 0.04166667]
 [0.13888889 0.58333333 0.10169492 0.04166667]
 [0.13888889 0.41666667 0.06779661 0.        ]
 [0.         0.41666667 0.01694915 0.        ]
 [0.41666667 0.83333333 0.03389831 0.04166667]
 [0.38888889 1.         0.08474576 0.125     ]
 [0.30555556 0.79166667 0.05084746 0.125     ]
 [0.22222222 0.625      0.06779661 0.08333333]
 [0.38888889 0.75       0.11864407 0.08333333]
 [0.22222222 0.75       0.08474576 0.08333333]
 [0.30555556 0.58333333 0.11864407 0.04166667]
 [0.22222222 

In [21]:
print ("Media = ", r_class.mean().values [1],
       "\t\tDesviación estándar = ", r_class.std ().values[1])
#de la columna 1 de la tabla hace calculos

Media =  0.9 		Desviación estándar =  0.07200822998230957


## Tercera aproximación: Regresión
En vez de predecir la etiqueta deseada {"0", "1", "2"}, vamos a construir 3 elementos ADALINE, cada uno para detectar cada una de las clases.

El valor de la activación de cada elemento de salida lo podremos interpretar como proporcional a la probabilidad de que la entrada sea de la clase correspondiente.

### Nuevo preprocesamiento de datos: binarizar la salida deseada

Antes hemos creado el modelo identificando cada clase con un número: {0, 1, 2}. ¿Esto quiere decir que los datos etiquetados con 2 son más importantes que los etiquetados con 0 o con 1? ¿O quiere decir que el tipo 0 es "más próximo" al "1" que al "2"?

Ciertamente no.

Para dar a todas las clases la misma importancia vamos a codificar el número de clase a través de una "binarización", tal y como se describe:

In [23]:
d = LabelBinarizer().fit (np.unique (iris.target)).transform (iris.target)
#print((iris.target)) 0001111222
#unique 012
#transforma a un array binario donde este cada atributo
#cojo los unicos y fit con transform

In [24]:
d

array([[1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [0, 1, 0],
       [0, 1, 0],
       [0, 1, 0],
       [0, 1, 0],
       [0, 1, 0],
       [0,

In [25]:
reg=SGDRegressor(tol=1e-5)

In [26]:
r_reg= pd.DataFrame(columns=['Fold','Score'])
#creamos data frame
for train_index, test_index in skf.split (X,y):
    #print(train_index,"  ",test_index)
    #creamos array de 0 con el tamano de 15,3. 15 selecciona de 3 binarios
    
    y_predict = np.zeros(d[test_index].shape)
    
    for i in range (3):
        #entrena con cada uno del test
        reg.fit (X[train_index], d[train_index,i])#ambos train y como tiene 3
        #para cada uno del array nuevo predice
        y_predict [:,i] = reg.predict (X[test_index])#prediccion
    r_reg.loc[k,:] = [k, accuracy_score (y[test_index], np.argmax (y_predict, axis=1))]#anado score con y con max
    # en la fila pone k y el score y el maximo de las predicciones
    k +=1
r_reg

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]

Unnamed: 0,Fold,Score
10,10,0.733333
11,11,0.8
12,12,0.866667
13,13,0.8
14,14,0.866667
15,15,0.733333
16,16,0.8
17,17,0.8
18,18,0.933333
19,19,0.933333


In [32]:
print("Regresión:\tMedia = {0:5.2f}".format(r_reg.mean().values[1]),
       "\tDesviación = ", r_reg.std ().values [1])
print("Clasificaicón:\tMedia = {0:5.2f}".format(r_class.mean().values[1]),
      "\tDesviación = ", r_class.std ().values[1])

Regresión:	Media =  0.83 	Desviación =  0.07166451331820935
Clasificaicón:	Media =  0.90 	Desviación =  0.07200822998230957
