## Reconocimiento de Imágenes en CIFAR10
---

### Parte B


Construya una funcion que escale apropiadamente las imagenes antes de trabajar. Experimente solo centrando los datos y luego centrando y escalandolos como en actividades anteriores.

|Simbolos |  Definición | Salida
| :-: | :-: | :-: |
|(Xtr,Ytr)|Imagenes y etiquetas de **entrenamiento**| Dos matrices |
|(Xt,Yt)|Imagenes y etiquetas de **pruebas**|Dos matrices |
|(Xv,Yv)|Imagenes y etiquetas como **conjunto de validacion**, es decir para tomar decisiones de diseño acerca del modelo. |Dos matrices(1)|

> (1) Este ultimo conjunto debe ser extraıdo desde el conjunto de entrenamiento original y no debe superar las 5000 imagenes.

In [4]:
import cPickle as pickle
import numpy as np
import os
from scipy.misc import imread

In [5]:
from sklearn import preprocessing
from keras.utils import np_utils
import pandas as pd

In [6]:
def load_CIFAR_one(filename):
    with open(filename, 'rb') as f:
        datadict = pickle.load(f)
        X = datadict['data']
        Y = datadict['labels']
        Y = np.array(Y)
        return X, Y

In [7]:
def load_CIFAR10(PATH):
    xs = []
    ys = []
    for b in range(1,6):
        f = os.path.join(PATH, 'data_batch_%d' % (b, ))
        X, Y = load_CIFAR_one(f)
        xs.append(X)
        ys.append(Y)
    Xtr = np.concatenate(xs)
    Ytr = np.concatenate(ys)
    del X, Y
    Xt, Yt = load_CIFAR_one(os.path.join(PATH, 'test_batch'))
    return Xtr, Ytr, Xt, Yt

In [8]:
def validacion_CIFAR(_Xtr, _Ytr, _size):
    filas = np.random.randint(0,_Xtr.shape[0],_size)
    Xv = Xtr[filas]
    Yv = Ytr[filas]
    return Xv, Yv

Construya una funcion que escale apropiadamente las imagenes antes de trabajar. Experimente solo centrando los datos y luego centrando y escalandolos como en actividades anteriores.

In [9]:
label_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog','frog', 'horse', 'ship', 'truck']

### Parametros

In [10]:
_validacion = 5000 #tamaño del conjunto de validación
_url = '/Users/hfarias/Doctorado/1-2017/NN/Parte4/data/'
Xtr, Ytr, Xt, Yt = load_CIFAR10(_url)
Xv, Yv = validacion_CIFAR(Xtr, Ytr,_validacion)
print "Dimenciones dataset de imagenes y etiquetas de entrenamiento son Xtr = "+str(Xtr.shape)+" y  Ytr ="+str(len(Ytr))
print "Dimenciones dataset de imagenes y etiquetas de prueba son Xtr = "+str(Xt.shape)+" y  Ytr ="+str(len(Yt))
print "Dimenciones dataset de imagenes y etiquetas para validación es Xv = "+str(Xv.shape)+" y  Yv ="+str(len(Yv))

Dimenciones dataset de imagenes y etiquetas de entrenamiento son Xtr = (50000, 3072) y  Ytr =50000
Dimenciones dataset de imagenes y etiquetas de prueba son Xtr = (10000, 3072) y  Ytr =10000
Dimenciones dataset de imagenes y etiquetas para validación es Xv = (5000, 3072) y  Yv =5000


### Normalización

El primero paso que realizaremos es convertir los identificadores que actualmente son enteros entre [0-9] en en OneHotVectores de la forma [0,0,1,0,0,0,0,0,0,0] en el caso que el label fuera 3

In [29]:
YtrN = np_utils.to_categorical(Ytr, 10)
YtN = np_utils.to_categorical(Yt, 10)

In [34]:
print Ytr[3]
print YtrN[3]

4
[ 0.  0.  0.  0.  1.  0.  0.  0.  0.  0.]


Para normalizar las imagenes usaremos nuevamente StandardScaler  de sklearn, que nos permite tanto centrar(with_mean) como escalar(with_std). Debemos recordar de las actividades anteriores que los valores por de StandardScaler son: 

```python
StandardScaler(copy=True, with_mean=True, with_std=True)
```
Por lo que debemos considerar esto al momento de implementar nuestra función de normalización.

In [11]:
df_Xtr = pd.DataFrame(Xtr)
df_Xtr[2].describe()

count    50000.000000
mean       131.050440
std         72.240546
min          0.000000
25%         73.000000
50%        129.000000
75%        188.000000
max        255.000000
Name: 2, dtype: float64

In [12]:
def normalizar(_Xtr, _Xt,_centrando,_escalado):
    print "_centrando ="+str(_centrando)+"y _escalado="+str(_escalado)
    scaler = preprocessing.StandardScaler(with_mean=_centrando, with_std=_centrando).fit(_Xtr)
    Xtr = scaler.transform(_Xtr)
    Xt  = scaler.transform(_Xt)
    return Xtr,Xt

Caso 1,solo centrando los datos:
```python
StandardScaler(with_mean=True, with_std=False)
```

In [13]:
Xtr, Ytr, Xt, Yt = load_CIFAR10(_url)
print "Dimenciones dataset de imagenes y etiquetas de entrenamiento son Xtr = "+str(Xtr.shape)+" y  Ytr ="+str(len(Ytr))
print "Dimenciones dataset de imagenes y etiquetas de prueba son Xtr = "+str(Xt.shape)+" y  Ytr ="+str(len(Yt))

Dimenciones dataset de imagenes y etiquetas de entrenamiento son Xtr = (50000, 3072) y  Ytr =50000
Dimenciones dataset de imagenes y etiquetas de prueba son Xtr = (10000, 3072) y  Ytr =10000


In [14]:
_centrando = True
_escalado  = False

In [15]:
Xtr_C, Xt_C = normalizar(Xtr, Xt,_centrando,_escalado)
df_Xtr_C = pd.DataFrame(Xtr_C)
df_Xtr_C[2].describe()

_centrando =Truey _escalado=False




count    5.000000e+04
mean    -1.221379e-16
std      1.000010e+00
min     -1.814102e+00
25%     -8.035795e-01
50%     -2.838379e-02
75%      7.883402e-01
max      1.715807e+00
Name: 2, dtype: float64

Caso 2, centrando y escalandando los datos:
```python
StandardScaler(with_mean=True, with_std=True)
```

In [16]:
del Xtr, Ytr, Xt, Yt

In [17]:
Xtr, Ytr, Xt, Yt = load_CIFAR10(_url)
print "Dimenciones dataset de imagenes y etiquetas de entrenamiento son Xtr = "+str(Xtr.shape)+" y  Ytr ="+str(len(Ytr))
print "Dimenciones dataset de imagenes y etiquetas de prueba son Xtr = "+str(Xt.shape)+" y  Ytr ="+str(len(Yt))

Dimenciones dataset de imagenes y etiquetas de entrenamiento son Xtr = (50000, 3072) y  Ytr =50000
Dimenciones dataset de imagenes y etiquetas de prueba son Xtr = (10000, 3072) y  Ytr =10000


In [18]:
_centrando = True
_escalado  = True

In [19]:
Xtr_C_E, Xt_C_E = normalizar(Xtr, Xt,_centrando,_escalado)

_centrando =Truey _escalado=True


In [20]:
df_Xtr_C_E = pd.DataFrame(Xtr_C_E)

In [21]:
df_Xtr_C_E[2].describe()

count    5.000000e+04
mean    -1.221379e-16
std      1.000010e+00
min     -1.814102e+00
25%     -8.035795e-01
50%     -2.838379e-02
75%      7.883402e-01
max      1.715807e+00
Name: 2, dtype: float64

In [24]:
Y_train = np_utils.to_categorical(Ytr, 10)
Y_test = np_utils.to_categorical(Yt, 10)

In [26]:
Y_train[1]

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.])

In [28]:
Ytr[1]

9