Competicion Dog Breed Identification : https://www.kaggle.com/c/dog-breed-identification

In [1]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline
from fastai.imports import *
from fastai.transforms import *
from fastai.conv_learner import *
from fastai.model import *
from fastai.dataset import *
from fastai.sgdr import *
from fastai.plots import *

In [2]:
PATH = "data/dogbreed/"
!ls {PATH}

dogbreed.zip	sample_submission.csv	   test      train.zip
labels.csv	sample_submission.csv.zip  test.zip  Untitled.ipynb
labels.csv.zip	sub			   tmp
models		submission.csv		   train


In [3]:
sz = 224
arch = resnext101_64
bs=16
label_csv = f'{PATH}labels.csv'


In [4]:
n = len(list(open(label_csv)))-1
# random 20% indexes from range 1-n (total labels)
val_idxs = get_cv_idxs(n)

In [5]:
label_df = pd.read_csv(label_csv)
label_df.head()

Unnamed: 0,id,breed
0,000bec180eb18c7604dcecc8fe0dba07,boston_bull
1,001513dfcb2ffafc82cccf4d8bbaba97,dingo
2,001cdf01b096e06d78e9e5112d419397,pekinese
3,00214f311d5d2247d5dfe4fe24b2303d,bluetick
4,0021f9ceb3235effd7fcde7f7538ed62,golden_retriever


In [5]:
tfms = tfms_from_model(arch, sz, aug_tfms=transforms_side_on, 
                       max_zoom=1.1)
data = ImageClassifierData.from_csv(PATH, 'train', 
                 f'{PATH}labels.csv', test_name='test', 
                 val_idxs=val_idxs, suffix='.jpg', tfms=tfms, bs=bs)

Podemos automatizar esto mismo en una funcion que pida sz (tamaño de la imagen) y bs (tamaño del batch)

In [6]:
def get_data(sz, bs):
    tfms = tfms_from_model(arch, sz, aug_tfms=transforms_side_on,
                           max_zoom=1.1)
    data = ImageClassifierData.from_csv(PATH, 'train', 
               f'{PATH}labels.csv', test_name='test', num_workers=4,
               val_idxs=val_idxs, suffix='.jpg', tfms=tfms, bs=bs)
    return data if sz>300 else data.resize(340, 'tmp')

Creamos el objeto data y la CNN (la instancia learn). Establecemos precompute=True: Esto significa que durante la primera epoch (una epoch consiste en pasar por todas las imagenes del data set una vez), se calcularán las activaciones de todas las capas. ¿Por qué solo durante la primera? Empiezo por el principio .... 

Hemos cargado una arquitectura de red concreta, esto significa que ademas de tener una disposicion de capas de neuronas, tenemos los pesos de la red con unos valores concretos (aquellos que resultaron de entrenar dicha arquitectura en su momento). Esos pesos (los numeros del kernel) estaban preparados para identficar determinados patrones en las fotos donde la red se entrenó. Lo que nos interesa de la red realmente son esos pesos concretos, y de momento no los vamos a modificar.  

Cuando creamos nuestra instancia learn, estamos cargando la arquitectura arch que le pasamos como parametro menos la ultima capa, que en su lugar será construida automáticamente en funcion de las clases que necesitemos predecir (esto se sabe gracias al objeto data, que tambien se pasa como argumento). Para que esa última capa que se construye al final de la red neuronal que hemos cargado sirva de algo, tiene que tener unos datos de entrada (las activaciones de la capa anterior), por eso, debemos computar al menos una vez las activaciones de toda la red, para que haya una entrada a nuestra ultima capa. Podriamos computar las activaciones en cada nueva epoch ... pero ¿tendria esto sentido? las imagenes se repetirian en sucesivas epochs y los pesos tampoco cambiarán por tanto las activaciones (convolucion de la imagen y los pesos del kernel) produciran las mismas activaciones en la primera capa, y al convolucionar estas con los kernels de la siguiente capa (y asi sucesivamente) tampoco cambiaran las siguientes activaciones.

En resumen, hacemos precompute=True para tener una entrada a nuestra ultima capa y poder entrenar los pesos de esa ultima capa cuando hagamos learn.fit(). Computar activaciones en sucesivas epochs no cambia nada y es computacionalmente costoso

In [17]:
"""Se crea la carpeta 340 dentro de temp; dentro de 340 aparecen los subfolders models y temp, pero aun estan vacias"""
data = get_data(224, bs)
learn = ConvLearner.pretrained(arch, data, precompute=True)

HBox(children=(IntProgress(value=0, max=6), HTML(value='')))




Entrenamos el modelo, con learning rate = 0.01, durante 5 epochs. El por qué de ese valor de learning rate estará explicado en la libreta que habla de 'cyclical learning rates', un paper publicado en 2015, que explica como encontrar un valor apropiado para este parametro en funcion de lo rápido que decrece la función de pérdida entrenando con ese valor

In [18]:
learn.fit(0.01,5)

HBox(children=(IntProgress(value=0, description='Epoch', max=5), HTML(value='')))

epoch      trn_loss   val_loss   accuracy                    
    0      0.634946   0.354258   0.897461  
    1      0.396411   0.319496   0.90332                      
    2      0.337316   0.289285   0.912598                    
    3      0.235152   0.327542   0.905599                     
    4      0.214835   0.311772   0.911133                     



[0.3117722, 0.9111328125]

In [19]:
learn.precompute = False
learn.fit(1e-2, 5, cycle_len=1)

HBox(children=(IntProgress(value=0, description='Epoch', max=5), HTML(value='')))

epoch      trn_loss   val_loss   accuracy                    
    0      0.281992   0.250768   0.919434  
    1      0.292057   0.240535   0.922363                    
    2      0.208027   0.250002   0.919922                    
    3      0.220461   0.250099   0.911133                    
    4      0.21644    0.249182   0.913574                    



[0.24918243, 0.91357421875]

overfitting (trn_loss << val_loss), osea problema de varianza o de generalizacion. Aumentaremos el tamaño de las imagenes para prevenir overfitting

Este es un buen punto para guardar. Hay que tener en cuenta lo siguiente antes: cargar un modelo da problemas si lo guardamos con precompute=True y lo cargamos con precompute=False y viceversa. Porque uno de los archivos (el que se guarda o el que se recupera) tendria activaciones distintas (precompute=False) en todas las capas de la red, y el otro tendria las activaciones (menos la de la primera capa) de la arquitectura tal cual la cargamos. Asi que guardaremos el modelo (el modelo guardado se queda en 340/tmp/models) con precompute=False

Cuando volvamos a conectar con la notebook (o hagamos restart en el kernel si se queda atascado en algun momento), es importante crear una nueva instancia del objeto learn pero con precompute=False : learn = ConvLearner.pretrained(arch, data, precompute = False)

In [20]:
learn.save('dogbreed_resnext10164_pre')

In [7]:
# encendemos de nuevo el kernel. Hacemos todos los imports y demas hasta la celda donde creamos el objeto data y learn
data = get_data(224, bs)
# preparamos una instancai de ConvLearner con precompute = False
learn = ConvLearner.pretrained(arch, data, precompute=False)
learn.load('dogbreed_resnext10164_pre')

HBox(children=(IntProgress(value=0, max=6), HTML(value='')))




Ya podemos seguir con el entrenamiento. Una forma de reducir overfitting es aumentando el tamaño de las imagénes: en cierto sentido son imágenes distintas que requerirán ajustar los pesos y 'despegarse' un poco de la distribucion de imagenes original para tener estas en cuenta, pero por otra parte, son imagénes muy parecidas; un perro de X raza seguirá siendo de esa raza despues de aumentar la imágen, seguirá teniendo los mismos colores, la misma forma etc, asi que esto no hará que nuestros pesos se desvien mucho de su valor actual

In [8]:
learn.set_data(get_data(299, bs))


HBox(children=(IntProgress(value=0, max=6), HTML(value='')))




Entrenamos durante 3 ciclos, cada uno de los cuales durará un epoch

In [9]:
learn.fit(1e-2, 3, cycle_len=1)

HBox(children=(IntProgress(value=0, description='Epoch', max=3), HTML(value='')))

epoch      trn_loss   val_loss   accuracy                    
    0      0.24987    0.240885   0.922852  
    1      0.252596   0.262771   0.915039                    
    2      0.240615   0.256994   0.920898                    



[0.25699446, 0.9208984375]

El trn_loss y val_loss se van reduciendo a la vez, esto es buena señal. Buen momento para volver a guardar el modelo, estos entrenamientos ya van tardando más ... 

In [10]:
learn.save('dogbreed_resnext10164_pre')
# a la hora de cargar, cargarlo preparando el objeto learn con todas las caracteristicas que tenia el modelo antes de hacer el save: precompute=False, data=get_data(299,bs)

In [7]:
# cargamos el modelo
data = get_data(299,bs)
learn = ConvLearner.pretrained(arch, data, precompute=False)
learn.load('dogbreed_resnext10164_pre')

HBox(children=(IntProgress(value=0, max=6), HTML(value='')))




Continuamos el entrenamiento: 3 ciclos, cada uno un epoch, como antes. La novedad ahora es que cada nuevo ciclo tendra 2 veces más epochs que el anterior (cycle_mult = 2). Es decir:

primer ciclo: 1 epoch
segundo ciclo : 2 * 1 = 2 epochs
tercer ciclo : 2 * 2 = 4 epochs

En total 7 epochs

In [8]:
learn.fit(1e-2, 3, cycle_len=1, cycle_mult=2)

HBox(children=(IntProgress(value=0, description='Epoch', max=7), HTML(value='')))

epoch      trn_loss   val_loss   accuracy                    
    0      0.183962   0.25741    0.925293  
    1      0.19902    0.252502   0.922363                    
    2      0.180208   0.240001   0.922852                    
    3      0.183189   0.255142   0.921387                    
    4      0.199824   0.272928   0.925781                    
    5      0.153954   0.256319   0.922363                    
    6      0.1296     0.248201   0.927572                    



[0.2482013, 0.9275716147385538]

In [9]:
learn.save('dogbreed_resnext10164_postcycle_mult')


In [7]:
data = get_data(299,bs)
learn = ConvLearner.pretrained(arch, data, precompute=False)
learn.load('dogbreed_resnext10164_postcycle_mult')

HBox(children=(IntProgress(value=0, max=6), HTML(value='')))




In [12]:
"""Cuando hago TTA en un modelo, lo guardo y luego lo vuelvo a cargar, quizas para mejorarlo y cuando acabo vuelvo a hacer
TTA a la hora de conseguir predicciones tarda muchisimo en ejecutarse, asi que como ya guardé
un modelo con TTA, ahora hago las predicciones sobre el test sin ir generando versiones nuevas de fotos y predecir con una media
(que es llo que hace TTA)

Interiormente learn.predict y learn.TTA llaman a predict_with_targs (en el caso de predict, devuelve solo log_preds, en el caso
de TTA, devuelve tambien los targets)"""
log_preds = learn.predict(is_test = True)

In [13]:
probs = np.exp(log_preds)


In [14]:
probs.shape

(10357, 120)

In [10]:
# predictions on the test set (lo que vamos a subir a kaggle)
log_preds, y = learn.TTA(is_test = True) # nos da predicciones para cada una de las 10 mil fotos y 5 variantes de cada una, es decir, nos da una dimension de predicciones de (5,10357,120) en lugar de (10357,120)
probs = np.mean(np.exp(log_preds),0)

  0%|          | 0/4 [00:00<?, ?it/s]

KeyboardInterrupt: 

In [24]:
type(probs) , probs.ndim

(numpy.ndarray, 2)

In [26]:
# sin np.mean(...) , probs.shape = (5,10357,120) (10357 archivos, 120 clases, 5 transformaciones por cada una de las fotos/archivos)
probs.shape

(10357, 120)

In [15]:
df = pd.DataFrame(probs)
df.columns = data.classes # el nombre de las columnas son las clases de perros distintas que hay
df.insert(0, 'id', [o[5:-4] for o in data.test_ds.fnames]) # insertamos una nueva columna en la posicion 0 (primera columna), llamada id, rellena de los nombres de archivos (nombres de las fotos) excepto la palabra test del principio y jpg del final
df.head()

Unnamed: 0,id,affenpinscher,afghan_hound,african_hunting_dog,airedale,american_staffordshire_terrier,appenzeller,australian_terrier,basenji,basset,...,toy_poodle,toy_terrier,vizsla,walker_hound,weimaraner,welsh_springer_spaniel,west_highland_white_terrier,whippet,wire-haired_fox_terrier,yorkshire_terrier
0,de084b830010b6107215fef5d4a75b94,1.570753e-08,2.183859e-08,4.005406e-09,6.605978e-09,6.893806e-09,2.545763e-09,1.585901e-08,9.939352e-10,5.775308e-11,...,4.330046e-11,6.406043e-09,5.697675e-09,2.996289e-10,1.149952e-08,1.446533e-10,5.720782e-09,1.071891e-07,1.616566e-09,8.962978e-10
1,6b423ca7020e70eb05732843c5d2bad1,6.554091e-10,3.010681e-09,5.195672e-10,3.272915e-10,6.593354e-12,9.25669e-13,4.664575e-12,1.621465e-11,8.597158e-12,...,1.173985e-12,1.457897e-12,5.557064e-13,1.011184e-11,2.519984e-13,2.481158e-12,1.046001e-09,3.091076e-11,3.213223e-11,2.863366e-12
2,74aa7e201e0e93e13e87b986a7d31839,5.59921e-08,1.507073e-06,2.0721e-07,2.820879e-05,7.951436e-08,2.621915e-08,1.125214e-07,6.43496e-08,8.940518e-08,...,4.558961e-09,6.279962e-08,4.256738e-08,8.00993e-09,1.08728e-08,8.235374e-07,2.29088e-07,3.272556e-08,0.3114492,2.545622e-09
3,a079f72193264bc5685e5d28d7372680,5.184318e-06,5.964192e-07,1.795981e-05,2.4994e-06,4.128597e-07,3.988406e-07,2.830107e-06,6.61603e-08,7.366757e-06,...,1.824895e-07,9.383393e-07,6.750817e-07,1.933988e-07,2.655518e-06,2.126611e-06,2.357315e-05,7.749676e-08,0.0002314958,3.556065e-06
4,583f7580fa5fec1266331fcf83b76fd6,1.091793e-09,1.8955e-11,3.921766e-13,2.020723e-10,4.821828e-14,6.469125e-11,3.579665e-14,1.183952e-15,3.997106e-15,...,5.389004e-15,1.204861e-13,1.874186e-14,1.923818e-16,1.205155e-13,4.16482e-13,5.957838e-12,5.073128e-13,4.320907e-10,1.949945e-14


In [16]:
SUBM = f'{PATH}sub/'  
os.makedirs(SUBM, exist_ok=True) # hacemos un directorio sub dentro de PATH 
df.to_csv(f'{SUBM}subm_cycle_mult.gz', compression='gzip', index=False) # construimos el csv



In [17]:
"""kg submit submission.csv -c dog-breed-identification -u p.j91@hotmail.com -p magnuscarlsen -m "libreta dogbreed 'basica' 
se pone en un terminal (se puede abrir desde jupyter notebook donde esta el directorio sub creado""""


SyntaxError: EOL while scanning string literal (<ipython-input-17-ed3f042caf57>, line 2)