## Competencia ECI 2019 / Despegar
### Clasificación de imágenes de hoteles

En esta notebook, se incluyen los códigos que organizan las imágenes en directorios de forma que puedan ser leidos por el entrenamiento y el clasificador.

Pytorch requiere que las imágenes esten organizadas en directorios según la categoría.

### Paso 1

Descargar de la página de la competencia [url](https://metadata.fundacionsadosky.org.ar/competition/5/)  los archivos:

* [Imágenes Entrenamiento](https://drive.google.com/open?id=10DRrhUA1qqer3e-3IYAZC1RJutJoIqdp)
* [Imágenes de Prueba](https://drive.google.com/open?id=1j44W_ra9VFYlzTxhjEIknn3CeThQb3UH)
* [Etiquetas de Entrenamiento](https://metadata.fundacionsadosky.org.ar/media/despegar2/train.csv)

En el directorio donde se encuentran esta notebook

### Paso 2

Genera un mapeo entre el nombre de cada archivo y la etiqueta.

In [2]:
import csv

labels_file = 'train.csv'
labels = set()
file_map = dict()

with open(labels_file) as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    line_count = 0
    for row in csv_reader:
        if line_count > 0:
            filename = row[1]+'.jpg'
            label = row[2]
            
            file_map[filename] = label
            labels.add(label)
            
        line_count += 1

print(labels)
print(file_map)

{'13', '2', '8', '3', '6', '1', '10', '4', '12', '0', '7', '11', '9', '14', '5', '15'}
{'7756.jpg': '3', '4063.jpg': '6', '7890.jpg': '2', '1543.jpg': '2', '2335.jpg': '2', '10566.jpg': '12', '8675.jpg': '2', '9971.jpg': '2', '7479.jpg': '13', '955.jpg': '8', '9372.jpg': '1', '3927.jpg': '5', '230.jpg': '2', '8287.jpg': '2', '12415.jpg': '8', '2527.jpg': '11', '1663.jpg': '2', '12704.jpg': '3', '12203.jpg': '3', '742.jpg': '1', '2276.jpg': '14', '12710.jpg': '15', '6112.jpg': '6', '5639.jpg': '8', '8620.jpg': '2', '4103.jpg': '2', '7804.jpg': '6', '11372.jpg': '2', '9082.jpg': '1', '596.jpg': '3', '1352.jpg': '2', '8962.jpg': '2', '4771.jpg': '8', '6725.jpg': '2', '3366.jpg': '11', '3432.jpg': '1', '11357.jpg': '2', '9000.jpg': '8', '13313.jpg': '4', '4420.jpg': '11', '8789.jpg': '5', '6177.jpg': '6', '5040.jpg': '8', '3333.jpg': '8', '11194.jpg': '12', '3557.jpg': '3', '5952.jpg': '2', '4151.jpg': '11', '9913.jpg': '2', '1494.jpg': '2', '2024.jpg': '2', '3803.jpg': '4', '729.jpg': '13

### Paso 3

Se crean los directorios con la siguiente estructura:

```
data
├── test
│   └── 0
└── train
    ├── 0
    ├── 1
    ├── 10
    ├── 11
    ├── 12
    ├── 13
    ├── 14
    ├── 15
    ├── 2
    ├── 3
    ├── 4
    ├── 5
    ├── 6
    ├── 7
    ├── 8
    └── 9
```




In [10]:
# create directories
import os

base = 'data'
base_train = 'data/train'
base_test = 'data/test'

os.mkdir(base)
os.mkdir(base_train)
os.mkdir(base_test)

# Creo una etiqueta por defecto para testeo.
os.mkdir(base_test+'/0')

# Creo todas las etiquetas posibles dentro del directorio entrenamiento
for l in labels:
    os.mkdir(base_train+'/'+l)
    
    
        

### Paso 4

Se mueven las imágenes desde el directorio donde están descomprimidas a su correspondiente directorio(test-train)/categoria.

Ejemplo:

```
data
├── test
│   └── 0
│       └── 8888.jpg
└── train
    ├── 0
    ├── 1
    ├── 10
    ├── 11
    │    └── 7473.jpg
    ├── 12
    ├── 13
    ├── 14
    │    └── 3001.jpg
    │    └── 4548.jpg
    ├── 15
    ├── 2
    ├── 3
    ├── 4
    ├── 5
    ├── 6
    ├── 7
    ├── 8
    └── 9
```


In [18]:
# Mueve los archivos de entrenamiento en su directorio según la etiqueta
!tar -xvzf train.tar.xz

orig_base = 'train'

for fname in file_map.keys():
    dname = file_map[fname]
    os.rename(orig_base+'/'+fname, base_train+'/'+dname+'/'+fname)
    
    

tar (child): train.tar.xz: Cannot open: No such file or directory
tar (child): Error is not recoverable: exiting now
tar: Child returned status 2
tar: Error is not recoverable: exiting now


FileNotFoundError: [Errno 2] No such file or directory: 'train/7756.jpg' -> 'data/train/3/7756.jpg'

In [17]:
# Mueve los archivos de testeo en su directorio según la etiqueta
!tar -xvzf test.tar.xz

orig_base = 'test'

for fname in file_map.keys():
    dname = file_map[fname]
    os.rename(orig_base+'/'+fname, base_test+'/'+dname+'/'+fname)
    
    

tar (child): test.tar.xz: Cannot open: No such file or directory
tar (child): Error is not recoverable: exiting now
tar: Child returned status 2
tar: Error is not recoverable: exiting now


FileNotFoundError: [Errno 2] No such file or directory: 'test/7756.jpg' -> 'data/test/3/7756.jpg'