## Librerie 

In [2]:
import numpy as np 
import pandas as pd 
import os

# Analisi del dataset

In questo progetto utilizzeremo il file *train.csv*, scaricabile facilmente dal seguente link:
 [Google-Landmark](https://www.kaggle.com/google/google-landmarks-dataset)

In [3]:
df = pd.read_csv('input/train.csv', delimiter=',')
df.dataframeName = 'train.csv'
nRow, nCol = df.shape
print(f'Il dataset è composto da {nRow} righe e {nCol} colonne')

Il dataset è composto da 1225029 righe e 3 colonne


In [6]:
print(len(df['landmark_id'].unique()))

14945


Il numero complessivo di classi che costituiscono il dataset è **14945**.

Osserviamo per ciascun *landmark* quanti sono le corrispondenti immagini associate. 

Possiamo notare come **70677** immagini non hanno la label associata.

In [8]:
df['landmark_id'].value_counts()

None     70677
9633     48555
6051     47830
6599     21780
9779     17602
         ...  
4103         1
8472         1
14268        1
13342        1
6069         1
Name: landmark_id, Length: 14945, dtype: int64

### Creazione di un nuovo file .csv

Essendo le classi veramente molto numerose e non potendo contare su elaboratori troppo avanzati, abbiamo deciso di lavorare su un numero limitato di campioni, considerando solo **100 classi**. 

In [9]:
temp = pd.DataFrame(df.landmark_id.value_counts())
temp.reset_index(inplace=True)
temp.columns = ['landmark_id','count']
temp

Unnamed: 0,landmark_id,count
0,,70677
1,9633,48555
2,6051,47830
3,6599,21780
4,9779,17602
...,...,...
14940,4103,1
14941,8472,1
14942,14268,1
14943,13342,1


L'idea è stata quella di considerare solo i landmark caratterizzati da un numero di immagini che si estendesse da 150 a 165.

In [23]:
subset = temp[(temp["count"] < 165) & (temp["count"] >= 150)]
#elimino 1 riga per fare in modo che le classi siano esattamente 100
subset = subset.drop(subset.index[len(subset)-1]) 

In [24]:
landmark = subset.iloc[:,:1]
l = landmark.values.tolist()
m = np.array(l)
lista_id = m.reshape(100,)
my_dataset = df[df["landmark_id"].isin(lista_id)]

Tale file è già presente nella directory *input*, abbiamo voluto dimostrare come è stato ottenuto. 

Potrebbe essere utile a qualcuno che  volesse considerare un sottoinsieme di classi diverso :)

In [25]:
#Non eseguire, perchè tale file è già presente.
my_dataset.to_csv("input/train_100classes.csv", sep=',',index=False)

### Visualizzazione delle immagini

In [28]:
from IPython.display import Image
from IPython.core.display import HTML 

def displayLandmarkImagesLarge(urls, category_name):
    img_style = "width: 200px; height:160px; margin: 0px; float: left; border: 1px solid black;"
    images_list = ''.join([f"<img style='{img_style}' src='{u}' />" for _, u in urls.head(12).iteritems()])
    display(HTML(images_list))

category = df['landmark_id'].value_counts().keys()[15]
urls = df[df['landmark_id'] == category]['url']
displayLandmarkImagesLarge(urls, "")

Una cosa interessante che si può notare, è il fatto che alcuni *url* relativi alle immagini che andranno a comporre il dataset, **non** sono più disponibili. 

# Download immagini

Le immagini verranno scaricate in locale e memorizzate in *sottocartelle*: ciascuna sottocartella conterrà tutte le foto relative ad un particolare *landmark*.

In [31]:
import sys, requests, shutil, os
from urllib import request, error

# Input data files are available in the "input" directory.
print(os.listdir("input"))
data=pd.read_csv('input/train_100classes.csv')
data.head(5)

def fetch_image(path, dir_path):
    url=path
    response=requests.get(url, stream=True)
    with open(dir_path + '/image.jpg', 'wb') as out_file:
        shutil.copyfileobj(response.raw, out_file)
    del response
links=data['url']
landmark_id=data['landmark_id']
id=data['id']
i=0

# seperate images into follwing format
# folder name = landmark_id, group images with same landmark id into same folder
# image name = id.jpg
for link in links:              
    dir_path = 'input/dataset/' + str(landmark_id[i])
    if not os.path.exists(dir_path): 
    	os.makedirs(dir_path)
    fetch_image(link, dir_path)
    os.rename(dir_path + '/image.jpg', dir_path + '/' +  str(id[i]) + '.jpg')
    print('Downloading ' + str(i) +  '/' + str(len(links)))
    i+=1
    #if(i==10):   #uncomment to test in your machine
        #break

['train.csv', 'train_100classes.csv']
Downloading 0/15653
Downloading 1/15653
Downloading 2/15653
Downloading 3/15653
Downloading 4/15653
Downloading 5/15653
Downloading 6/15653
Downloading 7/15653
Downloading 8/15653
Downloading 9/15653


## Rimuovere foto relative a link non più funzionanti

Precedentemente abbiamo visto che non tutti i link che ci vengono forniti risultano essere disponibili. 

Durante il processo di *download* questi link producono immagini danneggiate, che introducono rumore nel dataset. 

Per evitare questo problema, bisogna **ripulire il dataset**: le foto relative ai link non funzionanti possiedono una dimensione inferiore ai 5kb, quindi sono molto facilmente riconoscibili e rimuovibili.  

In [32]:
rootdir = 'input/dataset'

for subdir, dirs, files in os.walk(rootdir):
    for f in files:
        fullpath = os.path.join(subdir, f)
        try:
            if os.path.getsize(fullpath) < 5 * 1024:   #set file size in kb
                print (fullpath)
                os.remove(fullpath)
        except WindowsError:
            print ("Error" + fullpath)

input/dataset\86\41a8659ae08d069b.jpg


*1355 file* cancellati su 15653

### Rimuovere Falsi Positivi

Alcune foto, pur avendo una dimensione superiore ai 5kb, non possono essere aperte in maniera corretta e quindi potrebbero causare un errore durante il processo di addestramento della rete.

Quindi, queste immagini devono essere eliminate.

In [None]:
import os
directory_path= 'input/dataset/'
file1= '86/f0222276f790dd69.jpg'
file2= '5140/e59f8417b1b34b09.jpg'
file3= '2725/ce3f6f109f9011ad.jpg'
file4= '9033/895081fafd0835ec.jpg'
file5= '11378/d196fef7b9ff61a7.jpg'
file6= '14061/7a27480e313628e9.jpg'
file7= '6768/3b5dbec1ad4ffe02.jpg'
file8= '7052/e844d973d2f27dd6.jpg'
file9= '9763/3e955b5a7ccf07e3.jpg'

os.remove(directory_path+file1)
os.remove(directory_path+file2)
os.remove(directory_path+file3)
os.remove(directory_path+file4)
os.remove(directory_path+file5)
os.remove(directory_path+file6)
os.remove(directory_path+file7)
os.remove(directory_path+file8)
os.remove(directory_path+file9)

### Falsi Positivi Detector

Questo codice permette di stabilire quali sono le immagini del dataset che non possono essere aperte correttamente.

In [None]:
import os
from PIL import Image
folder_path = 'input/dataset'
extensions = []
for fldr in os.listdir(folder_path):
    sub_folder_path = os.path.join(folder_path, fldr)
    for filee in os.listdir(sub_folder_path):
        file_path = os.path.join(sub_folder_path, filee)
        print('** Path: {}  **'.format(file_path), end="\r", flush=True)
        im = Image.open(file_path)
        rgb_im = im.convert('RGB')
        if filee.split('.')[1] not in extensions:
            extensions.append(filee.split('.')[1])

## Split in Train Set, Validation Set e Test Set 

In questo caso utilizzeremo una particolare *libreria*, che prende il nome di **split-folder** [(info)](https://pypi.org/project/split-folders/).  

Questa libreria ci permetterà di *splittare* il dataset iniziale in 3 dataset, che andranno a rappresentare:
* il Training Set (**80%**)
* il Validation Set (**10%**)
* il Test Set (**10%**)

mantenendo l'organizzazione iniziale, cioè una cartella per ciascun landmark.

In [None]:
#pip install split-folders

In [33]:
import splitfolders

input='input/dataset'
output='input/data'
splitfolders.ratio(input, output=output, seed=1337, ratio=(.8, .1, .1))

Copying files: 9 files [00:00, 143.24 files/s]
