# 0. Imports, configs y checks

In [None]:
# un poco menos de warnings de tensorflow
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

# de python, para especificar rutas de archivos y directorios
from pathlib import Path

# lib para trabajar con arrays
import numpy as np

# lib que usamos para mostrar las imágenes
import matplotlib.pyplot as plt
import plotly.express as px

# libs que usamos para construir y entrenar redes neuronales, y que además tiene utilidades para leer sets de 
# imágenes
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input, Dropout, Convolution2D, MaxPooling2D, Flatten
from tensorflow.keras.preprocessing.image import load_img, img_to_array, ImageDataGenerator
from tensorflow.keras.callbacks import Callback
from tensorflow.keras.applications import VGG16

# libs que usamos para tareas generales de machine learning. En este caso, métricas
from sklearn.metrics import accuracy_score, confusion_matrix

# configuración para que las imágenes se vean dentro del notebook
%matplotlib inline

In [None]:
# Ver si detecta la GPU en caso de haberla
import tensorflow as tf

gpus = tf.config.list_physical_devices("GPU")

if gpus:
 for gpu in gpus:
    print("Found a GPU with the name:", gpu)
else:
    print("Failed to detect a GPU.")

# 1. Análisis exploratorio sobre el conjunto de datos

In [None]:
# lo vamos a estar usando seguido
CATEGORIES = 'buildings', 'forest', 'glacier', 'mountain', 'sea', 'street'
# configurar de acuerdo a dónde bajaron los sets de imágenes
TRAIN_DIR = Path('./train')
TEST_DIR = Path('./test')
#VALIDATION_DIR = Path('./validation')
SIZE = 150

Creamos datasets para Keras:

In [None]:
images_reader = ImageDataGenerator(
    rescale=1/255,
    rotation_range=10,
    #width_shift_range=0.3,
    #height_shift_range=0.3,
    brightness_range=(0.5, 1.5),
    #horizontal_flip=True,
    #vertical_flip=True,
)

READ_PARAMS = dict(
    class_mode="categorical",  # tenemos N labels, queremos tuplas de 0s y 1s indicando cuál de los labels es
    classes=CATEGORIES,  # para usar el mismo orden en todos lados
    target_size=(SIZE, SIZE),
    color_mode="rgb",  # queremos trabajar con las imágenes a color
)

In [None]:
train = images_reader.flow_from_directory(TRAIN_DIR, **READ_PARAMS)
test = images_reader.flow_from_directory(TEST_DIR, **READ_PARAMS)

In [None]:
def sample_images(dataset):
    plt.figure(figsize=(10, 10))
    images, labels = next(dataset)
    for i in range(9):
        ax = plt.subplot(3, 3, i + 1)
        plt.imshow(images[i])
        plt.title(CATEGORIES[np.argmax(labels[i])])
        plt.axis("off")

## Volumetría de los datos

El dataset de train y test cuenta con imágenes de escenas naturales de todo el mundo, train contiene 14034 imágenes y el dataset de test cuenta con 3000 imágenes, dando un total de 258 MB train y test juntos.
Las imagenes se dividiran en 6 categorias:

* "buildings": imagenes de edificios
* "forest": imagenes de bosques en diferentes estaciones y ambientes
* "glacier": imagenes de paisajes nevados
* "mountain": imagenes de montañas en distintos ambientes
* "sea": imagenes sobre oceanos y playas
* "street": imagenes de paisaje urbano

In [None]:
sample_images(train)

Decidimos dividir la carpeta de train para crear una carpeta de validation, mediante el uso de un script externo "trainValidationSplit.sh"

## Estructura y tipo de las imágenes

Las diversas imagenes tienen una dimension de 150x150, y todas son del tipo "jpg"

## Distribución de la variable a predecir

Primero contamos con una carpeta "train" que contiene carpetas por cada  categoria de imagen
"buildings":  2191 imagenes
"forest": 2271 imagenes
"glacier": 2404 imagenes
"mountain": 2512 imagenes
"sea": 2274 imagenes
"street": 2382 imagenes

In [None]:
#algun grafico que muestre la distribucion

Mostramos la distribucion del dataset de Validation: 

#validation.show()

# 2. Modelado

# 3. Conclusiones