# Ejemplo 1: GTSRB dataset
---

En este ejemplos vamos a cargar el conjunto de datos llamado [GTSRB (German Traffic Sign Recognition Benchmark)](https://benchmark.ini.rub.de/gtsrb_news.html) con casi 52.000 imágenes de señales de tráfico clasificadas en 43 categorías.

Para esto vamos a ir siguiendo una serie de pasos, empezando por descargar el dataset a utilizar...

In [None]:
!wget https://www.dlsi.ua.es/~jgallego/ml/gtsrb.npz

print('\n¡Base de datos cargada!')


<br>

Una vez descargada la base de datos de Internet escribimos el código para cargarla en memoria:

<br>

In [None]:
import numpy as np      # Importamos las librerías necesarias
import random
import tensorflow as tf
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split


#-------------------------------------------------------------------------------
def show_random_images(x, y):
  n = 15
  index = np.random.randint(len(x), size=n)
  plt.figure(figsize=(n*1.5, 1.5))
  for i in np.arange(n):
      ax = plt.subplot(1,n,i+1)
      ax.set_title('{} ({})'.format(y[index[i]],index[i]))
      ax.get_xaxis().set_visible(False)
      ax.get_yaxis().set_visible(False)
      plt.imshow(x[index[i]], cmap='gray')
  plt.show()


# Cargamos los datos y mostramos algunas imágenes de ejemplo
data = np.load('gtsrb.npz')

x = data['x']
y = data['y']

show_random_images(x, y)



<br>

A continuación imprimimos la forma de los datos, el número de etiquetas y el número de muestras por clase que incluye este dataset:

<br>

In [None]:
print('\nForma de los datos:', x.shape)
print('\nForma de las etiquetas:', y.shape)

NUM_LABELS = len(np.unique(y))

print('\nNúmero de clases:', NUM_LABELS)

print('\nNúmero de muestras por clase:')
print(np.unique(y, return_counts=True)[1])


Creamos las particiones usando Numpy:

In [None]:
num_samples = len(x)

train_size = int(num_samples * .8)    # Asignamos el 80% a train

x_train = x[:train_size]
y_train = y[:train_size]
x_test = x[train_size:]
y_test = y[train_size:]

print('X_train shape:', x_train.shape)
print('Y_train shape:', y_train.shape)

print('X_test shape:', x_test.shape)
print('Y_test shape:', y_test.shape)

print('\nDistribución de los datos en train:')
print(' - Número de clases:', len(np.unique(y_train)))
print(' - Número de muestras por clase:', np.unique(y_train, return_counts=True)[1])

print('\nDistribución de los datos en test:')
print(' - Número de clases:', len(np.unique(y_train)))
print(' - Número de muestras por clase:', np.unique(y_test, return_counts=True)[1])

<br>

Para solucionar el problema anterior con las particiones vamos a usar la función [`train_test_split` de la librería Sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

Los parámetros de este método son los siguientes (se indican los valores por defecto):

* `*arrays`: Podemos crear particiones de uno o más arrays (por eso pone *) de forma simultánea (importante).

* `test_size=None`: Tamaño de test (entre 0 y 1).

* `train_size=None`: Tamaño de train (entre 0 y 1). Lo normal es indicar solo uno de estos dos parámetros.

* `random_state=None`: Semilla (valor entero) de inicialización para el barajado. Importante para la reproducibilidad.

* `shuffle=True`: Activa el barajado de las muestras. Importante: el barajado se realiza en todos los arrays por igual.

* `stratify=None`: [Estratifica](https://en.wikipedia.org/wiki/Stratified_sampling) el número de muestras de cada clase en las particiones. Es decir, el número de muestras asignadas a cada partición (train/test) será proporcional al número de elementos de la clase.

<br>

A continuación usamos esta función para solucionar el problema previo con las particiones:

<br>

In [None]:

x_train, x_test, y_train, y_test = train_test_split(x, y,
                                                    train_size=0.8,
                                                    random_state=1,
                                                    shuffle=True,
                                                    stratify=y)

# Mostramos la forma de los datos

print('X_train shape:', x_train.shape)
print('Y_train shape:', y_train.shape)

print('X_test shape:', x_test.shape)
print('Y_test shape:', y_test.shape)


# Mostramos la distribución de los datos

print('\nDistribución de los datos en train:')
print(' - Número de clases:', len(np.unique(y_train)))
print(' - Número de muestras por clase:', np.unique(y_train, return_counts=True)[1])

print('\nDistribución de los datos en test:')
print(' - Número de clases:', len(np.unique(y_train)))
print(' - Número de muestras por clase:', np.unique(y_test, return_counts=True)[1])

# Ejemplo 2 - Dataset de vinos
---

Vamos a probar con otro tipo de dataset en el que se clasifican la procedencia de tres tipos de vinos en función de una serie de características:

- Alcohol
- Ácido málico
- Ceniza
- Alcalinidad de la ceniza
- Magnesio
- Fenoles totales
- Flavonoides
- Fenoles no flavonoides
- Proantocianinas
- Intensidad de color
- Tono
- OD280/OD315 de vinos diluidos
- Prolina

<br/>

Esta base de datos está disponible en los [ejemplos de Sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html), así que usamos directamente la función proporcionada para la carga:

<br/>


In [None]:
from sklearn.datasets import load_wine

wine_dataset = load_wine()

print(wine_dataset.DESCR)


<br/>

A continuación usamos la librería Pandas para mostrar algunos ejemplos de este dataset:

<br/>

In [None]:
import pandas as pd

wine = pd.DataFrame(wine_dataset.data, columns=wine_dataset.feature_names)

wine['Target'] = wine_dataset.target    # Añadimos la columna objetivo

print(wine)

<br>

Aprovechamos Pandas para mostrar datos estadísticos sobre las características de este dataset:

<br>

In [None]:
# Llamamos a la utilidad de descripción de pandas

wine.describe()

<br/>

Por último vamos a guardar las características y las etiquetas en arrays de Numpy para crear las particiones como hemos visto previamente:

<br/>

In [None]:
x = np.array( wine_dataset.data )
y = np.array( wine_dataset.target )

x_train, x_test, y_train, y_test = train_test_split(x, y,
                                                    train_size=0.8,
                                                    random_state=1,
                                                    shuffle=True,
                                                    stratify=y)

# Mostramos la forma de los datos

print('X_train shape:', x_train.shape)
print('Y_train shape:', y_train.shape)

print('X_test shape:', x_test.shape)
print('Y_test shape:', y_test.shape)


# Mostramos la distribución de los datos

print('\nDistribución de los datos en train:')
print(' - Número de clases:', len(np.unique(y_train)))
print(' - Número de muestras por clase:', np.unique(y_train, return_counts=True)[1])

print('\nDistribución de los datos en test:')
print(' - Número de clases:', len(np.unique(y_train)))
print(' - Número de muestras por clase:', np.unique(y_test, return_counts=True)[1])