# Breve introducción a ANN

Tutorial basado en el artículo [Simple Introduction to Convolutional Neural Networks](https://towardsdatascience.com/simple-introduction-to-convolutional-neural-networks-cdf8d3077bac).

Antes de comenzar con el alboratorio vamos a revisar los conceptos básicos de las *redes neuronales artificiales* (ANN por sus siglas en inglés) y como se aplican al procesamiento y análisis de imágenes.

## Motivación: análisis de imagen

En las unidades anteriores hemos estado hablando básicamente de detectar características visuales en imágenes. Los investigadores desarrollaron múltiples técnicas de visión computacional para tratar estos problemas: SIFT, FAST, SURF, BRIEF, ORB, KAZE, etc. Sin embargo, en general estas técnicas presentaban dificultades para ciertos problemas: los detectores son demasiado simples o están diseñados para problemas muy específicos.

Entonces la pregunta que surgió fue bastante obvia: ¿qué pasa si aprendemos las características visual que queremos detectar? Y la respuesta es simple: necesitamos un sistema que pueda hacer *aprendizaje de características* (o Feature Learning).

El aprendizaje de características es una técnica que permite que un sistema encuentre automáticamente características relevantes para una tarea determinada, de manera que permite reemplazar el diseño manual de características. **Redes neuronales artificiales** es una de las técnicas que permite hacer esto.

## Redes Neuronales artificiales

Una **red neural artificial** es un modelo computacional que se inspira en la forma en como las redes neuronales biológicas del cerebro humano procesan la información.



### Una sola neurona

La unidad básica de cálculo en una red neuronal es la *neurona*, a menudo llamada nodo o unidad. Recibe información de algunos otros nodos, o de una fuente externa y calcula una salida. Cada entrada tiene un peso asociado (`w`), que se asigna en función de su importancia relativa a otras entradas. El nodo aplica una función `f` a la suma ponderada de sus entradas como se muestra a continuación:

![](https://ujwlkarn.files.wordpress.com/2016/08/screen-shot-2016-08-09-at-3-42-21-am.png?w=1136&h=606)

La red anterior toma entradas numéricas `X1` y `X2` y tiene pesos `w1` y `w2` asociados con esas entradas. Además, hay otra entrada `1` con el peso `b` (llamado *bias*) asociado a ella, y por el momento vamos a omitir esta entrada.

La salida `Y` de la neurona se calcula como se muestra en la figura. La función `f` se llama *función de activación*. Una función de activación toma un número y realiza una operación matemática determinada. Hay varias funciones de activación que se pueden encontrar en la práctica:

* `Sigmoide`: toma una entrada de valor real y la aplasta para que oscile entre 0 y 1

* `ReLU`: ReLU significa *unidad lineal rectificada*. Toma una entrada de valor real y la umbraliza a cero (reemplaza los valores negativos con cero)

![](https://miro.medium.com/max/1742/1*XxxiA0jJvPrHEJHD4z893g.png)

### Red neuronal feedforward multicapa (MLP)

La red neuronal feedforward fue el primer modelo ideado y a su vez el más simple. Contiene múltiples neuronas (nodos) dispuestas en capas. Los nodos de las capas adyacentes tienen conexiones entre ellos y todas estas conexiones tienen pesos asociados con ellas. Un ejemplo de una red neuronal feedforward se muestra en la figura:

![](https://miro.medium.com/max/1200/1*BQ0SxdqC9Pl_3ZQtd3e45A.png)

Una red neuronal feedforward (multilayer) consta de nodos en tres tipos de capas:

1. *Capa de entrada*: los nodos de esta capa proporcionan información externa a la red. No se realiza ningún cálculo en estos nodo, simplemente transmiten la información a los nodos de la capa oculta.

2. *Capas ocultas*: los nodos de estas capas realizan cálculos y transfieren información de los nodos de entrada a los nodos de salida. Una red feedforward puede tener cero o múltiples capas ocultas.

3. *Capa de salida*: los nodos de salida son responsables de los cálculos y la transferencia de información de la red al mundo exterior.

En una red feedforward, la información se mueve en una sola dirección, hacia adelante, desde los nodos de entrada, a través de los nodos ocultos y hacia los nodos de salida. No hay ciclos ni bucles en la red.

### Entrenando una ANN: algoritmo Backpropagation

El proceso por el cual una ANN aprende se conoce como algoritmo de *backpropagation*, o retropropagación (abreviado como *BackProp*):

* Es un esquema de entrenamiento supervisado, lo que significa que aprende de datos de entrenamiento ya etiquetados.
* En términos simples, BackProp consiste en "aprender de los errores". El algoritmo corrige el ANN cada vez que comete errores.
* El objetivo del aprendizaje es asignar pesos correctos a las conexiones entre nodos de capas diferentes. Dado un vector de entrada, estos pesos determinan cuál es el vector de salida.

#### Algoritmo BackProp

![](https://miro.medium.com/max/600/0*zjTuE91Skw7y2Vx-)
Fuente: https://gfycat.com/gifs/search/backpropagation


Inicialmente, todos los pesos de borde se asignan aleatoriamente. Para cada entrada en el conjunto de datos de entrenamiento, el ANN se activa y se observa su salida. Esta salida se compara con la salida deseada que ya conocemos, y el error se *propaga* de nuevo a la capa anterior. Este error se observa y los pesos se *ajustan* en consecuencia. Este proceso se repite hasta que el error de salida esté por debajo de un umbral predeterminado.

#### Predicción de nuevas entradas

Una vez que termina el algoritmo BackProp, hemos aprendido una ANN, y está lista para trabajar con nuevas entradas. La siguiente figura muestra como fluye la información de una nueva entrada para una red que ya fue entrenada.

![](https://miro.medium.com/max/1111/0*bmcR3nOLvyp1moa6.gif)

Con el fin de mejorar el entendimiento de este proceso, se puede utilizar la web desarrollada por Adam Harley (http://scs.ryerson.ca/~aharley/vis/fc/) para visualizar en 3D una ANN que fue entrenada (usando Backpropagation) para reconocer dígitos escrito a mano sobre la base de datos MNIST.

La red toma 784 valores numéricos de píxeles como entradas de una imagen de 28x28 de un dígito escrito a mano (tiene 784 nodos en la capa de entrada correspondientes a píxeles). La red tiene 300 nodos en la primera capa oculta, 100 nodos en la segunda capa oculta y 10 nodos en la capa de salida (correspondientes a los 10 dígitos).

## Problemas de las ANN tradicionales (MLP)

Antes de empezar con la páctica de ANN para análisis de imágenes, vamos a repasar los problemas que presentan las ANN tradicionales.

* Hay varios inconvenientes con las MLP, especialmente cuando se trata del procesamiento de imágenes. Los MLP usan un perceptrón para cada entrada (por ejemplo, píxel en una imagen, multiplicado por 3 en caso de RGB). La cantidad de pesos rápidamente se vuelve inmanejable para imágenes grandes. Para una imagen de 224x224 píxeles con 3 canales de color, hay alrededor de 150.000 pesos que deben entrenarse. Como resultado, surgen dificultades durante el entranamiento, como ser el *sobreajuste*.

* Otro problema común es que los MLP reaccionan de manera diferente a una entrada (imágenes) y su versión desplazada: no son invariantes de traslación. Por ejemplo, si aparece una imagen de un gato en la parte superior izquierda de una imagen y otro en la parte inferior derecha de otra imagen, el MLP intentará corregirse y asumirá que siempre aparecerá un gato en esa sección de la imagen.

Ahora si, ya podemos comenzar con la práctica de este laboratorio.

# Clasificación con ANN: predecir la clase de una imagen

Tutorial extraído de https://www.tensorflow.org/tutorials/keras/classification

En esta primera parte del laboratorio vamos entrenar una red neuronal para clasificar imagenes de ropa como ser zapatos, vestidos, camisetas y más. No hay problema sino entienden todos los detalles, ya que es una mirada rápido sobre un programa completo de *Tensorflow* con los detalles explicados a medida que se avanza.

Esta Guia usa [tf.keras](https://www.tensorflow.org/guide/keras), una API de alto nivel para construir y entrenar modelos de redes neuronales en Tensorflow.

In [None]:
try:
  # %tensorflow_version only exists in Colab.
  %tensorflow_version 2.x
except Exception:
  pass


In [None]:
from __future__ import absolute_import, division, print_function, unicode_literals

# TensorFlow y tf.keras
import tensorflow as tf
from tensorflow import keras

# Librerias de ayuda
import numpy as np
import matplotlib.pyplot as plt

print(tf.__version__)

## Importar el set de datos de moda de MNIST

Esta guia usa el set de datos de [Fashion MNIST](https://github.com/zalandoresearch/fashion-mnist)
que contiene más de 70000 imágenes en 10 categorias. Las imágenes muestran artículos individuales de ropa a una resolución muy baja (28 por 28 pixeles), tal como se ve aca:

<table>
  <tr><td>
    <img src="https://miro.medium.com/max/1400/1*RkysnlFejHNE4Us5aXmnHQ.jpeg"
         alt="Fashion MNIST sprite"  width="600">
  </td></tr>
  <tr><td align="center">
    <b>Figure 1.</b> <a href="https://github.com/zalandoresearch/fashion-mnist">Fashion-MNIST samples</a> (by Zalando, MIT License).<br/>&nbsp;
  </td></tr>
</table>

En este lab vamos a usar 60.000 imágenes para entrenar la red neuronal y 10.000 para evaluar que tan exacto aprendió la red a clasificar imágenes de moda. Se puede acceder al dataset Fashion MNIST directamente desde TensorFlow:

In [None]:
fashion_mnist = keras.datasets.fashion_mnist

(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()

Al cargar el dataset, la función retorna cuatro arreglos en `NumPy`:

* Los arreglos `train_images` y `train_labels` son los datos del *training set* que se usan para aprender el modelo.
* Los arreglos `test_images` y `test_labels` son los datos del *test set* que se usan para probar el modelo.

Las imágenes se cargan como arreglos `NumPy` de 28x28, con valores de pixel que varian de 0 a 255 (imagen en escala de grises). Los arreglos *labels* son arreglos de enteros, que van del 0 al 9, con tantas filas como imágenes hay para entrenamiento y para testeo, respectivamente. Estos corresponden a la *clase* de ropa que la imagen representa:

<table>
  <tr>
    <th>Label</th>
    <th>Class</th>
  </tr>
  <tr>
    <td>0</td>
    <td>T-shirt/top</td>
  </tr>
  <tr>
    <td>1</td>
    <td>Trouser</td>
  </tr>
    <tr>
    <td>2</td>
    <td>Pullover</td>
  </tr>
    <tr>
    <td>3</td>
    <td>Dress</td>
  </tr>
    <tr>
    <td>4</td>
    <td>Coat</td>
  </tr>
    <tr>
    <td>5</td>
    <td>Sandal</td>
  </tr>
    <tr>
    <td>6</td>
    <td>Shirt</td>
  </tr>
    <tr>
    <td>7</td>
    <td>Sneaker</td>
  </tr>
    <tr>
    <td>8</td>
    <td>Bag</td>
  </tr>
    <tr>
    <td>9</td>
    <td>Ankle boot</td>
  </tr>
</table>

Cada imagen es mapeada a una unica etiqueta. Ya que los nombres de las clases no estan incluídos en los arreglos *labels*, los almacenamos acá para usarlos luego cuando se visualicen las imágenes:

In [None]:
class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
               'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

## Explorar el set de datos

Exploramos el la información del dataset antes de entrenar el modelo. Lo siguiente muestra que hay 60.000 imágenes en el set de entrenamiento con cada imagen representada por un arrelgo de 28x28 píxeles:

In [None]:
train_images.shape

In [None]:
train_images[0]

Asimismo, hay 60.000 etiquetas en el set de entrenamiento:

In [None]:
len(train_labels)

Cada etiqueta es un entero entre 0 y 9:

In [None]:
train_labels

Hay 10.000 imágenes en el set de pruebas. Otra vez, cada imagen es representada por un arrelgo de 28x28 píxeles:

In [None]:
test_images.shape

Y el set de pruebas contiene 10.000 etiquetas de imagen:

In [None]:
len(test_labels)

In [None]:
test_labels

## Pre-procesar el dataset

El set de datos debe ser pre-procesado antes de entrenar la red. Al visualizar la primera imagen en el set de entrenamiento, encontramos que los valores de los pixeles están entre 0 y 255:

In [None]:
plt.figure()
plt.imshow(train_images[0])
plt.colorbar()
plt.grid(False)
plt.show()

Antes de entrenar la red neuronal debemos escalar estos valores en un rango de 0 a 1. Para hacero, dividimos los valores por 255. Es importante que el *training set* y el *testing set* se pre-procesen de la misma forma:

In [None]:
train_images = train_images / 255.0
test_images = test_images / 255.0

Para verificar que el set de datos está en el formato adecuado y que están listos para entrenar la red, veamos las primeras 25 imágenes de el *training set* junto al nombre de clase debajo de cada imagen.

In [None]:
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(train_images[i], cmap=plt.cm.gray) #
    plt.xlabel(class_names[train_labels[i]])
plt.show()

## Construir del Modelo

Construir la red neuronal requiere configurar las capas del modelo y luego compilarlo.

### Configurar las Capas

Los bloques de construcción básicos de una red neuronal son las *capas* o *layers*. Las capas extraen representaciones (características o features) del set de datos con el que se alimentan.

La mayor parte del *aprendizaje profundo* (deep learning) consiste en encadenar capas simples. La mayoría de las capas tienen parámetros que son aprendidos durante el entrenamiento. En TensorFlow, estas capas son implementadas mediante `tf.keras.layers.Dense`.

In [None]:
model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])

La primera capa de esta red, `tf.keras.layers.Flatten`,
transforma las imágenes de un arreglo bi-dimensional (de 28x28 píxeles) a un arreglo uni-dimensional (de 28\*28 píxeles = 784 píxeles). En esta capa no hay parámetros que aprender, solo se *reformatea* el set de datos.

Despues de que los píxeles son "aplanados", el modelo consiste de una secuencia de dos capas `tf.keras.layers.Dense`. Estas están densamente conectadas, o completamente conectadas. La primera capa `Dense` tiene 128 nodos (o neuronas) con una *función de activación* del tipo *relu*. La segunda (y última) capa es una capa de 10 nodos on una *función de activación* de tipo *softmax*, que devuelve un arreglo de 10 probabilidades que suman 1. Cada nodo contiene una *calificación* que indica la probabilidad de que la imagen actual pertenezca a una de las 10 clases.

### Compilar el modelo

Antes de que el modelo este listo para ser entrenado, se necesitan algunas configuraciones más. Estas son agregadas durante el paso de compilacion del modelo:

* *Loss function*: esto permite medir que tan exacto es el modelo durante el entrenamiento. La idea es minimizar el valor de esta función para "dirigir" el modelo en la direccion adecuada.
* *Optimizer*: así es como se actualiza el modelo basado en los datos de entrenamiento y su loss function.
* *Metrics*: se usan para monitorear los pasos de entrenamiento y de testeo. El siguiente ejemplo usa *accuracy* (exactitud), es decir, la fracción de imágenes que son correctamente clasificadas.

In [None]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

## Entrenar el Modelo

Entrenar la red neuronal requiere de los siguientes pasos:

1. Entregar los datos de entrenamiento al modelo. En este ejemplo, el set de datos de entrenamiento estan en los arreglos `train_images` y `train_labels`.
2. Correr el entreanamiento para que el modelo aprenda a asociar imágenes con etiquetas.
3. Pedir al modelo que haga predicciones sobre un set de datos de pruebas, incluido en el arreglo `test_images`. Verificar que las predicciones sean iguales a las etiquetas del arreglo `test_labels`.

Para comenzar a entrenar, se llama el método `model.fit`. Se denomina así por que ajusta (*fit*) el modelo a el set de datos de entrenamiento:

In [None]:
model.fit(train_images, train_labels, epochs=10)

A medida que el modelo entrena, la muestran los valores de *loss function* y *accuracy* sobre el **set de datos de entrenamiento**.

En este punto vale aclarar terminología de redes neuronales, y que son parámetros del método `fit`:

* Un `epoch`: un pase hacia adelante (*forward pass*) y un pase hacia atrás (*backward pass*) de **todos los ejemplos de entrenamiento**.
* `batch size`: número de ejemplos de entrenamiento en un forward/backward pass. Cuanto mayor sea el tamaño del lote, más espacio en memoria se necesita.
* Número de `iteraciones` = número de pasadas, donde el número de ejemplos de involucrados en cada pasada esta especificado por `[batch size]`. Una pasada es un *forward pass* mas un *backward pass*.

Ejemplo: si se tiene 1.000 ejemplos de entrenamiento y el `batch size` es de 500, entonces se necesitan 2 iteraciones para completar 1 `epoch`.

## Evaluar Accuracy

A continuación vamos a estimar el rendimiento del modelo sobre el set de datos de prueba:

In [None]:
test_loss, test_acc = model.evaluate(test_images,  test_labels, verbose=2)

print('\nTest accuracy:', test_acc)

Resulta que la *accuracy* sobre el set de datos de pruebas es un poco menor que la *accuracy* sobre el set de entrenamiento. Esta diferencia entre el entrenamiento y el test se debe al *overfitting* (sobre ajuste). Sobre ajuste sucede cuando un modelo de aprendizaje de maquina (ML) tiene un rendimiento peor sobre un set de datos nuevo (o de testeo), que nunca antes ha visto comparado con el de entrenamiento.

## Hacer predicciones

Finalmente, con el modelo entrenado ya se pueden hacer predicciones sobre nuevas imágenes. Para esto usamos el método `predict` con las imágenes del conjunto de testeo.

In [None]:
predictions = model.predict(test_images)

En la celda anterior, el modelo predice la etiqueta para cada imagen en el set de datos de prueba. Miremos la primera prediccion:

In [None]:
predictions[0]

Una prediccion es un arreglo de 10 números (que corresponden a las 10 neuronas de la segunda capa). Estos valores representan el nivel de "confianza" (o probabilidad) que el modelo arroja sobre las imágenes de cada uno de los 10 artículos de moda/ropa. Se puede revisar cual tiene el nivel más alto de confianza:

In [None]:
pred_label = np.argmax(predictions[0])
print(pred_label, " [", class_names[pred_label], "]", sep="")

De esta manera, el modelo tiene mayor confianza que esta imagen es una "ankle boot". Examinando las etiquetas del set de datos de pruebas, podemos ver que esta clasificaion es correcta:

In [None]:
test_labels[0]

Por último vamos crear una función que nos permita graficar la probabilidad de clase de cada una de las imagenes del dataset de pruebas.

In [None]:
def plot_image(i, predictions_array, true_label, img):
  predictions_array, true_label, img = predictions_array, true_label[i], img[i]
  plt.grid(False)
  plt.xticks([])
  plt.yticks([])

  plt.imshow(img, cmap=plt.cm.binary)

  predicted_label = np.argmax(predictions_array)
  if predicted_label == true_label:
    color = 'blue'
  else:
    color = 'red'

  plt.xlabel("{} {:2.0f}% ({})".format(class_names[predicted_label],
                                100*np.max(predictions_array),
                                class_names[true_label]),
                                color=color)

def plot_value_array(i, predictions_array, true_label):
  predictions_array, true_label = predictions_array, true_label[i]
  plt.grid(False)
  plt.xticks(range(10))
  plt.yticks([])
  thisplot = plt.bar(range(10), predictions_array, color="#777777")
  plt.ylim([0, 1])
  predicted_label = np.argmax(predictions_array)

  thisplot[predicted_label].set_color('red')
  thisplot[true_label].set_color('blue')

Tomemos como ejemplos la primer imagen del conjunto de testeo (`i=0`) y la décimotercera (`i=12`). Las etiquetas de prediccion correctas estan en azul y las incorrectas estan en rojo. El numero entrega el porcentaje para la etiqueta predicha.

In [None]:
i = 0
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plot_image(i, predictions[i], test_labels, test_images)
plt.subplot(1,2,2)
plot_value_array(i, predictions[i],  test_labels)
plt.show()

In [None]:
i = 12
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plot_image(i, predictions[i], test_labels, test_images)
plt.subplot(1,2,2)
plot_value_array(i, predictions[i],  test_labels)
plt.show()

Ahora vamos a graficar multiples imágenes con sus predicciones. Notese que el modelo puede estar equivocado aun cuando tiene mucha confianza.

In [None]:
# Plot the first X test images, their predicted labels, and the true labels.
# Color correct predictions in blue and incorrect predictions in red.
num_rows = 5
num_cols = 3
num_images = num_rows*num_cols
plt.figure(figsize=(2*2*num_cols, 2*num_rows))
for i in range(num_images):
  plt.subplot(num_rows, 2*num_cols, 2*i+1)
  plot_image(i, predictions[i], test_labels, test_images)
  plt.subplot(num_rows, 2*num_cols, 2*i+2)
  plot_value_array(i, predictions[i], test_labels)
plt.tight_layout()
plt.show()

Finalmente, usamos el modelo entrenado para hacer una predicción sobre una única imagen.

In [None]:
# Grab an image from the test dataset.
img = test_images[1]

print(img.shape)

Los modelos de `tf.keras` se optimizan para hacer predicciones en un lote de ejemplos a la vez. En consecuencia, a pesar de que está utilizando una sola imagen, es necesario añadirla a una lista:

In [None]:
# Add the image to a batch where it's the only member.
img = (np.expand_dims(img,0))

print(img.shape)

Ahora se puede predecir la etiqueta correcta para esta única imagen:

In [None]:
predictions_single = model.predict(img)

print(predictions_single)

In [None]:
plot_value_array(1, predictions_single[0], test_labels)
_ = plt.xticks(range(10), class_names, rotation=45)

`model.predict` retorna una lista de listas para cada imagen dentro del lote de imáágenes. Por lo tanto, para tomar la prediccion de la única imagen dentro del lote hacemos:

In [None]:
pred_label_single = np.argmax(predictions_single[0])
print(pred_label_single, " [", class_names[pred_label_single], "]", sep="")

Y el modelo predice la etiqueta 2 (pullover).

---

# Trabajo Práctico 1 (primera parte)
---
Facundo Melendi Suarez  DNI:40835638,   facundomelendi@unc.edu.ar

Esequiel Armneria  DNI: 35190750, esequiel1308@gmail.com


Marianela Carubelli DNI: 26103422 mcarubelli@unc.edu.ar


## **EJERCICIO 1.1**: predecir nuevas imágenes de moda con el modelo previamente entrenado

1. **Crear un nuevo dataset** propio con **30 imágenes** en total (3 imágenes de cada categoría). Estás imágenes no deben ser tomadas del dataset original (Fashion MNIST). Pueden capturar sus propias imágenes o buscarlas en la web. **Como sea, recuerden que deben preprocesar las imágenes para que tengan exactamente el mismo formato de entrada que requiere la red.**

1. **Mostrar todas las imágenes del conjunto de testeo** creado por ustedes para que se pueda inspeccionar rápidamente su contenido.

1. Tomando la ANN previamente entrenada, **predecir las etiquetas** de cada imagen del dataset y reportar los resultados de **accuracy** (y **opcionalmente** cualquier otra métrica que le resulte adecuada, como ser **precisión** y **recall**)

TIP: reutilice las celdas de código presentadas anteriormente


Las imagenes utilizadas se encuentran en el siguiente repositorio


https://github.com/Odnucaf/Diplo_Datos/tree/07a043d7781df92ebf9bc1e31e97b9e8728f560e/imagenes%20practico

Importamos las imágenes que bajamos de google:

In [None]:
# 1. Clona el repositorio
!git clone https://github.com/Odnucaf/Diplo_Datos.git

# 2. Navega al directorio que contiene las imágenes
%cd Diplo_Datos/imagenes\ practico

# 3. Copia las imágenes al directorio /content/imagenes/
!cp -r . /content/imagenes/

# Verifica si las imágenes están en el directorio /content/imagenes/
!ls /content/imagenes/

In [None]:
import cv2
import os
import pandas as pd

# Ruta de la carpeta
carpeta = '/content/imagenes/'

# Obtener los nombres de todos los archivos y carpetas en la carpeta
nombres = os.listdir(carpeta)

# Obtener las direcciones completas de cada archivo o subcarpeta
direcciones = [os.path.join(carpeta, nombre) for nombre in nombres]

print(direcciones)

Convertimos las imágenes a escala de grises, invertimos la escala para que el fondo sea negro, y normalizamos los pixeles para que tengan valores de 0 a 1.

In [None]:
resultado = np.empty((0, 28, 28))
for imag in direcciones:
    img = cv2.imread(imag, cv2.IMREAD_GRAYSCALE)
    img =  cv2.resize(img, (28,28))
    img = 255 - img
    img = img/255
    plt.imshow(img, cmap='gray') #,
    img = (np.expand_dims(img,0))
    resultado = np.append(resultado, img, axis=0)
resultado.shape

Veamos como quedaron las 30 imagenes procesadas:

In [None]:
plt.figure(figsize=(10,10))
for i in range(30):
    plt.subplot(6,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(resultado[i], cmap=plt.cm.gray) #
plt.show()

Usamos el modelo entrenado previamente para predecir las etiquetas de nuestras 30 imágenes.

In [None]:
predictions = model.predict(resultado)

In [None]:
df_resultados = pd.DataFrame()

df_resultados['Prediccion'] = ''
df_resultados['Valor_real'] = ''

#df_resultados['Prediccion'] = df_resultados['Prediccion'].astype(str)
#df_resultados['Valor_real'] = df_resultados['Valor_real'].astype(str)

for d, d2 in enumerate(direcciones):
    df_resultados.loc[d,['Prediccion']] = str(class_names[np.argmax(predictions[d])])
    df_resultados.loc[d,['Valor_real']] = str(direcciones[d])

Guardamos en un datframe llamado df_resultados las etiquetas reales y las predichas por el modelo.

In [None]:
# Elimina '.jpg'
df_resultados['Valor_real'] = df_resultados['Valor_real'].str.replace('.jpg', '')

# Elimina 'imagenes practico/'
df_resultados['Valor_real'] = df_resultados['Valor_real'].str.replace('/content/imagenes/', '')

# Elimina todos los dígitos
df_resultados['Valor_real'] = df_resultados['Valor_real'].str.replace(r'\d+', '', regex=True)

# Elimina paréntesis
df_resultados['Valor_real'] = df_resultados['Valor_real'].str.replace(r'\(|\)', '', regex=True)

#Vamos a agregar la barra en T-shirttop para que pueda leerlo igual que a las categorias
df_resultados['Prediccion'] = df_resultados['Prediccion'].replace('T-shirttop', 'T-shirt/top')
df_resultados['Valor_real'] = df_resultados['Valor_real'].replace('T-shirttop', 'T-shirt/top')

df_resultados

Agregamos a df_resultados los labels numéricos de esas etiquetas para podes calcular métricas por clases.

In [None]:
categorias = ['T-shirt/top','Trouser','Pullover','Dress','Coat','Sandal','Shirt','Sneaker','Bag','Ankle boot']
mapeo = {categoria: idx for idx, categoria in enumerate(categorias)}

df_resultados['label_real'] = df_resultados['Valor_real'].map(mapeo)
df_resultados['label_pred'] = df_resultados['Prediccion'].map(mapeo)

df_resultados= df_resultados.fillna(2) #por alguna razón que no descubro a 'Pullover' no lo reconoce y lo pone como NaN, por eso lo reemplazo por 2 que es el label que le corresponde :(
df_resultados['label_real'] = df_resultados['label_real'].astype(int)
df_resultados

Veamos las imágenes reales y su etiqueta, junto con la imagen procesada y la etiqueta predicha, para las 30 imágenes.

In [None]:
i = 22

# Leer las imágenes
imagen_original = np.squeeze(cv2.imread(direcciones[i]))
imagen_resultado = np.squeeze(resultado[i])

# Crear un arreglo de subgráficos (1 fila, 2 columnas)
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(6, 3))

# Mostrar la imagen original en el primer subgráfico
ax1.imshow(imagen_original, cmap='gray')
ax1.set_title(('Valor_real ---->   '+df_resultados['Valor_real'][i]))

# Mostrar la imagen resultado en el segundo subgráfico
ax2.imshow(imagen_resultado, cmap='gray')
ax2.set_title(('Prediccion ---->   '+df_resultados['Prediccion'][i]))

# Ajustar el espacio entre subgráficos
plt.tight_layout()

# Mostrar el gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt
import cv2

for i in range(30):  # i irá desde 0 hasta 29
    # Leer las imágenes
    imagen_original = np.squeeze(cv2.imread(direcciones[i]))
    imagen_resultado = np.squeeze(resultado[i])

    # Crear un arreglo de subgráficos (1 fila, 2 columnas)
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(4, 4))

    # Mostrar la imagen original en el primer subgráfico
    ax1.imshow(imagen_original, cmap='gray')
    ax1.set_title(('Valor_real ---->   '+df_resultados['Valor_real'][i]))

    # Mostrar la imagen resultado en el segundo subgráfico
    ax2.imshow(imagen_resultado, cmap='gray')
    ax2.set_title(('Prediccion ---->   '+df_resultados['Prediccion'][i]))

    # Ajustar el espacio entre subgráficos
    plt.tight_layout()

    # Mostrar el gráfico
    plt.show()


Calculemos el accuracy general en la predición:

In [None]:
from sklearn.metrics import precision_score, recall_score, accuracy_score

label_pred = df_resultados['label_pred']
label_real = df_resultados['label_real']
testB_loss, testB_acc = model.evaluate(resultado,  label_real, verbose=2)


print('\nNuevo accuracy:', testB_acc)

Ahora vamos a calcular la precisión y el recall por cada clase:


In [None]:
mapeo = {idx: categoria for idx, categoria in enumerate(categorias)}
df_metricas = pd.DataFrame()

# Calcular el accuracy por clase
accuracy_por_clase = []
for clase in range(10):  # Suponiendo 10 clases (0 al 9)
    accuracy_clase = accuracy_score(label_real[label_pred == clase], label_pred[label_pred == clase])
    accuracy_por_clase.append(accuracy_clase)
    #df_metricas[clase]=clase
    df_metricas.at[clase, 'precisión_clase'] = accuracy_clase
    # print(f'Clase {clase}: Accuracy={accuracy_clase}')

# Calcula el recall por clase

recall_por_clase = []
for clase in range(10):
    recall_clase = recall_score(label_real[label_real == clase], label_pred[label_real == clase], average='micro') #
    recall_por_clase.append(recall_clase)
    df_metricas.at[clase, 'recall_clase'] = recall_clase


# Imprime los resultados
for clase, accuracy, recall in zip(range(10), accuracy_por_clase, recall_por_clase):
    print(f'Clase {clase}: Precisión={accuracy}, Recall={recall}')
df_metricas['categoria'] = df_metricas.index.map(mapeo)
df_metricas = df_metricas[['categoria'] + [col for col in df_metricas if col != 'categoria']]

In [None]:
#df_resultados

Veamos la precision y el recall por cada clase, almacenado en el datframe df_metricas:

In [None]:
df_metricas

## **EJERCICIO 1.2**: informe y conclusiones del ejercicio 1.1

1. Elabore un breve resumen de lo realizado en el ejercicio 1.1

2. Describa los principales resultados obtenidos

3. Presente (si es posible) otros hallazgos realizados

4. Escriba las conclusiones finales

##Informe del ejercicio 1:

* Se bajaron de google 30 imágenes de ropa, que tuviesen las etiquetas de las 10 clases planteadas en el problema.

* Se subieron las imágenes a una carpeta local del colab, las leimos y transformamos sus 3 canales a un solo canal en escala de grises.

* Luego se redimensionaron las imágenes al tamaño de 28x28, se invirtió la escala de color para que el fondo sea negro, y luego se normalizó la escala de los pixeles para que tengan valores de 0 a 1.

* A continuación creamos una matriz numpy de (30, 28, 28) que contiene todos los pixeles de las 30 imágenes de 28x28, con el nombre **resultado**.

* Usamos el modelo entrenado previamente con el set de datos de moda de MNIST, para predecir las etiquetas de las 30 imágenes nuevas.

* Guardamos en el datframe df_resultados las etiquetas predichas, las etiquetas reales, y los labels numéricos de esas etiquetas predichas y reales.

* Mostramos las 30 imágenes reales junto a las trasnformadas, con la etiqueta real y la etiqueta predicha por el modelo, para que se pueda inspeccionar rápidamente el contenido y el resultado.

* Medimos el accuracy de este lote de 30 imagenes, que dio muchísimo menos que el de train o test de antes. Ahora el accuracy da solamente 0.23.

* Además calculamos el precisión y recall por clase (es decir analizando sólo por cada clase) y guardamos estos resultados en df_metricas. Estas métricas son complicadas de analizar ya que sólo tenemos 3 imágenes de cada clase, es decir muy poca estadística.


**Conclusiones**: Pudimos etiquetar y evaluar el proceso de etiquetado de un lote nuevo de imágenes. El accuracy dio bajísimo, comparado con el accuracy obtenido en test. Esto seguramengte se debe a que nuestro lote de imágenes no tiene ningún proceso de curación.
Pareciera que el modelo tiende a predecir con más frecuencia a la categoria Bag, aunque no pudimos relacionar eso con las métricas precisión ni recall por clase. La categoría que tiene mejor precisión es Dress. Sin embargo estos análisis sólo se han hecho sobre 30 imágenes, es decir con muy poca estadística.

## **EJERCICIO 1.3 (OPCIONAL)**: entrenar la red para resolver un nuevo problema

Realice una búsqueda en internet para relevar dataset similares al propuesto en este lab. Elija un dataset arbitario y con este vuelva a realizar el proceso de completo para entrenar una ANN como clasificador de imágenes sobre el nuevo dateset

TIP: dejo dos links para facilitar la búsqueda
- https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
- https://en.wikipedia.org/wiki/Caltech_101


Se utilizo el dataset sobre manos. La idea de este ejercicio es determinar dependendiendo de la imagen, a que sexo pertenece la mano.
https://sites.google.com/view/11khands

In [None]:
# Inicializa un nuevo repositorio en tu entorno de Colab
!git init

# Agrega el repositorio remoto
!git remote add -f origin https://github.com/Mariandela/Diplomatura.git

# Configura el repositorio para permitir "sparse-checkout"
!git config core.sparseCheckout true

# Especifica la carpeta que deseas descargar
!echo "hands_test/" >> .git/info/sparse-checkout
!echo "hands_train/" >> .git/info/sparse-checkout
# Sincroniza con el repositorio remoto y descarga solo la carpeta especificada
!git pull origin main

In [None]:
# Ruta de las carpetas
carpeta_hands_train = 'hands_train/'
carpeta_hands_test = 'hands_test/'

# Redimensionamos las imagenes y las cambiamos a blanco y negro.

def img_load(folder_name):
    # Obtener los nombres de todos los archivos y carpetas en la carpeta
    nombres = os.listdir(folder_name)

    # Obtener las direcciones completas de cada archivo o subcarpeta
    direcciones = [os.path.join(folder_name, nombre) for nombre in nombres]
    resultado = np.empty((0, 28, 28))
    for imag in direcciones:
        img = cv2.imread(imag, cv2.IMREAD_GRAYSCALE)
        img =  cv2.resize(img, (28,28))
        img = 255 - img
        img = img/255
        ##  plt.imshow(img, cmap='gray')
        img = (np.expand_dims(img,0))
        resultado = np.append(resultado, img, axis=0)
    return(resultado)


# Obtenemos las imagenes para train y test:
hands_result_train = img_load(carpeta_hands_train)
hands_result_test = img_load(carpeta_hands_test)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Observamos las dimensiones de nuestros arreglos, para comprobar que esten correctos.

In [None]:
hands_result_train.shape

Tenemso entonces un arreglo de dimensión (7376, 28, 28), ya que son 7376 imágenes de 28x28 pixeles

In [None]:
hands_result_test.shape

Como el grupo de test tiene 3700 imágenes de 28x28 pixeles, este arreglo tiene (3700, 28, 28)

In [None]:
# Hacemos un LabelEncoding para codificar los labels. En este caso son femenino o masculino.
url = 'https://raw.githubusercontent.com/Mariandela/Diplomatura/main/HandInfo.csv'
label = pd.read_csv(url)

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
img_label = label[['gender']]
img_label["gender"] =le.fit_transform(img_label["gender"])
img_label_train = img_label['gender'][:7376]
img_label_test = img_label['gender'][7376:]

In [None]:
img_label_train.shape

(7376,)

In [None]:
img_label_test.shape

(3700,)

Entrenamos el modelo, vamos a hacer 10 épocas:

In [None]:
model.fit(hands_result_train, img_label_train, epochs=10)

Evaluamos el modelo:

In [None]:
test_loss_hands, test_acc_hands = model.evaluate(hands_result_test,  img_label_test, verbose=2)

print('\nTest accuracy:', test_acc)



Podemos ver que obtuvimos un accuracy de test de 0.88, lo cual nos parece un buen resultado.