# ¿Que es Object Detection?

Object detection (también llamado a veces *object recognition*) es un término general que se usa para describir una colección de tareas de computer vision que implican identificar **objetos semánticos de una cierta clase** (como humanos, edificios, perros o coches) en imágenes o videos digitales.

Mientras que la *clasificación imágenes* implica predecir la clase de un objeto en una imagen (lo que ya hicimos en los labs 1 y 2), la *localización de objetos* implica identificar la ubicación de uno o más objetos en una imagen definiendo un *bounding box* (recuadro delimitador) alrededor de su extensión. La **detección de objetos** combina estas dos tareas para localizar y clasificar uno o más objetos en una imagen, tal como muestra la siguiente imagen.

![](https://upload.wikimedia.org/wikipedia/commons/3/38/Detected-with-YOLO--Schreibtisch-mit-Objekten.jpg)

Ahora vamos a distinguir estas tres tareas de computer vision.

**Image classification**: predice el tipo o clase de un objeto en una imagen.
- *Entrada*: una imagen con un solo objeto.
- *Salida*: una etiqueta de clase.

**Object localization**: localiza la presencia de objetos en una imagen e indique su ubicación con un bounding box.
- *Entrada*: una imagen con uno o más objetos.
- *Salida*: una o más casillas delimitadoras (por ejemplo, definidas por un punto, ancho y altura).

**Object detection**: localiza la presencia de objetos con un bounding box y su respectiva clase.
- *Entrada*: una imagen con uno o más objetos.
- *Salida*: una o más bounding box (definidas por un punto, ancho y altura), y una etiqueta de clase para cada uno.

En la siguiente imagen se muestran diferentes tareas de computer vision y los resultados que producen.

![](https://nanonets.com/blog/content/images/size/w1000/2020/08/59b6d0529299e.png)

Ahora que ya manejamos una terminología básica vamos a pasar a ver como podemos implementar la tarea de detección de objetos con deep learning en la práctica, usando Python y TensorFlow.




---

**NOTA**: NOTA: Este notebook ha sido creado a partir de recursos disponibles en la web que se listan a continuación. La fuente de las imágenes originales se puede consultar directamente el markdown insertado en la celda de texto.

- https://machinelearningmastery.com/object-recognition-with-deep-learning/
- https://en.wikipedia.org/wiki/Object_detection
- https://www.tensorflow.org/hub/tutorials/tf2_object_detection?hl=en
- https://www.tensorflow.org/lite/models/object_detection/overview?hl=en

# Object Detection con TensorFlow Hub

[TensorFlow Hub (TF Hub)](https://tfhub.dev/) es un repositorio de modelos de aprendizaje automático previamente entrenados, listos para ser optimizados e implementarlos donde quieras con solo unas pocas líneas de código. Para saber más de TF Hub pueden ir a las [guías oficiales](https://www.tensorflow.org/hub/), o chequear el [siguiente tutorial](https://medium.com/ymedialabs-innovation/how-to-use-tensorflow-hub-with-code-examples-9100edec29af).

En resumen, TF Hub pone a dispocisión una gran colección de modelos *out-of-the-box* para detección de objetos, cuyos detalles se pueden encontrar en [este link](https://tfhub.dev/s?module-type=image-object-detection). En este notebook vamos a hacer uso de estos modelos, como también funciones provistas por la [API de TF Hub](https://www.tensorflow.org/hub/api_docs/python/hub).

En este tutorial vamos revisar los pasos para ejecutar diferentes modelos de detección disponibles en TF Hub sobre imágenes del dataset [COCO 2017](https://cocodataset.org/#explore).


## Imports y configuraciones iniciales

Como siempre, comenzamos con los imports iniciales.

In [None]:
import os
import pathlib
import pandas as pd

import matplotlib
import matplotlib.pyplot as plt

import io
import scipy.misc
import numpy as np
from six import BytesIO
from PIL import Image, ImageDraw, ImageFont
from six.moves.urllib.request import urlopen

import tensorflow as tf
import tensorflow_hub as hub
import keras

tf.get_logger().setLevel('ERROR')

print("TensorFlow version:", tf.__version__)
print("Keras version", keras.__version__)


## Utilidades

La siguiente celda de código crea algunas utilidades que se necesitarán más adelante:

- Cargar una imagen.
- Administrar los modelos en TF Hub.
- Una lista de imágenes para propósitos de testeo (se pueden agregar todas las que se quiera).
- Información extra del dataset [COCO 2017](https://cocodataset.org/#home) (necesario para modelos algunos modelos disponibles en TF Hub).

In [None]:
def load_image_into_numpy_array(path):
  """Load an image from file into a numpy array.

  Puts image into numpy array to feed into tensorflow graph.
  Note that by convention we put it into a numpy array with shape
  (height, width, channels), where channels=3 for RGB.

  Args:
    path: the file path to the image

  Returns:
    uint8 numpy array with shape (img_height, img_width, 3)
  """
  image = None
  if(path.startswith('http')):
    response = urlopen(path)
    image_data = response.read()
    image_data = BytesIO(image_data)
    image = Image.open(image_data)
  else:
    image_data = tf.io.gfile.GFile(path, 'rb').read()
    image = Image.open(BytesIO(image_data))

  (im_width, im_height) = image.size
  return np.array(image.getdata()).reshape(
      (1, im_height, im_width, 3)).astype(np.uint8)


ALL_MODELS = {
'CenterNet HourGlass104 512x512' : 'https://tfhub.dev/tensorflow/centernet/hourglass_512x512/1',
'CenterNet HourGlass104 Keypoints 512x512' : 'https://tfhub.dev/tensorflow/centernet/hourglass_512x512_kpts/1',
'CenterNet HourGlass104 1024x1024' : 'https://tfhub.dev/tensorflow/centernet/hourglass_1024x1024/1',
'CenterNet HourGlass104 Keypoints 1024x1024' : 'https://tfhub.dev/tensorflow/centernet/hourglass_1024x1024_kpts/1',
'CenterNet Resnet50 V1 FPN 512x512' : 'https://tfhub.dev/tensorflow/centernet/resnet50v1_fpn_512x512/1',
'CenterNet Resnet50 V1 FPN Keypoints 512x512' : 'https://tfhub.dev/tensorflow/centernet/resnet50v1_fpn_512x512_kpts/1',
'CenterNet Resnet101 V1 FPN 512x512' : 'https://tfhub.dev/tensorflow/centernet/resnet101v1_fpn_512x512/1',
'CenterNet Resnet50 V2 512x512' : 'https://tfhub.dev/tensorflow/centernet/resnet50v2_512x512/1',
'CenterNet Resnet50 V2 Keypoints 512x512' : 'https://tfhub.dev/tensorflow/centernet/resnet50v2_512x512_kpts/1',
'EfficientDet D0 512x512' : 'https://tfhub.dev/tensorflow/efficientdet/d0/1',
'EfficientDet D1 640x640' : 'https://tfhub.dev/tensorflow/efficientdet/d1/1',
'EfficientDet D2 768x768' : 'https://tfhub.dev/tensorflow/efficientdet/d2/1',
'EfficientDet D3 896x896' : 'https://tfhub.dev/tensorflow/efficientdet/d3/1',
'EfficientDet D4 1024x1024' : 'https://tfhub.dev/tensorflow/efficientdet/d4/1',
'EfficientDet D5 1280x1280' : 'https://tfhub.dev/tensorflow/efficientdet/d5/1',
'EfficientDet D6 1280x1280' : 'https://tfhub.dev/tensorflow/efficientdet/d6/1',
'EfficientDet D7 1536x1536' : 'https://tfhub.dev/tensorflow/efficientdet/d7/1',
'SSD MobileNet v2 320x320' : 'https://tfhub.dev/tensorflow/ssd_mobilenet_v2/2',
'SSD MobileNet V1 FPN 640x640' : 'https://tfhub.dev/tensorflow/ssd_mobilenet_v1/fpn_640x640/1',
'SSD MobileNet V2 FPNLite 320x320' : 'https://tfhub.dev/tensorflow/ssd_mobilenet_v2/fpnlite_320x320/1',
'SSD MobileNet V2 FPNLite 640x640' : 'https://tfhub.dev/tensorflow/ssd_mobilenet_v2/fpnlite_640x640/1',
'SSD ResNet50 V1 FPN 640x640 (RetinaNet50)' : 'https://tfhub.dev/tensorflow/retinanet/resnet50_v1_fpn_640x640/1',
'SSD ResNet50 V1 FPN 1024x1024 (RetinaNet50)' : 'https://tfhub.dev/tensorflow/retinanet/resnet50_v1_fpn_1024x1024/1',
'SSD ResNet101 V1 FPN 640x640 (RetinaNet101)' : 'https://tfhub.dev/tensorflow/retinanet/resnet101_v1_fpn_640x640/1',
'SSD ResNet101 V1 FPN 1024x1024 (RetinaNet101)' : 'https://tfhub.dev/tensorflow/retinanet/resnet101_v1_fpn_1024x1024/1',
'SSD ResNet152 V1 FPN 640x640 (RetinaNet152)' : 'https://tfhub.dev/tensorflow/retinanet/resnet152_v1_fpn_640x640/1',
'SSD ResNet152 V1 FPN 1024x1024 (RetinaNet152)' : 'https://tfhub.dev/tensorflow/retinanet/resnet152_v1_fpn_1024x1024/1',
'Faster R-CNN ResNet50 V1 640x640' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet50_v1_640x640/1',
'Faster R-CNN ResNet50 V1 1024x1024' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet50_v1_1024x1024/1',
'Faster R-CNN ResNet50 V1 800x1333' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet50_v1_800x1333/1',
'Faster R-CNN ResNet101 V1 640x640' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet101_v1_640x640/1',
'Faster R-CNN ResNet101 V1 1024x1024' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet101_v1_1024x1024/1',
'Faster R-CNN ResNet101 V1 800x1333' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet101_v1_800x1333/1',
'Faster R-CNN ResNet152 V1 640x640' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet152_v1_640x640/1',
'Faster R-CNN ResNet152 V1 1024x1024' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet152_v1_1024x1024/1',
'Faster R-CNN ResNet152 V1 800x1333' : 'https://tfhub.dev/tensorflow/faster_rcnn/resnet152_v1_800x1333/1',
'Faster R-CNN Inception ResNet V2 640x640' : 'https://tfhub.dev/tensorflow/faster_rcnn/inception_resnet_v2_640x640/1',
'Faster R-CNN Inception ResNet V2 1024x1024' : 'https://tfhub.dev/tensorflow/faster_rcnn/inception_resnet_v2_1024x1024/1',
'Mask R-CNN Inception ResNet V2 1024x1024' : 'https://tfhub.dev/tensorflow/mask_rcnn/inception_resnet_v2_1024x1024/1',
}

IMAGES_FOR_TEST = {
  'Beach' : 'models/research/object_detection/test_images/image2.jpg',
  'Dogs' : 'models/research/object_detection/test_images/image1.jpg',
  # By Heiko Gorski, Source: https://commons.wikimedia.org/wiki/File:Naxos_Taverna.jpg
  'Naxos Taverna' : 'https://upload.wikimedia.org/wikipedia/commons/6/60/Naxos_Taverna.jpg',
  # Source: https://commons.wikimedia.org/wiki/File:The_Coleoptera_of_the_British_islands_(Plate_125)_(8592917784).jpg
  'Beatles' : 'https://upload.wikimedia.org/wikipedia/commons/1/1b/The_Coleoptera_of_the_British_islands_%28Plate_125%29_%288592917784%29.jpg',
  # By Américo Toledano, Source: https://commons.wikimedia.org/wiki/File:Biblioteca_Maim%C3%B3nides,_Campus_Universitario_de_Rabanales_007.jpg
  'Phones' : 'https://upload.wikimedia.org/wikipedia/commons/thumb/0/0d/Biblioteca_Maim%C3%B3nides%2C_Campus_Universitario_de_Rabanales_007.jpg/1024px-Biblioteca_Maim%C3%B3nides%2C_Campus_Universitario_de_Rabanales_007.jpg',
  # Source: https://commons.wikimedia.org/wiki/File:The_smaller_British_birds_(8053836633).jpg
  'Birds' : 'https://upload.wikimedia.org/wikipedia/commons/0/09/The_smaller_British_birds_%288053836633%29.jpg',
}

COCO17_HUMAN_POSE_KEYPOINTS = [(0, 1),
 (0, 2),
 (1, 3),
 (2, 4),
 (0, 5),
 (0, 6),
 (5, 7),
 (7, 9),
 (6, 8),
 (8, 10),
 (5, 6),
 (5, 11),
 (6, 12),
 (11, 12),
 (11, 13),
 (13, 15),
 (12, 14),
 (14, 16)]

## Herramientas de visualización

Para visualizar los objetos detectados con los bounding boxes y su segmentación, utilizaremos la *Object Detection API* de TensorFlow. Para instalarlo clonamos el repositorio el github.

In [None]:
# Clone the tensorflow models repository
!git clone --depth 1 https://github.com/tensorflow/models

Ahora instalamos la Object Detection API.

In [None]:
%%bash
sudo apt install -y protobuf-compiler
cd models/research/
protoc object_detection/protos/*.proto --python_out=.
cp object_detection/packages/tf2/setup.py .
python -m pip --use-deprecated=legacy-resolver install .

Importamos las librerías que vamos a necesitar en el notebook.

In [None]:
from object_detection.utils import label_map_util
from object_detection.utils import visualization_utils as viz_utils
from object_detection.utils import ops as utils_ops

%matplotlib inline

Y finalmente vamos a cargar las etiquetas del dataset. Las etiquetas (o labels) corresponden a números enteros que están asociados a los nombres de las categorías del dataset, de modo que cuando CNN predice `5`, sabemos que esto corresponde a `airplane`. Para esto vamos a usar algunas funciones de la API que nos ayudan a simplificar el código.

In [None]:
PATH_TO_LABELS = './models/research/object_detection/data/mscoco_label_map.pbtxt'
category_index = label_map_util.create_category_index_from_labelmap(PATH_TO_LABELS, use_display_name=True)

## Eligiendo el modelo de detección

Ahora vamos a elegir el modelo de detección de objetos que queramos utilizar. Para esto, tenemos que seleccionar la arquitectura deseada y el modelo se cargará automáticamente. Acá estamos usando los *form* del Colab, por lo que la lista de modelos la pueden elegir de la lista desplegable de la derecha (acá les dejo el [tutorial de Colab](https://colab.research.google.com/drive/1a6y9DN3BNA8qim-1hqCqId48hUoY44Cr) donde se introducen los forms)

Si se quiere cambiar el modelo para probar otras arquitecturas más tarde, simplemente se elige otra y se ejecuta la celda y todas las siguientes (recordá que lo podes hacer con un solo clik desde el menu `Entorno de Ejecución -> Ejecutar celda seleccionada y las siguientes`).

**NOTA**: si desea conocer más detalles sobre el modelo seleccionado, puede seguir el enlace que se imprime en la salida (también disponible en la lista `ALL_MODELS`) y leer la documentación adicional en TF Hub.


In [None]:
#@title Model Selection
model_display_name = 'Faster R-CNN Inception ResNet V2 640x640' # @param ['CenterNet HourGlass104 512x512','CenterNet HourGlass104 Keypoints 512x512','CenterNet HourGlass104 1024x1024','CenterNet HourGlass104 Keypoints 1024x1024','CenterNet Resnet50 V1 FPN 512x512','CenterNet Resnet50 V1 FPN Keypoints 512x512','CenterNet Resnet101 V1 FPN 512x512','CenterNet Resnet50 V2 512x512','CenterNet Resnet50 V2 Keypoints 512x512','EfficientDet D0 512x512','EfficientDet D1 640x640','EfficientDet D2 768x768','EfficientDet D3 896x896','EfficientDet D4 1024x1024','EfficientDet D5 1280x1280','EfficientDet D6 1280x1280','EfficientDet D7 1536x1536','SSD MobileNet v2 320x320','SSD MobileNet V1 FPN 640x640','SSD MobileNet V2 FPNLite 320x320','SSD MobileNet V2 FPNLite 640x640','SSD ResNet50 V1 FPN 640x640 (RetinaNet50)','SSD ResNet50 V1 FPN 1024x1024 (RetinaNet50)','SSD ResNet101 V1 FPN 640x640 (RetinaNet101)','SSD ResNet101 V1 FPN 1024x1024 (RetinaNet101)','SSD ResNet152 V1 FPN 640x640 (RetinaNet152)','SSD ResNet152 V1 FPN 1024x1024 (RetinaNet152)','Faster R-CNN ResNet50 V1 640x640','Faster R-CNN ResNet50 V1 1024x1024','Faster R-CNN ResNet50 V1 800x1333','Faster R-CNN ResNet101 V1 640x640','Faster R-CNN ResNet101 V1 1024x1024','Faster R-CNN ResNet101 V1 800x1333','Faster R-CNN ResNet152 V1 640x640','Faster R-CNN ResNet152 V1 1024x1024','Faster R-CNN ResNet152 V1 800x1333','Faster R-CNN Inception ResNet V2 640x640','Faster R-CNN Inception ResNet V2 1024x1024','Mask R-CNN Inception ResNet V2 1024x1024']
model_handle = ALL_MODELS[model_display_name]

print('Selected model:'+ model_display_name)
print('Model Handle at TensorFlow Hub: {}'.format(model_handle))

## Cargando el modelo seleccionado

Acá solo necesitamos el identificador del modelo que se seleccionó y usamos la biblioteca de Tensorflow Hub para cargarlo en la memoria.

**Este proceso lleva algunos minutos** (les sobre para calentar el agua del mate o hacerse un café).


In [None]:
print('loading model...')
hub_model = hub.load(model_handle)
print('model loaded!')

**Opcionalmente**, se pueden cargar los modelos disponibles en TF Hub para ser usados con la libreria Keras (tal como veníamos haciendo en los notebooks anteriores). Una ventaja de esto es que podemos visualizar la arquitectura de la red mediante la función `summary()`. Dado que la siguiente celda requiere varios minutos para ejecutarse comentamos su contenido, pero si les da curiosidad mirar de cerca la arquitectura del modelo elegido no dejen de ejecutarla! (aunque seguramente requiera algo más de esfuerzo para acomodar las capas de input y output del modelo keras).



In [None]:
#print('loading keras model...')
#keras_model = tf.keras.Sequential([
#              hub.KerasLayer(model_handle,
#                              output_shape=[20],
#                              input_shape=[]),
#              tf.keras.layers.Dense(10,
#                              activation='softmax')])
#print('model loaded!')
#
#keras_model.summary()

## Cargando una imagen de testeo

Dado que todos los modelos en la colección TensorFlow Hud ya han sido entrenados, podemos comenzar a clasificar nuevas imágenes son hacer nada más. Ahora probemos el modelo en una imagen simple. Para ayudar con esto vamos a usar la lista de imágenes de prueba disponible en la primera celda de código del notebook.

# Atividad 4.1.3

Las imagenes fueron cargadas en un repositorio github para facilitar el acceso.
https://github.com/Odnucaf/Diplo_Datos/tree/4a3027fb0c0117228bfd56c578b525ca26e7b1be/Vision%20por%20computadora

Clonamos el repositorio

In [None]:
# Clona el repositorio de GitHub
!git clone https://github.com/Odnucaf/Diplo_Datos.git

# Ruta de la carpeta que contiene las imágenes
path = "Diplo_Datos/Vision por computadora"

Vemos los nombres de los archivos para facilitar la seleccion

In [None]:
import os
from PIL import Image

def obtener_url_por_nombre(nombre, datos):
    for item in datos:
        if item[0] == nombre:
            return item[1]
    return None

# Recorre la carpeta y lee todas las imágenes
for filename in os.listdir(path):
    if filename.endswith(".jpg") or filename.endswith(".jpeg"):
        # Lee la imagen
        img = Image.open(os.path.join(path, filename))

        # Crea un objeto con el mismo nombre que el archivo original
        locals()[os.path.splitext(filename)[0]] = img

file_names = []
for filename in os.listdir(path):
    if filename.endswith(".jpg") or filename.endswith(".jpeg"):
        # Agrega el nombre de archivo y su ruta a la lista
        file_names.append([filename.replace('.jpg','').replace('.jpeg',''), os.path.join(path, filename)])

# Crea un DataFrame con los nombres de archivo y sus rutas
df = pd.DataFrame(file_names, columns=['Nombre de los archivos', 'Ruta'])

# Imprime el DataFrame
print(df['Nombre de los archivos'])


In [None]:
#@title Image Selection (NO TE OLVIDES DE EJECUTAR LA CELDA!)
selected_image = 'Birds' #@param ['Beach', 'Dogs', 'Naxos Taverna', 'Beatles', 'Phones', 'Birds']
flip_image_horizontally = False #@param {type:"boolean"}
convert_image_to_grayscale = False #@param {type:"boolean"}
Utilizara_imagenes_act_4_1_3 = True #@param {type:"boolean"}
seleccionar_imagen = 'Montanas02' #@param ['Monumento01', 'Montanas02', 'Disenos02', 'AnimalesMarinos01', 'Bosques01', 'Bosques02', 'Disenos01', 'Monumento02', 'Montanas01', 'Edificios02', 'Edificios01', 'AnimalesMarinos02']
pre01_image_path = IMAGES_FOR_TEST[selected_image]
pre02_image_path = obtener_url_por_nombre(seleccionar_imagen, file_names)

if Utilizara_imagenes_act_4_1_3:
  image_np = load_image_into_numpy_array(pre02_image_path)
else:
  image_np = load_image_into_numpy_array(pre01_image_path)




# Flip horizontally
if(flip_image_horizontally):
  image_np[0] = np.fliplr(image_np[0]).copy()

# Convert image to grayscale
if(convert_image_to_grayscale):
  image_np[0] = np.tile(
    np.mean(image_np[0], 2, keepdims=True), (1, 1, 3)).astype(np.uint8)

plt.figure(figsize=(24,32))
plt.imshow(image_np[0])
plt.show()

## Detectando objetos

Para hacer la inferencia solo necesitamos llamar a nuestro modelo TF Hub recien cargado.

In [None]:

# running inference
results = hub_model(image_np)

# different object detection models have additional results
# all of them are explained in the documentation
result = {key:value.numpy() for key,value in results.items()}
print(result.keys())

## Visualizando los resultados

Acá vamos a utilizar la API de detección de objetos de TensorFlow para mostrar los bounding box de las detecciones.

**TIP**: en la función `visualize_boxes_and_labels_on_image_array()` (linea 15) puede establecer valores diferentes para `min_score_thresh` y `max_boxes_to_draw` para permitir más o menos detecciones en la imagen de salida. La documentación completa de este método se puede ver [acá](https://github.com/tensorflow/models/blob/master/research/object_detection/utils/visualization_utils.py).


In [None]:
#@title Visualizar los resultados

label_id_offset = 0
image_np_with_detections = image_np.copy()

max_boxes_to_draw=127 #@param {type:"slider", min:1, max:300, step:1}
min_score_thresh=0.37 #@param {type:"slider", min:0, max:1, step:0.01}

# Use keypoints if available in detections
keypoints, keypoint_scores = None, None
if 'detection_keypoints' in result:
  keypoints = result['detection_keypoints'][0]
  keypoint_scores = result['detection_keypoint_scores'][0]

viz_utils.visualize_boxes_and_labels_on_image_array(
      image_np_with_detections[0],
      result['detection_boxes'][0],
      (result['detection_classes'][0] + label_id_offset).astype(int),
      result['detection_scores'][0],
      category_index,
      use_normalized_coordinates=True,
      max_boxes_to_draw=max_boxes_to_draw,
      min_score_thresh=min_score_thresh,
      agnostic_mode=False,
      keypoints=keypoints,
      keypoint_scores=keypoint_scores,
      keypoint_edges=COCO17_HUMAN_POSE_KEYPOINTS)

plt.figure(figsize=(24,32))
plt.imshow(image_np_with_detections[0])
plt.show()

---

# Trabajo Práctico 2 (primera parte)

**Acá tienen que dejar los datos de las y los integrantes del grupo:**

Facundo Melendi Suarez DNI:40835638, facundomelendi@unc.edu.ar

Esequiel Armneria DNI: 35190750, esequiel1308@gmail.com

Marianela Carubelli DNI: 26103422 mcarubelli@unc.edu.ar

---

## **EJERCICIO 4.1**

Ahora vamos a probar algunas variantes simples sobre el tutorial previamente desarrollado. Las preguntas encada intem son generativas y se deben tener en cuenta para el ejercicio 4.2.

1. **Elejir el modelo de detección**. Indague en la web sobre los algoritmos del estado de arte para detección de objetos.
 - ¿Encontrás alguno de estos algoritmos en la lista de modelos disponible en TF Hub? Reportá al menos 3.
 - Seleccioná uno de los tres modelos justificando por que se eligió.
 - Volvé a ejecutar el tutorial para ese modelo

2. **Modificar las imágenes de entrada**. Con este nuevo modelo, volvé a detectar objetos en las imágenes de testeo, pero ahora activá y desactivá los checkbox de la celda donde cargamos las imágenes de prueba.
 - ¿Notas diferencias en los resultados de detección entre la imagen original y la transformada? Informá cuales son estas diferencias (incluso podés mostrar imágenes con los diferentes resutaldos).

3. **Ejecutar la detección en tus propias imágenes**. Ya comentamos que podés agregar todas las imágenes que quieras en la celda de selección de imágenes testeo. Buscá en la web al menos 2 imágenes de cada una de las siguientes categorías: animales marinos, figuras prediseñadas (dibujos digitales en color o blanco y negro), edificios, monumentos (pirámides, torre Eiffel, Obelisco, etc.), montañas (sin personas, sin objetos hechos por el hombre, etc.), bosques.
 - ¿Que tan bien funciona detectando objetos de estas categorias?
 - ¿Cuál crees que sea el problema de estos modelos para detectar estos objetos? (TIP: podes revisar las características del [dataset COCO 2017](https://cocodataset.org/#explore))

# Punto 1

1. Faster R-CNN Inception ResNet V2
2. SSD ResNet152 V1 FPN
3. CenterNet HourGlass104 Keypoints


The choice between these architectures depends on your specific use case and the trade-off between speed and accuracy.
If you need high accuracy and are willing to tolerate slightly slower inference times, Faster R-CNN with Inception ResNet V2 might be a good choice.
If speed is crucial and accuracy can be somewhat compromised, SSD with ResNet152 V1 FPN is a strong option. If your primary goal is keypoint estimation, CenterNet HourGlass104 Keypoints is the way to go.

En base a estos argumentos, seleccionamos  Faster R-CNN with Inception ResNet V2, ya que preferimos una alta precisión y podemos tolerar tiempos de inferencia ligeramente más lentos.


# Punto 2



1.   En el caso de la imagenes de los celulares, el cambio de posicion de la imagen, tiene como consecuencia que ciertos objetos no sean detectados. En este caso la libreta azul.

2.   En el caso de la imagen de la playa, la inversion de la imagen nos lleva a que el algoritmo detecte mas personas que si no la invirtieramos. En el cambio a escala de grises, no se produce ninguna diferencia.

3. En el caso de la imagen de los perros, al invertir la imagen o pasarla a escala de grises, dejamos de obtener detecciones erroneas, se detectaba un perro como una vaca.

4. La imagen del bar, al cambiarla a escala de grises, perdemos deteccion de algunos objetos, por ejemplos sillas, que son detectados en la imagen a color.

5. La imagenes con los escarabajos, al cambiar de colores e invertir imagen, se detectan menos objetos. Si bien en la imagen en color, se detecta un objeto mas, pero esa deteccion es erronea.

6. En la imagen de los pajaros, al cambiar de color, se dejan de detectar algunos objetos y al invertirla y ponerla en escala de grieses se empiezan a detectar objetos de forma incorrecta, como Book y algunos Brids que no existen.



# Punto 3

Bajamos un conjunto de imágenes de paisajes (montañas, bosques), monumentos, edificios, animales marinos y diseño, y lo cargamos en el visualizador de imágenes, para ver cómo funciona el modelo detectando objetos.

Lo que se observa es que el modelo no funciona bien con este tipo de imágenes.

Por ejemplo en la imágen de animales marinos, detecta algunos peces como pájaros, y algas como brócoli.
En imágenes de paisajes, como bosques y monatañas, y de monumentos, no detecta ningún objeto. En la imagen de diseño detecta objetos como paraguas, cuchara o florero, que en realidad son partes del cuerpo humano diseñado.

Esto se debe a que estas imágenes no contienen ningún objeto como los objetos con los que fueron entrenados estos modelos, por lo tanto el modelo no puede reconocer estos objetos diferentes, como árboles, montañas, peces, algas, o edificios.



La influencia de las características de los datasets se hace evidente en los resultados obtenidos. El conjunto COCO 2017 presenta imágenes en dimensiones de 1280 x 720, mientras que las imágenes descargadas muestran una mayor resolución y en algunos casos, escalas diversas. Además, contrastan en sus enfoques: COCO 2017 exhibe escenas cotidianas, mientras que las imágenes descargadas parecen orientarse hacia propósitos artísticos. Esta distinción se manifiesta en la configuración y edición visual, desde la paleta de colores hasta los contrastes, brillos y saturaciones, así como en la disposición espacial de los objetos.

La semántica de las categorías analizadas juega un papel crucial. Mientras 'Auto' agrupa cajas metálicas estilizadas, con cuatro ruedas y vidrios en todas las caras, los 'Monumentos' pueden variar en altura, color, textura y complejidad de relieve, demostrando una diversidad mucho más amplia.

Una característica fundamental se destaca: los objetos etiquetados en COCO 2017 son comúnmente utilizados para entrenar modelos y aparecen en múltiples formas en las imágenes. Comparando las etiquetas 'Montaña' presente en el dataset descargado y 'Avión' en COCO 2017, se evidencia que los aviones se visualizan frecuentemente como parte del paisaje, ya sea en los cielos o en su presencia masiva.

## **EJERCICIO 4.2**: informe y conclusiones del ejercicio 4.1

En este trabajo practico comenzamos a evaluandar distintos algoritmos de detección de objetos disponibles en TF Hub observamos cómo estos modelos detectan objetos en diversas imágenes del dataset COCO 2017.

Luego seleccionamos tres modelos y revisamos la documentacion de modelos disponibles y sus caracteristicas, decidiendo utilizar Faster R-CNN Inception ResNet V2 ya que demostró una alta precisión a pesar de tener un costo computacional mas alto.

Una vez con el modelo elegido analizamos su comportamiento al detectar objetos en distintas imágenes. Modificamos las imagenes convitiendolas a blanco y negro o invertirlas horizontalmente, lo que nos permitió observar cómo variaba la detección de los objetos ante estas transformaciones.

Luego descargamos imágenes de paisajes, monumentos, animales marinos y diseños para cargarlas en la notebook. Sin embargo, notamos que el modelo no funcionaba correctamente en este caso, ya que estas imágenes no contenían objetos similares a los presentes en el conjunto de datos utilizado para entrenar el modelo.

Como conclusión, hemos analizado modelos preentrenados de TensorFlow Hub diseñados para la detección de objetos. Aunque su desempeño fue sólido con las imágenes iniciales, notamos variaciones notables en su capacidad de detección al realizar modificaciones en las imágenes, como el cambio de color a blanco y negro. Además, observamos que estos modelos no funcionaron adecuadamente con imágenes distintas, como paisajes. Esto resalta la importancia de analizar minuciosamente si las imágenes que se usarán son similares a las del entrenamiento y si los objetos a detectar estaban presentes en las imágenes utilizadas para el entrenamiento del modelo, ya que de lo contrario, el modelo no será efectivo.