<a href="https://colab.research.google.com/github/ferolver/AirbnbEurope/blob/main/DeepLearning_Faster_RCNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Implementación de una ***Faster R-CNN*** (*Faster Region Convolutional Neural Network*)

## Arquitectura

La presente implementación se encuentra desarrollada sobre el framework Pytorch, y hace uso del paradigma de ***Transfer Learning***, tomando como base el backbone de una red nauronal tipo ***ResNet-50***.

### Componentes requeridos para la presente implementación de ***Faster R-CNN***


#### 1. ***Anchor Box Generator***


* Las ***Anchor Box*** son un conjunto de cajas delimitadoras predefinidas con una cierta altura y ancho.
* Se definen para capturar la escala y la relación de aspecto de clases de objetos específicas a detectar.
* Las dimensiones de las ***Anchor Box*** se definen en función de los tamaños de los objetos existentes en el dataset de entrenamiento.
* Durante la detección, las ***Anchor Box*** se distribuyen por toda la imagen. La red predice la probabilidad y otros atributos, como el fondo, la intersección sobre la unión (*IoU*) y los desplazamientos para cada ***Anchor Box*** distribuida.
* Las predicciones se utilizan para refinar cada ***Anchor Box*** individual.
* Se pueden definir ***Anchor Box*** de diferentes dimensiones, cada una para un tamaño de objeto diferente.
<div style='height:20px'><br></div>
* *Fuente* : Anchor boxes for object detection - *MATLAB & Simulink*. (n.d.). *https://www.mathworks.com/help/vision/ug/anchor-boxes-for-object-detection.html*


#### 2. ***RPN*** (*Region Poposal Network*)

Con el objetivo de enmarcar regiones de una imagen con presencia de objetos a identificar.

#### 3. ***Proposals Generator***

Genera propuestas a partir de la salida de la ***RPN***, ordenadas por nivel de confianza, y aplica ***NMS*** (*Non-Maximum Suppression*).

#### 4. ***RoI Pooling*** (*Region of Interest Pooling*)

* ***RoI Pooling*** (*Region of Interest Pooling*) se utiliza para aprovechar un único mapa de características para todas las propuestas generadas por la ***RPN*** en un solo paso.
* Resuelve el problema del requisito de tamaño de imagen fijo para la red de detección de objetos.

<img src='https://miro.medium.com/v2/resize:fit:2000/format:webp/1*ftTEVgsx0jfvUSFB6X5mQg.jpeg'/>
<div style='font-size: 12px' align='center'>
Fuente de la imagen : Xu, J. (2018, November 13). Deep Learning for Object Detection: A Comprehensive review. <i>Medium</i>. <a href="https://towardsdatascience.com/deep-learning-for-object-detection-a-comprehensive-review-73930816d8d9"/>https://towardsdatascience.com/deep-learning-for-object-detection-a-comprehensive-review-73930816d8d9</a>
</div>



* La imagen completa alimenta un modelo de CNN para detectar regiones de Interés (***RoI***) en los mapas de características.
* Cada región se separa utilizando una capa de ***RoI Pooling***.

* La capa de ***ROI pooling*** toma 2 entradas:
  * Un mapa de características obtenido de la CNN después de múltiples capas de convolution y pooling.
  * Las ‘N’ propuestas o regiones de interés (***RoI***) que provienen de la ***RPN***.
    * Cada propuesta tiene cinco valores: el primero indica el índice y los otros cuatro son las coordenadas de la propuesta.
    * Generalmente, esto representa la esquina superior izquierda y la esquina inferior derecha de la propuesta.

* ***ROI pooling*** toma cada ***RoI*** de la entrada, selecciona una sección del mapa de entrada que corresponde a ese ***RoI***, y convierte dicha sección en un mapa de dimensiones fijas.


* *Fuentes* :
  * Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015. *https://arxiv.org/abs/1504.08083*
  * Sambasivarao, K. (2023, October 30). Region of interest pooling - towards data science. *Medium*. *https://towardsdatascience.com/region-of-interest-pooling-f7c637f409af*

#### 5. ***Faster R-CNN*** (*Faster Region Convolutional Neural Network*)

Etapas:

* Forward
  * Extrae características del backbone:
    * El backbone es un modelo pre-entrenado ***ResNet-50***.
      * Se removieron las dos últimas capas del modelo pre-entrenado ***ResNet-50***:
        * *FC* (fully connected)
        * Average Pooling layer.
    * Genera regiones propuestas, por medio del modelo ***RPN***.
    * Aplica ***RoI Pooling*** (*Region of Interest Pooling*)

* Loss Computing

* Post-process Detections



## Implementación

### Dependencias

In [None]:
########################################################
# Importamos librerías requeridas por la implementación
########################################################
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision.models import resnet50
from torchvision.ops import RoIPool, nms


### Implementación de ***Anchor Box Generator***

### Implementación de una ***RPN*** (*Region Proposal Network*)

### Implementación de ***Faster R-CNN*** (*Faster Region Convolutional Neural Network*)