# Estimación de pose con PoseNet

La estimación de pose consiste en localizar varias partes del cuerpo (también conocidas como puntos clave (keypoints)) que forman una topología esquelética (también conocida como enlaces (links)). La estimación de pose tiene una variedad de aplicaciones que incluyen gestos, AR/VR, HMI (interfaz hombre/máquina) y corrección de postura/marcha.

``PoseNet`` acepta una imagen como entrada y genera una lista de objetos de pose. Cada objeto de pose contiene una lista de puntos clave detectados, junto con sus ubicaciones y vínculos entre puntos clave.

--------------

## Uso de los programas precompilados de la Jetson

Aquí se pueden encontrar los códigos de los programas precompilados:
 * [C++](https://github.com/dusty-nv/jetson-inference/blob/master/examples/posenet/posenet.cpp)
 * [Python](https://github.com/dusty-nv/jetson-inference/blob/master/python/examples/posenet.py)

--------------

## Modelos de estimación de pose pre-entrenados disponibles

A continuación, se muestran las redes de estimación de pose previamente entrenadas disponibles para descargar y el argumento ``--network`` asociado que se ``PoseNet`` utilizará para cargar los modelos previamente entrenados:

|Model|CLI argument|NetworkType enum|Keypoints|
|-------|----------|----------|--------|
|Pose-ResNet18-Body|``resnet18-body``|``RESNET18_BODY``|18|
|Pose-ResNet18-Hand|``resnet18-hand``|``RESNET18_HAND``|21|
|Pose-DenseNet121-Body|``densenet121-body``|``DENSENET121_BODY``|18|

## Uso de los programas precompilados de la Jetson

Además de las rutas de entrada/salida, hay algunas opciones de línea de comandos adicionales:

 * flag ``--network`` (opcional) cambia el modelo de pose que se está utilizando (el valor predeterminado es ``resnet18-body``)
 * flag ``--overlay`` (opcional) acepta combinaciones separada por comas de ``box``, ``links``, ``keypoints`` y ``none`` (el valor predeterminado es ``links,keypoints``)
 * flag ``--keypoint-scale`` (opcional) establece el radio de los círculos de puntos clave en la superposición ``overlay`` (el valor predeterminado es 0.0052)
 * flag ``--link-scale`` (opcional) establece el ancho de línea de las líneas de enlace en la superposición ``overlay`` (el valor predeterminado es 0.0013)
 * flag ``--threshold`` (opcional) establece el umbral mínimo de detección (el valor predeterminado es 0.15)

Usar el flag ``--help`` para obtener más información

Ir a la carpeta con los programas precompilados con el siguiente comando

```
$ cd jetson-inference/build/aarch64/bin
```

### Procesamiento de una imagen

A continuación, detectemos objetos en una imagen de ejemplo con el programap precompilado ``poseNet``, tanto en C++ como en Python. Si está utilizando el contenedor Docker, es recomendable guardar la imagen de salida en el directorio images/test. Estas imágenes se podrán ver fácilmente desde su dispositivo host en el directorio jetson-inference/data/images/test.

```
# C++
$ ./posenet images/humans_0.jpg images/test/humans_0.jpg

# Python
$ ./posenet.py images/humans_0.jpg images/test/humans_0.jpg
```

### Procesamiento de varias imágenes

Si queremos detectar varias imágenes

```
# C++
$ ./posenet "images/humans_*.jpg" images/test/humans_%i.jpg

# Python
$ ./posenet.py "images/humans_*.jpg" images/test/humans_%i.jpg
```

 > **nota**: cuando se usen asteriscos, hay que escribirlos siempre entre comillas ("*.jpg"). De lo contrario, el sistema operativo expandirá automáticamente la secuencia y modificará el orden de los argumentos en la línea de comandos, lo que puede resultar en que una de las imágenes de entrada sea sobrescrita por la salida.

### Red

Si queremos cambiar el tipo de red flag `--network` (por defecto `resnet18-body`)

```
# C++
$ ./posenet --network=resnet18-hand images/humans_3.jpg images/test/humans_3.jpg    # resnet18-hand network
$ ./posenet --network=densenet121-body images/humans_2.jpg images/test/humans_2.jpg # densenet121-body network

# Python
$ ./posenet.py --network=resnet18-hand images/humans_3.jpg images/test/humans_3.jpg    # resnet18-hand network
$ ./posenet.py --network=densenet121-body images/humans_2.jpg images/test/humans_2.jpg # densenet121-body network
```

### Overlay

Se puede cambiar el modo de visualización es mediante el flag `--overlay`, se puede elegir ``box``, ``links``, ``keypoints`` y ``none`` (el valor predeterminado es ``links,keypoints``)

```
# C++
$ ./posenet --overlay=box images/humans_0.jpg images/test/humans_0.jpg          # Visualize box
$ ./posenet --overlay=links images/humans_0.jpg images/test/humans_0.jpg        # Visualize links
$ ./posenet --overlay=keypoints images/humans_0.jpg images/test/humans_0.jpg    # Visualize keypoints
$ ./posenet --overlay=none images/humans_0.jpg images/test/humans_0.jpg         # Visualize none

# Python
$ ./posenet.py --overlay=box images/humans_0.jpg images/test/humans_0.jpg          # Visualize box
$ ./posenet.py --overlay=links images/humans_0.jpg images/test/humans_0.jpg        # Visualize links
$ ./posenet.py --overlay=keypoints images/humans_0.jpg images/test/humans_0.jpg    # Visualize keypoints
$ ./posenet.py --overlay=none images/humans_0.jpg images/test/humans_0.jpg         # Visualize none
```

### Tamaño de los puntos

Se puede cambiar el tamaño de los puntos mediante el flag `--keypoint-scale` (el valor predeterminado es 0.0052). Cuanto más pequeño el valor, más pequeño es el punto

```
# C++
$ ./posenet --keypoint-scale=0.0005 images/humans_1.jpg images/test/humans_1.jpg
$ ./posenet --keypoint-scale=0.0090 images/humans_2.jpg images/test/humans_2.jpg

# Python
$ ./posenet.py --keypoint-scale=0.0005 images/humans_1.jpg images/test/humans_1.jpg
$ ./posenet.py --keypoint-scale=0.0090 images/humans_2.jpg images/test/humans_2.jpg
```

### Tamaño de las lineas

Se puede cambiar el tamaño de las lineas mediante el flag `--link-scale` (el valor predeterminado es 0.0013). Cuanto más pequeño el valor, más pequeña es la linea

```
# C++
$ ./posenet --link-scale=0.0001 images/humans_1.jpg images/test/humans_1.jpg
$ ./posenet --link-scale=0.0090 images/humans_2.jpg images/test/humans_2.jpg

# Python
$ ./posenet.py --link-scale=0.0001 images/humans_1.jpg images/test/humans_1.jpg
$ ./posenet.py --link-scale=0.0090 images/humans_2.jpg images/test/humans_2.jpg
```

### Threshold

Se puede cambiar el humbral de detección mediante el flag `--threshold` (el valor predeterminado es 0.15). Cuanto más pequeño el valor, más detecta

```
# C++
$ ./posenet --threshold=0.01 images/humans_4.jpg images/test/humans_4.jpg
$ ./posenet --threshold=0.90 images/humans_4.jpg images/test/humans_4.jpg

# Python
$ ./posenet.py --threshold=0.01 images/humans_4.jpg images/test/humans_4.jpg
$ ./posenet.py --threshold=0.90 images/humans_4.jpg images/test/humans_4.jpg
```

### Segmentación de vídeos

Si se quiere procesar un videdo solo hay que indicarlo en la entrada

Para ello ejecutamos el docker montando la carpeta del SDK de VisionWorks

```
$ docker/run.sh --volume /usr/share/visionworks/sources/data:/videos
```

Y ya lo podemos procesar

```
# C++
$ ./posenet /videos/pedestrians.mp4 images/test/pedestrians_pose.mp4

# Python
$ ./posenet.py /videos/pedestrians.mp4 images/test/pedestrians_pose.mp4
```

--------------

## Crear un programa de clasificación en Python

Como vamos a crear un programa, lo primero que tenemos que hacer es crear una carpeta en el Host donde guardaremos el programa

```
$ cd ~/
$ mkdir my-pose-python
$ cd my-pose-python
$ touch my-pose.py
$ chmod +x my-pose.py
```

A continuación lo que hay que hacer es lanzar el Docker con una carpeta del Host compartida, para que así cuando se cierre el Docker no se borre el programa, para ello lanzamos el Docker con el siguiente comando

```
$ docker/run.sh --volume ~/my-pose-python:/my-pose-python   # mounted inside the container to /my-pose-python
```

Una vez dentro del Docker ir a la carpeta con los siguientes comandos

```
$ cd ../
$ cd my-pose-python
```

Editar el archivo .py con el siguiente comando

```
$ nano my-pose.py
```

Para crear un programa como el precompilado escribimos el siguiente código

```Python
import jetson.inference
import jetson.utils

import argparse
import sys

# parse the command line
parser = argparse.ArgumentParser(description="Run pose estimation DNN on a video/image stream.", 
                                 formatter_class=argparse.RawTextHelpFormatter, epilog=jetson.inference.poseNet.Usage() +
                                 jetson.utils.videoSource.Usage() + jetson.utils.videoOutput.Usage() + jetson.utils.logUsage())

parser.add_argument("input_URI", type=str, default="", nargs='?', help="URI of the input stream")
parser.add_argument("output_URI", type=str, default="", nargs='?', help="URI of the output stream")
parser.add_argument("--network", type=str, default="resnet18-body", help="pre-trained model to load (see below for options)")
parser.add_argument("--overlay", type=str, default="links,keypoints", help="pose overlay flags (e.g. --overlay=links,keypoints)\nvalid combinations are:  'links', 'keypoints', 'boxes', 'none'")
parser.add_argument("--threshold", type=float, default=0.15, help="minimum detection threshold to use") 

try:
	opt = parser.parse_known_args()[0]
except:
	print("")
	parser.print_help()
	sys.exit(0)

# load the pose estimation model
net = jetson.inference.poseNet(opt.network, sys.argv, opt.threshold)

# create video sources & outputs
input = jetson.utils.videoSource(opt.input_URI, argv=sys.argv)
output = jetson.utils.videoOutput(opt.output_URI, argv=sys.argv)

# process frames until the user exits
while True:
    # capture the next image
    img = input.Capture()

    # perform pose estimation (with overlay)
    poses = net.Process(img, overlay=opt.overlay)

    # print the pose results
    print("detected {:d} objects in image".format(len(poses)))

    for pose in poses:
        print(pose)
        print(pose.Keypoints)
        print('Links', pose.Links)

    # render the image
    output.Render(img)

    # update the title bar
    output.SetStatus("{:s} | Network {:.0f} FPS".format(opt.network, net.GetNetworkFPS()))

    # print out performance info
    net.PrintProfilerTimes()

    # exit on input/output EOS
    if not input.IsStreaming() or not output.IsStreaming():
        break

```

Ejecutar el programa con el siguiente comando

```
$ python3 my-pose.py /dev/video0
```

En este caso abrirá la webcam, se pueden introducir las mismas variables que con el programa precompilado

--------------

## Crear un programa ded clasificación en C++

Como vamos a crear un programa, lo primero que tenemos que hacer es crear una carpeta en el Host donde guardaremos el programa

```
$ cd ~/
$ mkdir my-pose-cpp
$ cd my-pose-cpp
$ touch my-pose.cpp
$ chmod +x my-pose.cpp
$ touch CMakeLists.txt
$ chmod +x CMakeLists.txt
```

A continuación lo que hay que hacer es lanzar el Docker con una carpeta del Host compartida, para que así cuando se cierre el Docker no se borre el programa, para ello lanzamos el Docker con el siguiente comando

```
$ docker/run.sh --volume ~/my-pose-cpp:/my-pose-cpp   # mounted inside the container to /my-pose-cpp
```

Una vez dentro del Docker ir a la carpeta con los siguientes comandos

```
$ cd ../
$ cd my-pose-cpp
```

Editar el archivo.cpp con el siguiente comando

```
$ nano my-pose.cpp
```

Para crear un programa como el precompilado escribimos el siguiente código

```C++
#include <jetson-utils/videoSource.h>
#include <jetson-utils/videoOutput.h>

#include <jetson-utils/cudaFont.h>
#include <jetson-inference/poseNet.h>

#include <signal.h>


bool signal_recieved = false;

void sig_handler(int signo)
{
	if( signo == SIGINT )
	{
		LogVerbose("received SIGINT\n");
		signal_recieved = true;
	}
}

int usage()
{
	printf("usage: posenet [--help] [--network=NETWORK] ...\n");
	printf("                input_URI [output_URI]\n\n");
	printf("Run pose estimation DNN on a video/image stream.\n");
	printf("See below for additional arguments that may not be shown above.\n\n");	
	printf("positional arguments:\n");
	printf("    input_URI       resource URI of input stream  (see videoSource below)\n");
	printf("    output_URI      resource URI of output stream (see videoOutput below)\n\n");

	printf("%s", poseNet::Usage());
	printf("%s", videoSource::Usage());
	printf("%s", videoOutput::Usage());
	printf("%s", Log::Usage());

	return 0;
}

int main( int argc, char** argv )
{
	/*
	 * parse command line
	 */
	commandLine cmdLine(argc, argv);

	if( cmdLine.GetFlag("help") )
		return usage();


	/*
	 * attach signal handler
	 */
	if( signal(SIGINT, sig_handler) == SIG_ERR )
		LogError("can't catch SIGINT\n");


	/*
	 * create input stream
	 */
	videoSource* input = videoSource::Create(cmdLine, ARG_POSITION(0));

	if( !input )
	{
		LogError("posenet: failed to create input stream\n");
		return 0;
	}


	/*
	 * create output stream
	 */
	videoOutput* output = videoOutput::Create(cmdLine, ARG_POSITION(1));
	
	if( !output )
		LogError("posenet: failed to create output stream\n");	
	

	/*
	 * create recognition network
	 */
	poseNet* net = poseNet::Create(cmdLine);
	
	if( !net )
	{
		LogError("posenet: failed to initialize poseNet\n");
		return 0;
	}

	// parse overlay flags
	const uint32_t overlayFlags = poseNet::OverlayFlagsFromStr(cmdLine.GetString("overlay", "links,keypoints"));
	
	
	/*
	 * processing loop
	 */
	while( !signal_recieved )
	{
		// capture next image image
		uchar3* image = NULL;

		if( !input->Capture(&image, 1000) )
		{
			// check for EOS
			if( !input->IsStreaming() )
				break;

			LogError("posenet: failed to capture next frame\n");
			continue;
		}

		// run pose estimation
		std::vector<poseNet::ObjectPose> poses;
		
		if( !net->Process(image, input->GetWidth(), input->GetHeight(), poses, overlayFlags) )
		{
			LogError("posenet: failed to process frame\n");
			continue;
		}
		
		LogInfo("posenet: detected %zu %s(s)\n", poses.size(), net->GetCategory());
		
		// render outputs
		if( output != NULL )
		{
			output->Render(image, input->GetWidth(), input->GetHeight());

			// update status bar
			char str[256];
			sprintf(str, "TensorRT %i.%i.%i | %s | Network %.0f FPS", NV_TENSORRT_MAJOR, NV_TENSORRT_MINOR, NV_TENSORRT_PATCH, precisionTypeToStr(net->GetPrecision()), net->GetNetworkFPS());
			output->SetStatus(str);	

			// check if the user quit
			if( !output->IsStreaming() )
				signal_recieved = true;
		}

		// print out timing info
		net->PrintProfilerTimes();
	}
	
	
	/*
	 * destroy resources
	 */
	LogVerbose("posenet: shutting down...\n");
	
	SAFE_DELETE(input);
	SAFE_DELETE(output);
	SAFE_DELETE(net);
	
	LogVerbose("posenet: shutdown complete.\n");
	return 0;
}

```

Editar el CMakeList.txt con lo siguiente

```
# require CMake 2.8 or greater
cmake_minimum_required(VERSION 2.8)

# declare my-pose project
project(my-pose)

# import jetson-inference and jetson-utils packages.
# note that if you didn't do "sudo make install"
# while building jetson-inference, this will error.
find_package(jetson-utils)
find_package(jetson-inference)

# CUDA and Qt4 are required
find_package(CUDA)
find_package(Qt4)

# setup Qt4 for build
include(${QT_USE_FILE})
add_definitions(${QT_DEFINITIONS})

# compile the my-pose program
cuda_add_executable(my-pose my-pose.cpp)

# link my-pose to jetson-inference library
target_link_libraries(my-pose jetson-inference)
```

Compilar el código con los siguientes comandos

```
$ cmake .
$ make
```

Ejecutar el programa con el siguiente comando

```
$ ./my-pose /dev/video0
```

En este caso abrirá la webcam, se pueden introducir las mismas variables que con el programa precompilado