# VTune (Intel VTune Profiler)

- **VTune** es una herramienta de profiling para analizar la performancia de algoritmos en CPUs, GPUs, FPGAs
- Se puede usar a través de la línea de comando o de GUIs en Linux, Windows, Android, etc
- El proceso es estadístico y no se puede esperar el mismo resultado si el proceso se repite. Sin embargo, los patrones se mantienen

Los cuellos de botella típicos que uno puede detectar con VTune incluyen:

- Threading ineficiente
- Baja concurrencia 
- Problemas de acceso de memoria
- I/O wait time
- Instrucciones innecesarias

## Cómo usar VTune?

![alt text](vtune.png)

VTune puede ejecutarse directamente online o desde la línea de comando de DevCloud. En experiencias pasadas, la conexión online de VTune ha fallado sin causa aparente, por ello sugerimos usar la línea de comando. Desafortunadamente en DevCloud no se pueden visualizar directamente los resultados. La alternativa es ejecutar VTune en DevCloud y visualizar los resultados de manera offline en nuestra computadora local. Para ello, el primer paso consiste en instalar VTune (en nuestra computadora local). Para ello tenemos que visitar la siguiente página [descarga_Vtune](https://www.intel.com/content/www/us/en/developer/tools/oneapi/vtune-profiler-download.html?operatingsystem=window&distributions=webdownload&options=offline) y elegimos el sistema operativo y el tipo de instalación deseada. Un ejemplo de la configuración de instalación para windows se muestran en la figura siguiente. Nota: En algunos casos es necesario contar con la última versión de **Vtune** para poder visualizar los resultados por lo que es recomendable actualizar la versión si es que ya tienen una descargada. 

![alt text](vtune_desc.png)

En el caso de la figura, estamos escogiendo el tipo de instalador offline que es usado para un caso en el que la conexión de internet no es estable. Luego seguir los pasos de instalación por default además de la configuración recomendada. Nótese que durante la instalación, nos piden instalar complementariamente Microsoft Visual Studio. Por el momento vamos a proceder la instalación sin Visual Studio y si es necesario, se puede complementar luego de instalar VTune. Luego de instalar, abrimos VTune. 

![alt text](vtune_desk.png)

La idea con tener VTune instalado en nuestra computadora no es para correr el profiler de manera local, sino es sólo usado para visualizar los resultados obtenidos al ejecutar VTune en DevCloud.

VTune contiene múltiples opciones de análisis (ver imagen en la parte inferior) tanto para CPUs o GPUs. Algunas opciones son únicas para aceleradores GPUs y eso será explorado en la siguiente sección de la clase.

![alt text](options_vtune.png)


## "Hello World" de SYCL en VTune

**Pasos previos**

Vamos a analizar juntos nuestro código de "hello world" que se encuentra en el archivo fuente `simple.cpp`. Para ello primero vamos a abrir una terminal nueva: 

![alt text](terminal_button.png)

Como podemos observar, se nos da por default un nodo simple. El nodo se encuentra junto al usuario y debe tener la forma siguiente `u183985@s001-n061:`. Luego debemos acceder a otro nodo interactivo que tenga acceso a GPUs. Un ejemplo de nodo interactivo con GPUs tiene la forma siguiente `qsub -I -l nodes=1:gen11:ppn=2 -d .`. En algunos casos los nodos de DevCloud se encuentran saturados y se demora mucho en acceder a un nodo de trabajo. Una alternativa es verificar los nodos de DevCloud que están desocupados y acceder directamente a ellos. Para ello podemos usar el comando `pbsnodes | grep -B4 "gen9"`. Una vez que verificamos los nodos libres, accedemos a ellos de la siguiente forma `qsub -I -l nodes=s001-nxxx:gpu:ppn=2 -d .`. Si nos hemos conectado satisfactoriamente al nodo de DevCloud, deberíamos visualizar lo siguiente:

![alt text](nodo_gpu.png)

Para verificar si nuestro nodo contiene los elementos que requerimos, es decir, verificar si el nodo puede leer archivos en **sycl**, podemos usar el comando `sycl-ls`:

![alt text](sycl_ls_1.png)

Usando los comandos `ls` y `cd` vamos a la carpeta dónde tenemos nuestro archivo fuente `simple.cpp`. Una vez localizado el archivo, usando el comando `pwd` copiamos la ruta del archivo fuente `/home/u183985/Compu_paralela_III/CPAR_GPUs`. Esta fuente es importante y nos servirá para ejecutar **Vtune**. Dado que el vtune reconoce los cuellos de botella o potenciales áreas de mejora cuando el código corre un tiempo prudente, vamos a cambiar la constante N de archivo fuente a 50. Podemos hacer este cambio usando el comando nano o simplemente con doble click en el archivo y cambiarlo en forma manual.

**Ejecutando VTune - performance-snapshot**

La sintáxis de ejecución de **VTune** incluye el comando `vtune`, seguido del comando `-collect`, seguido del tipo de análisis que se desea ejecutar `hotspots`, `memory-consumption`, `threading`, etc., seguido finalmente de la ruta del archivo fuente que ya hemos obtenido usando `pwd`. En un primer paso, vamos a utilizar el `Performance Snapshot` que nos ayuda a hacer un primer análisis y nos indica los siguientes pasos a seguir:

`vtune -collect performance-snapshot -- /home/u183985/Compu_paralela_III/CPAR_GPUs/simple`

Al ejecutar este comando vamos a ver muchas un reporte en la terminal que puede llegar a ser no muy amigable para el usuario. Sin embargo, al terminar la ejecución del comando, observaremos que una carpeta denominada `r000ps`. Esta carpeta contiene los resultados de Vtune que queremos visualizar.  

![alt text](ps_results.png)

Para visualizar los resultados, vamos a descargar la carpeta y abrir el archivo `r000ps.vtune` en la aplicación offline de **Vtune**. Para descargar esta carpeta, vamos a abrir **Mobaxterm** o cualquier línea de comando que se desea (Para usuarios de Windows se recomienda usar **Mobaxterm** dada que la sintáxis es la misma de Linux y es fácil de usar). Una vez aquí abrimos una ventana nueva y localizamos la carpeta dónde queremos guardar los resultados de **Vtune**:

![alt text](moba_down.png)

Una vez ubicada la carpeta, usamos el comando `scp -r devcloud:`. Aquí `scp -r` es el comando para descargar archivos/carpetas desde un servidor, y el comando `devcloud:` nos permite conectarnos a DevCloud. Para que nuestro sistema reconozca nuestro usuario y carpetas en DevCloud que queremos descargar, agregamos la ruta de la carpeta `r000ps`, y finalizamos con un punto `.`. Un ejemplo de la ruta de descarga se muestra a continuación:

`scp -r devcloud:/home/u183985/Compu_paralela_III/CPAR_GPUs/r000ps .`

![alt text](descarga_moba.png)

**Visualizando los resultados en VTune offline**

Primero abrimos la aplicación offline the **VTune** y vamos a la opción abrir resultados:

![alt text](ps_results_1.png)

En la ventana **Summary** podemos ver marcado en rojo las sugerencias de los siguientes pasos a realizar en **VTune**. **VTune** nos sugiere seguir con un análisis de *Hotspots*, *Microarchitecture Exploration*, *Threading* y *GPU offload* y de esa forma podemos proceder con los siguientes análisis de manera más informada. 

![alt text](summary.png)

**Ejecutando VTune - para análisis específicos**

VTune ofrece muchas opciones de análisis de algoritmos. Algunos ejemplos pueden ser encontrados en la siguiente página web [vtune_analisis](https://www.intel.com/content/www/us/en/develop/documentation/vtune-help/top/command-line-interface/running-command-line-analysis.html). Siguiendo las recomendaciones del `Performance Snapshot`, vamos a ejecutar dos tipos de análisis: i) `gpu-hotspots` y ii) `gpu-offload`:

1. `gpu-hotspots`

Identifica GPUs con alta utilización y estima la efectividad de uso. 

`vtune -collect gpu-hotspots -- /home/u183985/Compu_paralela_III/CPAR_GPUs/simple`

![alt text](gpu_hots.png)

![alt text](gpu_memory_diagram.png)

2. `gpu-offload`

Correlaciona la actividad del código que corre en CPU y GPU e identifica si la aplicación o algoritmo está ligado a CPU o GPU. 

`vtune -collect gpu-offload -- /home/u183985/Compu_paralela_III/CPAR_GPUs/simple`

![alt text](gpu_off.png)

![alt text](gpu_offload.png)


# Referencias:
- https://community.intel.com/t5/Intel-DevCloud/Trouble-selecting-GPU-node-on-DevCloud/m-p/1177749
- https://www.intel.com/content/www/us/en/develop/documentation/vtune-cookbook/top/configuration-recipes/vtune-profiler-server-in-hpc.html
- https://community.intel.com/t5/Intel-DevCloud/Trouble-selecting-GPU-node-on-DevCloud/m-p/1177749
- https://www.intel.com/content/www/us/en/develop/documentation/oneapi-dpcpp-cpp-compiler-dev-guide-and-reference/top/compiler-reference/compiler-options/alphabetical-option-list.html
- https://hpc-wiki.info/hpc/Intel_VTune_Tutorial
- https://www.intel.com/content/www/us/en/developer/tools/oneapi/vtune-profiler.html#gs.dot3vd
- https://www.intel.com/content/www/us/en/develop/documentation/vtune-help/top/analyze-performance/code-profiling-scenarios/python-code-analysis.html 
- https://www.intel.com/content/www/us/en/develop/documentation/vtune-help/top/command-line-interface/running-command-line-analysis.html