Introducción

En el siguiente trabajo se han implementado diferentes mecanismos de exclusión mutua para posteriormente compararlos tanto a nivel se consumo energético como a nivel de rendimiento en la arquitectura ARMv8 de 64 bits (AARCH64). Por un lado se ha implementado un spin lock simple y diferentes versiones energéticamente eficiente y por otro lado se ha implementado la primitiva fetch and add.

Sobre todos ellos se han realizado test unitarios para comprobar su correcto funcionamiento.

Por otro lado, se a realizado una comparativa de rendimiento sobre cinco mutex creados sobre las bases de las implementaciones del spin lock simple, el spin lock energéticamente eficiente, el spin lock energéticamente eficiente utilizando loads y stores de byte, el spin lock energéticamente eficiente utilizando loads y stores de byte optimizando el spin unlock y el proporcionado por la librería estándar del lenguaje C++.

Para más información consultar: https://github.com/AbelChT/Fetch-and-add-y-Spin-Lock-ARMv8/blob/master/informe.md

Entorno de pruebas utilizado

Las pruebas se han realizado sobre una Raspberry Pi 3 model B. Para poder utilizar las instrucciones nativas de este procesador se instaló una versión de Debian de 64 bits y ARMv8-A ya que el Raspbian nativo por mantener retrocompatibilidad no posee estas características, sino que utiliza ARMv7 de 32 bits.

Instalación de Debian

El sistema instalado fue el siguiente:

https://github.com/Debian/raspi3-image-spec.

En el propio proyecto aparecen instrucciones para su instalación.

Entorno de compilación utilizado

Para realizarse los experimentos se ha realizado compilación cruzada utilizado el compilador AARCH64 de linaro con soporte a Linux, el cual se puede encontrar en la página oficial de ARM con el nombre aarch64-linux-gnu.

https://developer.arm.com/open-source/gnu-toolchain/gnu-a/downloads

Descripción de los fuentes: fetch and add

En esta carpeta se encuentra todo lo relacionado con el fetch and add.

Carpeta build

Se almacenarán los resultados de las compilaciones

Carpeta fetch_and_add

Implementación de fetch and add y tests unitarios correspondientes.

Ficheros

aarch64/fetch_and_add.s: Implementación del fetch and add.
test/test_fetch_and_add.cpp: Test unitarios sobre la implementación en ensamblador.

Fichero Makefile

Fichero que compila los test unitarios a un fichero ejecutable.

Antes de utilizar este fichero, hay que modificarlo para establecer la variable CC (path del compilador) de forma apropiada.

Descripción de los fuentes: mutex

En esta carpeta se encuentra todo lo relacionado con los spin locks creados, así como los mutex que derivan de estos.

Carpeta build

Se almacenarán los resultados de las compilaciones

Carpeta app

Aquí se encuentran dos aplicación creada especialmente para probar el rendimiento de los diferentes spin locks creados.

Ficheros

mutex_selector.h: Declaración de los diferentes mutex que se pueden utilizar durante las pruebas.
Reduce2D.h y Reduce2D.cpp: Reductor de 2D a 1D multithread mediante suma de las componentes. Esta suma de hace de una forma muy poco eficiente para hacer un gran uso de los mutex.
app.cpp: Aplicación que hace uso de la biblioteca Reduce2D creada.
mutex_benchmark.cpp: Aplicación creada para la evaluación de los mutex en un escenario de uso intensivo. En esta, los diferentes threads lucharán por un recurso compartido utilizando los mutex para ello. En este benchmark existen dos opciones de compilación. En la primera se crea una sección crítica muy larga, y en la segunda una corta en la que se ha reducido el tiempo de computación de labores distintas al uso de los mutex al mínimo imprescindible.

Carpetas spin_lock, spin_lock_ee, spin_lock_ee_b y spin_lock_ee_b_ne

En estas carpetas se encuentras las implementaciones de los distintos spin locks, los mutex creados a partir de ellos, así como los test unitarios correspondientes.

Correspondencia de carpetas

spin_lock: spin lock simple
spin_lock_ee: spin lock energéticamente eficiente
spin_lock_ee_b: spin lock energéticamente eficiente utilizando loads y stores de byte
spin_lock_ee_b_ne: spin lock energéticamente eficiente utilizando loads y stores de byte optimizando el spin unlock

Ficheros

aarch64/spin_lock.s: Implementación del spin lock.
test/test_spin_lock.cpp: Test unitarios sobre la implementación en ensamblador.
lib: Implementación de un mutex utilizando las funciones creadas.

Fichero Makefile

Fichero que compila los test unitarios a un fichero ejecutable, así como los diferentes programas para evaluar el rendimiento.

Antes de utilizar este fichero, hay que modificarlo para establecer la variable CC (path del compilador) de forma apropiada.

Fichero performance_mutex_benchmark.sh

Script que ejecuta el programa mutex benchmark para las diferentes implementaciones un número definido de iteraciones y evalua su rendimiento. Para ello crea un fichero csv en el que almacena el resultado de cada una de las iteraciones para un posterior análisis así como obtiene la media de las ejecuciones de cada implementación. Para usarlo primero se han de compilar las diferentes implementaciones mediante el fichero Makefile y posteriormente se ha de colocar el script en la carpeta build. Actualmente está configurado para medir el rendimiento del programa mutex benchmark con sección crítica corta.

Carpeta misc

En la carpeta misc, se encuentra una demostración de que si entre dos instrucciones ldaxr y stlxr el sistema operativo realiza un cambio de contexto, la exclusividad de la escritura se pierde. Esto es debido a que al llegar una interrupción, el registro de exclusividad se borra, produciendo el mismo efecto que si se ejecutara la instrucción CLREX.

Evaluación de rendimiento

La evaluación de rendimiento se realizó sobre el entorno de pruebas que se describirá posteriormente con el sistema operativo en estado de ejecución nº1 y utilizando el programa mutex benchmark comentado en la sección anterior. Para almacenar los resultados se utilizó el script performance_mutex_benchmark.sh.

Tiempo

Tras 30 iteraciones realizadas en el script performance_mutex_benchmark.sh configurado para ejecutar el benchmark con región crítica corta, se obtuvieron los siguientes resultados. Todos ellos se expresan en segundos y son relativos al tiempo de uso del procesador en las diferentes versiones de las implementaciones del mutex, esto es para evitar contar en todo lo posible tiempo que el sistema operativo dedica a otras tareas. Al poseer 4 núcleos el sistema, el tiempo de ejecución es mucho menor al de uso del procesador.

Versión	Sin mutex	Mutex Nativo C++	Spin lock simple	Spin lock energéticamente eficiente	Spin lock energéticamente eficiente loads y stores con bytes	Spin lock energéticamente eficiente loads y stores con bytes optimizado
media (s)	0.4267	14.6513	17.3540	17.5425	17.7751	14.3856
desviación típica (s)	0.0014	0.0455	0.5489	0.5003	0.6902	0.5441
mínimo (s)	0.4259	14.5592	16.5428	16.3294	16.2221	13.1974
máximo (s)	0.4320	14.7715	18.6714	18.7380	19.0890	15.3787

Como se puede comprobar, en media el más rápido es el spin lock energéticamente eficiente con loads y stores utilizando instrucciones de bytes y optimizando los stores, pero su desviación típica es bastante elevada.

Tras dos iteraciones realizadas en el script performance_mutex_benchmark.sh configurado para ejecutar el benchmark con región crítica larga, se obtuvieron los siguientes resultados. Todos ellos se expresan en segundos y son relativos al tiempo de uso del procesador en las diferentes versiones de las implementaciones del mutex.

Versión	Sin mutex	Mutex Nativo C++	Spin lock simple	Spin lock energéticamente eficiente	Spin lock energéticamente eficiente loads y stores con bytes	Spin lock energéticamente eficiente loads y stores con bytes optimizado
tiempo (s)	5.629	9.315 (*)	52.455	54.180	54.465	53.159

(*) Como se puede comprobar, el más rápido sería el mutex nativo de C++, pero el resultado no lo vamos a tener en cuenta debido a que durante su ejecución realiza llamadas al sistema operativo. Estas se realizan al no poder obtener la exclusividad sobre el mutex, y producen que se pase el control al kernel del sistema operativo para que este expulse al thread, y al suceder esto, no todos los tiempos de espera no computan como tiempo de uso de procesador, además de no existir casi solisiones al solicitar el mutex ya que las gestiona el sistema operativo.

Al comparar el resto de mutex, se puede comprobar como los mutex implementados sobre spin locks energeticamente eficientes obtienen menos rendimiento que el mutex implementado sobre un spin lock no energeticamente eficiente, aunque la diferencia es bastante baja.

Energéticas

Tras dos iteraciones realizadas en el script performance_mutex_benchmark.sh configurado para ejecutar el benchmark con región crítica larga, se obtuvieron los siguientes resultados. Los tiempos son expresados en segundos y son relativos a los tiempos de ejecución, los consumos medios son expresados en Watts y el consumo total durante la ejecución es expresado en julios.

Las mediciones de potencia han sido realizadas entre el transformador y la placa (en el cable de alimentación antes de entrar a la placa).

La versión llamada sistema operativo representa el consumo que posee el sistema operativo sin ningún programa de usuario en ejecución.

Versión	Sistema Operativo	Sin mutex	Mutex Nativo C++	Spin lock simple	Spin lock energéticamente eficiente	Spin lock energéticamente eficiente loads y stores con bytes	Spin lock energéticamente eficiente loads y stores con bytes optimizado
consumo medio (Watts)	1.374	2.492	1.716	2.155	1.626	1.621	1.639
tiempo de ejecución (s)	-	1.460	6.169 (*)	13.176	13.638	13.694	13.350
consumo durante la ejecución (J)	-	3.638	10.586 (*)	28.394	22.175	22.198	21.880

(*) En este caso los resultados del mutex nativo de C++ son más reales, aunque al haber utilizado el sistema operativo para su gestión no se tendrán en cuenta en el análisis.

Como se puede comprobar, hay una diferencia notable en el consumo total entre los mutex energeticamente eficientes y el no energeticamente eficiente. Entre los mutex energeticamente eficientes apenas hay diferencias en el consumo total.

Comparación general de rendimiento entre Spin lock simple y Spin lock energéticamente eficiente.

Se va a realizar una comparativa utilizando los datos anteriores sobre la diferencia de rendimiento tanto en terminos de tiempo de cómputo como en terminos de eficiencia energética entre el mutex construido sobre el spin lock simple y el mutex construido sobre el spin lock energéticamente eficiente. Se utilizará la primera versión de mutex energeticamente eficiente debido a que posee la misma implementación del mutex simple salvo por la inclusión de instrucciones que permiten el ahorro de energía.

Comparativa rendimiento

Sección crítica corta:

Versión	Spin lock simple	Spin lock energéticamente eficiente
media (s)	17.3540	17.5425

En las pruebas realizadas en una sección crítica corta, el mutex implementado sobre un spin lock simple es un 1% más rápido que el mutex implementado sobre un spin lock energéticamente eficiente.

Sección crítica larga:

Versión	Spin lock simple	Spin lock energéticamente eficiente
media (s)	52.455	54.180

En las pruebas realizadas en una sección crítica larga, el mutex implementado sobre un spin lock simple es un 3,2% más rápido que el mutex implementado sobre un spin lock energéticamente eficiente.

Como se puede comprobar en ambos casos el mútex simple es mas rápido aunque nunca es una diferencia demasiado notable

Comparativa energía

Sección crítica corta: En una sección crítica corta no tiene sentido realizar una comparativa de energías, debido a que continuamente los hilos estarían terminando la región crítica y haciendo que el procesador saliese de estado ahorro de energía en el caso del mutex basado en el spin lock energeticamente eficiente.

Sección crítica larga:

Versión	Spin lock simple	Spin lock energéticamente eficiente
consumo medio (Watts)	2.155	1.626
tiempo de ejecución (s)	13.176	13.638
consumo durante la ejecución (J)	28.394	22.175

En las pruebas realizadas en una sección crítica larga, el mutex implementado sobre un spin lock simple consume un 28% más de energía que el mutex implementado sobre un spin lock energéticamente eficiente.

Debido al punto en el que se mide la potencia, en el consumo energético estamos incluyendo consumo de toda la placa, no solo del procesador. En la próxima comparativa de va a restar a la potencia que utiliza cada implementación, la que consume el sistema operativo (1.374 Watts). En este caso, obtendríamos una métrica más parecida a la cantidad de energía que consumen los programas.

Versión	Spin lock simple	Spin lock energéticamente eficiente
consumo medio (Watts)	0.781	0.252
tiempo de ejecución (s)	13.176	13.638
consumo durante la ejecución (J)	10.290	3,437

En este caso, el mutex implementado sobre un spin lock simple consume un 199% más de energía que el mutex implementado sobre un spin lock energéticamente eficiente.

Como se puede comprobar, la implementación con mutex energeticamente eficiente reduce drásticamente el consumo del procesador.

Licencia

Todo el código que se encuentra en este repositorio, a menos que se indique lo contrario, posee la licencia GNU GPLv3. Para mas información sobre esta, consultar el fichero LICENSE de este repositorio.

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
fetch_and_add		fetch_and_add
mutex		mutex
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
informe.md		informe.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Introducción

Entorno de pruebas utilizado

Instalación de Debian

Entorno de compilación utilizado

Descripción de los fuentes: fetch and add

Carpeta build

Carpeta fetch_and_add

Ficheros

Fichero Makefile

Descripción de los fuentes: mutex

Carpeta build

Carpeta app

Ficheros

Carpetas spin_lock, spin_lock_ee, spin_lock_ee_b y spin_lock_ee_b_ne

Correspondencia de carpetas

Ficheros

Fichero Makefile

Fichero performance_mutex_benchmark.sh

Carpeta misc

Evaluación de rendimiento

Tiempo

Energéticas

Comparación general de rendimiento entre Spin lock simple y Spin lock energéticamente eficiente.

Comparativa rendimiento

Comparativa energía

Licencia

About

Releases 2

Packages

Languages

License

AbelChT/Fetch-and-add-y-Spin-Lock-ARMv8

Folders and files

Latest commit

History

Repository files navigation

Introducción

Entorno de pruebas utilizado

Instalación de Debian

Entorno de compilación utilizado

Descripción de los fuentes: fetch and add

Carpeta build

Carpeta fetch_and_add

Ficheros

Fichero Makefile

Descripción de los fuentes: mutex

Carpeta build

Carpeta app

Ficheros

Carpetas spin_lock, spin_lock_ee, spin_lock_ee_b y spin_lock_ee_b_ne

Correspondencia de carpetas

Ficheros

Fichero Makefile

Fichero performance_mutex_benchmark.sh

Carpeta misc

Evaluación de rendimiento

Tiempo

Energéticas

Comparación general de rendimiento entre Spin lock simple y Spin lock energéticamente eficiente.

Comparativa rendimiento

Comparativa energía

Licencia

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 2

Packages 0

Languages

Packages