

# UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO POSGRADO EN CIENCIA E INGENIERÍA DE LA COMPUTACIÓN

"Diseño de un Framework para la planificación de tareas preemptive en sistemas embebidos heterogéneos"

## **TESIS**

QUE PARA OPTAR POR EL GRADO DE:

MAESTRO EN CIENCIA E INGENIERÍA DE LA COMPUTACIÓN

PRESENTA:
José Antonio Ayala Barbosa

**DIRECTOR DE TESIS:** 

Dr. Paul Erick Méndez Monroy Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas

# Índice general

|    | Res  | umen                                | VII |
|----|------|-------------------------------------|-----|
| 1. | Intr | oducción                            | 1   |
|    | 1.1. | Contexto                            | 1   |
|    | 1.2. | Problema                            | 1   |
|    | 1.3. | Hipótesis                           | 1   |
|    | 1.4. | Aproximación                        | 2   |
|    | 1.5. | Contribuciones                      | 2   |
|    | 1.6. | Estructura de la tesis              | 2   |
| 2. | Ant  | ecedentes                           | 3   |
|    | 2.1. | Ingeniería de Software              | 3   |
|    |      | 2.1.1. Framework                    | 4   |
|    | 2.2. | Sistemas en tiempo real             | 5   |
|    |      | 2.2.1. Tipos de ejecución de tareas | 5   |
|    |      | 2.2.2. Algoritmos de planificación  | 5   |
|    | 2.3. | CPU                                 | 5   |
|    | 2.4. | GPU                                 | 6   |
|    |      | 2.4.1. Manycore y Multicore         | 6   |
|    |      | 2.4.2. Arquitectura Pascal          | 7   |
|    |      | 2.4.2.1 Memoria unificada           | 7   |

|              |       |        | 2.4.2.2.    | Computación preemptive     | . 7  |
|--------------|-------|--------|-------------|----------------------------|------|
|              |       |        | 2.4.2.3.    | Balanceo de carga dinámico | . 7  |
|              |       |        | 2.4.2.4.    | Operaciones atómicas       | . 7  |
|              |       | 2.4.3. | GPGPU       |                            | . 8  |
|              | 2.5.  | Sisten | nas embeb   | idos                       | . 8  |
|              |       | 2.5.1. | Sistemas    | embebidos heterogéneos     | . 9  |
|              |       |        | 2.5.1.1.    | Jetson TX2                 | . 9  |
|              | 2.6.  | Resum  | nen         |                            | . 9  |
| 3.           | Tral  | bajo R | Relaciona   | do                         | 11   |
| $\mathbf{A}$ | nexos | 5      |             |                            | 15   |
|              | .1.   | Glosar | rio de tern | ninos                      | . 15 |
| Bi           | bliog | rafía  |             |                            | 15   |

# Índice de Figuras

| <b>2</b> (1) 11001010101011 00 p10011000 011 01 00 1 | 2.1. | Aceleración de programas | en GPUs[1]. | ] | 6 |
|------------------------------------------------------|------|--------------------------|-------------|---|---|
|------------------------------------------------------|------|--------------------------|-------------|---|---|

## Índice de Tablas

| 2.1. | Especificaciones del | sistema Jetson TX2 | 2[2] |
|------|----------------------|--------------------|------|
|------|----------------------|--------------------|------|

## Resumen

## Capítulo 1

## Introducción

#### 1.1. Contexto

Para explotar completamente el poder de los sistemas heterogéneos actuales de CPU-GPU se necesitan nuevas herramientas.

#### 1.2. Problema

El problema abordado en esta tesis es el diseño de un framework que permita la ejecución de tareas en modo preemptive en sistemas embebidos heterogéneos ya su implementación es poco relevante actualmente en la literatura, pero la creciente necesidad por su incorporación en estos sistemas brinda la oportunidad de mejorar la aplicabilidad y desarrollo.

#### 1.3. Hipótesis

La hipótesis del presente trabajo es:

Es posible diseñar un framework que que permita la ejecución de tareas en modo preemptive sobre sistemas embebidos heterogéneos para una mejor administración de sus recursos de cómputo.

#### 1.4. Aproximación

Mediante el análisis de los elementos inherentes a la estructura de ejecución de procesos híbridos (CPU + GPU) que corren sobre sistemas embebidos heterogéneos, se realiza un diseño de la arquitectura del framework que permite la utilización de tareas preemptive.

#### 1.5. Contribuciones

Tener un planificador que permita la ejecución de tareas preemptive (tareas con privilegio), ya que al implementar puntos preemptive con planificación dinámica se pueden disminuir los plazos vencidos de tareas con alta prioridad y mejorar el desempeño del sistema.

La implementación en sistemas embebidos heterogéneos es poco relevante en la literatura, pero la creciente necesidad por su incorporación en los sistemas embebidos brinda la oportunidad de mejorar la aplicabilidad y desarrollo.

#### 1.6. Estructura de la tesis

Capítulo 2 Antecedentes

Capítulo 3 Trabajo relacionado

Capítulo 4 Evaluación de seguridad al implementar patrones de seguridad

Capítulo 5 Caso de estudio del método propuesto

Capítulo 6 Conclusiones

## Capítulo 2

### Antecedentes

El objetivo de este capítulo es introducir los conceptos de: 1. framework; 2. sistemas en tiempo real; 3. tipos de ejecución de tareas; 4. el algoritmo por defecto de los sistemas en tiempo real; 5. sistemas embebidos heterogéneos; 6. arquitecturas de hardware y software de tarjetas gráficas; y 7. cómputo de propósito general en en unidades de procesamiento de gráficos.

### 2.1. Ingeniería de Software

El Instituto de Ingenieria Electrica y Electronica (Institute of Electrical and Electronics Engineers – IEEE) define a la Ingeniería de Software como:

La Ingeniería de Software[3] es la aplicación de un enfoque sistemático, disciplinado y cuantificable al desarrollo, operación y mantenimiento de software; es decir, la aplicación de la ingeniería al software

La Ingeniería de Software aplica diferentes técnicas, normas y métodos que permiten obtener mejores resultados al desarrollar y usar piezas software, al tratar con muchas de las áreas de Ciencias de la Computación es posible llegar a cumplir de manera satisfactoria con los objetivos fundamentales de la Ingenieria de Software. Entre los objetivos de la Ingenieria de Software estan[4]:

- Mejorar el diseño de aplicaciones o software de tal modo que se adapten de mejor manera a las necesidades de las organizaciones o finalidades para las cuales fueron creadas.
- Promover mayor calidad al desarrollar aplicaciones complejas.
- Brindar mayor exactitud en los costos de proyectos y tiempo de desarrollo de los mismos.
- Aumentar la eficiencia de los sistemas al introducir procesos que permitan medir mediante normas específicas la calidad del software desarrollado, buscando siempre la mejor calidad posible según las necesidades y resultados que se quieren generar.
- Una mejor organización de equipos de trabajo, en el área de desarrollo y mantenimiento de software.
- Detectar a través de pruebas, posibles mejoras para un mejor funcionamiento del software desarrollado

#### 2.1.1. Framework

Un framework o marco de trabajo es la estructura que se establece para normalizar, controlar y organizar, ya sea, una aplicación completa, o bien, una parte de ella. Esto representa una ventaja para los participantes en el desarrollo del sistema, ya que automatiza procesos y funciones habituales, además agiliza la codificación de ciertos mecanismo ya implementados al reutilizar código. Un framework puede ser considerada como un molde configurable, al que podemos añadirle atributos especiales para finalmente construir una solución completa.

La utilización de un framework siempre conlleva una curva de de aprendizaje, pero a largo plazo facilita la programación, escalabilidad, y el mantenimiento de los sistemas.

## 2.2. Sistemas en tiempo real

Los sistemas en tiempo real son sistemas de cómputo cuyas tareas deben actuar dentro de limitaciones de tiempo precisas ante eventos en su entorno. Por lo que el comportamiento del sistema depende, no solo del resultado del cálculo, sino también del momento (tiempo) en que se produce [5].

#### 2.2.1. Tipos de ejecución de tareas

Existen dos tipo de ejecución de tareas, las *preemptive*, donde es necesario interrumpir temporalmente una tarea que está realizando un sistema de cómputo, para darle la oportunidad a otra con mayor prioridad, con el compromiso de reanudar la rezagada más adelante, y las *non-preemptive* donde se requiere que termine la tarea actual para que posteriormente inicie una con mayor prioridad.

#### 2.2.2. Algoritmos de planificación

Earliest Deadline First (EDF) es un algoritmo óptimo de planificación para sistemas de tiempo real, y acepta tareas en modo preemptive. Es un algoritmo muy extendido en sistemas en tiempo real debido a su optimalidad teórica en el campo no-preemptive, pero al momento de implementarlo en un planificador preemptive, el resultado puede acarrear un exceso de ejecución si se toma el peor caso [6]. Por ello es necesario buscar alternativas de algoritmos que tengan un mejor desempeño en tareas específicas.

#### 2.3. CPU

La unidad de procesamiento central o CPU es un procesador de propósito general, lo que significa que puede hacer una variedad de cálculos, pero esta diseñado para realizar el procesamiento de información en serie, consta de pocos núcleos de propósito general. Aunque se pueden utilizar bibliotecas para realizar concurrencia y paralelismo, el hardware per se no tiene esa implementación.

#### 2.4. GPU

La unidad de procesamiento gráfico o GPU es un procesador especializado para tareas que requieren de un alto grado de paralelismo. La tarjeta gráfica en su interior puede contener una cantidad de núcleos de un orden de cientos hasta miles de unidades que son más pequeñas y que por ende, individualmente realizan un menor número de operaciones. Esto hace que la GPU esté optimizada para procesar cantidades enormes de datos pero con programas más específicos[1]. Lo más común al utilizar la aceleración por GPU es ejecutar una misma instrucción a múltiples datos para aprovechar su arquitectura.

#### 2.4.1. Manycore y Multicore

Es necesario destacar que los manycore y los multicore son utilizados para etiquetar a los CPU y los GPU, pero entre ellos existen diferencias. Un core de CPU es relativamente más potente, está diseñado para realizar un control lógico muy complejo para buscar y optimizar la ejecución secuencial de programas.

En cambio un core de GPU es más ligero y está optimizado para realizar tareas de paralelismo de datos como un control lógico simple enfocándose en la tasa de transferencia (throughput) de los programas paralelos.

Con aplicaciones computacionales intensivas, las secciones del programa a menudo muestran una gran cantidad de paralelismo de datos. Las GPU se usan para acelerar la ejecución de esta porción código. Cuando un componente de hardware que está físicamente separado de la CPU y se utiliza para acelerar secciones computacionalmente intensivas de una aplicación, se le denomina acelerador de hardware. Se puede decir que las GPU son el ejemplo más común de un acelerador de hardware.

#### 2.4.2. Arquitectura Pascal

#### 2.4.2.1. Memoria unificada

La memoria unificada proporciona un único espacio de direcciones virtuales para la memoria de la CPU y GPU, permitiendo la migración transparente de datos entre los espacios de direcciones virtuales completos tanto de la tarjeta gráfica como del procesador. Esto simplifica la programación en GPUs y su portabilidad ya que no es necesario el preocuparse por administrar el intercambio de datos entre dos sistemas de memoria virtual diferentes[7].

#### 2.4.2.2. Computación preemptive

Permite que las tareas de cómputo se reemplacen con granularidad a nivel de instrucción, en lugar de bloque de subprocesos, evitando el funcionamiento prolongado de aplicaciones que monopolizan el sistema y no dejan ejecutar terceras tareas[7]. Obteniendo así, que las tareas puedan ejecutarse todo el tiempo que requieran ya sea para procesar grandes volúmenes de datos o qué esperen a que ocurran varias condiciones, mientras otras aplicaciones son computadas concurrentemente.

#### 2.4.2.3. Balanceo de carga dinámico

La arquitectura Pascal introdujo el soporte para balanceo de carga dinámico [8], ayudando a la aceleración del cómputo de tareas asíncronas.

En versiones anteriores de las tarjetas, la asignación de recursos en las colas de cálculos y de gráficos debía decidirse antes de la ejecución, por lo que, una vez que se lanzaba la tarea, no era posible reasignarla sobre la marcha. Un problema añadido que existía era, que, si una de las colas se quedaba sin trabajo antes que la otra no podía iniciar un nuevo trabajo hasta que ambas colas terminen completamente[9].

#### 2.4.2.4. Operaciones atómicas

Las operaciones atómicas de memoria frecuentemente son importantes el cómputo de alto rendimiento ya que permiten que los hilos concurrentemente lean, escriban y modifiquen variables compartidas. La arquitectura Pascal nos permite realizar estas operaciones pero ahora con la ventaja de trabajar sobre memoria unificada.

#### 2.4.3. GPGPU

El computo de proposito general en unidades de procesamiento de graficos o GPGPU es utilizado para acelerar el procesamiento realizado tradicionalmente por la CPU unicamente, donde la GPU actua como un coprocesador que puede aumentar la velocidad del trabajo [10].



Figura 2.1. Aceleración de programas en GPUs[1].

La unificación de los espacios de memoria facilita el GPGPU ya que no hay necesidad de transferencias explícitas de memoria entre el host y el dispositivo.

#### 2.5. Sistemas embebidos

Un sistema embebido es un sistema de cómputo diseñado para realizar tareas dedicadas, donde el mayor retos es realizar tareas específicas donde la mayoría de ellas tengan requerimientos de tiempo real [11].

#### 2.5.1. Sistemas embebidos heterogéneos

En los últimos años los sistemas embebidos han ido demandando nuevas características debido a su rápida adopción en el mercado. Con lo que surge el desarrollo de sistemas embebidos heterogéneos, donde está contemplado realizar una gran cantidad de cómputo pero con una gran eficiencia tanto energética como en espacio.

Actualmente la empresa NVIDIA tiene en su catálogo sistemas embebidos heterogéneos con un gran soporte y bibliotecas para el cómputo de alto rendimiento. Dichos sistemas cuentan con la arquitectura pascal de última generación [12], la cual permite compartir memoria entre CPU y GPU.

Debido a que la mayoría de las GPU en sistemas embebidos no son de naturaleza preemptive, es importante programar los recursos de GPU de manera eficiente en múltiples tareas [13] ya sea de planificación o memoria, lo que permite pensar en un framework que ayude a la administración de sus características.

#### 2.5.1.1. Jetson TX2

Las especificaciones del sistema son:

| Componentes    | Descripción                                  |
|----------------|----------------------------------------------|
| Arquitectura   | NVIDIA Pascal GPU                            |
| CPU            | 2 Denver 64-bit CPUs + Quad-Core A57 Complex |
| Memoria        | 8 GB L128 bit DDR4 Memory                    |
| Almacenamiento | 32 GB eMMC 5.1 Flash Storage                 |
| Conectividad   | 802.11ac Wi-Fi and Bluetooth-Enabled Devices |
| Ethernet       | 10/100/1000 BASE-T Ethernet                  |

**Tabla 2.1.** Especificaciones del sistema Jetson TX2[2].

#### 2.6. Resumen

## Capítulo 3

Trabajo Relacionado

## Anexos

## .1. Glosario de terminos

■ Preemptive: Tarea con privilegio.

• Throughput:Tasa de transferencia.

• Framework: Marco de trabajo.

## Bibliografía

- [1] NVIDIA, "Computación acelerada: Supera los desafíos más importantes del mundo." [Online]. Available: https://la.nvidia.com/object/what-is-gpu-computing-la.html
- [2] —, "Jetson tx2 developer kit." [Online]. Available: https://developer.nvidia.com/embedded/jetson-tx2-developer-kit
- [3] "Ieee standard glossary of software engineering terminology," *IEEE Std 610.12-1990*, pp. 1–84, Dec 1990.
- [4] S. SÁNCHEZ ALONSO, M. Á. SICILIA URBAN, and D. RODRIGUEZ GARCIA, Ingeniería del software - un enfoque desde la guía swebok. Alfaomega Grupo Editor, S.A. de C.V, 2012.
- [5] G. C. Butazzo, Hard real-time computing systems: predictable scheduling algorithms and applications. Springer Science Business Media, 2011.
- [6] S. Heath, Embedded systems design. EDN Series For Design Engineers, 2003.
- [7] NVIDIA, NVIDIA Tesla P100 The Most Advanced Datacenter Accelerator Ever Built Featuring Pascal GP100, the World's Fastest GPU, NVIDIA Corporation, 2016.
- [8] J. P. HURTADO V., "Análisis a fondo: Arquitectura gpu nvidia pascal diseñada para la velocidad," 2016. [Online]. Available: https://www.ozeros.com/2016/05/analisis-a-fondo-arquitectura-gpu-nvidia-pascal-disenada-para-la-velocidad/
- [9] R. Smith, "The nvidia geforce gtx 1080 gtx 1070 founders editions review: Kicking off the finfet generation." [Online]. Available: https://www.anandtech.com/show/10325/ the-nvidia-geforce-gtx-1080-and-1070-founders-edition-review/9

- [10] NVIDIA, "Nvidia sobre la computación de gpu y la diferencia entre gpu y cpu," 2018. [Online]. Available: https://la.nvidia.com/object/what-is-gpu-computing-la.html
- [11] M. Bertogna and S. Baruah, "Limited preemption edf scheduling of sporadic task systems," *IEEE Transactions on Industrial Informatics*, vol. 6, no. 4, pp. 579–591, 2010.
- [12] C. Hartmann and U. Margull, "Gpuart an application-based limited preemptive gpu real-time scheduler for embedded systems," *Journal of Systems Architecture*, 2018.
- [13] NVIDIA, "Nvidia jetson tx2: High performance ai at the edge." [Online]. Available: www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-tx2/