



# Diseño de una arquitectura de aviónica tolerante a fallas basada en componentes COTS para vehículos satelitales de nueva generación

## Por Arias Emmanuel

Presentado ante la Universidad Nacional de La Matanza y la Unidad de Formación Superior de la CONAE como parte de los requerimientos para la obtención del grado de

## MAGISTER EN DESARROLLOS INFORMATICOS DE APLICACION ESPACIAL

UNIVERSIDAD NACIONAL DEL CÓRDOBA

Mayo, 2017

©UFS-CONAE 2017 ©UNLAM 2017

DIRECTOR

Gustavo Wiman

INVAP, Bariloche, Provincia de Rio Negro

Dedicado a alguien

# Abstract

**Keywords:** 

# Resumen

Esta tesis se trata de

# Agradecimientos

Muchas gracias

# Tabla de Contenidos

| 1. | Intro | oducció | n                                          |   |
|----|-------|---------|--------------------------------------------|---|
|    | 1.1.  | Motiva  | ción                                       |   |
|    | 1.2.  | Hipóte  | sis                                        |   |
|    | 1.3.  | Objetiv | o del trabajo y preguntas de investigación |   |
|    |       | 1.3.1.  | Objetivo                                   |   |
|    |       | 1.3.2.  | Objetivos Específicos                      |   |
|    |       | 1.3.3.  | Preguntas de investigación                 | 1 |
|    |       |         |                                            |   |
| 2. | Mar   | co Teór | ico                                        | 2 |
|    | 2.1.  | Termin  | ología                                     | 2 |
|    | 2.2.  | La fiab | ilidad en el software                      | 3 |
|    | 2.3.  | Impedi  | mentos de la confiabilidad                 | 4 |
|    |       | 2.3.1.  | Orígenes de la falla                       | 5 |
|    |       | 2.3.2.  | Modos comúnes de fallas                    | 5 |
|    |       | 2.3.3.  | Fallas en el Software                      | 5 |
|    | 2.4.  | Medios  | s de fiabilidad                            | 6 |
|    |       | 2.4.1.  | Evitación de Fallas                        | 6 |
|    |       | 2.4.2.  | Tolerancia a Fallas                        | 6 |
|    |       | 2.4.3.  | Eliminación de Fallas                      | 6 |
|    |       | 244     | Predicción de Fallas                       | 7 |

# TABLA DE CONTENIDOS

| 2.5. | Atribu  | tos de la fiabilidad                               | 7  |
|------|---------|----------------------------------------------------|----|
|      | 2.5.1.  | Confiabilidad                                      | 7  |
|      | 2.5.2.  | Disponibilidad                                     | 8  |
|      | 2.5.3.  | Seguridad                                          | 9  |
| 2.6. | Tolera  | ncia a falla                                       | 9  |
| 2.7. | Clasifi | cación de un sistema de control tolerante a fallas | 10 |
| 2.8. | Redun   | dancia en el software                              | 10 |
|      | 2.8.1.  | Técnicas single version                            | 11 |
|      | 2.8.2.  | Técnicas multi-version                             | 11 |
|      | 2.8.3.  | Técnicas de detección de fallas                    | 12 |
|      | 2.8.4.  | Técnicas de recuperación de fallas                 | 12 |
| 2.9. | Técnic  | a de evaluación de fiabilidad                      | 15 |
| 2.10 | . Medid | as comunes de fiabilidad                           | 16 |
|      | 2.10.1. | Failure rate                                       | 16 |
|      | 2.10.2. | Tiempo medio medio de falla                        | 17 |
|      | 2.10.3. | Tiempo medio de reparación                         | 17 |
|      | 2.10.4. | Tiempo medio entre fallas                          | 17 |
|      | 2.10.5. | Cobertura de fallas                                | 18 |
| 2.11 | . Métod | os de cálculos de fiabilidad                       | 18 |
|      | 2.11.1. | Diagramas de bloques de confiabilidad              | 18 |
|      | 2.11.2. | Utilización de procesos de Markov                  | 18 |
| 2.12 | . Model | os de falla                                        | 19 |
|      | 2.12.1. | Tiempo hasta la falla                              | 20 |
|      | 2.12.2. | Función de confiabilidad                           | 20 |
|      | 2.12.3. | Tasa de falla                                      | 20 |
|      | 2.12.4. | Tiempo medio hasta la falla                        | 21 |
|      | 2.12.5. | Vida restante media                                | 21 |
|      | 2.12.6. | Distribución binomial                              | 21 |
|      | 2.12.7. | Distribución exponencial                           | 21 |

# TABLA DE CONTENIDOS

| 3.  | Esta   | do del arte                                                           | 23 |
|-----|--------|-----------------------------------------------------------------------|----|
|     | 3.1.   | Árboles binarios                                                      | 23 |
|     |        | 3.1.1. Esquema de árbol binario con backups                           | 24 |
|     |        | 3.1.2. Esquema de árbol binario con degradación de perfomance         | 25 |
|     | 3.2.   | Redes distribuídas                                                    | 25 |
|     |        | 3.2.1. Algoritmo de ruteo                                             | 26 |
|     | 3.3.   | Redes Ethernet en aviónica                                            | 26 |
|     |        | 3.3.1. Experiencia de vuelo                                           | 27 |
|     | 3.4.   | Arquitectura de red basada en BUS                                     | 28 |
|     |        | 3.4.1. Evaluación de la confiabilidad de arquitecturas basadas en BUS | 28 |
| 4.  | Aná    | lisis y desarrollo de arquitectura tolerante a fallas                 | 30 |
|     | 4.1.   | Introducción                                                          | 30 |
| 5.  | Arqı   | uitectura propuesta                                                   | 31 |
| 6.  | Aná    | lisis y resultados                                                    | 32 |
| 7.  | Con    | clusión                                                               | 33 |
| Bil | bliogr | rafía                                                                 | 36 |

# Índice de figuras

| 2.1. | Fiabilidad (Hitt y Mulcare, 2007)                                                      | 4  |
|------|----------------------------------------------------------------------------------------|----|
| 2.2. | Representación de checkpoint y restart                                                 | 13 |
| 2.3. | Representación del proceso pares                                                       | 14 |
| 2.4. | Configuración de bloques de recuperación                                               | 15 |
| 2.5. | Failure rate de HW vs tiempo                                                           | 16 |
| 2.6. | Failure rate SW vs tiempo                                                              | 17 |
| 2.7. | Confiabilidad vs tiempo                                                                | 17 |
|      |                                                                                        |    |
| 3.1. | Árbol binario de 4 niveles                                                             | 24 |
| 3.2. | Confiabilidad con respecto al tiempo de una arquitectura de árbol binario de 4 niveles | 25 |

# Índice de tablas

2.1. Disponibilidad en relación con su baja de servicio por año. Tabla modificada de Dubrova (2013)

# Lista de acrónimos

**SW** Software

**HW** Hardware

**FT** Tolerancia a Fallas

**FA** Evitación de Fallas

**FR** Eliminación de Fallas

**FF** Predicción de Fallas

MTBF Tiempo Medio Entre Fallas

MTTF Tiempo Medio de Fallas

MTTR Tiempo Medio de Reperación

CMF Modo Común de fallas

FDIR Detección, Aislación y Recuperación de Fallas

**CONAE** Comisión Nacional de Actividades Espaciales

UNLAM Universidad Nacional de La Matanza

INVAP Investigación Aplicada

NASA National Aeronautics and Space Administration

**COTS** Commercial Off-The-Shelf

TT Time-Trigged

**CST** Complete Stack-Tree

# Todo list

| Ver qué preguntas se lograron responder y mostrarlas en algún apartado | 1  |
|------------------------------------------------------------------------|----|
| Agregar más bibliografía si se lee más sobre el tema                   | 23 |
| colocar la imagen de On TTEthernet for integrated pag 8                | 27 |
| colocar la imagen del on TTethernet for integrated pag 8 del frame     | 27 |
| Colocar las imagenes del paper BUS network architecture                | 28 |
| Colocar la imagen del paper, sonbre CSTd                               | 28 |



# Introducción

En el marco del Plan Espacial Nacional, desarrollado por la Comisión Nacional de Actividades Espaciales (CONAE) de Argentina, y con el propósito de llevar a cabo actividades de investigación y aplicación, provenientes de la Universidad Nacional de La Matanza (UNLAM) se presenta este plan de tesis con el fin de ampliar los conocimientos y la participación de la CONAE y UNLAM, en el campo del Desarrollo Informático y Ciencias de la Computación.

Las actividades desarrolladas para este trabajo de tesis son realizadas, en su mayor proporción, en la Unidad de Desarrollo Investigación Aplicada (INVAP), ubicada en San Carlos de Bariloche, Provincia de Río Negro. Este trabajo se encuentra orientado a brindar un nuevo conocimiento, que ayude en cierta medida, en el desarrollo de los diferentes proyectos con los que cuenta actualmente esta empresa, agregando un grado de innovación en el resultado que se obtenga.

INVAP tiene como visión ser un referente en proyectos tecnológicos a nivel mundial INVAP (2016), por lo tanto, debe asegurarse que cada uno de los productos que se lleven a cabo sean competitivos. Para lograr cumplir con esto, es necesario que tales proyectos se encuentren a la vanguardia tecnológica y científica.

El desarrollo de proyectos satelitales conlleva costos de importante magnitud, y dependen de cada misión. Una parte importante de los costos está conformado por el desarrollo y sobre todo los materiales que se utilizan para su fabricación. Esto es debido a que se utilizan componentes que son exclusivos para el ámbito espacial, en otras palabras que se encuentran "calificados para volar". Estos componentes son fabricados especialmente para soportar el ambiente hostil del espacio.

Si se considera al ámbito espacial como una industria, algo que ha sido demostrado en los últimos años; y si se tiene en cuenta las intenciones de crecimiento y competitividad de la empresa INVAP, de permitir el ingreso de nuestro pais en el mercado satelital INVAP (2016), resulta de gran importancia lograr reducir los costos en fabricación y desarrollo de vehículos satelitales.

La National Aeronautics and Space Administration (NASA) tiene un enfoque de desarrollo bajo el lema "faster, cheaper, better" Forsberg y Harold (1999), lo cual busca desarrollar sus proyectos y misiones de foma rápida, barata y mejor. Bajo este enfoque se han realizado diversos estudios e investigaciones dando resultados sumamente positivos Tai et al. (1999), Chau et al. (1999), Schneidewind y Nikora (1998), Forsberg y Harold (1999). En estos trabajos se utilizan componentes que no se encuentran "calificados para volar", los cuales también son llamados componentes Commercial Off-The-Shelf (COTS), o de estantería. Debe mencionarse, que también hubo algunos fracasos en su aplicación.

 $<sup>^1</sup>$ Nota: entiéndase por desarrollo al proceso de planificación, análisis, diseño e implementación.

A simple vista, la utilización de estos componentes ayudaría a reducir costos. Sin embargo, esto no es tan directo. Los componentes COTS al no estar calificados, se les deben realizar tareas de calificación adicional. Además deben ser aplicados a un ambiente, que asegure que no fallarán durante la misión; o si fallan, no será motivo de pérdida de la misma.

Los componentes COTS suelen tener un costo de compra entre 100 y 1000 veces menores que aquellos que está califcados para volar. Por lo que el aumento en la utilización de estos componentes, aplicados al desarrollo de diferentes tipos de satélite, **permitiría reducir los costos y ahorrar algunos millones de dólares del proyecto satelital.** Esto facilitaría el ingreso de Argentina en un mercado altamente competitivo.

El desafío de este trabajo de tesis es analizar y estudiar arquitecturas que sean tolerantes a fallas, que permitan una correcta comunicación entre los diferentes subsistemas de un vehículo espacial de nueva generación, y que tenga como característica principal un cierto grado de confiabilidad, de modo tal que pueda ser aplicado con componentes COTS.

## 1.1. Motivación

Los costos de un proyecto satelital se pueden clasificar, a grandes rasgos, en 5 grupos:

- Desarrollo
- Materiales
- Ensamblado, integración, y tests
- Lanzamiento
- Operaciones

Este trabajo de tesis se centrará principalmente en el desarrollo (proceso de planificación, análisis, diseño e implementación.), y en los materiales utilizados en la fabricación de vehículos satelitales.

No se puede mencionar a ciencia cierta cuál es el costo "verdadero" de desarrollar un satélite. Este depende exclusivamente del tipo de satélite y de la misión. Lo que si se debe tener en claro es que las tareas de desarrollo representan una parte muy importante del costo total del proyecto.

Desarrollar un vehículo espacial con componente COTS, en un principio podría representar costos adicionales, ya que se le deben realizar tareas de calificación adicional, debido a que no están "preparados" para resistir las condiciones hostiles del espacio.

Uno de los puntos positivos, y que motivan la aplicación de componentes COTS, es que a la hora de desarrollar varios satélites en base a la misma ingeniería, se puede ahorrar en gran medida en los materiales que se utilizan. Los componentes COTS suelen tener un costo de compra entre 100 y 1000 veces menores que aquellos que están calificados para volar. Esto ayudaría a ahorrar algunos millones de dólares de los proyectos satelitales.

Otra de las ventajas de utilizar componentes COTS, es que la mayoría cuentan con una tecnología más avanzada que aquellos que son calificados para volar. Esta tecnología permite:

- Aumentar prestaciones, mediante el incremento de las capacidades de procesamiento, memoria, velocidades de procesamiento, etc.
- Implementar funciones que son imposibles de aplicar en tecnologías viejas.

- Reducir tiempos de desarrollo.
- Reducir volumen, masa y consumo

El último punto mencionado anteriormente es de especial interés, ya que al reducir volumen y masa, permite reducir costos adicionales como el de lanzamiento.

Esta reducción de costos de proyectos satelitales tienen ventajas directas a la hora de introducir a Argentina en un mercado altamente competitivo, donde la mínima reducción de estos, representa ganancias económicas importantes.

Uno de los puntos en contra de la utilización de componentes COTS es que al no ser calificados para volar, es necesario llevar a cabo tareas y estrategias inteligentes, con el fin de hacer frente a esa "deficiencia". Por ello, se exige realizar una investigación y análisis de diferentes arquitecturas de aviónica, que puedan ser utilizadas para lograr que el sistema sea tolerante a fallas, y así, cumplir con los requerimientos de una misión satelital.

El estudio de arquitecturas tolerantes a fallas, no solamente tiene aplicación en el ámbito espacial, si no que también puede ser extendido a cualquier sistema crítico, los cuales necesitan ser robustos y tolerantes a fallas, como es el caso de aviones comerciales, plantas nucleares, automóviles, etc.

# 1.2. Hipótesis

La hipótesis de esta tesis es la siguiente: "Una arquitectura de aviónica basadas en componentes COTS, robusta y tolerante a fallas, es totalmente aplicable y utilizable en vehículos espaciales, con un alto nivel de confiabilidad, lo cual permite disminuir la complejidad de los sistemas actuales de aviónica".

# 1.3. Objetivo del trabajo y preguntas de investigación

En esta sección se mencionan el objetivo principal y específicos; como así también las preguntas de investigación, que guiarán la elaboración de esta tesis.

## 1.3.1. Objetivo

El objetivo de este trabajo es investigar y analizar arquitecturas de comunicación de los subsistemas de aviónica tolerante a fallas basada en componentes COTS para vehículos satelitales de nueva generación.

#### 1.3.2. Objetivos Específicos

- 1. Realizar un estudio del estado de la cuestión sobre arquitecturas tolerantes a fallas para sistemas críticos.
- 2. Investigar y analizar arquitecturas tolerantes a fallas que aseguren la confiabilidad del sistema y que sean aplicables en la industria satelital.
- 3. Investigar y analizar protocolos de comunicación, para las capas superiores del modelo de OSI (modelo de interconexión de sistemas abiertos ISO/IEC 7498-1), orientados a la tolerancia a fallas y confiabilidad de los sistemas. Realizar un estudio comparativo de los diferentes protocolos estudiados.
- 4. Investigar una metodología para lograr una medición de la tolerancia a fallas en arquitecturas de aviónica.

- 5. Desarrollar un estudio comparativo de arquitecturas tolerantes a fallas con el fin de obtener ventajas y desventajas de cada una de ellas.
- 6. Diseñar modelos alternativos de arquitecturas tolerantes a fallas, que tenga un grado de confiabilidad tal que permita la aplicación de componentes COTS.
- 7. Evaluar la confiabilidad de los modelos de arquitecturas (mediante métrica desarrollada en este trabajo o siguiendo otras estrategias).
- 8. Proponer el diseño de una nueva arquitectura tolerante a fallas, con un grado de confiabilidad suficiente para la aplicación de componentes COTS en aviónicas de vehículos satelitales.
- 9. Simular la arquitectura planteada para medir su grado de tolerancia a fallas y perfomance.

## 1.3.3. Preguntas de investigación

# Ver qué preguntas se lograron responder y mostrarlas en algún apartado

Para este trabajo de tesis se plantearon las siguientes preguntas de investigación, que se fueron respondiendo a lo largo de este trabajo

- ¿Es posible la realización de un método de medición del grado de tolerancia a fallas de una arquitectura de aviónica?
- ¿Cuál es la estrategia más indicada de tolerancia a fallas que permita brindar un alto grado de confiabilidad en la utilización de componentes COTS en sistemas críticos?
- ¿Cuál es la arquitectura más indicada que permita desarrollar tolerancia a fallas en sistemas críticos basados en componentes COTS?
- ¿Es factible la utilización de componentes COTS en sistemas espaciales?



# Marco Teórico

# 2.1. Terminología

Existe una importante diferencia entre los significados de las palabras falla, error y avería<sup>1</sup>, que es importante destacar antes de comenzar con el desarrollo de este trabajo.

Un **avería** de sistema ocurre cuando el servicio prestado por el sistema ya no coincide con las especificaciones del mismo (Hanmer, 2007). Esto quiere decir que existe un problema que tiene una consecuencia negativa en el sistema completo, logrando que este ya no logre cumplir con sus especificaciones. Cuando el sistema no se comporta de la manera que es especificada, este ha fracasado. Esto significa que lo que se espera de un sistema se encuentra descripto, comúnmente en especificaciones o requerimientos (Pullum, 2001).

Para la IEEE (1990) avería es "la inhabilitación de una sistema o componente a llevar a cabo las funciones requeridas en los requerimientos específicos de perfomance del mismo".

Hanmer (2007) ejemplifica averías de sistemas cuando: el sistema se bloquea y se detiene cuando no debería hacerlo, el sistema calcula un resultado incorrecto, el sistema no está disponible, el sistema es incapaz de responder a la interacción con el usuario. Cuando el sistema no hace lo que debe hacer, el sistema ha fracasado. Las averías son detectados por los usuarios mientras usan el sistema.

Las averías son causados por los errores. Un **error** es una parte del estado del sistema que es susceptible de provocar un avería en el sistema, un error que afecta al servicio es una indicación de que un avería se ha producido (Hanmer, 2007). Un error se puede propagar, es decir dar a lugar otros errores (Pullum, 2001).

IEEE (1990) define error como "la diferencia entre un valor computado, observado o medido, con el valor verdadero, especificado o el teóricamente verdadero".

Los errores se pueden clasificar en dos tipos: errores de tiempo y valores (Hanmer, 2007). Los errores de valores son aquellos que se manifiestan como valores discretos incorrectos o estados del sistema incorrecto. En cambio, los errores de tiempo pueden incluir aquellos que no cumplen con el total de las tareas.

Hanmer (2007) especifica los siguiente casos más comunes de errores:

- Timing: existe una falta de sincronización en la comunicación de los procesos.
- Bucles infinitos: ejecución de un bucle sin detenerse, esto consume memoria, y la avería del sistema.

<sup>&</sup>lt;sup>1</sup>En inglés: fault, error y failure.

- Error de protocolo: errores en el flujo de comunicación ya que no coinciden los protocolos. Mensajes enviados en formato diferente, en tiempos diferentes, a lugares de sistemas incorrectos.
- Inconsistencia de datos: errores son diferentes en diferentes lugares.
- Sobrecarga de sistema: el sistema es incapaz de hacer frente a la sobrecarga de actividades a la que es expuesta.

La causa adjudicada o la hipótesis de un error es una **falla**, también llamado "bugs". Una **falla activa** es aquella que produce un error (Pullum, 2001). Una falla es un defecto que está presente en el sistema y que puede causar un error (Hanmer, 2007). Es la desviación actual de lo correcto Hanmer (2007).

Según IEEE (1990) una falla es "un defecto en un dispositivo de hardware o componente; como por ejemplo un corto circuito o un cable cortado". También realiza una segunda definición diciendo que falla es "un paso incorrecto, proceso, o definición de dato en un programa de computadora" IEEE (1990). Esta última afirmación es la que se usa en el ámbito de este trabajo.

Algunas fallas introducidas en el Software (SW) se detallan en Hanmer (2007), lo cual señala que pueden incluir:

- Especificaciones incorrecta de requerimientos
- Diseño incorrecto
- Errores de programación

Entonces, como lo indica Pullum (2001) con la tolerancia a fallas, lo que se busca es prevenir la avería mediante la "tolerancia" de fallas, las cuales son detectables cuando un error aparece. Las fallas son el motivo de errores y los errores son motivos de avería (Dubrova, 2013).

También se suele utilizar el término anomalía en las operaciones de vehículos espaciales para referirse a comportamientos anómalos o no esperados del sistema (David M. Harland, 2005)

En Dubrova (2013) se describe un ejemplo para diferenciar correctamente estos conceptos. Se considera el SW de una planta nuclear, en la cual existe una computadora que es responsable de controlar la temperatura, la presión y demás variables de interés para la seguridad del sistema. Se da el caso de que uno de los sensores detecta que la turbina principal se encuentra girando a una velocidad menor a la correcta. Esta falla hace que el sistema envíe una señal para aumentar su velocidad (error). Esto produce un exceso de velocidad en la turbina, lo cual tiene como consecuencia que la seguridad mecánica apague la turbina. En esta situación el sistema no está generando energía. Esto se considera un avería, porque el sistema no está entregando el servicio según lo establecido por los requerimientos. Pero es un avería salvable.

Otro concepto es el de **mantenibilidad**, este es la capacidad de un sistema, bajo condiciones normales, de ser restaurado a un estado en el cual puede realizar sus funciones requeridas, cuando se realiza el mantenimiento (Rausand y Hoyland, 2004).

En secciones posteriores se ven los conceptos de confiabilidad, disponibilidad y seguridad (Sección 2.5.1, 2.5.2, 2.5.3, respectivamente).

## 2.2. La fiabilidad en el software

El objetivo final de la Tolerancia a Fallas (FT), es el desarrollo de un sistema fiable (Dubrova, 2013). Teniendo en cuenta que SW que se encuentran dentro de las naves espaciales, como satélites, lanzadores, y

sobre todo vehículos tripulados son críticos, ya que de ellos dependen el éxito o fracaso de una misión, se debe llevar a cabo un sistema fiable. La fiabilidad de un sistema es la capacidad del mismo de entregar a los usuarios un nivel deseado de servicio (Dubrova, 2013).

La fiabilidad también se la puede considerar como una propiedad global que permite justificar la confianza de los servicios de un sistema (Hitt y Mulcare, 2007). Por lo tanto, como lo indica Hitt y Mulcare (2007) la fiabilidad es un término amplio y cualitativo que está relacionado con atributos no funcionales (o "-ilities"), que buscan generar un sistema "ideal", especialmente cuando su funcionamiento es crítico.

Como se muestra en la Figura 2.1 la consecuencia de la fiabilidad es la relación entre la evitación de fallos y la reducción de fallos, así como también la FT.



Figura 2.1: Fiabilidad (Hitt y Mulcare, 2007)

Según Pullum (2001) la fiabilidad puede ser clasificada en:

- Impedimentos: son aquellas cosas que se interponen en el camino de la fiabilidad. Son las fallas, errores y fracasos.
- Medios: los medios para lograr la fiabilidad, según el autor, se pueden dividir en dos grupos:
  - 1. Aquellos que son utilizados durante la construcción del SW (Evitación de Fallas (FA)<sup>2</sup> y FT).
  - 2. Aquellos que contribuyen con la validación del SW una vez desarrollado (Eliminación de Fallas (FR)<sup>3</sup> y Predicción de Fallas (FF)<sup>4</sup>).
- Atributos: describen las propiedades de la fiabilidad y proporcionan una forma de evaluar el logro de esas propiedades.

# 2.3. Impedimentos de la confiabilidad

El impedimiento de la confiabilidad o deteriodo de la confiabilidad es definido en términos de fallas, errores, y fracaso (Dubrova, 2013). Los mismos fueron desarrollados en la sección 2.1. Lo que tienen en común estos tres conceptos, es que avisan, o dan alerta cuando algo está mal (Dubrova, 2013). La diferencia radica, en que las fallas son a nivel físico; los errores se dan a nivel computacional; mientras que los fracaso se dan a nivel de sistema Dubrova (2013).

<sup>&</sup>lt;sup>2</sup>En inglés, Fault Avoidance

<sup>&</sup>lt;sup>3</sup>En inglés, Fault Removal

<sup>&</sup>lt;sup>4</sup>En inglés, Fault Forecasting

#### 2.3.1. Orígenes de la falla

Existen diversos orígenes de fallas. Estas pueden provenir desde terceros, en el caso de productos comprados, pueden deverse a una falta del conocimiento del problema, falta de tiempo, etc. Dubrova (2013) clasifica el orígen de las fallas en cuatro grupos: *especificación incorrecta, implementación incorrecta, defectos de fabricación y factores externos* 

Las especificaciones incorrectas son aquellas que surgen debidas a una incorrecta especificación de requerimiento o un mal diseño de una arquitectura o de un algoritmo (Dubrova, 2013). Estos orígenes de fallas son bastante comúnes en el desarrollo de sistemas. Un ejemplo típico citado por Dubrova (2013), es el caso de requerimientos que ignoran aspectos del medio ambiente en el que opera el sistema. Una mala redacción de un requerimiento o el olvido de uno de ellos, puede traer graves problemas, atrasos y pérdida de dinero, en el diseño y producción de un sistema espacial.

Las *implementaciones incorrectas*, se refieren a las *fallas de diseño*, surgen cuando el sistema implementado no cumple con los requerimientos (Dubrova, 2013).

Otro orígen de falla son los *defectos de los componentes* (Dubrova, 2013). Estos pueden incluir defectos de fabricación, defectos aleatorios dados en los componentes, etc.

Y por último se tienen las fallas que son causadas por *factores externos*, los cuales provienen del medio ambiente, usuarios u operadores (Dubrova, 2013). Ejemplos de estos factores externos pueden ser, vibraciones, cargas electroestáticas, temperatura, radición electromagnética, envío incorrecto de comandos, etc.

#### 2.3.2. Modos comúnes de fallas

Un *Modo Común de fallas (CMF)*<sup>5</sup> es una falla que ocurre simultaneamente en dos o más componentes redundantes (Dubrova, 2013).

Gangloff (1975) define los CMF como múltiples unidades de fracaso debido a una sola causa.

CMF son causados por fenómenos que crean dependencias entre unidades redundadas, lo que causa la falla de estas unidades simultaneamente (Dubrova, 2013).

Según como lo indica Dubrova (2013) el único enfoque para combatir los CMF, es mediante el diseño en diversidad. Diseño en diversidad es la implementación de más de una variante de la función en cuestión (Dubrova, 2013). Esto se puede lograr variando los algoritmos que se utilizan, diferentes equipos de trabajo realicen las mismas partes del sistema, de manera tal de tener redundancia en código, etc.

#### 2.3.3. Fallas en el Software

El SW difiere en gran medida con el Hardware (HW). En primer lugar el SW no envejece, no se deforma, tampoco se puede quebrar ni ser afectado por el medio ambiente. El SW es determinístico, siempre responde de la misma manera en el mismo ambiente, al menos que falle.

Por otro lado el SW se lo puede actualizar varias veces a lo largo del su ciclo de vida.

En tercer lugar, arreglar bugs de SW **no significa que el mismo sea más confiable**, al contrario pueden ocurrir nuevos errores (Dubrova, 2013).

<sup>&</sup>lt;sup>5</sup>En inglés, common-mode faults

Por último el SW es mucho más complejo y menos regular que el HW. Tests tradicionales y métodos de debug pueden ser inadecuados para los sistemas de SW

## 2.4. Medios de fiabilidad

Los medios de confiabilidad son métodos y técnicas que permiten el desarrollo de un sistema confiable (Dubrova, 2013). Los medios se pueden dividir en dos grandes grupos (Pullum, 2001):

- 1. Aquellos que son empleados durante el proceso de construcción del SW (Pullum, 2001),
- 2. y a quellos que ayudan en la validación del SW después que fue desarrollado (Pullum, 2001).

Dentro del primer grupo se tiene:

- Evitación de Fallas
- Tolerancia a Fallas

Por otro lado, en el segundo grupo se puede mencionar los siguientes:

- Eliminación de Fallas
- Predicción de Fallas

#### 2.4.1. Evitación de Fallas

FA son técnicas de mejoramiento de la fiabilidad utilizadas durante el desarrollo de SW para reducir el número de fallas introducidas durante la etapa mencionada (Pullum, 2001). Estas técnicas pueden estar presentes en las especificaciones y requerimientos del sistema, métodos de diseño de SW (Pullum, 2001).

Dubrova (2013) la denomina *prevensión de fallas*<sup>6</sup>, y coincide con el autor anterior, definiendo FA como técnicas de control de calidad durante la especificación y fabricación de los procesos de diseño.

#### 2.4.2. Tolerancia a Fallas

En la sección 2.6 (página 9) se discutirá con mayor detalle la FT. Esto es así ya que en este trabajo de tesis se tiene como principal punto de estudio la Tolerancia a Fallas.

#### 2.4.3. Eliminación de Fallas

La FR hace referencia a las técnicas utilizadas para mejorar la fiabilidad empleadas durante la validación y verificación del SW (Pullum, 2001). Estas técnicas mejoran la fiabilidad del SW mediante la detección de fallas, usando métodos de verificación y la validación, y eliminando las fallas que se van detectando (Pullum, 2001).

<sup>&</sup>lt;sup>6</sup>En inglés, Fault prevention

Por otro lado Dubrova (2013) indica que el FR se lleva a cabo durante fases de desarrollo de SW tanto como durante el ciclo de vida de un sistema. Durante la fase de desarrollo, FR consiste en tres pasos: *verificación, diagnóstico y correctión* (Dubrova, 2013). FR durante la vida operacional de un sistema, consiste en el mantenimiento preventivo y correctivo del mismo (Dubrova, 2013).

## 2.4.4. Predicción de Fallas

La FF se realiza mediante la realización de una evaluación del comportamiento del sitema con respecto a la ocurrencia o la activación de una falla (Dubrova, 2013). Esta evaluación puede ser:

- Cualitativa: que tiene como objetivo clasificar los modos de fallas o combinaciones de eventos que llevan al sistema al fracaso (Dubrova, 2013).
- Cuantitativa: que tiene como objetivo evaluar en término de probabilidad, el grado en el cual los atributos de fiabilidad son satisfechos (Dubrova, 2013).

FF incluye técnicas para aumentar la fiabilidad del sistema que son usados durante la validación del SW, con el objetivo de estimar la presencia de fallas y la ocurrencia o consecuencia de fracasos (Pullum, 2001)

# 2.5. Atributos de la fiabilidad

El objetivo final de la FT es desarrollar un sistema que sea fiable. Fiabilidad tiene muchas definciones, pero comúnmente es expresado como la probabilidad de **no fallar** (Hitt y Mulcare, 2007). "La fiabilidad es la probabilidad de que un sistema continúe funcionando correctamente durante un intervalo de tiempo particular" (Torres-Pomales, 2000).

La fiabilidad de un sistema SW puede ser descrita por una serie de atributos, los cuales son mencionados a continuación.

#### 2.5.1. Confiabilidad

La confiabilidad es la probabilidad de que un sistema continua operando correctamente durante un intervalo de tiempo dado (Torres-Pomales, 2000).

Dubrova (2013) coincide que la confiabilidad  $R(t)^7$  de un sistema es la probabilidad de que el sistema opere sin fracasos en el intervalo de tiempo [0,t].

La confiabilidad es una medida de la entrega correcta del servicio que brinda un sistema (Dubrova, 2013).

En sistemas críticos como el SW de vehículo espacial, es sumamente necesario que tenga una alta tasa de confiabilidad, ya que por ejemplo, perder el contacto con la nave, podría representar la pérdida de la misión, o una gran cantidad de datos. Otro ejemplo que se puede mencionar es de un satélite geoestacionario de comunicación, la pérdida de este servicio debe ser baja, casi nula (idealmente).

Coincidiendo Pressman (2001), define la confiabilidad como la "probabilidad de tener operaciones libre de fallas de un programa de computadora, en un ambiente específico para un tiempo específico". El mismo autor también indica que la confiabilidad es la Tiempo Medio Entre Fallas (MTBF)<sup>8</sup>. Donde:

<sup>&</sup>lt;sup>7</sup>En inlgés, Reliability

<sup>&</sup>lt;sup>8</sup>Del inglés, mean-time-between-failure

$$MTBF = MTTF + MTTR$$

Tiempo Medio de Fallas (MTTF) es el promedio de tiempo desde que empieza la operación del sistema hasta el tiempo que se produce la primera falla. Tiempo Medio de Reperación (MTTR) es el promedio de tiempo que se requiere para recuperarse, después de un fracaso, al correcto funcionamiento (Hanmer, 2007). MTBF es similar a MTTF, lo único que los diferencia es que MTBF es la suma de MTTF y MTTR. Según Hanmer (2007) MTBF es utilizado para aquellos sistemas que son reperables. Para el caso contrario se utiliza MTTF.

La IEEE (1990) define confiabilidad como "La capacidad del sistema o componente de realizar sus funciones requeridas bajo las condiciones establecidas durante un período de tiempo especificado".

# 2.5.2. Disponibilidad

Es la probabilidad de que el sistema esté operando correctamente en un determinado instante de tiempo (Torres-Pomales, 2000). La disponibilidad A(t) de un sistema en el instante de tiempo t es la probabilidad que el sistema esté funcionando correctamente en el instante t (Dubrova, 2013).

Dubrova (2013) realiza un definción matemática de A(t), llamandola también como, *punto de disponibilidad* o *disponibilidad instantanea*. Y la define como:

$$A(T) = \frac{1}{T} \int_0^T A(t) \, \mathrm{d}x$$

Para Hanmer (2007) la disponibilidad del sistema es el porcentaje de tiempo en el que es capaz de llevar a cabo una función determinada.

Para el caso de los sistemas que no pueden ser reperados el punto de disponibilidad es igual a la confiabilidad del sistema (Dubrova, 2013).

Los estados de disponibilidad pueden ser representados en términos de fuera de servicio por año. En la Tabla 2.1 que expone Dubrova (2013) se puede observar esta relación.

| Disponibilidad | Fuera de servicio |
|----------------|-------------------|
| 90%            | 36.5 días/año     |
| 99%            | 3.65 días/año     |
| 99.9%          | 8.76 horas/año    |
| 99.99%         | 52 minutos/año    |
| 99.999%        | 5 minutos/año     |
| 99.9999%       | 31 segundos/año   |

Tabla 2.1: Disponibilidad en relación con su baja de servicio por año. Tabla modificada de Dubrova (2013)

La IEEE (1990) define la disponibilidad como "El grado en el cual un sistema o componente se encuentra operativo y accesible cuando se requiere su uso. También es expresado en términos de probabilidad"

En satélites de órbita baja (LEO<sup>9</sup>), es necesario que el satélite se encuentre disponible al momento de su pasada por las estaciones terreras para poder descargar los datos que se fueron almacenando. Del mismo modo,

<sup>&</sup>lt;sup>9</sup>Del inglés, Low Earth Orbit

el satélite debe estar disponible para poder realizar las funciones necesarias para poder cumplir con su misión (como por ejemplo la registración de imágenes en una determinada zona terrestre).

Diferente es el caso para los satélites geoestacionarios, ya que estos deberían estar disponible la mayor parte del tiempo, ya que en la mayoría de los casos son de comunicación.

#### 2.5.3. Seguridad

La seguridad se considera como una extensión de la confiabilidad (Dubrova, 2013). Seguridad S(t) es definidad como la probabilidad que el sistema sea capaz de realizar su función correctamente o discontinuar su función en una manera a prueba de fallas (Dubrova, 2013).

Según Torres-Pomales (2000) la seguridad es la probabilidad de que el sistema levará a cabo sus tareas de una manera no peligrosa. Un peligro se lo puede definir como "un estado o condición de un sistema, que juntos con otras condiciones ambientales de el sistema, conducirá inevitablemente a un accidente" (Torres-Pomales, 2000).

La seguridad es requerida para aquellas aplicaciones de seguridad crítica donde un fracaso puede resultar en lesiones humanas, pérdidas de vida o desastres ambientales (Dubrova, 2013).

Para satélites es importante que se tenga una alta seguridad, ya que una pérdida de una misión representa grandes cantidades de dinero perdido.

#### 2.6. Tolerancia a falla

En sistemas críticos, como el de una planta nuclear, sistema médico, el sistema de vuelo de un avión, o el de un satélite, el SW (ni el hardware) deben fallar, ya que esto daría como resultado la pérdida de muchas vidas. Para el caso particular, del vehículo espacial (satélite, transbordador, lanzador), la falla del SW podría tener como consecuencia la pérdida de una misión, y/o una gran cantidad de dinero, y hasta vidas en algunos casos (vuelos tripulados). La principal diferencia entre el SW de una misión satelital, con la de un avión o una planta nuclear, o un sistéma médico, es que ante alguna falla o error, se torna complicado llegar hasta el satélite para realizar una actualización o cargar un parche de SW.

La IEEE (1990) define como SW crítico a "aquel cuyo fracaso puede tener un impacto en la seguridad, o puede causar grandes pérdidas financieras o sociales". El SW de estos sistemas críticos deben tener la capacidad de seguir funcionando, aún en la presencia de fallas, o errores. Imaginese el caso, de un avión comercial, con pasajeros a bordo, y de repente ocurre un problema debido al mal diseño del SW (por ejemplo un overflow de memoria). En esta situación es impensable que el SW se congele y que el piloto reinicie el sistema, esperar que se reestablezca al estado en el cual se encontraba antes del problema, para seguir funcionando. Lo mismo ocurre con el SW de naves espaciales, hay situaciones en la que no se puede esperar y es preferible que el sistema siga funcionando aún en la presencia de fallas.

Tal lo como indica Pressman (2001) las fallas de SW implica problemas cualitativos que son descubiertos después de que el SW es llevado a los usuarios y probados por ellos. Una gran cantidad de estudios indican que en las actividades de diseño se introducen entre un 50 y 65 porciento de errores del total de errores que se dan durante el proceso del SW (Pressman, 2001). Esto no debe ocurrir en el ámbito espacial, ya que una vez que el sistema es utilizado, es muy dificil corregir los errores que surgen

Cabe aclarar que el SW al no ser un componente físico, no puede ser tratado de la misma manera que un componente hardware. Como ejemplifica Torres-Pomales (2000), las fallas que surgen a nivel de bit, como por

ejemplo en un disco duro, son fallas del dispositivo de almacenamiento y pueden ser mitigadas con la aplicación de técnicas de redundancias. Esto no es así para el SW. Por lo tanto evitar los errores en el a nivel de SW no es tan trivial como en el hardware.

A nivel de SW las fallas son llamadas "bugs" (tal como se indica en la sección 2.1 en la página 2), y existe un solo tipo de fallas que es introducido durante el desarrollo del SW (Torres-Pomales, 2000). Las fallas en el SW son el principal motivo de que todo un sistema fracase.

La FT, puede ser utilizada como una capa más de protección (Torres-Pomales, 2000). Esta aplicada al SW se refiere al uso de técnicas que permiten seguir brindando el servicio en un nivel aceptable de perfomance y seguridad después que una falla de diseño ocurra.

Debe hacerse una diferencia entre FT y calidad. Hanmer (2007) lo define de la siguiente manera: "FT es la capacidad del sistema a ejecutarse apropiadamente a pesar de la presencia de fallas. FT ocurre en tiempo de ejecución". Cuando se habla que un sistema es tolerante a fallas, signfica que fue diseñado de tal manera, que puede seguir funcionando correctamente aún en la presencia de errores de sistemas (Hanmer, 2007).

En cambio calidad, tal como lo define Hanmer (2007), "se refiere a cuán libre de fallas está el sistema. Técnicas de calidad que indican cómo el SW es creado. Si el sistema fue testeado."

Un sistema de alta calidad tendrá menor número de fallas, que esto representa menor número de fallas en tiempo de ejecución. La reducción del número de fallas no implica que los resultados de los defectos son menos severos (Hanmer, 2007). El sistema debe tomar medidas para reducir el impacto de los errores y fallas, y es allí donde surge la FT.

Un sistema tolerante a fallas provee una continua y segura operación, aún durante la presencia de fallas. Un sistema tolerante a fallas, es un elemento crítico para una arquitectura de vuelo, lo cual incluye hardware, SW, timing, sensores y sus interfaces, actuadores, elementos y datos de comunicación con los diferenes elementos (Hitt y Mulcare, 2007).

Este tipo de sistemas debería detectar los errores causados por fallas, evaluar los daños producidos por la falla, aislar a la misma y por último recueperarse, en ese caso se habla de aquitectura o sistemas FDIR<sup>10</sup>.

FT es la capacidad de un sistema a continuar funcionando a pesar de la ocurrencia de fallas (Dubrova, 2013). Un sistema tolerante a fallas debe ser capaz de manejar fallas tanto de hardware como de SW. La FT es necesaria debido a que es imposible construir un sistema perfecto.

El objetivo de la FT es el desarrollo de sistemas los cuales funcionen correctamente en presencia de fallas (Dubrova, 2013). La FT es alcanzada mediate la utilización de algunos tipos de redundancias (Dubrova, 2013). *Redundancia* es la provisión de capacidades funcionales que sería innecesario para enternos libres de fallos (Dubrova, 2013). Esto significa tener hardware adicionales, check bits en una cadena de datos, o algunas líneas de código que verifica el correcto resultado del SW. La redundancia permite enmascarar una falla, o detectarla, para luego localizarla, contenerla y recuperarse de esta (Dubrova, 2013). Las técnicas de tolerancia de fallas se emplean durante la adquisición, o desarrollo del SW. Permite al SW tolerar fallas después que este haya sido desarrollado (Pullum, 2001). Cuando una falla se da, las técnicas de FT proveen mecanismos al sistema de SW para prevenir el fracaso del sistema (Pullum, 2001).

<sup>&</sup>lt;sup>10</sup>FDIR, del inglés: Failure detect, isolate and recover

# 2.7. Clasificación de un sistema de control tolerante a fallas

## 2.8. Redundancia en el software

A pesar de lo comentado anteriormente, sobre la importancia del SW, todavía existe una creencia, de que el SW aparece por arte de magia, y que los programadores no son nunca, lo suficientemente capaces, de hacer un SW libre de errores. Salvo aquellas empresas u organizaciones que tienen un proceso maduro de desarrollo de SW, el resto cae en el error de pensamiento mencionado anteriomente.

Dubrova (2013) explica que la FT aplicado en el SW no está tan entendido, ni maduro, como es en el caso de la FT aplicada en hardware. Si una falla exisitiera en el SW, esta se haría "visible", solo cuando las condiciones relevantes ocurran (Dubrova, 2013). Y muchas veces por tiempo o costo, no se realizan los tests cubriendo todos los posibles ambientes reales, lo cual tiene consecuencias desastrosas, tal como se expone en la sección 1.1 (página).

Para sistemas complejos o grandes, donde existe una gran cantidad de estados, implica que solo una pequeña porción del SW puede ser verificada correctamente (Dubrova, 2013). Los tests tradicionales y métodos de depuración actuales, no alcanzan para grandes sistemas (Dubrova, 2013). La utilización de métodos formales para describir las característica requeridas por el comportamiento del SW, exigen gran complejidad computacional, y solo son aplicables en ciertas situaciones (Dubrova, 2013).

Las técnicas de FT pueden dividir en dos grupos:

- técnicas de una sola versión, se utilizan cuando existe una sola versión del SW en el sistema.
- técnicas multi-versión, se utilizan cuando se desarrollan varias versiones de una misma función.

Estas se explican en las siguientes secciones.

# 2.8.1. Técnicas single version

Estas técnicas son utilizadas para tolerar parcialmente las fallas del diseño de SW (Pullum, 2001). Técnicas single-version de FT se basa en el uso de redundancia aplicada a una única versión de una pieza de SW para detectar y recuperarse de fallas (Torres-Pomales, 2000).

Estas técnicas a los software que cuentan con una sola versión, un número capacidades funcionales que no serían necesarias dentro de un ambiente libre de fallas (Dubrova, 2013).

#### 2.8.1.1. Estructuras de software

En Torres-Pomales (2000) se mencionan dos técnicas de estructuración del SW que son muy buenas a la hora de mantener FT en el SW.

La definción de una arquitectura en el software es de suma importancia ya que proveen las bases para la implementación de FT (Torres-Pomales, 2000). Una de las técnicas utilizadas en el desarollo del software es la modularización. Esta consiste en descomponer el problema en componentes manejables. Esto tiene como resultado que sea más eficiente la aplicación de la FT en el diseño de un sistema (Torres-Pomales, 2000).

El particionado es otra técnica mencionada en Torres-Pomales (2000), lo cual provee aislación entre módulos independentes del sistema. Esta técnica permite descomponer al problema en partes separadas (Pressman,

2001). El particionado puede ser horizontal u vertical. En el primero se descomponen el problema moviendose en forma horizontal en la jerarquía, mientras que el segundo se parte de lo más general hasta llegar a lo detallado, moviendose verticalmente en la jerarquía (Pressman, 2001).

Sistema de cierre es un principio de FT, en el cual ninguna acción es permitible sin una autorización expresa (Torres-Pomales, 2000). Siguiendo este principio ninguna de las funciones que componen al sistema deberían tener más capacidad de la necesaria (Torres-Pomales, 2000). Las ventajas de desarrollar un sistema bajo este pricipio, es que es sencillo el manejo de errores, y evitar la propagación de fallas si ocurriesen.

#### 2.8.2. Técnicas multi-version

Las técnicas de multi-version utilizan dos o más versiones diferentes del mismo módulo de SW (Dubrova, 2013) (Torres-Pomales, 2000), lo cual satisface el requerimiento de diversidad.

El objetivo de utilizar diferentes versiones de SW es que es construido de diferentes maneras, por lo tanto fallarían de diferente maneras (Torres-Pomales, 2000).

#### 2.8.3. Técnicas de detección de fallas

Para los SW tolerantes a fallas, de una sola versión, se suelen utilizar varios tests de "aceptación" para detectar fallas (Dubrova, 2013). Es necesario que estos SW cuenten con dos propiedades: auto protección 11 y auto check 12 (Torres-Pomales, 2000). La auto protección significa que los componentes de sistema tienen la capacidad de protegerse así mismo mediante la detección de errores (Torres-Pomales, 2000). La propiedad de auto check significa que los componente son capaces de detectar fallas internas y tomar las acciones necesarias para evitar la propagación del error.

El resultado del sistema depende del resultado de los tests. Si el resultado pasa exitosamente el test, este es el correcto, caso contrario significa la presencia de fallas (Dubrova, 2013). Un test es más efectivo si se puede calcular de una manera simple (Dubrova, 2013).

Las técnicas utilizadas son las siguientes:

- *Timing checks:* se agrega a los sistemas una restricción de tiempo. Basado en esa restricción se puede deducir si el comportamiento del sistema se desvió (Dubrova, 2013). Los más utilizado es el *watchdog timer*, este es un contador, actualizado con un *timer* que detecta si un módulo de SW se bloqueó o congeló, entonces se reincia ese módulo o el sistema.
- Coding checks: se utiliza en los sistemas donde los datos se codifican usando técnicas de redundancia de datos (Dubrova, 2013).
- Reversal checks: son aquellos donde se toma los valores de salida, y con ellos se busca encontrar cuáles fueron los datos de entrada. Si los datos de entrada reales coinciden con los calculados (para una misma salida), este se encuentra libre de fallas (Dubrova, 2013).
- Reasonableness checks: usa propiedades semánticas en los datos para detectar fallas (Dubrova, 2013).
- *Structural checks:* se basa en el conocimiento de las propiedades de la estructura de datos (Dubrova, 2013).

<sup>&</sup>lt;sup>11</sup>En inglés, self-protection

<sup>&</sup>lt;sup>12</sup>En inglés, self-checking

■ *Replication checks:* se basa en la comparación de resultados de varios componentes (Torres-Pomales, 2000).

Se suelen utilizar árboles de fallas, como una técnica auxiliar en el desarrollo de sistemas para la detección de fallas (Torres-Pomales, 2000). El árbol de falla permite obtener un enfoque top-down de las diferentes fallas que se pueden dar. El árbol no cubre todas las fallas que puedan darse, pero si ayudan en un alto grado en el desarrollo de SW tolerante a fallas (Torres-Pomales, 2000).

## 2.8.4. Técnicas de recuperación de fallas

Una vez que la falla es detectada, el sistema debe proceder a recuperarse de aquella, y volver a un estado operacional normal (Dubrova, 2013). Si los mecanismos de detección y contención de fallas fueron desarrollados correctamente, esta es contenida dentro de un set de módulos en el momento de la detección (Dubrova, 2013).

#### 2.8.4.1. Manejo de excepciones

En muchos SW y lenguajes de programación, se logra recuperarse mediante el manejo de excepciones. El manejo de excepciones es la interrupción del funcionamiento normal para responder a un funcionamiento anormal del sistema (Torres-Pomales, 2000). Los posibles eventos que pueden lanzar una excepción son:

- Excepciones de interfaces, son lanzadas por un módulo cuando se da una solicitud inválida de algún servicio (Dubrova, 2013).
- 2. Excepciones locales, son lanzadas por algún módulo cuando sus propios mecanismos de detección de fallas encuentran un problema interno (Dubrova, 2013).
- 3. Excepciones de fracaso, son lanzadas cuando un mecanismos de detección encuentra una falla, per es imposible recueperarse de esa falta (Dubrova, 2013).

#### 2.8.4.2. Checkpoint y Restart

Para los software de una sola versión existen pocos mecanismos de recuperación. Checkpoin y restart es uno de ellos. También es conocido como *backward error recovery* (Dubrova, 2013). La mayoría de las fallas que se dan en los SW son debido a fallas que provienen del diseño, tal como se mencionó anteriomente. Estas fallas son activadas por entradas al sistema (Dubrova, 2013).

Este mecanismo cuenta con el módulo principal que se encuentra en ejecución combinado con un bloque que realiza tests de aceptación. Si se detecta una falla, en el bloque de testeo, se envía una señal de "reincio", para que el módulo principal vuelva al estado anterior, es decir, antes de producirse el error. Este estado anterior se encuentra almacenado en una memoria checkpoint (Dubrova, 2013). En la figura 2.2<sup>13</sup>, se muestra la representación de este mecanismo.

Existe dos tipos de checkpoints, estáticos y dinámicos. Los checkpoints dinámicos toman una "fotografía" del estado del sistema antes de comenzar la ejecución del SW y lo guarda en memoria (Dubrova, 2013). Si se detecta una falla, el sistema regresa a ese estado y comienza de nuevo su ejecución (Dubrova, 2013). Los

<sup>&</sup>lt;sup>13</sup>Basado en Dubrova (2013) y Torres-Pomales (2000)



Figura 2.2: Representación de checkpoint y restart

checkpoints estáticos se basan en regresar el módulo a un estado predeterminado (Torres-Pomales, 2000). Se puede regresar a un estado inicial o a un set de estados predeterminados (Torres-Pomales, 2000).

Por otro lado se encuentran los checkpoints dinámicos. Estos usan checkpoints creados dinámicamente. Estas son imágenes del estado del sistema en varios puntos durante la ejecución (Torres-Pomales, 2000).

Hay tres formas de crear los checkpoints dinámicamente:

- 1. Equidistantes, en el cual los intervalos que se crean los checkpoints son siempre iguales, los intervalos se elijen teniendo en cuenta el rate de falla (Dubrova, 2013).
- 2. Modular, en el cual los checkpoints se crean al principio o al final de la ejecución de un módulo.
- 3. Random, los checkpoints se crean aleatoriamente en el tiempo.

#### 2.8.4.3. Procesos pares

Los procesos pare utilizan dos versiones identicas de un proceso de SW que corre en procesadores separados (Dubrova, 2013) (Torres-Pomales, 2000). El mecanismo de recuperación que se utiliza es el de checkpoint y restart (Torres-Pomales, 2000).

Como se puede observar en la figura 2.4<sup>14</sup> el primer procesador se encuentra activo. Este envía un checkpoint al segundo procesador. Si una falla se detecta, el primer procesador se apaga y se cambia al segundo procesador. El segundo procesador carga el checkpoint y continua con la operación. Toma el rol del primer procesador (Torres-Pomales, 2000). Luego el primer procesador realiza un auto test para verificar si el problema continua. Si se encuentra que este procesador sigue teniendo problema, se continúa trabajando con el segundo procesador (Dubrova, 2013).

La principal ventaja que brinda este mecanismo según Dubrova (2013) es que permite entregar el servicio ininterrumpidamente.

#### 2.8.4.4. Diversidad de datos

La diversidad es una técnica utilizada para mejorar la eficiencia en los checkpoint y restart, usando diferentes entradas por cada reinicio (Dubrova, 2013). Esto se basa en que las fallas en el SW son dependientes de

<sup>&</sup>lt;sup>14</sup>Basada en Dubrova (2013) y Torres-Pomales (2000)



Figura 2.3: Representación del proceso pares

las entradas (Dubrova, 2013). Es poco probable que la misma falla se de con la misma secuencia de entrada (Dubrova, 2013).

## 2.8.4.5. Bloques de recuperación

Esta técnica combina las bases de la técnica de checkpoints y restart enfocada con múltiples versiones de un componente de SW en el sentido de que una versión de SW diferente es lanzada cada vez que se encuentra una falla (Torres-Pomales, 2000). Los checkpoints son creados antes de que una versión de SW se ejecuta (Torres-Pomales, 2000). La ejecución de las múltiples versiones pueden ser secuencial o paralelas dependiendo de la disponibilidad de la capacidad de procesamiento y perfomance requerida (Torres-Pomales, 2000).

La representación de esta técnica se puede observar en el figura [AGREGAR IMAGEN]. Las versiones son diferentes implementaciones de un mimo programa. Solo uno de estas versiones provee la salida del sistema. Si un error es detectador por el test de aceptación, se vuelve hacia atrás, se retoma el último checkpoint, y se vuelve a ejecutar el módulo de SW pero con una versión diferente a la que se ejecutó anteriomente (Dubrova, 2013).

Los checks del test de aceptación deben mantenerse simples para mantener la velocidad de la ejecución (Dubrova, 2013).



Figura 2.4: Configuración de bloques de recuperación

## 2.8.4.6. Programación N-version

# 2.8.4.7. Programación N-Auto Checking

# 2.9. Técnica de evaluación de fiabilidad

La evaluación de la fiabilidad es de suma importancia para el desarrollo de sistemas críticos, ya que permite identificar que aspectos del comportamiento del sistema juega un papel importante (Dubrova, 2013).

- 1. Modelado de un sistema en la fase de diseño.
- 2. Aseguramiento del sistema en la fases finales de desarrollo (testing).

El análisis confiabilidad tiene tres enfoques importantes:

- Confiabilidad de HW
- Confiabilidad de SW
- Confiabilidad humana

En este trabajo de tesis se pondrá énfasis en el estudio en la confiabilidad del SW a nivel de sistema.

La evaluación de la fiabilidad tiene dos aspectos. En primer lugar se tiene una *evaluación cualitativa* que permite identificar, clasificar y medir modos de fallas, o eventos combinacionales que puedan provocar una falla. El otro aspecto es la *evaluación cuantitativa*, la cual permite evaluar en términos de probabilidad los atributos de la fiabilidad (Sección 2.5), disponibilidad, seguridad.

El análisis de confiabilidad es de gran importancia ya que provee información que es la base de la toma de desición. Esto es aplicado a diferentes áreas, tales como análisis de riesgos, protección ambiental, calidad, optimización de mantenimientos y operaciones y diseño de ingeniería (Rausand y Hoyland, 2004).

#### 2.10. Medidas comunes de fiabilidad

Las medidas de fiabilidad más comunes son las siguientes: failure rate, tiempo medio a la falla, tiempo medio de reparación y tiempo medio entre fallas.

#### 2.10.1. Failure rate

Failure rate  $\lambda$  es el número esperardo de fallas por unidad de tiemp (Dubrova, 2013). Es usual utilizar la dimensión *fallas/horas*.

Generalmente,  $\lambda$  se encuentra a nivel de componente. Para conocer el failure rate del sistema completo, se puede realizar (a groso modo) una sumatoria de los  $\lambda$  de los componentes que integran el sistema.

$$\lambda = \sum_{i=1}^{n} \lambda_i$$

.

La evolución de  $\lambda$  a través del tiempo, no tiene el mismo comportamiento tanto para HW como para SW Si se devide el ciclo de vida de un sistema en las siguientes fases: mortalidad prematura (I), vida útil (II), desgaste (II) (Dubrova, 2013) se aprecia, para el caso del HW, lo que se denomina *curva de la bañera* la cual puede observarse en la Figura 2.5. En una primera fase,  $\lambda$  decrese, ya que a través de los procesos de testing se van descubriendo y resolviendo los errores. Luego se da un periodo de estabilización. Y al final, el HW sufre el paso del tiempo, y se desgasta, aumentando la tasa de fallas.



Figura 2.5: Failure rate de HW vs tiempo

Para el SW es totalmente diferente. En primer lugar cuando se realiza una actualización, se aumenta la complejidad, como así también la probabilidad de fallas, con ello el failure rate. Otra diferencia sustancia con el HW es que el SW no se desgasta con el tiempo. En la Figura 2.6 se aprecia a través de tiempo. Esta curva suele llamarse curva serrucho. El failure rate del SW decrece en función del tiempo. En estos tipo de sistemas la tasa de falla depende de varios factores como pueden ser el proceso utilizado en el diseño y codificación, complejidad del SW, tamaño del SW, etc (Dubrova, 2013).



Figura 2.6: Failure rate SW vs tiempo

A lo largo de la vida de sistema se supone el failure rate  $\lambda$  como constante. Por lo tanto la confiabilidad del sistema varía exponencialmente con respecto al tiempo (Dubrova, 2013):

$$R(t) = e^{-\lambda t}$$

Esto se conoce como *ley de la falla exponencial*(Dubrova, 2013). El gráfico de confiabilidad R(t) vs tiempo se muestra en la Figura 2.7.

Figura 2.7: Confiabilidad vs tiempo

## 2.10.2. Tiempo medio medio de falla

El tiempo medio de falla (MTTF<sup>15</sup>) de un sistema es el tiempo esperado que transcurra hasta la primera falla que se detecte en el sistema. En terminos de confiabilidad, MTTF se define de la siguiente manera (Dubrova, 2013) (Rausand y Hoyland, 2004)

$$\int_0^\infty R(t)dt$$

# 2.10.3. Tiempo medio de reparación

El tiempo medio de reparación (MTTR<sup>16</sup>)de un sistema, es el promedio de tiempo que se requiere para reparar al sistema. MTTR se especifica en términos de la tasa de reparación  $\mu$  (Dubrova, 2013) (Rausand y Hoyland, 2004), el cual es el número esperarado de reparaciones por unidad de tiempo:

$$MTTR = \frac{1}{\mu}$$

El MTTR depende de los mecanismos de recuperación ante fallas que se utilicen en el sistema, localización del sistema, scheduler de mantenimiento (Dubrova, 2013). Con esto se puede definir la disponibilidad como sigue:

$$A(\infty) = \frac{MTTF}{MTTF + MTTR}$$

Muchas veces se utiliza MDT (<sup>17</sup>) en vez de MTTR, para denotar más claro que es el tiempo medio que el sistema se encuentra fuera de sericio.

#### 2.10.4. Tiempo medio entre fallas

El tiempo medio entre fallas (MTBF<sup>18</sup>) de un sistema es el tiempo promedio entre dos fallas del sistema.

$$MTBF = MTTF + MTTR$$

#### 2.10.5. Cobertura de fallas

La cobertura de fallas es la probabilidad de que el sistema no interrumpirá su actividad cuando una falla se presente. En términos matemáticos la cobertura de fallas la probabilidad condicional P(A|B). Existen diferentes coberturas de fallas, dependiendo de si se está tratando con detección de fallas, localización de fallas, contención de fallas o recuperación de fallas (Dubrova, 2013). Siendo A detección, localización, contensión o recuperación de fallas, y B la existencia de fallas.

# 2.11. Métodos de cálculos de fiabilidad

Para evaluar la fiabilidad de sistemas se pueden utilizar diagramas de bloque de confiabilidad y procesos de Markov (Dubrova, 2013)

<sup>&</sup>lt;sup>15</sup>Del inglés, Mean Time To Failure

<sup>&</sup>lt;sup>16</sup>Del inglés, Mean Time To Repair

<sup>&</sup>lt;sup>17</sup>Del inglés, Meann Downtime

<sup>&</sup>lt;sup>18</sup>Del inglés, Mean Time Between Failure

## 2.11.1. Diagramas de bloques de confiabilidad

#### 2.11.1.1. Cálculo de confiabilidad

Para medir la confiabilidad de un sistema mediante diagrama de bloques, se debe dividir el sistema objetivo en partes paralelas y en serie. Se computa la confiabilidad de las partes. La confiabilidad del sistema estará compuesta por la confiabilidad de ambas partes (Dubrova, 2013). Entonces

$$R(t) = \begin{cases} \prod_{i=1}^{n} R_i(t) & \text{para estructuras en serie} \\ 1 - \prod_{i=1}^{n} (1 - R_i(t)) & \text{para estructuras en paralelo} \end{cases}$$

Esto nos indica que un sistema paralelo, es más confiable que uno en serie, aún así si sus componentes son menos confiables. Tal como ejemplifica Dubrova (2013), si se diseña un sistema en serie de 100 componentes, con una confiabilidad de 0.999, el sistema completo tendrá una confiabilidad de:  $0.999^100 = 0.905$ . Mientras que, para un sistema paralelo, con solo cuatro componentes, con una confiabilidad menor (0.95) la confiabilidad del sistema será  $1 - (0.95)^4 = 0.99999375$ . El punto en contra de los sistemas paralelos, es que representan un costo mayor que las estrucutras en serie (Dubrova, 2013).

# 2.11.1.2. Cálculo de disponibilidad

Si se asume que el tiempo de falla y de recuperación son independientes, entonces se puede utilizar diagramas de bloques para calcular la disponibilidad del sistema (Dubrova, 2013). Se puede observar que el cálculo es similiar al calculo de confiabilidad.

$$A(t) = \begin{cases} \prod_{i=1}^{n} A_i(t) & \text{para estructuras en serie} \\ 1 - \prod_{i=1}^{n} (1 - A_i(t)) & \text{para estructuras en paralelo} \end{cases}$$

#### 2.11.2. Utilización de procesos de Markov

El principal objetivo del análisis de los procesos de Markov es calcular  $P_i(t)$  la probabilidad de que el sistema se encuentre en el estado i en el tiempo t. Con esto se puede calcular facilmente la confiabilidad, disponibilidad o seguridad del sistema (Dubrova, 2013).

Para determinar  $P_i(t)$  se debe derivar una serie de ecuaciones diferenciales, una por cada estado del sistema. Estas ecuaciones se denominan ecuaciones de estado de transición. Las ecuaciones de los estados de transición se representan en una matriz M denominada matriz de transición. Cada elemento  $m_{ij}$  de la matriz M es un rate de transición entre los estados i y j

$$M = \begin{bmatrix} m_{11} & m_{12} & \dots & m_{k1} \\ m_{12} & m_{22} & \dots & m_{k2} \\ & & & \dots \\ m_{1k} & m_{2k} & \dots & m_{kk} \end{bmatrix}$$

Haciendo P(t) un vector en el cual el i-simo elemento es la probabilidad  $P_i(t)$  de que el sistema se encuentra en el estado i en el tiempo t. Con ello se tiene:

$$\frac{d}{dt}P(t) = MP(t)$$

(Dubrova, 2013).

Para calcular confiabilidad, disponibilidad y seguridad solo es necesario reemplazar en la matriz M los rate correspondientes.

# 2.12. Modelos de falla

En esta sección se explica con un poco más de detalle algunos conceptos que se presentaron en secciones anteriores. Los conceptos que se detallarán son los siguientes:

- Función de confiabilidad R(t)
- Función de tasa de falla λ
- Tiempo medio hasta la falla (MTTF)
- Vida residual media (MRL)

También existen varias distribuciones de probabilidad que son utilizados para modelar el tiempo de vida de componentes de sistemas. Algunos de estos modelos de distribución del tiempo de vida son los siguientes:

- Distribución binomial
- Distribución exponencial
- Distribución gamma
- Distribución Weibull
- Distribución normal
- Distribución Birnbaum-Saunders
- Distribución inversa de Gauss

# 2.12.1. Tiempo hasta la falla

El tiempo hasta la falla (T) de un componente del sistema, es el lapso de tiempo desde que el componente empieza a operar hasta la primera falla que se produzca (Rausand y Hoyland, 2004).

**Nota:** Se asume que el componente que falla, no puede ser recuperado. Por otro lado, si un sistema falla, puede recuperarse (a través de tecnicas de reconfiguración, componentes back-up).

T no significa que es solo una medida de tiempo. T puede significar (Rausand y Hoyland, 2004):

- Cantidad de kilómetros de un automóvil
- Número de rotación de un motor
- Número de ciclos de trabajo

Debe destacarse que esta no solo es una variable discreta. Una variable discreta puede ser aproximada a una variable continua. Suponiendo que T es una distribución continua con densidad de probabilidad f(t) y una función de distribución:

$$F(t) = P(T) = \int_0^t f(u) du \text{ para t } > 0$$

F(t) demuestra la probabilidad de que un componente falle dentro de un intervalo de tiempo (0,t] (Rausand y Hoyland, 2004).

La función de densidad de probabilidad f(t) se define como sigue (Rausand y Hoyland, 2004):

$$f(t) = \frac{d}{dt}F(t) = \lim_{\Delta t \to 0} \frac{F(t + \Delta t) - F(t)}{\Delta t} = \lim_{\Delta t \to 0} \frac{P(t < T \le t + \Delta t)}{\Delta t}$$

Esto indica que para un  $\Delta t$  pequeño,

$$P(t < T < t + \Delta t) \approx f(t)\Delta t$$

#### 2.12.2. Función de confiabilidad

La función de confiabilidad se define como sigue:

$$R(t) = 1 - F(t) = P(T > t)$$

para t > 0.

#### 2.12.3. Tasa de falla

La probabilidad de que un componente falle en un intervalo de tiempo  $(t, t + \Delta t]$  dado que el componente ha funcionando hasta t, se tiene:

$$P(t < T \le t + \Delta t | T > t) = \frac{P(t < T \le t + \Delta)}{P(T > t)} = \frac{F(t + \Delta t) - F(t)}{R(t)}$$

Si se divide esta probabilidad por un intervalo de tiempo  $\Delta t$ , y haciendo  $\Delta t - > 0$ , se obtiene la función de tasa de falla.

#### 2.12.4. Tiempo medio hasta la falla

El MTTF de un componente está definido por (Dubrova, 2013) Rausand y Hoyland (2004):

$$MTTF = E(T) = \int_0^\infty t f(t) dt$$

Se demuestra en Rausand y Hoyland (2004) que

$$MTTF = \int_0^\infty R(t)dt$$

#### 2.12.5. Vida restante media

Considerando un comoponente con tiempo hasta la falla T, que es colocado en opración en el tiempo t = 0 y continúa funcionando en el instante t. La probabilidad de que el componente en de edad t sobrevive en un intervalo x, entonces se tiene (Rausand y Hoyland, 2004):

$$R(x|t) = P(T > x + t|T > t) = \frac{P(T > x + t)}{P(T > t)} = \frac{R(x + t)}{R(t)}$$

**Entonces:** 

$$MRL(t) = \frac{1}{R(t)} \int_{t}^{\infty} R(x) dx$$

Nótese que cuando t = 0, el componente es nuevo, y entonces  $\mu(0) = \mu = MTTF$ .

#### 2.12.6. Distribución binomial

La distribución binomial es uno de lo más utilizados (Rausand y Hoyland, 2004). Esta distribución es utilizada en los siguientes casos:

- Cuando se tienen n ensayos independientes
- Cada ensayo tiene dos posibles resultaods
- La P(A) = p es la misma en todos los ensayos

Entonces

$$P(X = x) = \binom{n}{x} \cdot p^{x} (1 - p)^{n - x}$$

Donde  $\binom{n}{x}$  es el coeficiente binomial y X es el número de n ensayos para alcanzar un resultado A (Rausand y Hoyland, 2004).

#### 2.12.7. Distribución exponencial

Considerando un componente que entra en operación en el instante t = 0. El tiempo hasta la falla T del componente tiene una función de densidad de probabilidad de la siguiente forma Rausand y Hoyland (2004):

$$f(t) = \begin{cases} \lambda e^{\lambda t} & \text{para t > 0, } \lambda > 0\\ 0 & \text{para cualquier otro caso} \end{cases}$$

Esta distribución es la que se denomina distribución exponencial con parámetro  $\lambda$ .

La confiabilidad de esta función es:

$$R(t) = P(T > t) = \int_{t}^{\infty} f(u)du = e^{\lambda t}$$
 para t>0

El MTTF es:

$$MTTF = \int_0^\infty R(t)dt = \int_0^\infty e^{\lambda t}dt = \frac{1}{\lambda}$$

La tasa de falla de esta distribución es  $\lambda$ 

La distribución exponencial es lo que se utiliza más comúnmente en los análisis de confiabilidad.

El MTTF es:

$$MTTF = \int_0^\infty R(t)dt = \int_0^\infty e^{-t} = \frac{1}{\lambda}$$

Si hacemos:

$$R(MTTF) = R(\frac{1}{\lambda}) = e^{-1} \approx 0.3679$$

se puede calcular la probabilidad de que un componente sobreviva durante el tiempo medio hasta la falla (Rausand y Hoyland, 2004).

Mientras que la tasa de falla es:

$$z(t) = \frac{f(t)}{R(t)} = \frac{\lambda e^{-\lambda t}}{e^{-\lambda t}} = \lambda$$

**NOTA IMPORTANTE:** Como se mencionó anteriormente, existen numerosas distribuciones de probabilidad para medir el tiempo de vida de los componentes. En este trabajo de tesis, se trabaja únicamente con la distribución exponencial, debido a que es una de las más sencillas, y la más utilizada en la bibliografía.



### Estado del arte

#### 3.1. Árboles binarios

El concepto de arquitecturas de árboles binarios es aplicable en el desarrollo de sistemas de computadoras jerárquicas, y sobre todo en computadoras de alta perfomance (Raghavendra et al., 1984). Existen dos diferentes mecanismos de tolerancia a fallas (Raghavendra et al., 1984):

- 1. Esquemas con back up.
- 2. Esquemas con degradación de perfomance.

Teniendo en cuenta que estas arquitecturas son aplicadas principalmente en la construcción de circuitos VLSI<sup>1</sup> (Singh y Youn, 1991), se asume su aplicabilidad a arquitecturas de aviónica.

La FT y la perfomance de los sistemas dependen de las capacidades de las redes que se utilizan para la comunicación entre unidades de procesamiento (Raghavendra et al., 1984).

Un árbol binario está compuesto por nodos y enlaces (links). Existe un nodo central dónde se desprenden dos nodos hijos, estos se encuentran enlazados al nodo padre. Así recursivamente, se van generando dos nuevos hijos, por cada uno de los nodos. Los árboles binarios están divididos en niveles, que representa cada una de las generaciones de nodos.

Este tipo de topología tiene algunas problemas que la FT debe hacer frente. En las arquitecturas basadas en árboles binario, existe una cierta probabilidad de que un nodo o un link falle (Raghavendra et al., 1984). Las arquitecturas de árbol binario son en general físicamente estáticas. Por lo tanto, cualquier falla en uno de sus nodos (o links) demandaría una avería a nivel sistema, lo cual daría lugar a una pérdida de misión. Para ello se debe dotar a la arquitectura de un mecanismo de reconfiguración.

#### Agregar más bibliografía si se lee más sobre el tema

La tolerancia a fallas en arquitecturas binarias ya fueron estudiadas en profundidad en Hayes (1976), Raghavendra et al. (1984), Singh y Youn (1991). Para lograr FT en estas arquitecturas se las deben diseñar con un número mínimo de nodos de backup y links redundantes, de modo tal de hacer frente cualquier punto de falla simple en la arquitectura.

<sup>&</sup>lt;sup>1</sup>Del inglés, Very Large Scale Integration

#### 3.1.1. Esquema de árbol binario con backups

El esquema planteado por Raghavendra et al. (1984) es similar al que se muestra en al Figura 3.1. En este esquema se agrega nodos y links redundantes como técnica de FT. Existe un nodo de backcup por cada nivel del árbol.



Figura 3.1: Árbol binario de 4 niveles

Esta arquitectura cuenta con una restricción, la cual indica que solo se puede tolerar una falla singular, por cada nivel de la arquitectura. Arquitecturas de este tipo, podrían tolerar más de una falla, sólo si se dan en diferentes niveles del árbol (Raghavendra et al., 1984). Para agregar más tolerancia, se deberían agregar más redundancias.

Notese en la Figura 3.1 que cuando una unidad de procesamiento (nodo) falla, todos los links se deben reajustar hacia el nodo de la derecha. En este punto es importante mencionar, que ante esta situación se requiere una reconfiguración a nivel de HW, además de una reconfiguración a nivel de SW. Es necesario algoritmos de ruteo dinámicos, de modo tal de conocer los nuevos caminos que intercomunican nodos, para mantener la operabilidad del sistema.

#### 3.1.1.1. Estimación de la confiabilidad de un árbol binario con backup

Se asume que la probabilidad de fallas de los links es muy baja en comparación con la de los nodos. Teniendo que el rate de falla es de  $\lambda$ , la confiabilidad de un nodo es  $R = e^{-\lambda t}$ . También se sabe que un árbol binario con n niveles, se tiene  $2^n - 1$  nodos en total. Entonces la confiabilidad de todo el sistema es:

$$R_{nr} = R^{2^n - 1}$$

Raghavendra et al. (1984) incluye en sus cálculos un factor de cobertura c, el cual es la probabilidad condicional de que se lleve a cabo una recuperación exitosa, luego de que una falla se haya detectado. Entonces la confiabilidad del sistema para una arquitectura de árbol binario con redundancias (un nodo backup por nivel) es el siguiente:

$$R_{sys} = \prod_{k=0}^{n-1} \left[ R^{2k+1} + R^{2k} (1-R) + 2^k c R^{2k} (1-R) \right]$$

.

Simplificando:

$$R_{sys} = R^{2n+1} \prod_{k=0}^{n-1} \left[ (2^k c + 1) - 2^k cR \right]$$

En la Figura 3.2, se observa la confiabilidad de una arquitectura de árbol bianrio de 4 niveles, con una cantidad de  $2^4 - 1 = 15$  nodos. En color negro se grafica una arquitectura sin redundancia, mientras que en color rojo, azul y cyan, se muestra arquitecturas redundadas con diferentes c (0.98, 0.99, 1, respectivamente).



Figura 3.2: Confiabilidad con respecto al tiempo de una arquitectura de árbol binario de 4 niveles

Con esto podemos indicar, como es de esperarase, una arquitectura de árbol binario redundanda permite mantener un alto nivel deseable de confiabilidad, durante un mayor lapso de tiempo, a diferencia de un sistema no redundando. También se puede concluir que con un factor de cobertura c más próximo a uno, maximiza los niveles de confiabilidad con respecto al tiempo.

#### 3.1.1.2. Extensión de la arquitectura con backup

#### 3.1.2. Esquema de árbol binario con degradación de perfomance

#### 3.2. Redes distribuídas

Una red de computadoras hace referencia a un conjunto de computadoras autónomas que se encuentran interconectadas, esto quiere decir que pueden intercambiar información (Tanenbaum y Wetherall, 2012). Una red distribuída tiene como principal caraceterística que no existe un nodo central que "gestione"toda la red. Todas las cargas de las tareas y/o actividades son distribuídas entre los nodos que forman parte de la red.

Una red distribuída es tolerante a fallas si los nodos pueden formar subredes (Stivaros, 1992). Es decir, la red se debe mantener activa y conectada, con diferentes topologías e interconexiones, que permitan tolerar posibles fallas producidas en algunos nodos y permitir mantener la perfomance (Stivaros, 1992). Debido a que el procesamiento de la red se encuentra distribuída en todo el sistema, esto brinda una ventaja por encima a los

sistemas centralizados desde el punto de vista de la confiabilidad (Pradhan y Reddy, 1982). Un componente importante de las redes distribuídas tolerantes a fallas, es la topología del sistema (Pradhan y Reddy, 1982).

Siguiendo la notación de Pradhan y Reddy (1982) para describir la topología del sistema se utiliza, un gráfico sin direccionamiento  $G = \langle V, E \rangle$ , donde V representa un set de nodos y E representa un set de relaciones. Stivaros (1992) agrega que  $V(G) = \{v_1, v_2, v_3, ... v_n\}$  representa un vector de nodos, los cuales tiene probabilidades de operación  $P = (p_1, p_2, p_3, p_n)$ ; y define una función de asignación  $\pi$ , la cual es una función que asigna V con una probabilidad  $P_{\pi(v)}$ .

La FT de la red G, dado el vector de probabilidades y una función de asignación  $\pi$ , tal como se viene discutiendo anteriormente, es la probabilidad de que la red continúe funcionando, es decir continúe conectada, aún en la falla (aleatoria) de alguno de sus nodos, esto se denota  $FT(G; \vec{P}, \pi)$ .

Se dice que un subset de nodos S, es un estado tolerante del sistema G, cuando estos nodos se mantienen conectados y funcionales. Se utiliza  $\theta$  para indicar el conjunto de todos los S posibles. Un estado tolerante S contribuye  $\prod_{v \in S} P_{\pi(v)} \prod_{v \notin S} (1 - p_{\pi(v)})$  a la probabilidad de FT.

Para calcular el total de la FT del sistema, incluyendo todo los S, se hace:

$$FT(G; \vec{P}; \pi) = \sum_{S \in \theta} Pr(S) = \sum_{S \in \theta} \prod_{v \in S} P_{\pi(v)} \prod_{v \notin S} (1 - p_{\pi(v)})$$

Una relación entre nodos es representado como ij, lo cual representa un enlace bidireccional entre nodos. El grado del nodo i representa el número de relaciones que inciden en ese nodo, el cual se escribe  $d_i$ . Así,  $d_i$  está limitado por el número de puertos de entrada y salida disponibles por cada nodo (Pradhan y Reddy, 1982).  $k_{ij}$  representa el número mínimo de hop (hop representa la transmisión a través de un link de datos)(Pradhan y Reddy, 1982)

Stivaros (1992) y Pradhan y Reddy (1982) mencionan la existencia de varias topologías que pueden ser aplicadas en una red distribuída tolerante a fallas. Una topología estrella posee una baja distancia entre nodos, pero una pobre tolerancia a fallas (Pradhan y Reddy, 1982) (Stivaros, 1992). La topología anillo, permite un simple ruteo, pero existen grandes distancias internodo. Un sistema completamente interconectado, presenta buenas características tolerantes a fallas, pero tiene un alto costo (Pradhan y Reddy, 1982). Pradhan y Reddy (1982) propone una topología para una arquitectura distribuída de comunicación. Esta es una topología robusta, y puede llegar a ser compleja a medida que aumentan los nodos.

#### 3.2.1. Algoritmo de ruteo

Los algoritmos de ruteos son necesarios en el desarollo de una arquitectura tolerante a fallas y reconfigurable. Los algoritmos de ruteo se los pueden dividr en dos: *algoritmos primarios* y *algoritmo alternativo*. El primero es utilizado cuando no hay fallas de nodos. Se deben mantener los caminos para llegar, correctamente, al nodo destino. El segundo se utiliza en la presencia de alguna falla, este requiere que sea capaz de detectar la presencia de fallas, para luego reconfigurar el sistema. Estos algoritmos deben ser simples y requerir una mínima cantidad de HW y SW.

Agregado a lo mencionado en el párrafo anterior, deben existir algoritmos de diagnóstico distribuído de falas, basados en los algoritmos de ruteo (Pradhan y Reddy, 1982).

#### 3.3. Redes Ethernet en aviónica

TTEthernet es una tecnología de red de computadoras comercializada por TTTech Computertechnik AG para el desarrollo de aplicaciones seguras. SAE International<sup>2</sup> estandarizó esta red como SAE AS6802. TTEthernet se basa en el Ethernet clásico, en el cual se pone énfasis en las características principales que deben respetarse en sistemas críticos, tales como latencias de mensajes determinísticos, presición de tiempo real, tolerancia a fallas (Loveless, Andrew T., 2015). Tiene la capacidad de transmitir datos 100 veces más rápido que la que lo hacen las tecnologías tradicionales tales como el MIL-STD-1553.

El Ethernet clásico presenta ventajas, tales como su alta velocidad de transmisión de datos, flexibilidad, y su disponibilidad y bajo costo (ya que se trata de un componente COTS)(Loveless, Andrew T., 2015), hacen deseable su aplicación en el área espacial. fue utilizado en diferentes proyectos aeroespaciales y en misiones importantes tales como el Space Shuttler y la Estación Espacial Internacional (ISS) (Loveless, Andrew T., 2015). A pesar de esto, el Ethernet no cumple con el determinismo requerido por las aplicaciones de tiempo real de un vehículo espacial. Por tal motivo, se desarrolla el sistema TTEthernet, el cual introduce un reloj de sincronización descentralizado, permitiendo la transmisión mensajes Time-Trigged (TT). En este tipo de red, existe una herramienta de planning que asigna a cada dispositivo un intervalo de tiempo, en el cual puede utilizar para transmitir frames. Estos sistemas utilizan Links Virtuales (VL) para permitir el envío de mensajes time-trigged. Cada VC es asociado con un time-trigged frame através de un identificador de tráfico crítico (CTID), este reemplaza el control de acceso al medio (MAC) (Loveless, Andrew T., 2015). Una red simple se muestra en la Figura [COLOCAR imagen].

#### colocar la imagen de On TTEthernet for integrated pag 8

TTEtheret puede actuar en dos clases de tráfico, con el obejtivo de soportar diferentes niveles de cricticidad de mensajes. Estas clases de tráficos son las siguientes (Loveless, Andrew T., 2015) (Steiner, Willfried, 2013):

- Time-Triggered, permite enviar mensajes de acuerdo a una planificación predefinida (scheduling),
- Rate-Constrained (RC), en el cual se llevan algunas restricciones de tamaño y rate de transmisión de frames,
- Best-Effort (BE), el cual se comporta de manera similar que el Ethernet

El paquete TTEthernet tiene una gran similitud con el frame del estandar IEEE 802.3 (Ethernet). Se denota en la Figura [colocar imagen] que en lugar de la MAC del 802.3 frane se divide en el CT Marker y el CTID. El primero es un identificador estático utilizado para distinguir paquetes TT de otros tipos de tráficos.

#### colocar la imagen del on TTethernet for integrated pag 8 del frame

El estandar SAE AS6802 define el protocolo de sincronización del TTEthernet. El protocolo TTP fue diseñado para reducir la complejidad de las arquitecturas distribuídas tolerantes a fallas (TTTech, 20 de Enero del 2017). Existe un grupo de dispositivos que relojes locales que permite la sincronización requerida por la comunicación TT, a esto se lo denomina dominio de sincronización (Loveless, Andrew T., 2015). Cada dominio de sincronización es asignado a uno de los siguientes roles:

- Compression Master (CM)
- Synchronization Master (SM)
- Synchronization Cliente (SC)

<sup>&</sup>lt;sup>2</sup>http://www.sae.org

#### 3.3.1. Experiencia de vuelo

Loveless, Andrew T. (2015) demuestra la aplicación de esta tecnología para computadoras de vuelo redundantes en misiones de naves simuladas. Esta tecnología toma tanto interés que el Sistema de Exploración Avanzada (AES)<sup>3</sup> de la NASA, lleva a cabo un proyecto denominado Avionics and Software (AS). TTEthernet también fue utilizada en una arquitectura tolerante a fallas en El Integrated Power, Avionics and Software (IPAS) del Johnson Space Center (JSC) y en el Core Flight Software (CFS) del Asteroid Redirect Mission (ARM) simulado<sup>4</sup> (Loveless, Andrew T., 2015). También fue utilizado exitosamente durante la misión Orion (TTTech).

TTEthernet simplifica el diseño de sistemas espaciales que deben contar con tolerancia a falla y una alta disponibilidad. La seguridad y la redundancia se mantiene sin ningún tipo de aplicación extra.

#### 3.4. Arquitectura de red basada en BUS

En Tai et al. (1999) se presenta una arquitectura tolerante a fallas basada en BUS. Esta topología forma parte de un programa denominado X2000, el cual tiene como objetivo desarrollar una arquitectura tolerante a fallas y basada en componentes COTS. la cual pertenece a NASA. Esta este programa se desarrolla bajo una filosofía de misiones espaciales la cual dice: "Más rápido, mejor, más económica"<sup>5</sup>.

Esta arquitectura utiliza una topología novedosa denominada *stack-tree topology* (Chau et al., 1999) (Tai et al., 1999). Una stack-tree es un árbol donde cada nodo rama se encuentra conectado como mucho a tres otros nodos de los cuales, como máximo, dos son nodos ramas (Tai et al., 1999). Una Complete Stack-Tree (CST) es aquella en donde cada nodo rama está conectado al menos 1 nodo rama (Tai et al., 1999).

En las Figura se pueden observar ejemplos de stack-tree. Mientra que en esta otra Figura no es una stack-tree.

#### Colocar las imagenes del paper BUS network architecture

Como el objetivo principal es desarrollar una arquitectura tolerante a fallas, esto es, que aún cuando un nodo o un link entre nodos falle, el sistema completo debe continuar funcionando, sin ningún tipo de degradación en su servicio. Para cumplir con este objetivo Tai et al. (1999) trabajan con un esquema de denominado CST de equema dual (CST<sub>D</sub>) <sup>6</sup>. Esta puede observarse en la Figura

#### Colocar la imagen del paper, sonbre CSTd

Para aumentar la confiabilidad de la arquitectra ante la acurrencia de fallas, se agrega links de backups que unen los nodos iniciales con el final, dando un efecto 3D de anillo (Tai et al., 1999).

#### 3.4.1. Evaluación de la confiabilidad de arquitecturas basadas en BUS

La confiabilidad de esta arquitectura (como ya se viene mencionando) es la probabilidad de que, a lo largo del tiempo de vida de la misión t, la arquitectura se encuentra funcional, en la cual todos los nodos (aquello que no hayn fallado) se encuentren conectados (Tai et al., 1999). (Tai et al., 1999) y (Chau et al., 1999) asumen que

<sup>&</sup>lt;sup>3</sup>Del ingles, Advanced Exploration Systems

<sup>&</sup>lt;sup>4</sup>Los mencionados anteriormente son ejeMplo de la utilización de TTEthernet

<sup>&</sup>lt;sup>5</sup>En ingles, faster, better, cheaper

<sup>&</sup>lt;sup>6</sup>En ingles,CST dual scheme

la probabilidad de que un nodo falle es mucho mayor a que un enlace (el bus físico) falle.

En Tai et al. (1999) indica que la confiabilidad de la red depende del tamaño k (k es el número de nodos ramas). La confiabilidad de una red basada en CST simplex es la probabilidad U(k) de que los nodos no fallen, o que ante una falla se detecte y se lleve a cabo correctamente la reconfiguración del sistema.

$$U(k) = (1-q)\sum_{j=0}^{k} {k \choose j} (1-q)^{k-j} (cq)^{j}$$

donde  $q=1-e^{-\lambda t}$  es la probabilidad de que un nodo falle durante el tiempo de vida de la misión f. Entonces

$$R_s^{CST} = \sum_{k=1}^{n} (n-k+1)U(k)(cq)^{2(n-k)}$$

donde  $(cq)^{2(n-k)}$  es la probabilidad que los 2(n-k) nodos que conforman un cluster fallan, y esta falla es detectada y se lleva a cabo una correcta reconfiguración.

Para un CST dual ocurre de manera similar. Se define V(k) de la siguiente manera:

$$V(k) = 2(1-q)^k \sum_{j=1}^k {k \choose j} (1-q)^{k-j} (cq)^q + (1-q)^{2k}$$

Entonces la medida de  $R_D^{CST} = \sum_{k=1}^n (n-k+1) V(k) (cq)^{2(n-k)}$ 



# Análisis y desarrollo de arquitectura tolerante a fallas

#### 4.1. Introducción

Los proyectos aeroespaciales emplean una arquitectura de aviónica que se denomina **federada**, en la cual cada computadora del sistema se diseña para que desarrolle una sola función específica (Loveless, Andrew T., 2015). Esta estrategia de diseño tiene varias ventajas, por tal motivo ha sido utilizada a lo largo de los años. En contraposición, cuenta con varias desventajas, que alientan al surgimiento de nuevas formas de pensamiento y desarrollo de aviónica de sistemas espaciales. Algunas de estas desventajas que ya fueron mencionadas con anterioridad son la masa y una utilización ineficiente de los procesadores. Para ello se está comenzando a desarrollar arquitecturas con el paradigma IMA.

Capítulo 5

# Arquitectura propuesta



# Análisis y resultados

|            | 7 |  |
|------------|---|--|
|            |   |  |
| 1          |   |  |
| Capítulo   | / |  |
| Capitulo 1 | , |  |

## Conclusión

### Bibliografía

- R. Alena, R. Gilstrap, J. Baldwin, T. Stone, y P. Wilson. Fault tolerance in ZigBee wireless sensor networks. En *Aerospace Conference*, *2011 IEEE*, páginas 1–15, 2011.
- Thomas Anderson y John C. Knight. A Framework for Software Fault Tolerance in Real-Time Systems. *IEEE Trans. Software Eng.*, (3):355–364, 1983.
- Klaus Becker y Sebastian Voss. A Formal Model and Analysis of Feature Degradation in Fault-Tolerant Systems. Springer International Publishing, 2016.
- Savio. N. Chau, L. Alkalai, Ann T. Tai, y J. B. Burt. Design of a fault-tolerant COTS-based bus architecture. *IEEE Transactions on Reliability*, 48(4):351–359, 1999. ISSN 0018-9529.
- Chau, Savio N. and Smith, Joseph and Tai, Ann T. A design-diversity based fault-tolerant cots avionics bus network. En *Dependable Computing*, 2001. *Proceedings*. 2001 Pacific Rim International Symposium on, páginas 35–42, 2001.
- Edward Crawley, Olivier de Weck, Steven Eppinger, Christopher Magee, Joel Moses, Warren Seering, Joel Schindall, David Wallace, y Daniel Whitney. Engineering Systems Monograph, The influence of architecture in engineering systems. 2004.
- Dr Ralph D. Lorenz (auth.) David M. Harland. *Space Systems Failures: Disasters and Rescues of Satellites, Rockets and Space Probes*. Springer Praxis Books. Praxis, 1 edition, 2005. ISBN 978-0-387-21519-8,978-0-387-27961-9.
- Douglas Isbell and Don Savage. Mars Climate Orbiter Failure Report NASA, 1999.
- Elena Dubrova. *Fault-Tolerant Design: an introduce*. Springer-Verlag New York, New York, U.S.A., 1 edition, 2013.
- Guillaume Jacques Joseph Ducard. Fault-Tolerant Flight Control and Guidance Systems for a Small Unmanned Aerial Vehicle. Tesis de Doctorado, Swiss Federal Institue of Technology Zurich, 2007.
- Cristopher Edwards, Thomas Lobaerts, y Hafid Smaili. *Fault Tolerant Flight Control. A benchmarck challenge*. Springer-Verlag, 2010. ISBN 978-3-642-11689-6.
- Jens Eickhoff. *Onboard Computers, Onboard Software and Satellite Operations*. Springer-Verlag Berlin Heidelberg, Alemania, 2012. ISBN 978-3-642-25169-6.
- S. Esposito, C. Albanese, M. Alderighi, F. Casini, Giganti L., M. L. Esposti, C. Monteleone, y M. Violante. Cots-based high-performance computing for space applications. *IEEE Transactions on Nuclear Science*, 62 (6):2687–2694, 2015.

#### **BIBLIOGRAFÍA**

- J. S. Eterno, J. L. Weiss, D. P. Looze, y A. Willsky. Design issues for fault tolerant-restructurable aircraft control. En *Decision and Control*, 1985 24th IEEE Conference on, páginas 900–905, 1985.
- Kevin Forsberg y Mooz Harold. 4 System Engineering for Faster, Cheaper, Better. *INCOSE International Symposium*, 9(1):924–932, 1999. ISSN 2334-5837.
- Sanford Friedenthal, Alan Moore, y Rick Steiner. *A Practical Guide to SysML: Systems Modeling Language*. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2008.
- W. C. Gangloff. Common mode failure analysis. *IEEE Transactions on Power Apparatus and Systems*, 94(1): 27–30, 1975. ISSN 0018-9510.
- Hamilton, Deirdre L. and Walker, Ian D. and Bennett, John K. Fault tolerance versus performance metrics for robot systems. *Reliability Engineering & System Safety*, 1999.
- Robert S. Hanmer. *Patterns for Fault Tolerant Software*. John Wiley and Sons Ltd, England, 2007. ISBN 978-0-470-31979-6.
- John P. Hayes. A graph model for fault-tolerant computer systems. IEEE Transactions on Computers, 1976.
- Hess, Ronald and Vetter, T. K. and Wells, S. R. Design and evaluation of a damage-tolerant flight control system. En *Institution of Mechanical Engineers Part G Journal of Aerospace Engineering*, 2005.
- Ellis F. Hitt y Dennis Mulcare. Fault-Tolerant Avionics. En Cary R. Spitzer, editor, *Avionics Development and Implementation Second Edition*, capítulo 8. CRC Press, Williamsburg, Virginia, U.S.A., 2007.
- Jon Holt y Simon Perry. *SysML for systems engineering*. The Institution of Engineering and Technology, London, United Kingdom, 2008. ISBN 978086341825.
- IEEE. IEEE Standard Glossary of Software Engineering Terminology. Std. 610.12-1990, IEEE, 1990.
- INVAP. INVAP Sociedad del Estado, 2016. URL http://www.invap.com.ar/es/.
- Baback A. Izadi y Füsun Özgüner. An augmented k-ary tree multiprocessor with real-time fault-tolerant capability. *The Journal of Supercomputing*, 27(1):5–17, 2004.
- Jim Krodel y George Romanski. Handbook for real-timte operating systems integration and component integration considerations in integrated modular avionics systems. Techn. Rep. DOT/FAA/AR-07/48, U.S. Department of Transportation, 2008.
- Loveless, Andrew T. capítulo On TTEthernet for Integrated Fault-Tolerant Spacecraft Network. AIAA SPACE Forum. American Institute of Aeronautics and Astronautics, Aug 2015. doi: 10.2514/6.2015-4526. 0.
- Michael R. Lyu. *Software Fault Tolerance*. John Wiley and Sons Ltd, Chichester, New York, USA, 1995. ISBN 9780471950684.
- Pignol M. Dmt and dt2: two fault-tolerant architectures developed by cnes for cots-based spacecraft supercomputers. En *12th IEEE International On-Line Testing Symposium (IOLTS'06)*, 2006.
- MARTE. http://www.omgmarte.org/, 3 de Junio de 2016.
- Jackson R. Mayo, Robert C. Armstrong, y Geoffrey C. Hulette. *Leveraging Abstraction to Establish Out-of-Nominal Safety Properties*. Springer International Publishing, 2016.
- Victor P. Nelson. Fault-tolerant computing: fundamental concepts. *Computer*, 23(7):19–25, 1990.
- Papyrus. http://eclipse.org/papyrus/, 3 de Junio de 2016.

- Dhiraj K. Pradhan y Sudhakar M. Reddy. A Fault-Tolerant Communication Architecture for Distributed Systems. *IEEE Transactions on Computers*, C-31(9):863–870, Sept 1982. ISSN 0018-9340.
- Roger S. Pressman. Software Engineering, A Practioner's Approach. McGraw-Hill, fifth edition edition, 2001.
- Laura Pullum. *Software fault tolerance techniques and implementation*. Artech House, England, 2001. ISBN 1-58053-137-7.
- C. S. Raghavendra, AVIvizienis A., y M. D. Ercegovac. Fault tolerance in binary tree architectures. *IEEE Transactions on Computers*, (6):568–572, 1984.
- M. Rausand y A. Hoyland. *System Reliability Theory. Models, statistical methods, and applications*. John Wiley Sons, Inc., Hoboken, New Jersey, USA, 2 edition, 2004.
- RTI. *RTI Purchase Order Terms and Conditions v1.12. Spanish Translation*. RTI International, 3040 East Cornwallis Road, Research Triangle Park, USA, 2015.
- Norman F. Schneidewind y Allen P. Nikora. Issues and methods for assessing cots reliability, maintainability, and availability. 1998.
- Adit D. Singh y Hee Y. Youn. A modular fault-tolerant binary tree architecture with short links. *IEEE Transactions on Computers*, 1991.
- Steiner, Willfried. An Introdution to TTEthernet. TTTech Computertechnik AG, Apr 2013.
- Constantine Stivaros. A measure of fault-tolerance for distributed networks. En *Computing and Information*, 1992. *Proceedings. ICCI* '92., Fourth International Conference on, páginas 426–429, 1992.
- T. Stone, R. Alena, J. Baldwin, y P. Wilson. A viable cots based wireless architecture for spacecraft avionics. En *Aerospace Conference*, 2012 IEEE, páginas 1–11, 2012.
- SysML. http://sysml.org/, 2 de Junio de 2016.
- A. T. Tai, S. N. Chau, y L. Alkalai. Cots-based fault tolerance in deep space: Qualitative and quantitative analyses of a bus network architecture. En *High-Assurance Systems Engineering*, 1999. Proceedings. 4th IEEE International Symposium on, páginas 97–104, 1999.
- Andrew S. Tanenbaum y David J. Wetherall. *Redes de computadora*. Pearson Educación, Mexico, quinta edition, 2012.
- Wilfredo Torres-Pomales. Software Fault Tolerance: A tutorial. Technical Report NASA/TM-2000-210616, National Aeronautics and Space Administration Langley Research Center, Hampton, Virginia, 2000.
- TTTech. Technical report, TTTech Computertechnik AG, Vienna, Austria.
- TTTech. http://tttech.com/, 20 de Enero del 2017.
- Christopher B. Watkins y Randy Walter. Transitioning from federated avionics architectures to integrated modular avionics. En 2007 IEEE/AIAA 26th Digital Avionics Systems Conference, 2007.
- Dave Woerner, Les Deutsch, y Chris Salvo. The X2000 Program: An Institutional Approach to Enabling Smaller Spacecraft. 2000.
- Cong Zhang, I. M. Jaimoukha, y F. R. S. Sevilla. Fault-tolerant observer design with a tolerance measure for systems with sensor failures. En *2016 American Control Conference (ACC)*, páginas 7523–7528, 2016.
- Youmin Zhang y Jin Jiang. Bibliographical review on reconfigurable fault-tolerant control systems. *Annual Reviews in Control*, 32(2):229–252, 2008.