

# Guía de Ejercicios Resuelta

[66.20] Organización de Computadoras 1er cuatrimestre de 2020

# ${\bf \acute{I}ndice}$

|      | ncipios fundamentales                                                                                                                   |
|------|-----------------------------------------------------------------------------------------------------------------------------------------|
| 1.1. | Ejercicio resuelto: [1.2 $3^{ed}$ CAAQA]                                                                                                |
|      |                                                                                                                                         |
| 1.3. |                                                                                                                                         |
| 1.4. |                                                                                                                                         |
| 1.5. |                                                                                                                                         |
|      | $[1.3 \ 3^{ed} \ CAAQA] \ \dots $ |
|      | [1.6 $3^{ed}$ CAAQA]                                                                                                                    |
| 1.8. | [1.17 $3^{ed}$ CAAQA]                                                                                                                   |
| 1.0  | Ronus                                                                                                                                   |

### 1. Principios fundamentales

# 1.1. Ejercicio resuelto: [1.2 3<sup>ed</sup> CAAQA]

Se considera realizar una mejora a una máquina agregando hardware vectorial. Cuando un cálculo de modo vectorial se ejecuta en este hardware, este se realiza 10 veces más rápido que en modo de ejecución normal. Llamamos al porcentaje de tiempo que se puede utilizar este modo vectorial como porcentaje de vectorización.

Antes de resolver el ejercicio, planteamos el escenario mediante un diagrama:



Donde

- ullet  $T_O$  corresponde al tiempo de ejecución del programa antes de aplicar la optimización
- $T_N$  corresponde al tiempo de ejecución del programa luego de aplicar la optimización. Obtenemos la figura de  $Speed\ Up$  global,  $SU_g = \frac{T_O}{T_N}$
- $T_M$  corresponde al tiempo de ejecución del programa en el que es factible aplicar la optimización.  $f = \frac{T_m}{T_C}$  determina el porcentaje de vectorización.
- $T'_M$  corresponde al tiempo de ejecución del programa en el que la optimización se está ejecutando. Obtenemos la figura de  $Speed\ Up$  local,  $SU_L = \frac{T_M}{T'_L}$
- $\blacksquare$   $T_{nm}$  corresponde al tiempo en el que no se está aplicando ninguna optimización
- 1. Realizar un gráfico que represente el  $Speed\ Up$  en función del como porcentaje de vectorización. Nombrar al  $Eje\ Y$  como  $Speed\ Up$  Global  $(SU_g)$  y al  $Eje\ X$  como Porcentaje de Vectorización.

Partiendo de la Ley de Amdahl, así como los datos del enunciado, tenemos que

$$SU_g = \frac{1}{(1-f) + \frac{f}{10}} = \frac{1}{1-0,9 \times f}$$

Sabemos también que  $f \in [0,1]$ . Podemos calcular el valor de Speed Up en los extremos:

- Si no es posible aplicar la mejora,  $f = 0 \Rightarrow SU_q = 1$
- $\bullet$  Si la mejora es aplicable a todo el tiempo de ejecución,  $f=1 \Rightarrow SU_g=SU_L=10$



2. ¿Qué porcentaje de vectorización en necesaria para alcanzar un  $Speed\ Up$  global de 2?

Utilizando la ley de Amdahl podemos despejar f

$$2 = \frac{1}{1 - 0,9 \times f}$$
$$f = \frac{5}{9}$$

3. ¿Qué porcentaje de tiempo se emplea en modo vectorización cuando se alcanza un  $Speed\ Up$  global de 2?

Es importante entender que esta pregunta no es igual a la anterior. El escenario para este punto nos plantea en el momento en el que la optimización ya se encuentra en ejecución.

Partiendo de la definición de  $Speed\ Up$  , tenemos que

$$SU_g = \frac{T_O}{T_N} = 2 \Rightarrow f = \frac{5}{9}$$

$$SU_L = \frac{T_m}{T_m'} = 10$$
, siendo  $T_m = T_O \times f = \frac{5}{9}T_O$ 

También es importante notar que  $T'_{nm} = T_{nm} = \frac{4}{9} \times T_O$ , ya que el tiempo en el que no se aplica ninguna optimización no cambia.

El ejercicio nos pide calcular  $f' = \frac{T'_m}{T_N}$ . Se puede determinar que

$$T'_m = \frac{1}{10} \times T_m$$
 
$$T_N = T'_m + T'_{nm}$$
 
$$T_{nm} = T'_{nm}$$

$$f' = \frac{\frac{5}{90}}{\frac{5}{90} + \frac{4}{9}}$$

4. ¿Qué porcentaje de vectorización es necesaria para alcanzar la mitad del máximo Speed Up posible al usar el modo de vectorización?

A partir de la Ley de Amdahl y el análisis realizado en el primer punto sabemos qué  $SU_{max} = 10$ , por lo que solo resta resolver

$$\frac{1}{5} = 1 - 0,9 \times f$$
$$f = \frac{8}{9}$$

- 5. Comparar los siguientes escenarios de mejora:
  - a) Se duplica el SpeedUp local
  - b) Se aumenta el porcentaje de vectorización con el compilador.

Condición base  $f_v = 0.7$ 

En definitiva lo que nos piden es una comparación de esfuerzos. Duplicar el speed up local implica duplicar la velocidad, es una mejora del hardware. En cambio, aumentar la fracción de vectorización es una mejora en el compilador.

Calculamos el Speed Up global base, es decir, sin aplicar ninguna de las mejores:

$$SU_g = \frac{1}{1 - 0.7 + \frac{0.7}{10}} = 2,70$$

Si duplicamos el Speed Up local, obtendremos:

$$SU_g = \frac{1}{1 - 0.7 + \frac{0.7}{20}} = 2.985$$

Ahora, para poder comparar ambas opciones, calculamos la fracción de vectorización que necesitaríamos para alcanzar el mismo Speed Up global:

$$SU_g = \frac{1}{1 - f + \frac{f}{10}} = 2,985$$

$$SU_g = \frac{1}{1 - 0.9xf} = 2.985 \Rightarrow f = 0.739$$

Entonces para alcanzar la misma mejora tenemos dos opciones: duplicar la velocidad o aumentar la fracción de vectorización de 0.7 a 0.739. La segunda requiere menos esfuerzo.

#### 1.2.

Demostrar que

$$SU = \frac{1}{(1-f) + \frac{f}{SU_t}}$$

Donde f es la fracción de tiempo a mejorar, y  $SU_L$  es la mejora local.

$$SU_g = \frac{T_{nm} + T_m}{T'_{nm} + T'_m} = \frac{T_{nm} + T_m}{T_{nm} + T'_m}$$
$$= \frac{T_m/f}{T_{nm} + T'_m}$$

y como  $T_{nm} = T_v - T_m = \frac{T_m}{f} - T_m \Rightarrow$ 

$$SU_g = \frac{T_m/f}{T_m/f - T_m + T_m'}$$

multiplicando por f ambos lados:

$$SU_g = \frac{T_m}{T_m - fxT_m + fxT_m'} = \frac{1}{1 - f + fx\frac{T_m'}{T_m}}$$
$$\Rightarrow SU_g = \frac{1}{1 - f + \frac{f}{SU_l}}$$

#### 1.3.

Un procesador de 300Mhz ejecuta un programa que presenta los siguientes tipos de instrucciones:

| Tipo de instrucción | Frecuencia (%) | Ciclos |
|---------------------|----------------|--------|
| Aritmético-Lógica   | 40             | 1      |
| Carga               | 20             | 1      |
| Almacenamiento      | 10             | 2      |
| Saltos              | 20             | 3      |
| Punto Flotante      | 10             | 5      |

- 1. Calcular las tasas de CPI y MIPS, para el programa completo.
- 2. Suponga que una optimización elimina un 30 % de las instrucciones aritmético-lógicas (o sea, 12 % del total de instrucciones A-L), 30 % de instrucciones load y 20 % de punto flotante. ¿Cuál es el speedup alcanzado?
- 3. Recalcular las tasas de CPI y MIPS para el programa completo. Explicar las diferencias respecto al punto (a).

1. Se puede calcular el CPI promedio como un promedio ponderado de los CPIs de los distintos grupos de instrucciones:

$$CPI = \sum_{i} f_i \times CPI_i$$

donde  $f_i$  es la frecuencia de ejecución de instrucciones del grupo i

Entonces

$$CPI = 1 \times 0.4 + 1 \times 0.2 + 2 \times 0.1 + 3 \times 0.2 + 5 \times 0.1 = 1.9$$

$$MIPS = \frac{f_{ck}}{CPIx10^6} = \frac{300MHz}{1,9x10^6} = 157,9$$

- 2. Calculo la frecuencia de los tipos de instrucciones luego de reducirlos:
  - a) Aritmético-Lógica:  $\frac{30\,\%\times40\,\%}{100\,\%}=12\,\%\Rightarrow40\,\%-12\,\%=28\,\%$
  - b) Carga:  $\frac{30\% \times 20\%}{100\%} = 6\% \Rightarrow 20\% 6\% = 14\%$
  - c) Punto flotante:  $\frac{20\% \times 10\%}{100\%} = 2\% \Rightarrow 10\% 2\% = 8\%$

Con estos datos, calculo el CPI de manera análoga al punto anterior.

$$CPI = 0.28 \times 1 + 0.14 \times 1 + 0.1 \times 2 + 0.2 \times 3 + 0.08 \times 5 = 1.62$$

Si supongo que sólo hubo cambios a nivel hardware, es decir, considero que no cambia la cantidad de instrucciones:

$$SU = \frac{CPUtime_{old}}{CPUtime_{new}} = \frac{IC \times Clockcycle \times CPI_{old}}{IC \times Clockcycle \times CPI_{new}} = \frac{1,62}{1,30} = 1,25$$

3.

$$CPI = 1,62$$
 
$$MIPS = \frac{300MHz}{1,62 \times 10^6} = 185,19$$

El MIPS dio mayor al reducir la cantidad de instrucciones y el CPI dio menor. Sin embargo, no podemos concluir que por eso la computadora sea mejor. No podemos comparar con diferentes sets de instrucciones basándonos en MIPS porque el IC va a ser distinto para ambas. Además, MIPS varía entre programas en una misma computadora, o sea que no hay un único valor MIPS para una computadora.

#### 1.4.

Se proponen 3 mejoras para una nueva arquitectura con los siguientes Speedups:

- Speedup1 = 30
- Speedup2 = 20
- Speedup3 = 10

Sólo una mejora es aplicable en cada momento (no se pueden solapar).

1. Si las mejoras 1 y 2 se pueden usar un 30 % del tiempo, ¿qué fracción del tiempo se debe usar la mejora 3 para lograr un speedup global de 10?

- 2. Asumir que la distribución del uso de las mejoras es del 30 %, 30 % y 20 para las mejoras 1, 2 y 3 respectivamente. Asumir que las 3 mejoras están en uso. ¿Qué fracción del tiempo mejorado no tiene una mejora en uso?
- 3. Asumir que para un benchmark la fracción del uso de las mejoras es del 15 % para 1 y 2 y del 70 % para la mejora 3. Se quiere maximizar la performance. Si sólo una mejora puede ser aplicada, ¿cuál debería ser elegida? Si 2 mejoras pueden ser aplicadas, ¿cuales deberían ser elegidas?
- 1. Sabiendo que el Speed Up global cuando se aplica más de una mejora por separado es:

$$SU_g = \frac{1}{(1 - \sum_i F_{mi}) + \sum_i \frac{F_{mi}}{S_{mi}}}$$

$$SU_g = \frac{1}{(1 - f_1 - f_2 - f_3) + (\frac{f_1}{SU_1} + \frac{f_2}{SU_2} + \frac{f_3}{SU_3})}$$

$$\Rightarrow SU_g = \frac{1}{(1 - 0, 3 - 0, 3 - f_3) + (\frac{0.3}{30} + \frac{0.3}{20} + \frac{f_3}{10})}$$

$$\Rightarrow f_3 = 0,36$$

2. A partir del siguiente gráfico



Se puede ver que el tiempo mejorado  $(T_n)$  va a tener un intervalo de tiempo sin mejorar  $(T'_{nm})$  que es igual al tiempo no mejorable del tiempo viejo  $(T_{nm})$  (perdón, trabalenguas). O sea que  $T'nm = T_{nm} = T_v \times (1 - f_1 - f_2 - f_3)$ . Luego, divido este tiempo por  $T_n$  porque me piden la fracción del tiempo mejorado.

$$\Rightarrow x = \frac{(1 - f_1 - f_2 - f_3) \times T_v}{T_n} = 0,816$$

3. Si una mejora pudiera ser aplicada:  $f_1=f_2=0,15$ 

$$f_3 = 0, 7$$

$$SU_1 = \frac{1}{1 - 0,15 + \frac{0.15}{30}} = 1,170$$

$$SU_2 = \frac{1}{1 - 0, 15 + \frac{0,15}{20}} = 1,170$$

$$SU_3 = \frac{1}{1 - 0, 7 + \frac{0,7}{10}} = 2,703$$

Entre la opción 1 y 2, es mejor la 1 porque tiene mayor Speed Up local. Entre las tres, es mejor la opción 3 ya que logra el mayor Speed Up global.

Si dos mejoras pudieran ser aplicadas:

$$SU_{12} = \frac{1}{1 - 0, 15 - 0, 15 + \frac{0,15}{30} + \frac{0,15}{20}} = 1,40$$

$$SU_{13} = \frac{1}{1 - 0, 15 - 0, 7 + \frac{0,15}{30} + \frac{0,7}{10}} = 4,44$$

$$SU_{23} = \frac{1}{1 - 0, 15 - 0, 7 + \frac{0,15}{20} + \frac{0,7}{10}} = 4,39$$

La mejor combinación es la 1-3

#### 1.5.

Se dispone de un benchmark que contiene 195, 578 instrucciones de punto flotante, y un número indeterminado de instrucciones de otro tipo.

Dicho benchmark fue ejecutado en un procesador embebido luego de haber sido compilado con las optimizaciones activadas. El procesador embebido está basado en un procesador RISC que incluye unidades de punto flotante, pero no dispone de ellas por distintas razones. El compilador permite calcular las operaciones de punto flotante mediante unidades punto flotante o mediante rutinas de software, dependiendo en las opciones utilizadas.

Salvo por la disponibilidad de unidades de punto flotante, ambos procesadores son idénticos, con una frecuencia  $\nu=16.67Mhz$ 

El benchmark se ejecutó en 1,08 segundos en el procesador RISC, mientras que tomó 13,6 segundos en la versión embebida. Asumir que el CPI del procesador RISC es 10, mientras que el CPI del procesador embebido es 6.

- 1. Para ambos procesadores, ¿cuántas instrucciones fueron ejecutadas?
- 2. Para ambos procesadores, ¿cuál es el valor de la tasa de MIPS?
- 3. En promedio, ¿cuántas instrucciones enteras son necesarias para ejecutar una operación de punto flotante en software?

Tenemos la siguiente información

| Procesador 1 (RISC)         | Procesador 2 (Embebido)                  |
|-----------------------------|------------------------------------------|
| Floating Point nativo       | Floating Point emulado en instr. enteras |
| $\nu = 16,67Mhz$            | $\nu = 16,67Mhz$                         |
| $T_{exr} = 1,08s$           | $T_{exe} = 13, 6s$                       |
| $CPI_r = 10$                | $CPI_e = 6$                              |
| $IC_r = IC_{int} + IC_{fp}$ | $IC_e = IC_{int} + IC_{fp} \times Y$     |

Donde Y es la cantidad de funciones enteras necesarias para emular una instrucción de punto flotante.

1. Sabiendo que  $T_{ex} = CPI \times IC \times T_{ck} \Rightarrow$ 

$$IC_r = \frac{1,08 \times 16,67 \times 10^6}{10} = 1,8 \times 10^6$$

$$IC_r = \frac{13,6 \times 16,67 \times 10^6}{6} = 38,3 \times 10^6$$

2. Sabiendo que  $MIPS = \frac{\nu_{ck}}{CPI \times 10^6} \Rightarrow$ 

$$MIPS_r = \frac{16,67 \times 10^6}{10 \times 10^6} = 1,667$$
$$MIPS_e = \frac{16,67 \times 10^6}{6 \times 10^6} = 2,778$$

3. A partir de los datos, queremos averiguar Y

$$IC_r = IC_{int} + IC_{fp}$$
 
$$IC_e = IC_{int} + IC_{fp} \times Y$$
 
$$IC_{fp} = 195578$$

Despejando con los valores obtenidos en el punto anterior, llegamos a Y = 187

# 1.6. [1.3 3<sup>ed</sup> CAAQA]

Se realiza una mejora a una computadora a un dado modo de ejecución por un factor de 10. Esta mejora es utilizada el 50% del tiempo, medido como un porcentaje del tiempo de ejecución cuando la mejora está siendo utilizada. Recordar que no se puede aplicar directamente este 50% en la Ley de Amdahl para para calcular el speedup.

- 1. ¿Cuál es el speedup global que se alcanza con esta mejora?
- 2. ¿Qué porcentaje del tiempo original es empleada esta mejora?

Del siguiente gráfico se puede concluir



# 1.7. [1.6 3<sup>ed</sup> CAAQA]

Un benchmark muy conocido para enteros es Dhrystone. La computadora A realiza  $D_A$  ejecuciones del benchmark por segundo y realiza millones de instrucciones por segundo ( $MIPS_A$ ). En la computadora B se ejecuta el mismo benchmark obteniendo sus propias métricas.

1. ¿Cuál es el problema en calcular la tasa de MIPS de la computadora B como  $MIPS_B = MIPS_A \times (D_B/D_A)$ ?

 $MIPS_B = MIPS_A \times (D_B/D_A)$  asume que  $\frac{MIPS_a}{D_a} = \frac{MIPS_b}{D_b}$  lo cual, en definitiva es  $\frac{IC_a}{D_a} = \frac{IC_b}{D_b}$ . Esto asume que ambas computadoras tienen el mismo set de instrucciones y ejecutan el mismo programa identicamente compilado, lo cual no ocurre siempre.

# 1.8. $[1.17 3^{ed} CAAQA]$

Una empresa tiene un benchmark que es considerado representativo para sus aplicaciones típicas. Se está considerando un procesador embebido para realizar las tareas pero no cuenta con una unidad de punto flotante y se deben emular por una secuencia de instrucciones de enteros. Este procesador tiene una tasa de 120 MIPS en el benchmark.

Un vendedor ofrece un coprocesador para mejorar la performance. Este coprocesador ejecuta cada instrucción de punto flotante por hardware. Cuando se combina el procesador y el coprocesador resulta una tasa de MIPS de 80 en el mismo benchmark.

Sea:

- I: Número de instrucciones de enteros ejecutadas en el benchmark .
- F: Número de instrucciones de punto flotante ejecutadas en el benchmark .
- Y: Número de instrucciones de entero para emular las instrucciones de punto flotante.
- W: Tiempo de ejecución del benchmark en el procesador solo.
- B: Tiempo de ejecución del benchmark en la combinación procesador/coprocesador.
- 1. Escribir una expresión para calcular la tasa de MIPS en cada configuración utilizando los símbolos anteriores.
- 2. Para la configuración sin coprocesador, se obtuvo  $F=8\times 10^6,\,Y=50$  y W=4 segundos. Determinar I.
- 3. ¿Cuál es el valor de B?
- 4. ¿Cuál es la tasa de MFLOPS para el sistema con coprocesador?
- 5. Un colega quiere comprar el coprocesador a pesar que tiene una tasa de MIPS inferior cuando se lo utiliza en comparación con el procesador sólo. ¿Tiene razón? Justificar la respuesta.

1. 
$$MIPS_e = \frac{I + F \times Y}{W \times 10^6}$$
 
$$MIPS_c = \frac{I + F}{B \times 10^6}$$

2.  $I = MIPS \times W \times 10^6 - F \times Y = 80 \times 10^6$ 

3.

$$B = \frac{I + F}{MIPSe \times 10^6} = 1, 1s$$

4. MFLOPS: millones de operaciones de punto flotante por segundo.

$$MFLOPS = \frac{F}{T_{expf} \times 10^6}$$

El tiempo W indica el tiempo de ejecución total, compuesto por la ejecución de instrucciones enteras y de punto flotante emuladas. El tiempo  $T_{exint}$  es igual en ambos casos.

$$W = T_{exfpemul} + T_{exint}$$
$$B = T_{exfp} + T_{exint}$$

Además,

$$T_{ex_int} = \frac{I \times W}{I + P \times Y}$$
 
$$W * I / (I + F * Y)$$
 
$$W * (F * Y) / (I + F * Y)$$

$$W * I / (I + F * Y)$$

$$W * I / (I + F * Y)$$

$$W * I / (I + F * Y)$$

$$\Rightarrow T_{expf} = B - T_{exint} = B - \frac{I}{MIPS_e}$$

$$\Rightarrow MFLOPS = \frac{F}{B - I/MIPS_e} = 80$$

5. Si, tiene razón. La métrica que determina el desempeño de un sistema es el tiempo de ejecución. Si comparamos el tiempo de ejecutar el benchmark al utilizar el coprocesador (B) con respecto a simular a través de operaciones enteras (W), el Speed up obtenido es de aproximadamente 3.6 ¿Qué significa que  $MIPS_e$  sea mayor que  $MIPS_c$ ? La ejecución en ambos sistemas no es equivalente. La versión que carece del coprocesador debe ejecutar un número extra de instrucciones por cada instrucción de punto flotante (Y). Esta cantidad desproporcionada de instrucciones destinadas a la emulación de punto flotante es lo que causa que  $MIPS_e$  sea mayor que  $MIPS_c$ . En definitiva, la ejecución de un número mucho mayor de instrucciones incrementa el tiempo de ejecución junto con la tasa de MIPS:  $IC_e >> IC_c$ 

#### 1.9. Bonus

Se dispone de dos arquitecturas: "A" (con hardware de punto flotante) y "B" (sin hardware de PF), ambas con una frecuencia de reloj de 1200 MHz.

La arquitectura "B" sólo ejecuta instrucciones de enteros (las instrucciones de PF son emuladas exclusivamente con instrucciones de enteros).

Para un programa dado (workload), las frecuencias y ciclos de los diferentes tipos de instrucciones, se muestran a continuación:

| Tipo de instrucción      | Frecuencia(%) | Ciclos en 'A' | Ciclos en 'B' |
|--------------------------|---------------|---------------|---------------|
| Multiplicación de PF     | 15            | 8             | 36            |
| Suma de PF               | 20            | 6             | 24            |
| División de PF           | 10            | 24            | 60            |
| Instrucciones de Enteros | 55            | 2             | 2             |

- 1. Calcular la tasa MIPS de ambas máquinas
- 2. Si 'A' ejecuta 400 millones de instrucciones para este programa, ¿cuántas instrucciones de enteros deberá ejecutar 'B' para el mismo programa?
- 3. ¿En cuál de las máquinas se ejecuta más rápido el programa dado? Calcular los tiempos de ejecución usando los datos del punto anterior.
- 1. Sabiendo que  $MIPS = \frac{\nu}{CPI \times 10^6}$

Calculamos el CPI para cada arquitectura:

$$CPI = \sum_{i} f_i \times CPI_i$$
 
$$CPI_A = 0,15 \times 8 + 0,2 \times 6 + 0,1 \times 24 + 0,55 \times 2 = 5,9$$
 
$$CPI_B = 0,15 \times 36 + 0,2 \times 24 + 0,1 \times 60 + 0,55 \times 2 = 17,3$$

Notar que  $CPI_B$  es el CPI de la arquitectura 'B' con la posibilidad de emular las instrucciones de punto flotante con instrucciones enteras, pero el CPI real de la arquitectura 'B' es igual a 2 (en la tabla: 2 ciclos por instrucción de enteros).

$$\Rightarrow MIPS_A = \frac{1200 \times 10^6}{5,9} = 203, 4$$

$$MIPS_B = \frac{1200 \times 10^6}{17,3} = 69, 4$$

$$MIPS_{Breal} = \frac{1200 \times 10^6}{2} = 600$$

Si comparamos  $MIPS_A$  con  $MIPS_B$ , el primero es mayor y esto tiene sentido considerando que el segundo requiere mayores ciclos para emular las instrucciones de punto flotante con instrucciones enteras. Ahora, si comparamos  $MIPS_A$  con  $MIPS_{Breal}$  hay que tener en cuenta que el primero sale de una arquitectura con instrucciones más complejas y por eso es mayor el MIPS.

2. Nos piden  $IC_{Bint}$  sabiendo que  $IC_A = 400 \times 10^6$ 

$$IC_A = IC_{Apf} + IC_{Aint}$$

Veo cuantos ciclos en 'A' por instrucción voy a tener

Multiplicación de PF:  $400 \times 10^6 \times 0$ ,  $15 = 60 \times 10^6$ 

Suma de PF:  $400\times10^6\times0, 2=80\times10^6$ 

División de PF:  $400 \times 10^6 \times 0$ ,  $1 = 40 \times 10^6$ 

Enteros:  $400 \times 10^6 \times 0.55 = 220 \times 10^6$ 

La cantidad total de instrucciones enteras para 'B' va a ser la suma de las instrucciones enteras que emulan a las de punto flotante más las enteras.

$$IC_{Bint} = 60 \times 10^6 \times 36 + 80 \times 10^6 \times 24 + 40 \times 10^6 \times 60 + 220 \times 10^6 \times 2 = 6920 \times 10^6$$

Pero cada instrucción de enteros toma dos ciclos por instrucción. Entonces, dividido por 2 queda  $IC_{Bint}=3460\times10^6$ 

3.

$$\begin{split} T_{ex} &= \frac{CPI \times IC}{\nu} \Rightarrow \\ T_{exA} &= \frac{5,9 \times 400 \times 10^6}{1200 \times 10^6} = 1,97s \\ T_{exBreal} &= \frac{2 \times 3460 \times 10^6}{1200 \times 10^6} = 5,77s \\ T_{exB} &= \frac{17,3 \times 400 \times 10^6}{1200 \times 10^6} = 5,77s \end{split}$$