# Máquinas abstractas

## 1. Máquinas e intérpretes

Una *máquina abstracta* es un modelo de sistema computacional que recibe 
entradas y produce salidas de acuerdo a un conjunto de reglas.
Estos modelos son *máquinas* porque permiten la ejecución paso a paso de
instrucciones, y son *abstractas* porque no están limitadas por las leyes
físicas.
Toda máquina abstracta particular define un conjunto de *estados* en los que se
puede encontrar, y cuentan con un conjunto de *instrucciones* que permiten 
alterar el estado de la máquina.

**Ejemplo** El estatus civil de una persona puede ser soltero, casado, viudo,
divorciado, etc. Estos son los estados posibles de una persona. Las
instrucciones que permiten alterar el estado civil son casarse, divorciarse,
enviudar, etc.

### Estudio de caso: La Computadora del Hombre Pequeño
Intuitivamente las máquinas abstractas son abstracciones simplificadas e
idealizadas de las computadoras reales.
En este sentido, uno de los modelos didácticos más simples es el de la
[*Computadora del Hombre Pequeño*](https://en.wikipedia.org/wiki/Little_man_computer)
(CHP), que ilustra de manera muy simplificada el funcionamiento de una
computadora con arquitecura de Von Neumann (como las computadoras actuales).
- La CHP consiste en un hombre pequeño que vive en una sala de correos con una
  bandeja de entrada y una bandeja de salida.
- El hombre pequeño cuenta con un ábaco (*acumulador*) para almacenar un número
  de tres dígitos así como realizar sumas y restas.
- La sala tiene 100 cajones numerados del 00 al 99 y cada cajón contiene una 
  carta con un número de tres dígitos.
- El hombre puede leer el contenido de un cajón, escribir en él, y moverse
  a otro cajón.
- El hombre puede leer el número de la carta en el cajón en el que se encuentra,
  y en base a ese número puede decidir qué hacer a continuación.

En cada paso, el hombre pequeño realiza un ciclo de tres pasos, mejor conocido
como ciclo de *fetch-decode-execute*:
1. **Traer**: El hombre lee el número de la carta en el cajón en el que se
   encuentra.
2. **Decodificar**: El hombre decide qué hacer en base al número de la carta.
3. **Ejecutar**: El hombre realiza la acción correspondiente y se mueve al
   siguiente cajón a menos que la acción sea moverse a un cajón específico.

Para decodificar el número de la carta, el hombre pequeño utiliza una tabla como
esta:

Instrucción | Número de la carta | Descripción
:---------- | :----------------: | :----------
**HALT** | 000 | Detente (hora de tomar un descanso).
**ADD** | 1xx | Suma a tu ábaco el número de la carta `xx`.
**SUBTRACT** | 2xx | Resta de tu ábaco el número de la carta `xx`.
**STORE** | 3xx | Escribe el número de tu ábaco en una carta y ponla en el cajón `xx`.
**LOAD** | 5xx | Pon en tu ábaco el número que está escrito la carta del cajón `xx`.
**BRANCH** | 6xx | Dirígete al cajón `xx`.
**BRANCH IF ZERO** | 7xx | Dirígete al cajón `xx` si el número en tu ábaco es cero.
**BRANCH IF POSITIVE**| 8xx | Dirígete al cajón `xx` si el número en tu ábaco es positivo.
**INPUT** | 901 | Toma una carta de la bandeja de entrada y copia el número en tu ábaco.
**OUTPUT** | 902 | Escribe el número de tu ábaco en una carta y ponla en la bandeja de salida.

In [1]:
from materiales.maquinas.hombre import ComputadoraHombrePequenno

In [2]:
# Ejemplo: sumar dos números de la bandeja de entrada y poner el
# resultado en la bandeja de salida
maq = ComputadoraHombrePequenno()
maq.cargar_entrada([2, 3, 9, 19, 4, 2, 0])
maq.cargar_programa([901, 310, 901, 110, 902])

0,1,2,3,4,5,6,7,8,9,10
000,X0,X1,X2,X3,X4,X5,X6,X7,X8,X9
0X,▶901,310,901,110,902,000,000,000,000,000
1X,000,000,000,000,000,000,000,000,000,000
2X,000,000,000,000,000,000,000,000,000,000
3X,000,000,000,000,000,000,000,000,000,000
4X,000,000,000,000,000,000,000,000,000,000
5X,000,000,000,000,000,000,000,000,000,000
6X,000,000,000,000,000,000,000,000,000,000
7X,000,000,000,000,000,000,000,000,000,000
8X,000,000,000,000,000,000,000,000,000,000


In [3]:
# NOTA: Ejecuta esta celda varias veces para ver el resultado
maq.transicion()

0,1,2,3,4,5,6,7,8,9,10
002,X0,X1,X2,X3,X4,X5,X6,X7,X8,X9
0X,901,▶310,901,110,902,000,000,000,000,000
1X,000,000,000,000,000,000,000,000,000,000
2X,000,000,000,000,000,000,000,000,000,000
3X,000,000,000,000,000,000,000,000,000,000
4X,000,000,000,000,000,000,000,000,000,000
5X,000,000,000,000,000,000,000,000,000,000
6X,000,000,000,000,000,000,000,000,000,000
7X,000,000,000,000,000,000,000,000,000,000
8X,000,000,000,000,000,000,000,000,000,000


### Estudio de caso: El desensamblador de Python

Python también se puede ver como una máquina abstracta.
En este caso, la máquina abstracta de Python es una máquina de pila, es decir,
una máquina que utiliza una pila para almacenar datos y realizar operaciones.

Una *pila* es una estructura de datos que permite almacenar datos y recuperarlos
en el orden inverso al que fueron almacenados.
Es decir, en una pila los datos solamente se pueden *apilar* en la cima o
*desapilar* de la cima.

In [4]:
# Ejemplo de pequeño programa de Python:
x = 100
print(x)

100


In [5]:
import dis

# Una cadena de texto entre triples comillas puede tener saltos de línea.
texto = """
x = 100
print(x)
"""
dis.dis(texto)  # Mostrar en pantalla el programa de la máquina abstracta

  0           0 RESUME                   0

  2           2 LOAD_CONST               0 (100)
              4 STORE_NAME               0 (x)

  3           6 PUSH_NULL
              8 LOAD_NAME                1 (print)
             10 LOAD_NAME                0 (x)
             12 PRECALL                  1
             16 CALL                     1
             26 POP_TOP
             28 LOAD_CONST               1 (None)
             30 RETURN_VALUE


La saida del desensaamblador de Python es una secuencia de instrucciones
divididas las siguientes columnas:
- La primera columna indica el número de línea en el texto original.
- La segunda columna indica la posición de la instrucción la memoria de la
  máquina abstracta.
  Los números que faltan en la secuencia casi siempre indican que esa posición
  está ocupada por un dato, como puede ser un número o una cadena de texto.
  Si una de estas instrucciones es el objetivo de un salto condicional, se
  indica con una marca `>>`.
- La tercera columna indica la instrucción en lenguaje de la máquina.
- La cuarta columna indica el argumento de la instrucción, seguido del nombre
  entre paréntesis.

In [6]:
programa = """
edad = 23
mensaje = "Vamos por un Yakult"
if edad >= 18:
    mensaje = "Vamos por unas chelas"
"""
dis.dis(programa)

  0           0 RESUME                   0

  2           2 LOAD_CONST               0 (23)
              4 STORE_NAME               0 (edad)

  3           6 LOAD_CONST               1 ('Vamos por un Yakult')
              8 STORE_NAME               1 (mensaje)

  4          10 LOAD_NAME                0 (edad)
             12 LOAD_CONST               2 (18)
             14 COMPARE_OP               5 (>=)
             20 POP_JUMP_FORWARD_IF_FALSE     4 (to 30)

  5          22 LOAD_CONST               3 ('Vamos por unas chelas')
             24 STORE_NAME               1 (mensaje)
             26 LOAD_CONST               4 (None)
             28 RETURN_VALUE

  4     >>   30 LOAD_CONST               4 (None)
             32 RETURN_VALUE


## 2. Implementación de lenguajes de programación

**Definición** Sea $M$ una máquina abstracta
- Un *programa* $P$ de $M$ es un texto finito que define operaciones de $M$ y
  que hace que $M$ transite de un estado a otro de forma legal.
- Definimos a $L(M)$ “*el lenguaje máquina de $M$*” como el conjunto de todos
  los programas de $M$.

Sea $L=L(M)$. Por definición, $M$ es una máquina que permite la ejecución de
programas escritos en lenguaje $L$.
De forma recíproca, $L$ es un lenguaje que puede ser ejecutado por muchas
(infinitas) máquinas abstractas.


**Definición** Sea $L$ un lenguaje de programación. Una *implementación* de $L$
es una máquina abstracta $M$ tal que $L=L(M)$.

La implementación de un lenguaje de programación se puede dar de varias maneras,
pero en general es una combinación de estos tres casos:

### 2.1. Implementación en hardware
Implementar un lenguaje en hardware significa construir una máquina real que
ejecute programas escritos en el lenguaje.
- Utiliza circuitos digitales para implementar las instrucciones de la máquina
  así como la memoria.
- El lenguaje de programación es el lenguaje de la máquina.
- Los programas corren directamente en la máquina, por lo que son generalmente
  muy rápidos.
- Una vez construidia la máquina, es muy difícil modificarla.

**Ejemplo** La computadora Burroughs B5500 fue una computadora de la década
de 1960 que utilizaba un lenguaje de programación llamado *ALGOL 60*, cuyos
programas se ejecutaban directamente en la máquina.
Este es un ejemplo de un programa en ALGOL 60 que calcula el elemento más grande
en valor absoluto de una matriz:

----
```algol
procedure Absmax(a) Size:(n, m) Result:(y) Subscripts:(i, k);
    value n, m; array a; integer n, m, i, k; real y;
comment El elemento más grande en valor absoluto de la matriz a, de tamaño n por
    m, se copia en y, y los subíndices de este elemento en i y k;
begin
    integer p, q;
    y := 0; i := k := 1;
    for p := 1 step 1 until n do
        for q := 1 step 1 until m do
            if abs(a[p, q]) > y then
                begin y := abs(a[p, q]);
                    i := p; k := q
                end
end Absmax
```
----
**Actividad**
Hojear el [panfleto de la computadora Burroughs B5500][1] de 1964
y señalar las partes que corresponden a la implementación de ALGOL 60.

[1]: recursos/burroughs.b5500.1964.102646215.pdf

### 2.2. Implementación en microcódigo
Si disponemos de una máquina $M$ cuyas instrucciones son muy básicas pero muy
rápidas, podemos implementar un lenguaje $L$ en $M$ convirtiendo las complejas
instrucciones de $L$ encon una secuencia de pequeñas instrucciones de $M$.
A esta técnica se le conoce como *microprogramación*, *simulación* o
*emulación*.

- La implementación tiene que simular las instrucciones de $L$ utilizando una
  o varias instrucciones de $M$.
- Posiblemente se requiera de implementar el propio cilco de
  *traer-decodificar-ejecutar* en $M$.
- Más lento que la implementación en hardware, pero aporta flexibilidad.

Actualmente muchos de los programas que usamos en el día a día se implementan
en microcódigo a través de técnicas como la *compilación*, que veremos más
adelante.

**Actividad** Hojear el [panfleto del sistema IBM 360][1] de 1964 y señalar las
partes que corresponden a la implementación de su lenguaje máquina.

[1]: recursos/A22-6821-0_360PrincOps.pdf

### 2.3. Implementación en software
A veces las instrucciones de un lenguaje $L$ son tan complejas que no es
práctico implementarlas en hardware o microcódigo.
En estos casos tenemos que simular la máquina $M$ en un lenguaje de programación
$L^\prime$ que ya esté implementado en hardware o microcódigo.
A la máquina $M$ se le conoce como *máquina virtual* y al lenguaje $L(M)$ se le
conoce como *lenguaje de alto nivel*.

- Requiere programar en $L^\prime$ un *intérprete* de $L$.
- Aún más lento que la implementación en microcódigo, pero aporta mucha
  flexibilidad, ya que solo requiere implementar una máquina virtual para cada
  máquina hospedera.

### 2.4. Implementación mixta
En la práctica, la implementación de un lenguaje de programación suele ser una
combinación de las tres técnicas anteriores.
Por ejemplo, el lenguaje de programación Python se implementa mediante un
intérprete en lenguaje C (con su respectiva máquina virtual de Python que vimos
en el estudio de caso anterior), y a su vez el lenguaje C se implementa en
microcódigo en la mayoría de las computadoras modernas.

## 3. Compilación vs. interpretación
Denotaremos con $P^L$ a un programa escrito en lenguaje $L$, y con $D$ al
conjunto de todos los *datos* de entrada y salida de $P$.
Matemáticamente $P$ es una función que mapea $D$ (entradas) a $D$ (salidas),
denotado en teoría de conjuntos así:
$$P^L: D \to D$$

Sin embargo hay un detalle técnico importante: $P$ no es una función definida en
todo su dominio $D$, sino que está definida solamente en un subconjunto (¿por
qué?).
A esto se le conoce en matemáticas como *función parcial*.


### 3.1 Intérpretes
**Definición** Sea $A$ un lenguaje de programación y $D$ el conjunto de todos
los datos de entrada y salida de $A$.
Un *intérprete* del lenguaje $A$ es un programa $I^B$, escrito en lenguaje $B$,
que recibe como entrada un programa $P^A$, escrito en lenguaje $A$, junto con su
entrada $e\in D$ y lo ejecuta; es decir, define la función parcial siguiente:
$$I^B: A \times D \to D$$

**Observación** El intérprete de $A$ es necesario para ejecutar cualquier
programa de $A$; este actúa como una *máquina virtual* de $A$.

Muchos intérpretes incluyen una consola interactiva que permite ejecutar
programas de $A$ sin necesidad de escribirlos en un archivo.
A este proceso se le conoce como *REPL* (del inglés *Read-Eval-Print Loop*)
porque es un ciclo de tres pasos:
1. **Leer**: El intérprete lee una línea de texto escrita en lenguaje $A$.
2. **Evaluar**: El intérprete ejecuta la línea de texto como una instrucción de
   $A$.
3. **Imprimir**: El intérprete imprime el resultado de la instrucción en la
   pantalla.


**Ejemplo 1** El intérprete de Python es un programa escrito en C que recibe como
entrada un programa de Python y lo ejecuta. Cuando un programa de Python recibe
una entrada o produce una salida, el intérprete de Python se encarga de leer o
escribir los datos en la consola.

**Ejemplo 2** JavaScript es un lenguaje de programación que se ejecuta
directamente en el navegador web.

**Actividad** Probar el intérprete de JavaScript directamente en el navegador
web.
- Abrir un navegador web moderno (Chrome, Firefox, Edge, etc.).
- Abrir las herramientas del desarrollador (tecla F12).
- Ir a la pestaña *Consola*.
- Escribir el siguiente programa en JavaScript:
  ```javascript
  console.log("Hola mundo");
  ```
- Probar con otros programas.

**Actividad** Analizar la implementación de la CHP en Python, así como
proporcionar un intérprete de de acuerdo a la definición anterior.

En la CHP, el lenguaje consiste de listas de números de tres dígitos, y los
datos de entrada y salida son listas de números de tres dígitos.

In [7]:
from materiales.maquinas.hombre import ComputadoraHombrePequenno

def interprete_chp(programa: list[int], entrada: list[int]) -> list[int]:
    maq = ComputadoraHombrePequenno(programa=programa, entrada=entrada)
    maq.ejecutar()
    return list(maq.salida)

In [17]:
# Ejemplo: multiplicar dos números de la bandeja de entrada y poner el
# resultado en la bandeja de salida.
# Para multiplicar a por b, sumamos a b veces. Este programa coloca a en la
# memoria 50, b en la memoria 51 y el resultado en la memoria 52.
programa_de_multiplicar = [
    603,  # IR A 3
    # Preparar constantes:
    0,  # CERO
    1,  # UNO
    # Línea 3 (inicio del programa):
    901,  # entrada -> acumulador
    350,  # acumulador -> memoria[50]
    901,  # entrada -> acumulador
    351,  # acumulador -> memoria[51]
    501,  # CERO -> acumulador
    352,  # acumulador -> memoria[52]
    # Línea 9 (inicio del ciclo):
    550,  # memoria[50] -> acumulador
    717,  # SI acumulador = 0 ENTONCES IR A 17
    202,  # acumulador - UNO -> acumulador
    350,  # acumulador -> memoria[50]
    551,  # memoria[51] -> acumulador
    152,  # acumulador + memoria[52] -> acumulador
    352,  # acumulador -> memoria[52]
    609,  # IR A 9
    # Línea 17 (fin del ciclo):
    552,  # memoria[52] -> acumulador
    902,  # acumulador -> SALIDA
]

In [20]:
# Para ejecutar el programa de multiplicar, tenemos que usar el intéreprete.
entrada=[5, 8]  # Los números a multiplicar
salida = interprete_chp(programa_de_multiplicar, entrada)

print(salida)

La computadora se detuvo.
[40]


**Actividad** Implementar un intérprete de Python en Python.

In [9]:
?exec

[0;31mSignature:[0m [0mexec[0m[0;34m([0m[0msource[0m[0;34m,[0m [0mglobals[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mlocals[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0mclosure[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Execute the given source in the context of globals and locals.

The source may be a string representing one or more Python statements
or a code object as returned by compile().
The globals must be a dictionary and locals can be any mapping,
defaulting to the current globals and locals.
If only globals is given, locals defaults to it.
The closure must be a tuple of cellvars, and can only be used
when source is a code object requiring exactly that many cellvars.
[0;31mType:[0m      builtin_function_or_method

In [10]:
# Ejemplo de programa minimal en Python
x = 10
y = 20
print(x + y)

30


In [11]:
exec("x = 10; y = 20; print(x + y)")

30


In [12]:
for k in range(3):
    codigo = input()
    print(codigo)
    exec(codigo)

x = 10
y = 15
print(x+y)
25


### 3.2 Compiladores

Intuitivamente, un compilador es un programa que traduce un programa de un
lenguaje a otro.
Sin embargo, la definición formal requiere que especifiquemos que el programa
traducido debe ser *equivalente* al original, y ese es un detalle técnico
muy importante.

**Definición** Sean $A$ y $B$ lenguajes de programación.
Un *compilador* de $A$ a $B$ es un programa $T$ que recibe como entrada un
programa $P^A$ escrito en $A$ y produce como salida un programa $P^B$ escrito en
$B$; es decir, define una función
$$T: A \to B\text{;}$$
más aún, $P^B$ es tal que para toda entrada $e\in D$ se cumple que
$$P^B(e) = P^A(e)\text{.}$$

**Observación** Usualmente $B$ es un lenguaje máquina, por lo que $P^B$ es un
programa que puede ser ejecutado directamente en una máquina, sin necesidad de
un intérprete.
Cuando esto no es así, se requiere de un intérprete de $B$ o bien otro
compilador de $B$ a un lenguaje máquina.

**Actividad** Usar el compilador de ensamblador incluido en el contenedor de
Docker de estas notas para compilar el programa "*Hola mundo*".
Luego, usar el editor hexadecimal para comparar el programa original con el
programa compilado.

```asm
section .data
	hello:     db 'Hola, mundo!',10    ; Saludo más un salto de línea
	helloLen:  equ $-hello             ; Longitud del saludo

section .text
	global _start

_start:
	mov eax,4            ; Llamada al sistema para escribir (sys_write)
	mov ebx,1            ; Descriptor de archivo 1: salida estándar
	mov ecx,hello        ; Poner la dirección de hello en ecx
	mov edx,helloLen     ; Pon la longitud de hello en edx
	int 80h              ; Llamada al sistema

	mov eax,1            ; Llamada al sistema para terminar (sys_exit)
	mov ebx,0            ; Salir con código de error 0 (éxito)
	int 80h
```

Para compilar el programa anterior, ejecutar los siguientes comandos en una
terminal de Visual Studio Code.
Para abrir una terminal en Visual Studio Code, puedes usar la paleta de comandos
con la combinación de teclas `Ctrl+Shift+P` y escribir *Terminal: Crear nueva
terminal*.

```bash
cd programas/ensamblador
nasm -f elf64 hola.asm
ld -s -o hola hola.o
chmod +x hola
./hola
```

**Actividad** Usar el compilador de C (*gcc*), incluido en el contenedor de
Docker para estas notas, para compilar y ejecutar el programa "*Hola mundo*".
Luego usar un editor de hexadecimales para analizar el código objeto generado.

```c
#include <stdio.h>
int main() {
   printf("¡Hola, mundo!");
   return 0;
}
```

### 3.3 Lenguajes intermedios y máquinas virtuales

En la realidad, la mayoría de los compiladores no traducen directamente de un
lenguaje a otro, sino que utilizan un *lenguaje intermedio* y una *máquina
virtual*, es decir un híbrido de las técnicas de compilación e interpretación.

**Actividad** Usar el compilador integrado de Python para analizar el código
objeto de un programa, y compararlo con la salida  del deseasamblador de Python.

In [13]:
# Compilamos el código
programa = """
base = 5
altura = 7
area = base * altura / 2
print(area)
"""
obj = compile(programa, "<string>", "exec")

In [14]:
# obj.co_code es un objeto de tipo bytes
type(obj.co_code)

bytes

In [15]:
print(f"El código objeto contine los siguientes {len(obj.co_code)} bytes:")
for i in range(0, len(obj.co_code), 10):  # Mostrar de 10 en 10
    print(*(f"{b:02X}" for b in obj.co_code[i:i+10]))  # Mostrar en hexadecimal

El código objeto contine los siguientes 52 bytes:
97 00 64 00 5A 00 64 01 5A 01
65 00 65 01 7A 05 00 00 64 02
7A 0B 00 00 5A 02 02 00 65 03
65 02 A6 01 00 00 AB 01 00 00
00 00 00 00 00 00 01 00 64 03
53 00


In [16]:
dis.disassemble(obj)

  0           0 RESUME                   0

  2           2 LOAD_CONST               0 (5)
              4 STORE_NAME               0 (base)

  3           6 LOAD_CONST               1 (7)
              8 STORE_NAME               1 (altura)

  4          10 LOAD_NAME                0 (base)
             12 LOAD_NAME                1 (altura)
             14 BINARY_OP                5 (*)
             18 LOAD_CONST               2 (2)
             20 BINARY_OP               11 (/)
             24 STORE_NAME               2 (area)

  5          26 PUSH_NULL
             28 LOAD_NAME                3 (print)
             30 LOAD_NAME                2 (area)
             32 PRECALL                  1
             36 CALL                     1
             46 POP_TOP
             48 LOAD_CONST               3 (None)
             50 RETURN_VALUE


**Actividad** Comparar las ventajas y desventajas de la compilación y la
interpretación.