# Generación Automática de Código
Notas de clase sobre Teoría de la Compilación

**Juan David Velásquez Henao**   
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta una introducción al diseño de lectores, generadores, traductores, interpretes y compiladores. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Windows, Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/guias-de-instalacion) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí](http://nbviewer.jupyter.org/github/jdvelasq/teoria-de-la-compilacion/blob/master/01-introduccion.ipynb) para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento, los archivos de datos y los programas en Python a su disco duro; luego, carguelos y ejecutelos en línea en [Try Jupyter!](https://try.jupyter.org)

#### Contenido

> * [Técnicas de generación de código intermedio](#Técnicas-de-generación-de-código-intermedio)
    * [Tipos de código](#Tipos-de-código)
    * [Generación básica de código intermedio](#Generación-básica-de-código-intermedio)
    * [Generación básica de código de 0 direcciones](#Generación-básica-de-código-de-0-direcciones)
    * [Generación básica de código de 3 direcciones](#Generación-básica-de-código-de-3-direcciones)
    * [Pseudocódigo para generación automática de código](#Pseudocódigo-para-generación-automática-de-código)
    * [Generación de código destino](#Generación-de-código-destino)
* [Generación de código de tres direcciones](#Generación-de-código-de-tres-direcciones)
    * [Constantes y variables](#Constantes-y-variables)
    * [Ejemplo 1](#Ejemplo-1)
    * [Ejemplo 2](#Ejemplo-2)
* [Implementación del generador de código para una máquina de registros](#Implementación-del-generador-de-código-para-una-máquina-de-registros)
* [Implementación del generador de código para una máquina de stack](#Implementación-del-generador-de-código-para-una-máquina-de-stack)

# Técnicas de generación de código intermedio

[Contenido](#Contenido)

## Tipos de código

[Contenido](#Contenido)

Expresión:
     x = 1 + 2 + 3;


Código de cero direcciones (similar al código de una máquina de 0 direcciones): 

     1
     2
     + 
     3
     +
     STO 1

Código de tres direcciones (Similar al código de una máquina de 3 direcciones. Se asume que hay un número infinito de registros.):

     ADD+ 1 0 1
     ADD+ 2 0 2
     +    1 1 2
     ADD+ 2 0 3
     +    1 1 2
     STO  1 1 

## Generación básica de código intermedio

[Contenido](#Contenido)

![alt text](images/tcc-10-1-genbasica.jpg) 

## Generación básica de código de 0 direcciones

[Contenido](#Contenido)

![alt text](images/tcc-10-2-gen0dir.jpg) 

## Generación básica de código de 3 direcciones

[Contenido](#Contenido)

![alt text](images/tcc-10-3-gen3dir.jpg) 

## Pseudocódigo para generación automática de código

[Contenido](#Contenido)

    cGen <- function(T)
       {
       if not is.null(T) do
         {
         generar código de preparación para hijo izquierdo de T
         cGen(hijo izquierdo de T)
         generar código de preparación para hijo derecho de T
         cGen(hijo derecho de T)
         generar código que implementa T
         }
      }

## Generación de código destino

[Contenido](#Contenido)

**Macro–expansión.**  
Reemplaza cada instrucción del código intermedio por código assembler.

**Simulación estática.**  
Simulación del efecto del código intermedio y generación de código assembler que genere el mismo efecto.

![alt text](images/tcc-10-4-genCodDest.jpg) 

# Generación de código de tres direcciones

[Contenido](#Contenido)

## Constantes y variables

[Contenido](#Contenido)

**NUM**
      
    ADD+  $reg 0 NUM

<br>

**ID** 
	
    RCL $reg ID
    
    
**Asignación**

    STO $reg ID


## FUNCIONES

**`UFID`** ( *`arg1`*, *`arg2`*, ..., *`argN`*)

    <Código para evaluar arg1, se asigna a memoria>
    <Código para evaluar arg2, se asigna a memoria>
    ...
    <Código para evaluar argN, se asigna a memoria>
    call UFID
    <se recupera el valor retornado de memoria>

<br>

**`FUNCTION UFID`** ( *`arg1`*, *`arg2`*, ..., *`argN`*) *`stmt_block`*

    <entry point de FID>
    <cuerpo de la función>
    <salva el valor retornado a memoria>


## EXPRESIONES LÓGICAS Y MATEMÁTICAS

**`OP`**  *`arg`* (Expresiones con un único argumento)

    <código para evaluar arg>
    <instrucción para ejecutar op>


*`arg1`* **`OP`** *`arg2`* (Expresiones con dos argumentos)

    <código para evaluar arg1>
    <código para evaluar arg2>
    <instrucción para ejecutar op>


## ESTRUCTURAS CONDICIONALES

**`WHEN`**  `(`  *`expr`* `)`  *`stmt_block`*


        <Código antes del WHEN>
        <Código para evaluar expr>
        <salto condicional si FALSE a L1> 
        <Código para evaluar stmt_block>
    L1:
        <Código después del WHEN>

<br>

**`IF`**  `(` *`expr`* `)`  **`DO`** *`stmt_block`*  **`ELSE`**  *`stmt_block`* 


        <Código antes del IF>
        <Código para evaluar expr>
        <salto condicional si FALSE a L1> 
        <Código para evaluar then stmt_block>
        <salto incondicional a L2>  
    L1:
        <Código para evaluar ELSE stmt_block>
    L2:
        <Código después del IF>


## CICLOS

**`WHILE`**  `(` *`expr`* `)`  *`stmt_block`*



        <Código antes del WHILE>
    L1:
        <Código para evaluar expr>
        <salto condicional si FALSE a L2> 
        <Código para evaluar stmt_block>
        <salto incondicional a L1>  
    L2:
        <Código después del WHILE>

<br>
**`LOOP`**  *`stmt_block`* 


        <Código antes del LOOP>
    L1:
        <Código para evaluar stmt_block>
        <salto incondicional a L1>  
    L2:
        <Código después del LOOP>

<br>
**`REPEAT NUM`** *`stmt_block`*

        <Código antes del REPEAT>
        <Crea la variable temporal t1>
        <Hace t1 := NUM>
    L1:
        <Evalúa t1 == 0>
        <salto condicional si FALSE a L2>
        <Código para evaluar stmt_block>
        <Hace t1 = t1 – 1>
        <salto incondicional a L1>  
    L2:
        <Código después del REPEAT>


<br>
**`FOR ID`** `:=` *`expr`*  **`TO`**  *`expr`* **`DO`** *`stmt_block`*


        <Código antes del FOR>
        <Código para evaluar expr inicial>
        <Código para asignar ID>
    L1:
        <Código para evaluar ID == expr final>
        <salto condicional si FALSE a L2>    
        <Código para ejecutar stmt_block>
        <código para incrementar ID>
        <salto incondicional a L1>  
    L2:
        <Código después del FOR>

<br>
**`CONTINUE`**  
**`BREAK`**

Son instrucciones jmp a L1 y L2 respectivamente.

## Ejemplo 1

[Contenido](#Contenido)

In [1]:
%%writefile example.txt 
var z:num;
z := 0;    
while (z < 10) do
  {
  z := z + 1;
  write '-->':  z;
  } 
end

Overwriting example.txt


In [2]:
%%sh 
python yylex.py example.txt
python yyparse.py example.txt
python yysymboltab.py example.txt
python yytypecheck.py example.txt

+-- TOKENTABLE
    +-- VAR {lexeme: var, lineno: 0}
    +-- ID {lexeme: z, lineno: 0}
    +-- : {lexeme: :, lineno: 0}
    +-- DATATYPE {lexeme: num, lineno: 0}
    +-- ; {lexeme: ;, lineno: 0}
    +-- ID {lexeme: z, lineno: 1}
    +-- := {lexeme: :=, lineno: 1}
    +-- NUM {lexeme: 0, lineno: 1}
    +-- ; {lexeme: ;, lineno: 1}
    +-- WHILE {lexeme: while, lineno: 2}
    +-- ( {lexeme: (, lineno: 2}
    +-- ID {lexeme: z, lineno: 2}
    +-- < {lexeme: <, lineno: 2}
    +-- NUM {lexeme: 10, lineno: 2}
    +-- ) {lexeme: ), lineno: 2}
    +-- DO {lexeme: do, lineno: 2}
    +-- { {lexeme: {, lineno: 3}
    +-- ID {lexeme: z, lineno: 4}
    +-- := {lexeme: :=, lineno: 4}
    +-- ID {lexeme: z, lineno: 4}
    +-- + {lexeme: +, lineno: 4}
    +-- NUM {lexeme: 1, lineno: 4}
    +-- ; {lexeme: ;, lineno: 4}
    +-- WRITE {lexeme: write, lineno: 5}
    +-- STR {lexeme: '-->', lineno: 5}
    +-- : {lexeme: :, lineno: 5}
    +-- ID {lexeme: z, lineno: 5}
    +-- ; {lexeme: ;, lineno: 5}
    +--

In [3]:
%%sh
python yyrbm.py example.txt
cat 'example.txt.rbm'

'-->'
%%
          ADD+    1   0   0
          STO     1   0
LBL 255
          RCL     2   0
          ADD+    3   0  10
          <       1   2   3
          IFZ     1 254
          RCL     2   0
          ADD+    3   0   1
          +       1   2   3
          STO     1   0
          STR     0
          RCL     1   0
          PRN     1
          GTO   255
LBL 254
          HLT  


In [4]:
%%sh
python yysbm.py example.txt
cat 'example.txt.sbm'

'-->'
%%
          0    
          STO     0
LBL 255
          RCL     0
          10   
          <    
          IFZ   254
          RCL     0
          1    
          +    
          STO     0
          STR     0
          RCL     0
          PRN  
          GTO   255
LBL 254
          HLT  


## Ejemplo 2

[Contenido](#Contenido)

In [6]:
%%writefile example.txt
## funcion min(x, y)
function @min:num (x:num, y:num)
   {
   when (x < y) do return x;
   return y;
   }
   
## funcion max(x, y)
function @max:num (x:num, y:num)   
   {
   if (x < y) do
      {
      return x;
      }
   else
      {                 
      return y;
      }
   }

write 'min 1 -> ': @min(1,2);
write 'max 2 -> ': @max(1,2);

end

Overwriting example.txt


In [7]:
%%sh 
python yylex.py example.txt
python yyparse.py example.txt
python yysymboltab.py example.txt
python yytypecheck.py example.txt

+-- TOKENTABLE
    +-- FUNCTION {lexeme: function, lineno: 1}
    +-- UFID {lexeme: @min, lineno: 1}
    +-- : {lexeme: :, lineno: 1}
    +-- DATATYPE {lexeme: num, lineno: 1}
    +-- ( {lexeme: (, lineno: 1}
    +-- ID {lexeme: x, lineno: 1}
    +-- : {lexeme: :, lineno: 1}
    +-- DATATYPE {lexeme: num, lineno: 1}
    +-- , {lexeme: ,, lineno: 1}
    +-- ID {lexeme: y, lineno: 1}
    +-- : {lexeme: :, lineno: 1}
    +-- DATATYPE {lexeme: num, lineno: 1}
    +-- ) {lexeme: ), lineno: 1}
    +-- { {lexeme: {, lineno: 2}
    +-- WHEN {lexeme: when, lineno: 3}
    +-- ( {lexeme: (, lineno: 3}
    +-- ID {lexeme: x, lineno: 3}
    +-- < {lexeme: <, lineno: 3}
    +-- ID {lexeme: y, lineno: 3}
    +-- ) {lexeme: ), lineno: 3}
    +-- DO {lexeme: do, lineno: 3}
    +-- RETURN {lexeme: return, lineno: 3}
    +-- ID {lexeme: x, lineno: 3}
    +-- ; {lexeme: ;, lineno: 3}
    +-- RETURN {lexeme: return, lineno: 4}
    +-- ID {lexeme: y, lineno: 4}
    +-- ; {lexeme: ;, lineno: 4}
    +-- } {le

In [8]:
%%sh
python yyrbm.py example.txt
cat 'example.txt.rbm'

'min 1 -> '
'max 2 -> '
%%
          GTO   255
LBL 0
          RCL     2   1
          RCL     3   2
          <       1   2   3
          IFZ     1 254
          RCL     1   1
          STO     1   0
          RET  
LBL 254
          RCL     1   2
          STO     1   0
          RET  
          RET  
LBL 255
          GTO   253
LBL 1
          RCL     2   4
          RCL     3   5
          <       1   2   3
          IFZ     1 252
          RCL     1   4
          STO     1   3
          RET  
          GTO   251
LBL 252
          RCL     1   5
          STO     1   3
          RET  
LBL 251
          RET  
LBL 253
          STR     0
          ADD+    1   0   1
          ADD+    2   0   2
          STO     2   2
          STO     1   1
          GSB     0
          RCL     1   0
          PRN     1
          STR     1
          ADD+    1   0   1
          ADD+    2   0   2
          STO     2   5
          STO     1   4
          GSB     1
          RCL     1   3
          PRN    

In [9]:
%%sh
python yysbm.py example.txt
cat 'example.txt.sbm'

'min 1 -> '
'max 2 -> '
%%
          GTO   255
LBL 0
          RCL     1
          RCL     2
          <    
          IFZ   254
          RCL     1
          STO     0
          RET  
LBL 254
          RCL     2
          STO     0
          RET  
          RET  
LBL 255
          GTO   253
LBL 1
          RCL     4
          RCL     5
          <    
          IFZ   252
          RCL     4
          STO     3
          RET  
          GTO   251
LBL 252
          RCL     5
          STO     3
          RET  
LBL 251
          RET  
LBL 253
          STR     0
          1    
          2    
          STO     2
          STO     1
          GSB     0
          RCL     0
          PRN  
          STR     1
          1    
          2    
          STO     5
          STO     4
          GSB     1
          RCL     3
          PRN  
          HLT  


# Implementación del generador de código para una máquina de registros

[Contenido](#Contenido)

In [10]:
%%sh
pygmentize -O linenos=1 -g rbm.py

0001: [37m###< 2016-08-28 18:12:00.911927 >###[39;49;00m
0002: 
0003: [37m#[39;49;00m
0004: [37m#  rbm.py[39;49;00m
0005: [37m#    maquina virtual de registros[39;49;00m
0006: [37m#[39;49;00m
0007: 
0008: [34mimport[39;49;00m [04m[36mshlex[39;49;00m, [04m[36msys[39;49;00m, [04m[36mmath[39;49;00m
0009: 
0010: 
0011: [34mdef[39;49;00m [32mrbm[39;49;00m(filename):
0012:     [37m#[39;49;00m
0013:     [37m# registros del procesador[39;49;00m
0014:     [37m#[39;49;00m
0015:     DR  = [[34m0[39;49;00m]    * [34m256[39;49;00m   [37m# Data Registers[39;49;00m
0016:     TR  = [[34m0[39;49;00m]    * [34m256[39;49;00m   [37m# Temporary Registers[39;49;00m
0017:     JT  = [[36mNone[39;49;00m] * [34m256[39;49;00m   [37m# Jump Table[39;49;00m
0018:     SF  = []             [37m# Stack Frame[39;49;00m
0019:     SS  = []             [37m# Stack[39;49;00m
0020:     LP  = []             [37m# Literal Pool[39;49;00m
0021:     IP  = [34m0[39;49;00m  

# Implementación del generador de código para una máquina de stack

[Contenido](#Contenido)

In [11]:
%%sh
pygmentize -O linenos=1 -g sbm.py

0001: [37m###< 2016-08-28 18:12:00.913367 >###[39;49;00m
0002: 
0003: [37m#! /usr/bin/python3[39;49;00m
0004: [34mimport[39;49;00m [04m[36mshlex[39;49;00m, [04m[36msys[39;49;00m, [04m[36mmath[39;49;00m
0005: 
0006: 
0007: [34mdef[39;49;00m [32msbm[39;49;00m(filename):
0008:     [37m#[39;49;00m
0009:     [37m# registros del procesador[39;49;00m
0010:     [37m#[39;49;00m
0011:     OS  = []             [37m# Operand Stack[39;49;00m
0012:     DR  = [[34m0[39;49;00m]    * [34m256[39;49;00m   [37m# Data Registers[39;49;00m
0013:     JT  = [[36mNone[39;49;00m] * [34m256[39;49;00m   [37m# Jump Table[39;49;00m
0014:     SF  = []             [37m# Stack Frame[39;49;00m
0015:     LP  = []             [37m# Literal Pool[39;49;00m
0016:     IP  = [34m0[39;49;00m              [37m# Instruction Pointer[39;49;00m
0017:     HLT = [36mFalse[39;49;00m          [37m# HaLT register[39;49;00m
0018:     CS  = [33m'[39;49;00m[33m'[39;49;00m             [

---

[Contenido](#Contenido)