# Introducción al diseño de lectores, generadores, traductores, interpretes y compiladores
Notas de clase sobre Teoría de la Compilación

**Juan David Velásquez Henao**   
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta una introducción al diseño de lectores, generadores, traductores, interpretes y compiladores. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Windows, Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/guias-de-instalacion) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí](http://nbviewer.jupyter.org/github/jdvelasq/teoria-de-la-compilacion/blob/master/01-introduccion.ipynb) para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento, los archivos de datos y los programas en Python a su disco duro; luego, carguelos y ejecutelos en línea en [Try Jupyter!](https://try.jupyter.org)

#### Contenido

>   * [Estructura del sistema de un computador](#Estructura-del-sistema-de-un-computador)
  * [Desarrollo histórico](#Desarrollo-histórico)
  * [Estructura típica de un compilador de 4 pasadas](#Estructura-típica-de-un-compilador-de-4-pasadas)
  * [Fases típicas y aplicaciones](#Fases-típicas-y-aplicaciones)
  * [Herramientas que usan la misma tecnología de los compiladores](#Herramientas-que-usan-la-misma-tecnología-de-los-compiladores)
  * [Programas relacionados con los compiladores](#Programas-relacionados-con-los-compiladores)
  * [Programas relacionados con las fases de la compilación](#Programas-relacionados-con-las-fases-de-la-compilación)
    * [Preprocesadores](#Preprocesadores)
    * [Analizador Léxico o scanner o lexer](#Analizador-Léxico-o-scanner-o-lexer)
    * [Analizador sintáctico o parser](#Analizador-sintáctico-o-parser)
    * [Tabla de Símbolos y Análisis Semántico](#Tabla-de-Símbolos-y-Análisis-Semántico)
    * [Verificación de tipos](#Verificación-de-tipos)
    * [Generación de código intermedio](#Generación-de-código-intermedio)
    * [Optimización del código](#Optimización-del-código)
    * [Generación de código máquina](#Generación-de-código-máquina)
    * [Ensambladores de dos pasadas](#Ensambladores-de-dos-pasadas)
  * [Herramientas para la construcción de compiladores](#Herramientas-para-la-construcción-de-compiladores)
  * [Compiladores, traductores y emuladores](#Compiladores,-traductores-y-emuladores)


**Bibliografía**




**Recursos adicionales de aprendizaje**



# Estructura del sistema de un computador

[Contenido](#Contenido)

![alt text](images/tcc-01-1-EstrcuturaComp.jpg)


# Diferencia entre un interprete y un compilador

[Contenido](#Contenido)

![alt text](images/tcc-01-2-InterComp.jpg)

# Desarrollo histórico

[Contenido](#Contenido)

Los primeros computadores fueron desarrollados en la década de los 40s. El primer lenguaje de programación es el Lenguaje Máquina. 

* 1951: Lenguaje Ensamblador.
* 1952: Autocode
* 1957: Fortran (programación imperativa)
* 1958: Lisp  (programación funcional)
* 1958: Algol.
* 1959: COBOL 
* 1960: Simula (primer lenguaje orientado a objetos)
* 1969: C (lenguaje orientado a la programación de sistemas)
* 1972: Prolog.
* 1978: SQL
* 1980: C++
* 1984: MatLab
* 1988: Mathematica
* 1991: Python 
* 1995: Java y PHP
* ...

# Estructura típica de un compilador de 4 pasadas

[Contenido](#Contenido)

![alt text](images/tcc-01-3-EstrComp.jpg)

# Fases típicas y aplicaciones

[Contenido](#Contenido)

*  Análisis léxico.  
   > Software que usa expresiones regulares: `grep`, `tr`, `awk`, `perl`.

* Análisis sintáctico.  
  > Intérpretes guiados por sintaxis.  
  Calculadoras `bc` y `dc` de Unix  
  Traductores guiados por sintaxis  
  Generadores de código guiados por sintaxis  
  Herramientas para web scrapping

* Análisis semántico.  
  > Verificadores estáticos.

* Optimización.  
  > Perfiladores de código

* Generación de código.  
  > Traductores de código fuente.  
  Generación de código para máquinas virtuales.    

# Herramientas que usan la misma tecnología de los compiladores

[Contenido](#Contenido)

* Lectores: archivos de configuración, analizadores de programas, etc.

* Editores de estructuras de datos.

* Generadores de código: generadores de código fuente, de páginas web, de GUIs.

* Verificadores estáticos.

* Traductores (lector + generador): f2c, impresoras estéticas, preprocesadores. 

* Lenguajes interpretados: SQL,  MATLAB, Scheme, Perl, Ruby.

* Formateadores de texto: TeX, LaTeX, Markdown.

* Intérpretes de consultas.

* Lenguajes de línea de comandos: AWK, Shells de Unix.

# Programas relacionados con los compiladores

[Contenido](#Contenido)

*	Interpretes
*	Ensambladores (assemblers)
*	Enlazadores (linkers)
*	Cargadores
*	Preprocesadores
*	Editores
*	Depuradores
*	Perfiladores
*	Manejadores de proyectos

# Programas relacionados con las fases de la compilación

[Contenido](#Contenido)

## Preprocesadores

[Contenido](#Contenido)

Modifican el código fuente antes de pasarlo al compilador

*  Definición y uso de macros
*  Inclusión de archivos
*  Preprocesadores racionales
*  Mecanismo de extensión de lenguajes

```
    #include <stdio.h>
    #define max(a, b) (a<b? b : a)
    int main() { printf( "El mayor entre 1 y 2 es \%d", max( 1, 2)); }
```

## Analizador Léxico o scanner o lexer

[Contenido](#Contenido)

•	Token: Elemento básico indivisible (unidad léxica básica, tipo)

•	Lexema: Cadena de texto que representa un token

![alt text](images/tcc-01-4-analisisLexico.tiff)

In [1]:
%%sh
cat > example.txt <<EOF
var z:num;
z := 0;    
while (z < 10) do 
    {
    write 'do while (1 a 10) ==> ':  z;
    z := z + 1;
    } 
end
EOF

In [2]:
%%sh 
python yylex.py example.txt

+-- TOKENTABLE
    +-- VAR {lexeme: var, lineno: 0}
    +-- ID {lexeme: z, lineno: 0}
    +-- : {lexeme: :, lineno: 0}
    +-- DATATYPE {lexeme: num, lineno: 0}
    +-- ; {lexeme: ;, lineno: 0}
    +-- ID {lexeme: z, lineno: 1}
    +-- := {lexeme: :=, lineno: 1}
    +-- NUM {lexeme: 0, lineno: 1}
    +-- ; {lexeme: ;, lineno: 1}
    +-- WHILE {lexeme: while, lineno: 2}
    +-- ( {lexeme: (, lineno: 2}
    +-- ID {lexeme: z, lineno: 2}
    +-- < {lexeme: <, lineno: 2}
    +-- NUM {lexeme: 10, lineno: 2}
    +-- ) {lexeme: ), lineno: 2}
    +-- DO {lexeme: do, lineno: 2}
    +-- { {lexeme: {, lineno: 3}
    +-- WRITE {lexeme: write, lineno: 4}
    +-- STR {lexeme: 'do while (1 a 10) ==> ', lineno: 4}
    +-- : {lexeme: :, lineno: 4}
    +-- ID {lexeme: z, lineno: 4}
    +-- ; {lexeme: ;, lineno: 4}
    +-- ID {lexeme: z, lineno: 5}
    +-- := {lexeme: :=, lineno: 5}
    +-- ID {lexeme: z, lineno: 5}
    +-- + {lexeme: +, lineno: 5}
    +-- NUM {lexeme: 1, lineno: 5}
    +-- ; {lexeme: ;,

## Analizador sintáctico o parser

[Contenido](#Contenido)

In [3]:
%%sh 
python yyparse.py example.txt

+-- SYNTAXTREE
    +-- FUNCTIONDECL {lineno: 0}
    +-- MAINPROG {lineno: 0}
        +-- VAR {lineno: 0}
        |   +-- ID {datatype: num, lineno: 0, scope: 0, value: z}
        +-- ASSIGN {lineno: 1, scope: 0, value: z}
        |   +-- NUM {datatype: num, lineno: 1, value: 0}
        +-- WHILE {lineno: 2}
        |   +-- < {datatype: bool, lineno: 2}
        |   |   +-- ID {lineno: 2, scope: 0, value: z}
        |   |   +-- NUM {datatype: num, lineno: 2, value: 10}
        |   +-- BLOCK {lineno: 4}
        |       +-- WRITE {lineno: 4}
        |       |   +-- STR {datatype: str, lineno: 4, value: 'do while (1 a 10) ==> '}
        |       |   +-- ID {lineno: 4, scope: 0, value: z}
        |       +-- ASSIGN {lineno: 5, scope: 0, value: z}
        |           +-- + {datatype: num, lineno: 5}
        |               +-- ID {lineno: 5, scope: 0, value: z}
        |               +-- NUM {datatype: num, lineno: 5, value: 1}
        +-- END {lineno: 7}


**Gramática (reglas para construir el árbol sintáctico)**

```
exp:  ID
   |  NUM
   |  exp ‘+’ exp
   |  exp ‘*’ exp
   |  ‘(’ exp ‘)’

stmt: ID ‘:=’ exp
   |  WHILE ‘(’ exp ‘)’ DO stmt
   |  IF ‘(’ exp ‘)’ THEN stmt
```


## Tabla de Símbolos y Análisis Semántico

[Contenido](#Contenido)

Es una estructura de datos que registra información sobre los atributos de cada identificador en el programa

*	Registra los identificadores usados en el programa fuente

*	Recopila información sobre los atributos de cada identificador
   * Memoria asignada
   * Tipo (entero, flotante, puntero, …)
   * Ámbito (parte del programa donde tiene validez)
   * Para las funciones: 
       * Número y tipo de los argumentos
       * Método de paso de cada argumento
       * Tipo de valor devuelto por la función

In [4]:
%%sh 
python yysymboltab.py example.txt

+-- SYMBOLTABLE
    +-- $chs {argstype: ['num'], datatype: num, kind: bfun, nargs: 1}
    +-- $abs {argstype: ['num'], datatype: num, kind: bfun, nargs: 1}
    +-- $sgn {argstype: ['num'], datatype: num, kind: bfun, nargs: 1}
    +-- z {datatype: num, kind: uvar, location: 0, scope: 0}


## Verificación de tipos

[Contenido](#Contenido)

In [5]:
%%sh 
python yytypecheck.py example.txt

+-- SYNTAXTREE
    +-- FUNCTIONDECL {lineno: 0}
    +-- MAINPROG {lineno: 0}
        +-- VAR {lineno: 0}
        |   +-- ID {datatype: num, lineno: 0, scope: 0, value: z}
        +-- ASSIGN {lineno: 1, scope: 0, value: z}
        |   +-- NUM {datatype: num, lineno: 1, value: 0}
        +-- WHILE {lineno: 2}
        |   +-- < {datatype: bool, lineno: 2}
        |   |   +-- ID {datatype: num, lineno: 2, scope: 0, value: z}
        |   |   +-- NUM {datatype: num, lineno: 2, value: 10}
        |   +-- BLOCK {lineno: 4}
        |       +-- WRITE {lineno: 4}
        |       |   +-- STR {datatype: str, lineno: 4, value: 'do while (1 a 10) ==> '}
        |       |   +-- ID {datatype: num, lineno: 4, scope: 0, value: z}
        |       +-- ASSIGN {lineno: 5, scope: 0, value: z}
        |           +-- + {datatype: num, lineno: 5}
        |               +-- ID {datatype: num, lineno: 5, scope: 0, value: z}
        |               +-- NUM {datatype: num, lineno: 5, value: 1}
        +-- END {lin

## Generación de código intermedio

[Contenido](#Contenido)

Es una representación intermedia explícita del programa fuente que es fácil de producir y traducir al programa objeto. Puede considerarse como un programa para una máquina abstracta.
*	Fácil de producir
*	Fácil de traducir al programa objeto


Código de tres direcciones:

*	Cada instrucción tiene a lo sumo un operador
*	El compilador decide el orden de ejecución de las instrucciones
*	El compilador genera nombres temporales para almacenar cálculos
*	Algunas instrucciones tienen menos de tres operandos.

**Código intermedio para una máquina de stack (pila)**

In [6]:
%%sh 
python yysbm.py example.txt

In [7]:
%%sh 
cat "example.txt.sbm"

'do while (1 a 10) ==> '
%%
          0    
          STO     0
LBL 255
          RCL     0
          10   
          <    
          IFZ   254
          STR     0
          RCL     0
          PRN  
          RCL     0
          1    
          +    
          STO     0
          GTO   255
LBL 254
          HLT  


**Código intermedio para una máquina de registros**

In [8]:
%%sh 
python yyrbm.py example.txt

In [9]:
%%sh
cat "example.txt.rbm"

'do while (1 a 10) ==> '
%%
          ADD+    1   0   0
          STO     1   0
LBL 255
          RCL     2   0
          ADD+    3   0  10
          <       1   2   3
          IFZ     1 254
          STR     0
          RCL     1   0
          PRN     1
          RCL     2   0
          ADD+    3   0   1
          +       1   2   3
          STO     1   0
          GTO   255
LBL 254
          HLT  


## Optimización del código

[Contenido](#Contenido)

Se busca que la ejecución del código máquina sea más rápida.

```
temp1 := 60                addi     $1  $0  60
temp2 := id3               mem2reg  $2   3
temp2 := temp2 * temp1     mlt      $2  $2  $1
temp3 := id2               mem2reg  $3   2
temp4 := temp3 + temp2     add      $4  $3  $2  
id1   := temp4             reg2mem   1  $4 
```

Código optimizado:

```
temp2 := id3               mem2reg  $2   3
temp2 := temp2 * 60        mlti     $2  $2  60
temp3 := id2               mem2reg  $3   2
temp4 := temp3 + temp2     add      $4  $3  $2  
id1   := temp4	           reg2mem   1  $4 
```

**Tipos de optimizaciones**

* Optimizaciones tempranas.
  * Evaluación de expresiones constantes
  * Simplificación algebraica
  * Propagación de copias
  * Propagación de constantes

* Eliminación de redundancias.
  * Eliminación de subexpresiones comunes
  * Movimiento de código invariante en ciclos
  * Eliminación de verificación innecesaria de límites

* Optimización de subrutinas.
  * Optimización Tail-Call y Tail-Recursion
  * Integración de funciones
  * Expansión en línea

* Otras.
  * Código inalcanzable.
  * Linealización (código espagueti)
  * Simplificación de if con elementos vacíos
  * Simplificación de ciclos
  * Optimización de la memoria

## Generación de código máquina

[Contenido](#Contenido)

Genera assembler o código de máquina:

```
MOVF id3, R2
MULF #60.0, R2
MOVF id2, R1
ADDF R2, R1
MOVF R1, id1
```

El lenguaje ensamblador es una versión nemotécnica del código-máquina propio de cada procesador.

## Ensambladores de dos pasadas

[Contenido](#Contenido)

*	Primera pasada: se lee todo el archivo y se almacenan los identificadores en la tabla de símbolos (del back-end) y se asignan posiciones de memoria.

*	Segunda pasada: traduce el código a lenguaje de máquina cambiando identificadores por su posición en memoria.

# Herramientas para la construcción de compiladores

[Contenido](#Contenido)

* Generadores de analizadores léxicos.

* Generadores de analizadores sintácticos.

* Dispositivos de traducción dirigida por la sintaxis.

* Generadores automáticos de código.

* Dispositivos para el análisis de flujo de datos.

# Compiladores, traductores y emuladores

[Contenido](#Contenido)

**Notación**

![alt text](images/tcc-01-5-thompson.jpg)

**Compilación**

![alt text](images/tcc-01-6-compilacion.jpg)

**Compilación cruzada**

![alt text](images/tcc-01-7-compilacionCruzada.jpg)

**Compilación de dos pasadas**

![alt text](images/tcc-01-8-compilacion2pas.jpg)

**Compilación de un compilador a partir de un lenguaje de alto nivel**

![alt text](images/tcc-01-9-compilacionComp.jpg)

**Compilación de un compilador a partir de un lenguaje de bajo nivel**

![alt text](images/tcc-01-10-compilacionComp.jpg)

**Máquina real y máquina abstracta**

![alt text](images/tcc-01-11-maqRalAbs.jpg)

**Compilador interpretativo**

![alt text](images/tcc-01-12-compInter.jpg)

**Compilador portable**

![alt text](images/tcc-01-13-compPort.jpg)

---

[Contenido](#Contenido)