# Gramáticas Libres del Contexto
Notas de clase sobre Teoría de la Compilación

**Juan David Velásquez Henao**   
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta una introducción al diseño de lectores, generadores, traductores, interpretes y compiladores. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Windows, Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/guias-de-instalacion) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí](http://nbviewer.jupyter.org/github/jdvelasq/teoria-de-la-compilacion/blob/master/tcc-05-gramaticas.ipynb) para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento, los archivos de datos y los programas en Python a su disco duro; luego, carguelos y ejecutelos en línea en [Try Jupyter!](https://try.jupyter.org)

#### Contenido

>   * [Objetivo del Análisis Sintáctico](#Objetivo-del-Análisis-Sintáctico)
  * [Ejemplo de una gramática](#Ejemplo-de-una-gramática)
  * [Derivación](#Derivación)
  * [Lenguaje definido por una gramática G.](#Lenguaje-definido-por-una-gramática-G.)
  * [Gramáticas recursivas por la izquierda y por la derecha](#Gramáticas-recursivas-por-la-izquierda-y-por-la-derecha)
  * [Árbol de análisis](#Árbol-de-análisis)
  * [Árbol de análisis y árbol sintáctico abstracto](#Árbol-de-análisis-y-árbol-sintáctico-abstracto)
  * [Ambiguedad](#Ambiguedad)
  * [Precedencia y asociatividad](#Precedencia-y-asociatividad)
  * [Analizador recursivo descendente LL-1](#Analizador-recursivo-descendente-LL-1)
    * [Implementación](#Implementación)



# Objetivo del Análisis Sintáctico

[Contenido](#Contenido)

Determinar si una cadena de tokens es legal en un lenguaje.  

Secuencia legal:

```python
x := (1 + 2 * 3);
```


Secuencia ilegal:  

```python
x, y := (1 + 2 * 3;
```


(Determinación de errores sintácticos del código fuente).

# Ejemplo de una gramática

[Contenido](#Contenido)

```
1:	exp: exp  op  exp
2:	exp: ‘(’ exp ‘)’
3:	exp: NUM
4:	op: ‘+’
5:	op: ‘-’
6:	op: ‘*’
```


Notación corta: 

```
exp: exp op exp | ‘(’ exp ‘)’ | NUM
op:  ‘+’  |  ‘–’ |  ‘*’  
```

Las reglas  gramaticales reciben el nombre de producciones.

# Derivación

[Contenido](#Contenido)

Derivación de la expresión aritmética  `(34 – 3) * 42` usando la gramática anterior. 

```
(1)	exp:  exp op  exp                 [regla 1: exp: exp  op  exp]
(2)	exp:  exp op NUM                  [regla 3: exp: NUM]
(3)	exp:  exp ‘*’ NUM                 [regla 6: op: ‘*’]
(4)	exp:  ‘(’ NUM ‘)’ * NUM           [regla 2: exp: ‘(’ exp ‘)’]
(5)	exp:  ‘(’ NUM op exp ‘)’ * NUM    [regla 1: exp: exp  op  exp]
(6)	exp:  ‘(’ NUM op NUM ‘)’ * NUM    [regla 3: exp: NUM]
(7)	exp:  ‘(’ NUM – NUM ‘)’ * NUM     [regla 5: op: ‘–’ ]
(8)	exp:  ‘(’ NUM – NUM ‘)’ * NUM     [regla 3: exp: NUM]
```

Derive para la expresión  `3 * (4 – 5)`.

# Lenguaje definido por una gramática G.

[Contenido](#Contenido)

$$L(G)= \{s \; | \; exp \to^* s \}$$


Indique cuál es el lenguaje definido por las siguientes gramáticas:

a)	
```
      E: ‘(’ E ‘)’ | ‘a’
```

b)	
```
      E: E ‘+’ ‘a’ | ‘a’
```


c) 
```
      stmt:   ifstmt |  OTHER  
      ifstmt: IF ‘(’ exp ‘)’ stmt | IF  ‘(’ exp ‘)’ stmt ELSE stmt  
      exp: ‘0’  |  ‘1’
```

# Gramáticas recursivas por la izquierda y por la derecha

[Contenido](#Contenido)

* Gramática recursiva por la izquierda:  $A \to A \; \alpha \;|\;  \beta$   (qué cadenas genera?)

* Gramática recursiva por la derecha:  $A \to \alpha \; A \; | \; \beta$     (qué cadenas genera?)

**Ejercicio.--** Indique cuales cadenas generan las gramáticas:

a)    
```
     A: (A) A | ε
```

b)	
```
    stmt:     ifstmt  |  other
	ifstmt:   if  ( exp ) stmt   |   if  ( exp ) stmt elsepart
	elsepart: else stmt  |  ε  
	exp:      0 | 1
``` 

# Árbol de análisis

[Contenido](#Contenido)

![alt text](images/tcc-04-1-arbolAnalisis.tiff)

# Árbol de análisis y árbol sintáctico abstracto

[Contenido](#Contenido)

![alt text](images/tcc-04-2-arbolAnalisisAbstracto.jpg)

# Ambiguedad

[Contenido](#Contenido)

**Ejercicio.--** Aplique la derivación por la izquierda y la derivación por la derecha a la expresión `34 - 3 * 42` usando la siguiente gramática.

```
exp: exp  op  exp  |  ‘(’ exp ‘)’ |  NUM

op: ‘+’  |  ‘–’ |  ‘*’  
```

(observe que la derivación da dos árboles sintácticos diferentes)

# Precedencia y asociatividad

[Contenido](#Contenido)

Para remover la ambigüedad se agrupan los operadores por grupos de precedencia y se crea una regla para cada uno de ellos.

```
exp: exp  op  exp  |  ‘(’ exp ‘)’ |  NUM

op: ‘+’  |  ‘–’ |  ‘*‘
```

se transforma en:

```
exp:    exp  addop  exp  |  term
addop:  ‘+’  |  ‘–’
term:   term mulop term | factor
mulop:  ‘*’
factor: ‘(’ exp ‘)’ | NUM
```

Sin embargo, la gramática continua siendo ambigua. Se agrega asociatividad por la izquierda transformado la gramática anterior en:

```
exp:    exp  addop  term  |  term
addop:  ‘+’  |  ‘–’
term:   term mulop factor | factor
mulop:  ‘*’
factor: ‘(’ exp ‘)’ | NUM
```

**Ejercicio.--**  Elimine la ambigüedad de la siguiente gramática.

```
exp: exp  op  exp  |  '(' exp ')'  |  NUM

op: '+'  |  '–' |  '*'  | '<' |  '==' 
```


**Ambiguedad no esencial**

Son gramáticas que independientemente del tipo de recursividad (izquierda o derecha) producen siempre el mismo árbol.


**Ejercicio.--** Dada la gramática:

```
exp:    exp  addop  term  |  term
addop:  ‘+’  |  ‘–’
term:   term mulop factor | factor
mulop:  ‘*’
factor: ‘(’ exp ‘)’ | NUM
```


Escriba la derivación de la izquierda, árbol de análisis y árbol sintáctico de las siguientes expresiones:

a)  `3 + 4 * 5 – 6`  
b)  `3 * (4 – 5 + 6)`  
c)  `3 – (4 + 5 * 6)`  


# Analizador recursivo descendente LL-1

[Contenido](#Contenido)

Considere la siguiente gramática:

```
list0:    '[' elements ']'

elements:  element [',' element]*

element:   LETTER  |  list0
```

Ejemplos de expresiones reconocidas por la gramática:

```
[a]
[a, b]
[a, b, c]
[[a, b], [c, d]]
```

**Ejercicio.--** Ejemplifique el reconocimiento de `[ a ]`.

**Ejercicio.--** Ejemplifique el reconocimiento de `[ a , b ,  [ c , d ] ]`.

## Implementación

[Contenido](#Contenido)

In [1]:
import dataTree as dt
import sys, shlex

## analizador recursivo descendente
def ard(text):

    ## prepara las estructuras de datos
    DATA = dt.TreeNode('DATA')
    TOKENTABLE = dt.SubNode(DATA, 'TOKENTABLE')

    ##
    ## analizador léxico
    ##
    def yylex(text):
    
        ## parte *generica* para todos los analizadores lexicos
        def put_token(token, lexeme):
            #
            dt.SubNode(TOKENTABLE, '', dict(token = token, lexeme = lexeme))
            #

        TOKENTABLE.clear() # borra la tabla de tokens si existe

        
        ## ejecución del analisis lexico
        lexemes = list(shlex.shlex(text))
        for lexeme in lexemes:

            if lexeme in '[ ]  ,'.split():
                #
                put_token(lexeme, lexeme)
                #
            elif lexeme.isalpha():
                #
                put_token('LETTER', lexeme)
                #
            else:
                #
                print('Caracter invalido:', lexeme)
                sys.exit()

        put_token('EOI', 'EOI')

        
    ##
    ## funciones genericas requeridas por
    ## el parser durante el reconocimiento de
    ## la gramatica
    ##
    def yytext(offset=0):
        #
        return TOKENTABLE[TOKENTABLE.get('index')].get('lexeme')
        #
    
    def yytoken():
        #
        return TOKENTABLE[TOKENTABLE.get('index')].get('token')
        #
    
    def yymatch(token, offset=0):
        #
        return token == yytoken()
        #

    def yyadvance(offset=1):
        #
        TOKENTABLE.attrib['index'] += offset
        #

    def yyaccept(token, advance=True):
        #
        if not yymatch(token):
            print('Syntax error')
            sys.exit()
            
        print('<' + yytoken() + ',\'' + yytext() + '\'>')
            
        if advance:
            yyadvance()

    ##
    ## Analizador sintáctico
    ##
    def yyparse():
        """
        gramatica:

            list0:    '[' elements ']'

            elements:  element [',' element]*

            element:   LETTER  |  list0

        """

        def list0():
            yyaccept('[')
            elements()
            yyaccept(']')

        def elements():
            element()
            while yymatch(','):
                yyaccept(',')
                elements()

        def element():
            if yymatch('LETTER'):
                yyaccept('LETTER')
            else:
                list0()

        # 'index' almacena el indice del token
        # actual en la tabla de tokens
        TOKENTABLE.set('index', 0)
        list0()
        print("")
        del TOKENTABLE.attrib['index']


    yylex(text)
    dt.printTree(TOKENTABLE)
    print("")
    yyparse()



In [2]:
ard( '[a, b, c]' )

+-- TOKENTABLE
    +--  {lexeme: [, token: [}
    +--  {lexeme: a, token: LETTER}
    +--  {lexeme: ,, token: ,}
    +--  {lexeme: b, token: LETTER}
    +--  {lexeme: ,, token: ,}
    +--  {lexeme: c, token: LETTER}
    +--  {lexeme: ], token: ]}
    +--  {lexeme: EOI, token: EOI}

<[,'['>
<LETTER,'a'>
<,,','>
<LETTER,'b'>
<,,','>
<LETTER,'c'>
<],']'>



In [3]:
ard('[ [a, b, c], [x, y, z]]')

+-- TOKENTABLE
    +--  {lexeme: [, token: [}
    +--  {lexeme: [, token: [}
    +--  {lexeme: a, token: LETTER}
    +--  {lexeme: ,, token: ,}
    +--  {lexeme: b, token: LETTER}
    +--  {lexeme: ,, token: ,}
    +--  {lexeme: c, token: LETTER}
    +--  {lexeme: ], token: ]}
    +--  {lexeme: ,, token: ,}
    +--  {lexeme: [, token: [}
    +--  {lexeme: x, token: LETTER}
    +--  {lexeme: ,, token: ,}
    +--  {lexeme: y, token: LETTER}
    +--  {lexeme: ,, token: ,}
    +--  {lexeme: z, token: LETTER}
    +--  {lexeme: ], token: ]}
    +--  {lexeme: ], token: ]}
    +--  {lexeme: EOI, token: EOI}

<[,'['>
<[,'['>
<LETTER,'a'>
<,,','>
<LETTER,'b'>
<,,','>
<LETTER,'c'>
<],']'>
<,,','>
<[,'['>
<LETTER,'x'>
<,,','>
<LETTER,'y'>
<,,','>
<LETTER,'z'>
<],']'>
<],']'>



## Ejercicio

Indique la expresión regular que genera la siguiente gramática.

```
A:   ‘0’ B | ‘1’ A | ε
B:   ‘1’ B | ‘0’
```

## Ejercicio

Cuantas cadenas diferentes genera la siguiente gramática?

```
a: ‘0’ b | ‘1’ c c
b: ‘1’ | ε
c: ‘0’ b | ‘1’
```

## Ejercicio

Sea la gramática:

```
e: e ‘+’ e | NUM
```

Cuantos árboles sintácticos diferentes tiene la expresión `1 + 2 + 3 + 4`.

----

[Contenido](#Contenido)