Elementos de un lenguaje de programación

Léxico: conjunto de símbolos base y cómo formar las palabras del lenguaje

Sintaxis: conjunto de reglas para combinar las palabras en frases o expresiones correctas

Semántica: conjunto de reglas para determinar si una frase o conjunto de frases del lenguaje es correcta respecto a su significado, no su estructura. Ejemplo: sistema de tipos del lenguaje

*Implementación

Oferta: si quieren ahondar en su conocimiento en Python, hay un Humble Bundle de puro Python: 
https://www.humblebundle.com/books/python-programming-no-starch-books

Oferta de tiempo limitado. 

Léxico

Conjunto L de palabras (tokens) con las que se construyen expresiones.

L es a su vez un subconjunto de A*, donde A es el alfabeto de símbolos atómicos del que se conforman las palabras del lenguaje (tokens)

In [2]:
from itertools import product

A = {'h', 'e'}
A3 = set(product(A, repeat=4)) | set(product(A, repeat=3)) | set(product(A, repeat=2)) | set(product(A, repeat=1))

for tup in A3:
    print(''.join(tup))
    
#W3 = map(lambda tup: ''.join(tup), A3)
W3 = [''.join(tup) for tup in A3]
    
L = {'he', 'hehe'}

L.issubset(W3)

hhh
hhe
heeh
eeh
h
hee
ehhe
heee
eheh
eeeh
hehe
hehh
ehe
eehe
ehh
he
eh
ee
hhhh
eeee
eee
hhhe
e
hh
heh
eehh
ehhh
hhee
hheh
ehee


True

Ejemplos de palabras, tokens, lexemas en un lenguaje de programación:

Palabras reservadas (for, while, if, def)

Identificadores

Constantes o literales (enteros, flotantes, cadenas)

Símbolos especiales (espacios en blanco, operadores, delimitadores como paréntesis o corchetes)

In [3]:
def isso(arr):
    for i in range(len(arr)):
        cursor = arr[i]
        pos = i
        
        while pos > 0 and arr[pos - 1] > cursor:
            arr[pos] = arr[pos - 1]
            pos = pos - 1
        arr[pos] = cursor
        
    return arr

isso(['1.3', '1.5', '0', '8'])

['0', '1.3', '1.5', '8']

Una definición formal de lenguaje con base en su léxico

Si tenemos un alfabeto A con todos los símbolos que pueden encontrarse en el lenguaje:

A = {a-Z | 0-9 | +-*/% | ...}

Entonces A* es el conjunto de todas las palabras que pueden formarse con esos símbolos

Sea s una cadena de caracteres que representa un PROGRAMA entero, no solamente una palabra. Por tanto, podemos formalizar la definición de lenguaje a un conjunto de candenas C de todos los posibles programas escritos a partir de A, subconjunto también de A*.

In [4]:
from itertools import product

#A_str = ' !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~'
A_str = ' 012345+'
A = set(A_str)

PROGRAMA_1 = '2 + 3'
PROGRAMA_2 = '5+++5'
PROGRAMA_3 = '++0++'

#M = list(reduce(lambda x,y: set(x) | set(y), list(map(lambda arity: set(product(A, repeat=arity)), list(range(20))))))

A5 = set(product(A, repeat=5))
P5 = [''.join(tup) for tup in A5]

print(PROGRAMA_1 in P5)
print(PROGRAMA_2 in P5)
print(PROGRAMA_3 in P5)

True
True
True


Aunque hemos llegado a una definición formal de lenguaje con base en el conjunto alfabeto:

L.issubset(A*)

Esta definición no es muy útil, pues no me dicen cómo formar todas las cadenas s que pertenecen a L y que son correctas. 

Hace falta la sintaxis y semántica como mecanismos de construcción del conjunto completo y correcto de cadenas s de L, correspondiente a todos los posibles programas que puedo formar en el lenguaje L. 

Antes de adentrarnos en los otros elementos de un lenguaje de programación, es importante listar las herramientas que tengo para definir el léxico de un lenguaje: 

Conjuntos, con los que hemos trabajado hasta este momento.

Autómatas de estados finitos: tal como se vieron en el curso de matemáticas computacionales. Nota: breve recordatorio en el pizarrón.

Expresiones regulares: hagamos un ejemplo!

Retomemos el último programa de Python y lo caro que resulta computacionalmente calcular el conjunto total de posibles programas o cadenas en general a partir de un alfabeto extenso. 

¿Cómo lo haríamos con expresiones regulares?

AVISO: las expresiones regulares son voraces por definición.


In [5]:
import re

PROGRAMA_1 = '2 + 3'
PROGRAMA_2 = '5+++5'
PROGRAMA_3 = '++0++'

PROGRAMA_4 = 'print("Hello World!")'
PROGRAMA_5 = 'def isso(arr):\
    for i in range(len(arr)):\
        cursor = arr[i]\
        pos = i\
        \
        while pos > 0 and arr[pos - 1] > cursor:\
            arr[pos] = arr[pos - 1]\
            pos = pos - 1\
        arr[pos] = cursor\
        \
    return arr'

lenguaje = re.compile('^[\s!"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~]*$')

print(lenguaje.search(PROGRAMA_1) is not None)
print(lenguaje.search(PROGRAMA_2) is not None)
print(lenguaje.search(PROGRAMA_3) is not None)
print(lenguaje.search(PROGRAMA_4) is not None)
print(lenguaje.search(PROGRAMA_5) is not None)

True
True
True
True
True


Recordemos que esta definición es laxa y limitada para nuestro propósito: un plano de construcción y validación de un lenguaje de programación.

Las herramientas que tenemos para la definición de léxico describen a su vez un lenguaje, pero del tipo regular, tales como: 

1. El lenguaje de palabras que comienza con a, seguido o no de una c y con una o más b
2. El lenguaje de palabras que comienza con una letra o _, seguido cualquier número de de letras, números o _

¿Cómo conocemos comúnmente al lenguaje regular descrito en el inciso 2?


Tenemos otra herramienta a nuestra disposición con la que podríamos definir el léxico de un lenguaje de programación: la gramática, que es un conjunto de derivaciones que sirven como plantilla para estructurar un lenguaje. 

Ejemplo: vamos a describir el lenguaje de los identificadores válidos de C++ con derivaciones o reglas de producción. *Usaremos una versión no estricta de EBNF para simplificar la escritura de la gramática*

IDENT        -> IDENT_INICIO IDENT_RESTO+
IDENT_INICIO -> _ | LETRA
IDENT_RESTO  -> _ | LETRA | NUMERO

Hay un problema con esta definición, respeto a las reglas de C++ para formar identificadores. ¿Lo ven? ¿Cómo lo arreglaríamos?

A diferencias de las otras formas (conjuntos, autómatas de estados finitos o expresiones regulares), las gramáticas tienen un mayor poder expresivo, el cual permite definir todo el conjunto posible de lenguajes regulares, además de lenguajes libres de contexto. 

Ahora es un buen momento para revisar la jerarquía de lenguajes de Chomsky:

https://www.google.com/url?sa=i&source=images&cd=&ved=2ahUKEwibhJLUh43kAhXKmq0KHQQqAgIQjRx6BAgBEAQ&url=https%3A%2F%2Fwww.geeksforgeeks.org%2Ftoc-chomsky-hierarchy%2F&psig=AOvVaw2MvOVs1G2xeN8CjwLGDRMq&ust=1566239688494529

De menor a mayor en poder expresivo:

Tipo 3 - Regular - Autómata de estados finitos
Tipo 2 - Libre de contexto - Autómata de pila
Tipo 1 - Sensitiva al contexto - Autómata acotado linealmente
Tipo 0 - Recursivamente enumerable - Máquina de Turing

En este curso sólo llegamos hasta el Tipo 2: gramáticas libres de contexto. Estas últimas nos ayudan a definir el siguiente elemento de un lenguaje: 


Sintaxis

Hemos definido nuestro vocabulario gracias al conocimiento del análisis léxico, las herramientas y algunos ejemplos de código. Llegamos a una definición correcta, pero vaga, de lo que es un lenguaje, a partir de nuestro alfabeto. 

La sintaxis es el conjunto de reglas que nos ayuda a restringir las combinaciones de palabras de nuestro lenguaje en frases correctas. 

Asumamos que hemos alimentado a nuestro analizar léxico de una cadena de caracteres con nuestro programa:

NOTA: instalen astdump

pip3 install astdump


In [6]:
import ast
import astdump
from pprint import pprint

def fib(n):
    if n==1:
        return 0
    if n==2:
        return 1
    else:
        return fib(n-1) + fib(n-2)

fib(10)

fib_program = """
def fib(n):
    if n==1:
        return 0
    if n==2:
        return 1
    else:
        return fib(n-1) + fib(n-2)
"""

#tree = ast.parse(fib_program)

astdump.indented(fib_program)


Module
  FunctionDef
    arguments
      arg
    If
      Compare
        Name
          Load
        Eq
        Num
      Return
        Num
    If
      Compare
        Name
          Load
        Eq
        Num
      Return
        Num
      Return
        BinOp
          Call
            Name
              Load
            BinOp
              Name
                Load
              Sub
              Num
          Add
          Call
            Name
              Load
            BinOp
              Name
                Load
              Sub
              Num


El resultado es árbol de tokens, también conocido como AST (Árbol de sintaxis abstracta).

¿Por qué se representa con un árbol? ¿No bastaría una lista de tokens?

¿Por qué no podemos usar una expresión regular o scanner para producir el mismo árbol de tokens que un parser libre de contexto?

Un lenguaje regular no puede manejar definiciones recursivas. El ejemplo canónico que demuestra las limitaciones de un lenguaje regular es el siguiente: 

EXP -> ( EXP )
EXP -> VACÍO

Es el lenguaje que tienen la misma cantidad de paréntesis abiertos que cerrados, concordancia de paréntesis. 

Otro ejemplo más real: describir HTML con un lenguaje regular. 

Recordatorio de matemáticas computacionales: Lema del bombeo

Otro forma intuitiva para determinar cuándo un lenguaje regular no es apto es cuando tenemos la necesidad de usar una pila (stack) para procesar la entrada y determinar que es correcta. Un stack, como en el caso de los autómatas de pila, nos permite recordar y añadir condiciones a las transiciones de un autómata de estados finitos. 

Ejemplo: 

L = {0^n1^n | n >= 0}

El lenguaje que tiene la misma cantidad de 0s y 1s. Un lenguaje regular no puede recordar algo que haya procesado, y por tanto, tomar una decisión en esos términos. Va consumiendo la cadena de caracteres tal cual se le presenta, sin vuelta atrás. 

En cambio, un autómata de pila o gramática libre de contexto, tienen una notición de estado al usar una pila. En la gramática libre de contexto, el uso de la pila está implícito en su definición recursiva (callstack). 

Cada derivación es como si llamáramos una función, y necesitamos de una pila para llevar registro del anidamiento de llamadas a función. De esta analogía surge la primera estrategia que usaremos para implementar un analizar sintáctico: descendente recursivo.  

Consideremos un lenguaje esotérico para hacer el ejemplo más ameno: 
http://www.lolcode.org/

ejemplo de IF-THEN en lolcode:

BOTH SAEM ANIMAL AN "CAT"
O RLY?
  YA RLY, VISIBLE "J00 HAV A CAT"
  MEBBE BOTH SAEM ANIMAL AN "MAUS"
    VISIBLE "NOM NOM NOM. I EATED IT."
OIC

Python equivalente: 

```python
if animal=='CAT':
    print('J00 HAV A CAT')
elif animal=='MAUS':
    print('NOM NOM NOM. I EATED IT.'
else:
    print('HAZ ERRORZ')
```

Gramática:

<code>
EXPRESSION
O RLY?
  YA RLY
    CODE_BLOCK
 [MEBBE EXPRESSION
    CODE_BLOCK
 [MEBBE EXPRESSION
    CODE_BLOCK
  ...]]
 [NO WAI
    CODE_BLOCK]
OIC
</code>        

En EBNF:

LOLCODE_IF_ELSE -> BOOLEAN ORLY YARLY CODE_BLOCK [{MEBBE BOOLEAN CODE_BLOCK}] [NOWAI CODE_BLOCK] OIC
CODE_BLOCK -> LOLCODE_IF_ELSE | OTHER_STATEMENT

Asumimos que ya nos entregan un stream de tokens como entrada:

Ejemplo: 

token_stream = [ORLY, YARLY, ORLY, YARLY, CODE_BLOCK, OIC, OIC]

In [7]:
from enum import Enum

class Token(Enum):
    BOOLEAN = 1
    ORLY = 2
    YARLY = 3
    OTHER_STATEMENT = 4
    MEBBE = 5
    NOWAI = 6
    OIC = 7
    EOF = 8
    
def handle_parse_error(remaining_tokens):
    print(f'ERROR DE SINTAXIS. FALTA POR PROCESAR: {remaining_tokens}')
    
def next_token(token_stream):
    token = token_stream.pop(0) if token_stream else Token.EOF
    print(f'NEXT {token}')
    return token

def peek_token(token_stream):
    token = token_stream[0] if token_stream else Token.EOF
    print(f'PEEK {token}')
    return token   

def parse_LOLCODE_CODEBLOCK(token_stream):
    print('parse_LOLCODE_CODEBLOCK')
    token = peek_token(token_stream)

    if token == Token.BOOLEAN:
        if not parse_LOLCODE_IF_ELSE(token_stream): return False
    elif token != Token.OTHER_STATEMENT:
        handle_parse_error(token_stream)
        return False
    else:
        next_token(token_stream)
    return True

def parse_LOLCODE_MEBBE(token_stream):
    print('parse_LOLCODE_MEBBE')
    if next_token(token_stream) != Token.MEBBE:
        handle_parse_error(token_stream)
        return False
    
    if next_token(token_stream) != Token.BOOLEAN:
        handle_parse_error(token_stream)
        return False
        
    if not parse_LOLCODE_CODEBLOCK(token_stream): return False
    
    return True
        
def parse_LOLCODE_IF_ELSE(token_stream):
    print('parse_LOLCODE_IF_ELSE')
    if next_token(token_stream) != Token.BOOLEAN:
        handle_parse_error(token_stream)
        return False
    elif next_token(token_stream) != Token.ORLY:
        handle_parse_error(token_stream)
        return False
    elif next_token(token_stream) != Token.YARLY:
        handle_parse_error(token_stream)
        return False
    else:
        if not parse_LOLCODE_CODEBLOCK(token_stream): return False
            
        while(peek_token(token_stream) == Token.MEBBE):
            if not parse_LOLCODE_MEBBE(token_stream): return False
            
        token = next_token(token_stream)
        if(token == Token.NOWAI):
            if not parse_LOLCODE_CODEBLOCK(token_stream): return False
            
        if(next_token(token_stream) != Token.OIC):
            handle_parse_error(token_stream)
            return False
        
    return True
    

tokens_1 = [Token.BOOLEAN, 
            Token.ORLY, Token.YARLY, 
                Token.OTHER_STATEMENT, 
            Token.NOWAI, 
                Token.OTHER_STATEMENT, 
            Token.OIC]

tokens_2 = [Token.BOOLEAN, 
            Token.ORLY, Token.YARLY, 
                Token.OTHER_STATEMENT,
            Token.MEBBE, Token.BOOLEAN,
                Token.OTHER_STATEMENT,
            Token.NOWAI, 
                Token.OTHER_STATEMENT, 
            Token.OIC]

tokens_3 = [Token.BOOLEAN, 
            Token.ORLY, Token.YARLY, 
                Token.OTHER_STATEMENT,
            Token.MEBBE, Token.BOOLEAN,
                Token.OTHER_STATEMENT,
            Token.NOWAI, 
                Token.BOOLEAN, 
                Token.ORLY, Token.YARLY, 
                    Token.OTHER_STATEMENT, 
                Token.NOWAI, 
                    Token.OTHER_STATEMENT,
                Token.OIC,
            Token.OIC]

tokens_4 = [Token.BOOLEAN, 
            Token.ORLY, Token.YARLY,  
            Token.NOWAI, 
                Token.OTHER_STATEMENT, 
            Token.OIC]

tokens_5 = [Token.BOOLEAN, 
            Token.ORLY, Token.YARLY, 
                Token.OTHER_STATEMENT,
            Token.MEBBE, Token.BOOLEAN,
                Token.OTHER_STATEMENT,
            Token.NOWAI, 
                Token.BOOLEAN, 
                Token.ORLY, Token.YARLY, 
                    Token.OTHER_STATEMENT, 
                Token.NOWAI, 
                    Token.OTHER_STATEMENT,
            Token.OIC]
    
print(parse_LOLCODE_IF_ELSE(tokens_1))
print('----------')
#print(parse_LOLCODE_IF_ELSE(tokens_2))
#print('----------')
#print(parse_LOLCODE_IF_ELSE(tokens_3))
#print('----------')
#print(parse_LOLCODE_IF_ELSE(tokens_4))
#print('----------')
#print(parse_LOLCODE_IF_ELSE(tokens_5))
                

parse_LOLCODE_IF_ELSE
NEXT Token.BOOLEAN
NEXT Token.ORLY
NEXT Token.YARLY
parse_LOLCODE_CODEBLOCK
PEEK Token.OTHER_STATEMENT
NEXT Token.OTHER_STATEMENT
PEEK Token.NOWAI
NEXT Token.NOWAI
parse_LOLCODE_CODEBLOCK
PEEK Token.OTHER_STATEMENT
NEXT Token.OTHER_STATEMENT
NEXT Token.OIC
True
----------


Tenemos una implementación sencilla e ingenua de un analizador sintáctico del tipo descendente recursivo. 

Esta estrategia de parseo tiene una gran desventaja. 

¿Qué derivaciones no se podrían implementar trivialmente con esta estrategia, donde cada no-terminal se representa con una llamada a función?

¿Cómo podríamos reorganizar la gramática para manejar estos casos (directo e indirecto)?

https://slideplayer.com/slide/2342945/8/images/18/EXAMPLE+2+S+%C2%AE+A+A+%7C+0.+A+%C2%AE+S+S+%7C+1.+Answer.+Considering+the+ordering+S%2C+A%2C+we+get%3A+A+%C2%AE+AAS+%7C+0S+%7C+1..jpg

Existen estrategias de análisis gramatical alternas que son más robustas, pero más difíciles de implementar: 

LL - Descendente predictivo
LR - Ascendente

No ahondamos en su implementación, pues esto se cubre en la clase de traductores. Sin embargo, es importante conocer sus diferencias y saberlos identificar. 


Descendente predictivo LL(k)

La "LL" viene de Left-to-right Leftmost, pues hace el barrido de izquierda a derecha y descendiendo en la primera derivación izquierda que encuentre. 

La "k" es la cantidad de tokens que puede observar hacia adelante para tomar una decisión. En inglés se le llama "look ahead tokens" y se almacena en un buffer. 

A diferencia de un descendente recursivo, no debe haber "backtracking". Esto es, utiliza una tabla para codificar la decisión de qué derivación con base en los k tokens que puede ver al futuro. En contraste, un descedente recursivo es exhaustivo y verifica todas las posibles rutas antes de tomar una decisión, puede hacer backtrack si determina que tomó la derivación equivocada. 

Un descendente recursivo también puede hacerse predictivo. La diferencia es que un LL(k) corre en tiempo lineal, porque usa una tabla para tomar decisiones concretas de derivación. Sin embargo, la gramática debe ser LL(k) también, donde todas las decisiones puedan ser tomadas viendo k tokens hacia adelante. Un descendente recursivo, con o sin predicción, puede procesar gramáticas LL(*), pero en tiempo exponencial. 

Un LL(k) marca un error cuando no encuentra una decisión en la tabla. Un descedente recursivo marca error cuando llega al final y le quedan tokens. Intentó todas las alternativas y ninguna derivación aceptó el stream de tokens tal cual. 

La mayoría de los lenguajes optan por analizadores LL(1). Son eficientes y fáciles de implementar. 

Tanto un descendente recursivo como un predictivo pertenecen a la familia de los top-down. Empezamos de la derivación principal, en la raiz del árbol abstracto de sintaxis, y vamos descendiendo con base en las reglas gramaticales. 

Con lo que acabamos de aprender, ¿cómo catalogarías el ejemplo en Python de analizador que vimos antes?


Ascendente LR(k)

Left-to-right, Rightmost derivation in reverse. 

Son deterministicos, corren en tiempo lineal y no usan predicción o backtracking. Lo hace acumulando tokens, mientras construye sub-árboles de sintaxis, antes de tomar una decisión. Esta estrategia se llama shift-reduce, en un paso shift acumula otro token en el stack, y en reduce, genera una producción gramatical con los tokens acumulados al momento. 

En vez de seguir una producción como guía en cada token que vamos barriendo, un LR barre tokens hasta encontrar la regla gramatical que más se parece y luego hace el match. Por tanto, pueden manejar algunos casos de recursión izquierda y factores comunes, en función de los k tokens que puedan ver antes de una reducción. 

Los analizadores LR pertenecen a la familia de bottom-up, pues comienzan en las producciones más particulares, armando sub-árboles poco a poco y combinándolos para llegar a la raíz. 


Análisis semántico

La estrategia más común es anotar el árbol abstracto de sintaxis y generar una tabla de símbolos. Las anotaciones son etiquetas que ayudan a verificar que los tipos sean correctos, que las variables sean declaradas antes de usarse, que existe una implementación para un encabezado de función y esté asociado correctamente (C++), entre otras verificaciones dependiendo del lenguaje. 

Por lo general se realiza una vez que el AAS está construído, pero también se pueden embeber algunas reglas durante la etapa de análisis sintáctico. 

Muchas de las reglas de semántica son expresadas informalmente. No obstante, existe un campo de las ciencias computacionales dedicado al análisis del significado de un lenguaje de programación: semántica formal

Las aproximaciones más populares son: 

Operacional

Denotacional

Axiomática

La teoría de tipos, otro campo de las ciencias computacionales, se adentra en este aspecto semántico de los lenguajes en detalle. 

Ambas áreas, semántica formal y computacional, así como teoría de tipos, no solamente se enfocan en lenguajes de programación, sino en linguística y matemáticas. 

Este curso cubre aspectos semánticos básicos, si desean más información, recomiendo las siguientes lecturas: 

Types and Programming Languages, Benjamin C. Pierce
Advanced Topics in Types and Programming Languages, Benjamin C. Pierce
Homotopy Type Theory
