# Clase Práctica #12 (Compilación)

En esta clase práctica estaremos implementando la fase de análisis semántico para la extensión del lenguaje de expresiones aritméticas presentada en conferencia. Recordemos las reglas del lenguaje.

### Reglas sintácticas

El lenguaje tiene tres tipos de instrucciones: `let`, `def` y `print`:

- `let <var> = <expr>` define una variable denominada `<var>` y le asigna el valor de `<expr>`.
- `def <func>(<arg1>, <arg2>, ...) -> <expr>` define una nueva función `<func>` con los argumentos `<arg*>`.
- `print <expr>` imprime el valor de una expresión.

Las expresiones pueden ser de varios tipos:

- Expresiones aritméticas.
- Invocación de funciones predefinidas (`sin`, `cos`, `pow`, ...).
- Invocación de funciones definidas en el programa.

### Reglas semánticas

- Una variable solo puede ser definida una vez en todo el programa.
- Los nombres de variables y funciones no comparten el mismo ámbito.
- No se pueden redefinir las funciones predefinidas.
- Una función puede tener distintas definiciones siempre que tengan distinta cantidad de argumentos.
- Toda variable y función tiene que haber sido definida antes de ser usada en una expresión (salvo las funciones pre-definidas).
- Todos los argumentos definidos en una misma función tienen que ser diferentes entre sí, aunque pueden ser iguales a variables definidas globalmente o argumentos definidos en otras funciones.
- En el cuerpo de una función, los nombres de los argumentos ocultan los nombres de variables iguales.

## Jerarquía del AST

Comencemos por definir los tipos de nodos que compondrán el AST. Recordemos que estos nodos deben ser capaces de atrapar toda la semántica del programa.

### Nivel 0

En un primer nivel tenemos la clase `Node` que engloba todos los tipos de nodos del AST. Este nodo, a pesar de ser la raíz de la jerarquía, no coincide con la raíz del AST. Los nodos del AST son instancias concretas de las clases definidas en esta jerarquía y siguen una estructura dependiente de la cadena que se parsea.

In [34]:
class Node:
    pass

### Nivel 1

En un segundo nivel tenemos las clases `Program`, `Statement` y `Expression`, siendo estas dos últimas una generalización de varios tipos de instrucciones del lenguaje. `ProgramNode` coincide con la raíz del AST pues representa la base de todo programa del lenguaje: una lista de _statements_.

In [35]:
class ProgramNode(Node):
    def __init__(self, statements):
        self.statements = statements
        
class StatementNode(Node):
    pass
        
class ExpressionNode(Node):
    pass

### Nivel 2

Continuamos explorando a lo ancho la jerarquía del AST, y encontramos los 3 tipos de _statements_ en los que se divide un programa: `VarDeclaration` para declarar variables, `FuncDeclaration` para definir métodos, y `PrintNode` para escribir el resultado de evaluar determinada expresión. Además, se proveen dos generalizaciones de expresiones: `AtomicNode` y `BinaryNode`.

In [36]:
class VarDeclarationNode(StatementNode):
    def __init__(self, idx, expr):
        self.id = idx
        self.expr = expr

class FuncDeclarationNode(StatementNode):
    def __init__(self, idx, params, body):
        self.id = idx
        self.params = params
        self.body = body

class PrintNode(StatementNode):
    def __init__(self, expr):
        self.expr = expr

class AtomicNode(ExpressionNode):
    def __init__(self, lex):
        self.lex = lex

class BinaryNode(ExpressionNode):
    def __init__(self, left, right):
        self.left = left
        self.right = right

### Nivel 3

Finalmente alcanzamos el máximo nivel de profundidad, donde tenemos definidos `ConstantNumNode` (representa literales enteros), `VariableNode`  (representa acceso a una variable) y `CallNode` (representa la invocación de un método con determinados argumentos). También encontramos las operaciones aritméticas de suma, resta, multiplicación y división.

In [37]:
class ConstantNumNode(AtomicNode):
    pass

class VariableNode(AtomicNode):
    pass

class CallNode(AtomicNode):
    def __init__(self, idx, args):
        AtomicNode.__init__(self, idx)
        self.args = args

class PlusNode(BinaryNode):
    pass

class MinusNode(BinaryNode):
    pass

class StarNode(BinaryNode):
    pass

class DivNode(BinaryNode):
    pass

## Gramática

Habiendo diseñado la jerarquía de nodos del AST, pasemos a implementar un mecanismo que nos permita construir automáticamente el AST. Nos apoyaremos en las gramáticas atributadas que estudiamos el año pasado para resolver este problema.

Una gramática atributada permite asociar atributos a los símbolos de la gramática y diseñar reglas que los evaluen. Convenientemente, las reglas para construir el AST suelen ser sencillas si la gramática sigue una estructura "natural". Gracias a la implementación de parser LR(1) de la semana anterior, podremos trabajar con una gramática sencilla para este lenguaje, la cual respeta incluso la asociatividad entre los operadores (problema que estuvimos cargando desde el semestre anterior).

Pasemos a construir la gramática e implementar las reglas semánticas.

In [38]:
from cmp.pycompiler import Grammar

G = Grammar()

program = G.NonTerminal('<program>', startSymbol=True)
stat_list, stat = G.NonTerminals('<stat_list> <stat>')
let_var, def_func, print_stat, arg_list = G.NonTerminals('<let-var> <def-func> <print-stat> <arg-list>')
expr, term, factor, atom = G.NonTerminals('<expr> <term> <factor> <atom>')
func_call, expr_list = G.NonTerminals('<func-call> <expr-list>')

let, defx, printx = G.Terminals('let def print')
semi, comma, opar, cpar, arrow = G.Terminals('; , ( ) ->')
equal, plus, minus, star, div = G.Terminals('= + - * /')
idx, num = G.Terminals('id int')

program %= stat_list, lambda h,s: ProgramNode(s[1])

stat_list %= stat + semi, lambda h,s: [s[1]]
stat_list %= stat + semi + stat_list, lambda h,s: [s[1]] + s[3]

stat %= let_var, lambda h,s: s[1]
stat %= def_func, lambda h,s: s[1]
stat %= print_stat, lambda h,s: s[1]

let_var %= let + idx + equal + expr, lambda h,s: VarDeclarationNode(s[2], s[4])

def_func %= defx + idx + opar + arg_list + cpar + arrow + expr, lambda h,s: FuncDeclarationNode(s[2], s[4], s[7])

print_stat %= printx + expr, lambda h,s: PrintNode(s[2])

arg_list %= idx, lambda h,s: [s[1]]
arg_list %= idx + comma + arg_list, lambda h,s: [s[1]] + s[3]

expr %= expr + plus + term, lambda h,s: PlusNode(s[1], s[3])
expr %= expr + minus + term, lambda h,s: MinusNode(s[1], s[3])
expr %= term, lambda h,s: s[1]

term %= term + star + factor, lambda h,s: StarNode(s[1], s[3])
term %= term + div + factor, lambda h,s: DivNode(s[1], s[3])
term %= factor, lambda h,s: s[1] # MMM

factor %= atom, lambda h,s: s[1]
factor %= opar + expr + cpar, lambda h,s: s[2]

atom %= num, lambda h,s: ConstantNumNode(s[1])
atom %= idx, lambda h,s: VariableNode(s[1])
atom %= func_call, lambda h,s: s[1]

func_call %= idx + opar + expr_list + cpar, lambda h,s: CallNode(s[1], s[3])

expr_list %= expr, lambda h,s: [s[1]]
expr_list %= expr + comma + expr_list, lambda h,s: [s[1]] + s[3]

print(G)

Non-Terminals:
	<program>, <stat_list>, <stat>, <let-var>, <def-func>, <print-stat>, <arg-list>, <expr>, <term>, <factor>, <atom>, <func-call>, <expr-list>
Terminals:
	let, def, print, ;, ,, (, ), ->, =, +, -, *, /, id, int
Productions:
	[<program> -> <stat_list>, <stat_list> -> <stat> ;, <stat_list> -> <stat> ; <stat_list>, <stat> -> <let-var>, <stat> -> <def-func>, <stat> -> <print-stat>, <let-var> -> let id = <expr>, <def-func> -> def id ( <arg-list> ) -> <expr>, <print-stat> -> print <expr>, <arg-list> -> id, <arg-list> -> id , <arg-list>, <expr> -> <expr> + <term>, <expr> -> <expr> - <term>, <expr> -> <term>, <term> -> <term> * <factor>, <term> -> <term> / <factor>, <term> -> <factor>, <factor> -> <atom>, <factor> -> ( <expr> ), <atom> -> int, <atom> -> id, <atom> -> <func-call>, <func-call> -> id ( <expr-list> ), <expr-list> -> <expr>, <expr-list> -> <expr> , <expr-list>]


## Parseando y evaluando

Saltemos directamente a trabajar con un array de tokens. 
```
print 1 - 1 - 1;
let x = 58;
def f ( a, b ) -> 5 + 6;
print F( 5 + x, 7 + y );
```

El siguiente array resulta de tokenizar al cadena anterior (**ojo:** los espacios en blanco ya fueron eliminados).

In [39]:
from cmp.utils import Token

tokens = [
    Token('print', printx),
    Token('1', num),
    Token('-', minus),
    Token('1', num),
    Token('-', minus),
    Token('1', num),
    Token(';', semi),
    Token('let', let),
    Token('x', idx),
    Token('=', equal),
    Token('58', num),
    Token(';', semi),
    Token('def', defx),
    Token('f', idx),
    Token('(', opar),
    Token('a', idx),
    Token(',', comma),
    Token('b', idx),
    Token(')', cpar),
    Token('->', arrow),
    Token('5', num),
    Token('+', plus),
    Token('6', num),
    Token(';', semi),
    Token('print', printx),
    Token('F', idx),
    Token('(', opar),
    Token('5', num),
    Token('+', plus),
    Token('x', idx),
    Token(',', comma),
    Token('7', num),
    Token('+', plus),
    Token('y', idx),
    Token(')', cpar),
    Token(';', semi),
    Token('$', G.EOF),
]

### Parser LR(1)

Importemos la implementación de parser LR(1) con que trabajamos la clase anterior. Recuerde que si desea ver los estados del autómata LR(1) puede usar la opción `verbose=True` al contruir el parser.

In [40]:
from cmp.tools.parsing import LR1Parser

parser = LR1Parser(G)
parse, operations = parser([t.token_type for t in tokens], get_shift_reduce=True)
parse

[<atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <term>,
 <atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <expr> - <term>,
 <atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <expr> - <term>,
 <print-stat> -> print <expr>,
 <stat> -> <print-stat>,
 <atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <term>,
 <let-var> -> let id = <expr>,
 <stat> -> <let-var>,
 <arg-list> -> id,
 <arg-list> -> id , <arg-list>,
 <atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <term>,
 <atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <expr> + <term>,
 <def-func> -> def id ( <arg-list> ) -> <expr>,
 <stat> -> <def-func>,
 <atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <term>,
 <atom> -> id,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <expr> + <term>,
 <atom> -> int,
 <factor> -> <atom>,
 <term> -> <factor>,
 <expr> -> <term>,
 <atom> -> id,
 <factor> -> <atom>,
 <ter

Con el objetivo de evaluar los atributos de forma independiente al parseo, se provee la opción `get_shift_reduce=True` al parsear una cadena. Esto indicará al parser, que además del parse derecho (en reverso) nos interesa recuperar la secuencia de operaciones `shift` y `reduce` que aplicó el parser.

In [41]:
print(operations)

['SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'SHIFT', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE', 'REDUCE']


### Evaluación

El método `evaluate_reverse_parse` provisto en `cmp.evaluation` nos permitirá evaluar las reglas semánticas de la gramática atributada y obtener la raíz del AST.

In [42]:
from cmp.evaluation import evaluate_reverse_parse

ast = evaluate_reverse_parse(parse, operations, tokens)
ast

<__main__.ProgramNode at 0x119933b10>

## Patrón Visitor

En conferencia discutimos el patrón visitor como una alternativa para implementar recorridos sobre el AST. En lugar de tener funciones declaradas explícitamente en la definición de los nodos (para implimir el AST, chequear su semántica, evaluarlo, etc.), tendríamos un tipo encargado de hacer cada unos de los recorridos. Esto resulta de gran utilizada en la confección del compilador, pues permite a partir de fases incrementales ir recopilando información de la semántica del programa, y posteriormente, ir transformándolo a lenguajes cada vez más cercanos al lenguaje destino.

Por ejemplo, a continuación se presenta una implementación de la clase `FormatVisitor`, se que encarga de recorrer el AST y construir una representación como `string` del mismo. Nos apoyamos en el decorador `visitor` provisto en `cmp.visitor`. La decoración `@visitor.on(<parameter_name>)` indica sobre qué parámetro del método `visit` se hará el recorrido. La decoración `@visitor.when(<type>)` indica cuál implementación del método `visit` invocar, según del tipo dinámico del parámetro indicado en `@visitor.on(...)`.

In [43]:
import cmp.visitor as visitor

class FormatVisitor(object):
    @visitor.on('node')
    def visit(self, node, tabs):
        pass
    
    @visitor.when(ProgramNode)
    def visit(self, node, tabs=0):
        ans = '\t' * tabs + f'\\__ProgramNode [<stat>; ... <stat>;]'
        statements = '\n'.join(self.visit(child, tabs + 1) for child in node.statements)
        return f'{ans}\n{statements}'
    
    @visitor.when(PrintNode)
    def visit(self, node, tabs=0):
        ans = '\t' * tabs + f'\\__PrintNode <expr>'
        expr = self.visit(node.expr, tabs + 1)
        return f'{ans}\n{expr}'
    
    @visitor.when(VarDeclarationNode)
    def visit(self, node, tabs=0):
        ans = '\t' * tabs + f'\\__VarDeclarationNode: let {node.id} = <expr>'
        expr = self.visit(node.expr, tabs + 1)
        return f'{ans}\n{expr}'
    
    @visitor.when(FuncDeclarationNode)
    def visit(self, node, tabs=0):
        params = ', '.join(node.params)
        ans = '\t' * tabs + f'\\__FuncDeclarationNode: def {node.id}({params}) -> <expr>'
        body = self.visit(node.body, tabs + 1)
        return f'{ans}\n{body}'

    @visitor.when(BinaryNode)
    def visit(self, node, tabs=0):
        ans = '\t' * tabs + f'\\__<expr> {node.__class__.__name__} <expr>'
        left = self.visit(node.left, tabs + 1)
        right = self.visit(node.right, tabs + 1)
        return f'{ans}\n{left}\n{right}'

    @visitor.when(AtomicNode)
    def visit(self, node, tabs=0):
        return '\t' * tabs + f'\\__ {node.__class__.__name__}: {node.lex}'
    
    @visitor.when(CallNode)
    def visit(self, node, tabs=0):
        ans = '\t' * tabs + f'\\__CallNode: {node.lex}(<expr>, ..., <expr>)'
        args = '\n'.join(self.visit(arg, tabs + 1) for arg in node.args)
        return f'{ans}\n{args}'

Construir una instancia de `FormatVisitor` y visitar la raíz del AST tiene el efecto siguiente.

In [44]:
formatter = FormatVisitor()
print(formatter.visit(ast))

\__ProgramNode [<stat>; ... <stat>;]
	\__PrintNode <expr>
		\__<expr> MinusNode <expr>
			\__<expr> MinusNode <expr>
				\__ ConstantNumNode: 1
				\__ ConstantNumNode: 1
			\__ ConstantNumNode: 1
	\__VarDeclarationNode: let x = <expr>
		\__ ConstantNumNode: 58
	\__FuncDeclarationNode: def f(a, b) -> <expr>
		\__<expr> PlusNode <expr>
			\__ ConstantNumNode: 5
			\__ ConstantNumNode: 6
	\__PrintNode <expr>
		\__CallNode: F(<expr>, ..., <expr>)
			\__<expr> PlusNode <expr>
				\__ ConstantNumNode: 5
				\__ VariableNode: x
			\__<expr> PlusNode <expr>
				\__ ConstantNumNode: 7
				\__ VariableNode: y


## Contexto

Para chequear la semántica del lenguaje en cuestión, resulta necesario registrar qué variables han sido declaradas y qué métodos han sido definidos. Utilizaremos las siguientes clases como contenedores de la información "relevante" por ahora de las variables y métodos definidos. De las variables nos interesa su nombre y de las funciones su nombre y el de sus parámetros.

In [45]:
class VariableInfo:
    def __init__(self, name):
        self.name = name

class FunctionInfo:
    def __init__(self, name, params):
        self.name = name
        self.params = params

Dado que la visibilidad de las variables depende del contexto, será necesario incluir un mecanismo para ocultar (1) variables definidas en ámbitos más profundos al actual, o (2) en ámbitos más hacia adelante que el actual. Para resolver lo primero, haremos que nuestra clase contexto, o ámbito, tenga una estructura jerárquica: cada nodo tiene un padre y potencialmente múltiples hijos. Para resolver lo segundo, será necesario marcar un índice al crear scopes hijos, el cual indique hasta qué sección del ambito padre deberían poder buscar (por ejemplo, no se deberían poder ver variables definidas en el padre más adelantes del momento en que se creó el scope hijo).

Teniendo en cuenta estas restricciones, la búsqueda de un registro en el scope debería ocurrir como una búsqueda local en el scope en cuestión, pero continuada hacia el scope padre (y así consecutivamente) si no se encontró definición local.

In [46]:
import itertools as itl

class Scope:
    def __init__(self, parent=None):
        self.local_vars: list[VariableInfo] = []
        self.local_funcs: list[FunctionInfo] = []
        self.parent = parent
        self.children = []
        self.var_index_at_parent = 0 if parent is None else len(parent.local_vars)
        self.func_index_at_parent = 0 if parent is None else len(parent.local_funcs)
        
    def create_child_scope(self):
        child_scope = Scope(self)
        self.children.append(child_scope)
        return child_scope

    def define_variable(self, vname):
        self.local_vars.append(VariableInfo(vname))
    
    def define_function(self, fname, params):
        self.local_funcs.append(FunctionInfo(fname, params))

    def is_var_defined(self, vname):
        for var in self.local_vars:
            if var.name == vname:
                return True

        if self.parent is None:
            return False
            
        return self.parent.is_var_defined(vname)
    
    
    def is_func_defined(self, fname, n):
        for f in self.local_funcs:
            if f.name == fname and f.params == n:
                return True
        
        if self.parent is None:
            return False

        return self.parent.is_func_defined(fname, n)

    def is_local_var(self, vname):
        return self.get_local_variable_info(vname) is not None
    
    def is_local_func(self, fname, n):
        return self.get_local_function_info(fname, n) is not None

    def get_local_variable_info(self, vname):
        var_info = None 
        for var in self.local_vars:
            if var.name == vname:
                var_info = var 
                break
        
        return var_info
    
    def get_local_function_info(self, fname, n):
        func_info = None 
        for func in self.local_funcs:
            if func.name == fname and func.params:
                func_info = func 
                break
        
        return func_info
    
    
scope = Scope()

## Chequeo semántico

Finalmente, implementemos un visitor para chequear las reglas semánticas del lenguaje discutidas a inicios de la clase práctica.

In [47]:
class SemanticCheckerVisitor(object):
    def __init__(self):
        self.errors = []
    
    @visitor.on('node')
    def visit(self, node, scope):
        pass
    
    @visitor.when(ProgramNode)
    def visit(self, node, scope=None):
        if scope is None:
            scope = Scope()
        else:
            scope = Scope(parent=scope)
        
        for child in node.statements:
            errors, new_scope = self.visit(child, scope)
            if new_scope is not None:
                scope = new_scope
        
        return self.errors
    
    @visitor.when(VarDeclarationNode)
    def visit(self, node: VarDeclarationNode, scope: Scope):
        if scope.is_var_defined(node.id):
            self.errors.append(f'Variable {node.id} is used')
        
        scope.define_variable(node.id)
        errors, _ = self.visit(node.expr, scope)
        self.errors+=errors
        return errors, scope
        
    
    @visitor.when(FuncDeclarationNode)
    def visit(self, node: FuncDeclarationNode, scope: Scope):
        
        if scope.is_func_defined(node.id, node.params):
            self.errors.append(f'Function name {node.id} is used')

        scope.define_function(node.id, node.params)
        errors, _ = self.visit(node.body, scope)

        return self.errors, None
    
    @visitor.when(PrintNode)
    def visit(self, node: PrintNode, scope: Scope):
        errors, _ = self.visit(node.expr, scope)
        return '', None
    
    @visitor.when(ConstantNumNode)  
    def visit(self, node: ConstantNumNode, scope: Scope):
        if not node.lex.isnumeric():
            self.errors.append(f'Value is not Numeric')
        
        return '', scope
    
    @visitor.when(VariableNode)
    def visit(self, node: VariableNode, scope: Scope):
        print('hey,', node.lex)
        if not scope.is_var_defined(node.lex):
            self.errors.append(f'Invalid variable {node.lex}')
        return '', None
    
    @visitor.when(CallNode)
    def visit(self, node: CallNode, scope: Scope):        
        if not scope.is_local_func(node.lex, node.args) or len(node.args) != len(scope.get_local_function_info(node.lex, node.args)):
            self.errors.append(f'Function {node.lex} is not defined with {len(node.args)} arguments')
        
        for child in node.args:
            errors, new_scope = self.visit(child, scope)
            
            if new_scope is not None:
                scope = new_scope
        return self.errors, None

    @visitor.when(BinaryNode)
    def visit(self, node: BinaryNode, scope: Scope):
        left_errors, left_scope = self.visit(node.left, scope)
        right_errors, right_scope = self.visit(node.right, scope)
        return [left_errors] + [right_errors], None

### Chequeo

Deberían detectarse como mínimo 2 errores:
0. Function F is not defined with 2 arguments.
1. Invalid variable: y.

In [48]:
semantic_checker = SemanticCheckerVisitor()
errors = semantic_checker.visit(ast)
for i, error in enumerate(errors, 1):
    print(f'{i}.', error)

hey, x
hey, y
1. Function F is not defined with 2 arguments
2. Invalid variable y


## Propuestas

- Incluya línea y columna en los errores detectados.
- Incluya el lexer.
- Construya una clase que siga el patrón visitor para evaluar / ejecutar el programa.