# SQL
---

[URL](https://github.com/camilaherreracordoba/Trabajos-Parseo)

## Objetivo

El lenguaje a desarrollar es un lenguaje de dominio específico procedural para la manipulación de bases de datos. Cuenta con soporte de estructuras de control (condicionales y bucles). Permite definir variables, tablas de datos y realiza también consultas básicas. Las operaciones aritméticas y lógicas se usan con notación polaca (prefija), y las palabras claves están en español.

## Alcance

* Su función es simular operaciones de SQL procedural en memoria y ejecutar consultas con expresiones booleanas y aritméticas en notación prefija.
* No soporta joins complejos, subconsultas anidadas, recursión ni concurrencia. No interactúa con archivos ni bases de datos externas (datos en memoria únicamente)

## Especificaciones Léxicas

* **Palabras reservadas**:
    * INICIO:, FIN, SALIDA:, SI:, ENTONCES:, SINO:, MIENTRAS:, HACER:, VAR, TABLA
* **Operaciones**:
    * SELECCIONAR, DE, DONDE, AGRUPAR POR, ORDENAR POR
* **Identificadores**: compuestos por una letra en minúscula (a-z), o mayúscula (A-Z) y pueden ser sucedidos por otra letra, un numero (0 - 9) o un guion bajo o medio (_/-)
* **Operadores**:
    * aritmeticos, lógicos, comparación, asignación, negación, fin de sentencia

## Especificaciones sintácticas

```bnf
<programa> ::= "INICIO:" <bloque> "FIN"

<bloque> ::= <sentencia> <bloque> | λ

<sentencia> ::= <declaracion_tabla> ";"
               | <declaracion_var> ";"
               | <asignacion> ";"
               | <salida> ";"
               | <consulta> ";"
               | <condicional>
               | <bucle>

<declaracion_var> ::= "VAR" <identificador> "=" <expresion>

<declaracion_tabla> ::= "VAR" "TABLA" <identificador> "=" "[" <lista_filas> "]"
<lista_filas> ::= <fila> <lista_filas> | λ

<fila> ::= "{" <atributo_fila> <atributos> "}"
<atributos> ::= "," <atributo_fila> <atributos> | λ

<atributo_fila> ::= <identificador> ":" <dato_literal>
<dato_literal> ::= <booleano> | <cadena> | <entero>

<asignacion> ::= <identificador> "=" <expresion>
<salida> ::= "SALIDA:" <expresion>

<condicional> ::= "SI:" <expresion> "ENTONCES:" <bloque> 
                | "SI:" <expresion> "ENTONCES:" <bloque> "SINO:" <bloque>
<bucle> ::= "MIENTRAS:" <expresion> "HACER:" <bloque>

<consulta> ::= "SELECCIONAR" <columnas> "DE" <identificador> | "SELECCIONAR" <columnas> "DE" <identificador> <opciones_consulta>
<opciones_consulta> ::= "DONDE" <expresion>
                      | "AGRUPAR" "POR" <columnas> 
                      | "ORDENAR" "POR" <columnas>

<columnas> ::= <identificador> "," <columnas> | <identificador>


<expresion> ::= <literal>
              | <identificador>
              | <consulta>
              | <expresion_prefija>

<expresion_prefija> ::= <op_aritmetico> <operando> <operando>
                      | <op_comparacion> <operando> <operando>
                      | <op_logico> <operando> <operando>
                      | <op_negacion> <operando>

<operando> ::= <literal> | <identificador> | <consulta> | <expresion_prefija>

<literal> ::= <entero> | <booleano> | <cadena>
<entero> ::= <digito> | <digito> <entero>
<booleano> ::= "VERDADERO" | "FALSO"
<cadena> ::= """ <caracteres> """


<op_aritmetico> ::= "+" | "-" | "*" | "/" | "%"
<op_comparacion> ::= "==" | "!=" | ">" | "<"
<op_logico> ::= "&" | "|" | "IGUALES"
<op_negacion> ::= "!"

<identificador> ::= <letra> <caracteres>
<caracteres> ::= <caracter> <caracteres> | λ
<caracter> ::= <letra> | <digito> | "-" | "_"
<letra> ::= "a" | ... | "z" | "A" | ... | "Z"
<digito> ::= "0" | "1" | ... | "9"
```

## Especificaciones semánticas

* **Declaraciones**: Cada variable debe ser declarada una única vez. Las variables definidas dentro del programa son de ámbito local, mientras que las definidas dentro de las estructuras condicionales o de bucle corresponden a un subambito y por lo tanto solamente pueden ser usadas dentro de esa estructura
* **Asignaciones**: Deben realizarse sobre una variable existente con un identificador válido. El valor asignado tiene que ser del mismo tipo que la variable
* **Operaciones**: todas las operaciones aritméticas o booleanas son realizadas con notación prefija, de forma que el operador precede a los operandos
    * Aritméticas: "+", "-", "*", "/", "%" solamente entre enteros
    * Comparaciones: "==", "!=",">" y "<" solo entre enteros
    * Booleanas: "&", "|", "!" solamente sobre valores booleanos
* **Condicional**: las condiciones deben ser expresiones booleanas válidas. Todas las variables definidas previamente pueden ser usadas dentro del bloque de sentencias, mientras que las definidas dentro del bloque solamente pueden usarse dentro del mismo
* **Bucle**: las condiciones deben ser expresiones booleanas válidas. Todas las variables definidas previamente pueden ser usadas dentro del bloque de sentencias, mientras que las definidas dentro del bloque solamente pueden usarse dentro del mismo
* **Salida**: Solamente imprime expresiones válidas bien tipadas
* **Errores**: en caso de no respetarse las especificaciones correspondietnes a cada caso, se debe lanzar un mensaje de error dando detalle para cada uno
* **Consultas**: filtran datos en memoria según la expresión booleana en DONDE

## Ejemplo

```
INICIO:

VAR TABLA empleados = [
	{ nombre: "Ana", edad: 30, salario: 2000, departamento: "Ventas" },
	{ nombre: "Luis", edad: 45, salario: 3000, departamento: "Ventas" },
	{ nombre: "Marta", edad: 29, salario: 2500, departamento: "IT" },
	{ nombre: "Pedro", edad: 35, salario: 2800, departamento: "IT" }
];

VAR bono = + 500 200;

bono = * bono 2;

SALIDA: bono;

SI: > bono 1000 ENTONCES:
	SALIDA: "Bono mayor a mil";
SINO:
	SALIDA: "Bono menor o igual a mil";

MIENTRAS: < bono 3000 HACER:
	bono = + bono 100;
	SALIDA: bono;

SALIDA: SELECCIONAR nombre, salario DE empleados DONDE > salario 2500;

SALIDA: SELECCIONAR departamento, salario DE empleados 
        AGRUPAR POR departamento;

FIN
```

## Lexer

In [None]:
import ply.lex as lex

# ------------------palabras reservadas ----------------------
reserved = {
    'INICIO': 'INICIO',
    'FIN': 'FIN',
    'VAR': 'VAR',
    'TABLA': 'TABLA',
    'SALIDA': 'SALIDA',
    'SI': 'SI',
    'ENTONCES': 'ENTONCES',
    'SINO': 'SINO',
    'MIENTRAS': 'MIENTRAS',
    'HACER': 'HACER',
    'SELECCIONAR': 'SELECCIONAR',
    'DE': 'DE',
    'DONDE': 'DONDE',
    'AGRUPAR': 'AGRUPAR',
    'POR': 'POR',
    'ORDENAR': 'ORDENAR',
    'VERDADERO': 'VERDADERO',
    'FALSO': 'FALSO',
    'IGUALES': 'IGUALES',
}
# ---------------- tokens ----------------------------------
tokens = [
    'IDENTIFICADOR',
    'ENTERO',
    'CADENA',
    'IGUAL', 
    'PUNTOYCOMA', 
    'CORCHETE_IZQ', 'CORCHETE_DER',
    'LLAVE_IZQ', 'LLAVE_DER', 
    'COMA', 'DOSPUNTOS',
    'MAS', 'MENOS', 'MULT', 'DIV', 'MOD',
    'IGUALIGUAL', 'DISTINTO', 'MAYOR', 'MENOR',
    'AND', 'OR', 'NOT',
] + list(reserved.values())

# ----------- simbolos --------------------------------------
t_PUNTOYCOMA = r';'
t_CORCHETE_IZQ = r'\['
t_CORCHETE_DER = r'\]'
t_LLAVE_IZQ = r'\{'
t_LLAVE_DER = r'\}'
t_COMA = r','
t_DOSPUNTOS = r':'
# --------- operadores ------------------
# comparacion
t_IGUALIGUAL = r'=='
t_DISTINTO = r'!='
t_MAYOR = r'>'
t_MENOR = r'<'
# asignacion
t_IGUAL = r'='
# logicos
t_AND = r'&'
t_OR = r'\|'
t_NOT = r'!'
# aritmeticos
t_MAS = r'\+'
t_MENOS = r'-'
t_MULT = r'\*'
t_DIV = r'/'
t_MOD = r'%'
# --------------------------------------
#-------------- Literales ----------------- 
# enteros
def t_ENTERO(t):
    r'\d+'
    # castea a int
    t.value = int(t.value)
    return t
# cadenas
def t_CADENA(t):
    r'\"([^\\\n]|(\\.))*?\"'
    # se excluyen las comillas del resto de la cadena
    t.value = t.value[1:-1]
    t.lexer.lineno += t.value.count('\\n')
    return t

# verificacion de Identificador o palabra reservada (en mayuscula)
def t_IDENTIFICADOR(t):
    r'[a-zA-Z][a-zA-Z0-9_-]*'
    if t.value in reserved: 
        t.type = reserved[t.value]
    return t

# tabulaciones
t_ignore = " \t"
# salto de linea
def t_newline(t):
    r'\n+'
    t.lexer.lineno += t.value.count("\n")
# errores
def t_error(t):
    print("caracter ilegal '%s'" % t.value[0])
    t.lexer.skip(1)
# comentarios (no especificado en la gramatica pero sirve)
def t_comment(t):
    r'//.*'
    pass

lexer = lex.lex()

## Parser

In [None]:
import ply.lex as lex
import ply.yacc as yacc
from lexer import tokens
# --------------------------
#  Reglas sintácticas
# --------------------------
# <programa> ::= "INICIO:" <bloque> "FIN"
def p_programa(p):
    'programa : INICIO DOSPUNTOS bloque FIN'
    p[0] = ("programa", p[3])

#<bloque> ::= <sentencia> <bloque> | λ
def p_bloque(p):
    '''bloque : sentencia
              | sentencia bloque'''
    if len(p) == 2:
        p[0] = [p[1]]
    else:
        p[0] = [p[1]] + p[2]

def p_bloque_vacio(p):
    '''bloque : vacio'''
    p[0] = []

#<sentencia> ::= <declaracion_tabla> ";"
#               | <declaracion_var> ";"
#               | <asignacion> ";"
#               | <salida> ";"
#               | <consulta> ";"
#               | <condicional>
#               | <bucle>
def p_sentencia(p):
    '''sentencia : declaracion_var PUNTOYCOMA
                 | declaracion_tabla PUNTOYCOMA
                 | asignacion PUNTOYCOMA
                 | salida PUNTOYCOMA
                 | consulta PUNTOYCOMA
                 | condicional
                 | bucle'''
    p[0] = p[1]

# -----------------------------
#   Declaraciones
# ------------------------------

# <declaracion_var> ::= "VAR" <identificador> "=" <expresion>
def p_declaracion_var(p):
    'declaracion_var : VAR IDENTIFICADOR IGUAL expresion'
    p[0] = ("declaracion_var", p[2], p[4])

# <declaracion_tabla> ::= "VAR" "TABLA" <identificador> "=" "[" <lista_filas> "]"
def p_declaracion_tabla(p):
    'declaracion_tabla : VAR TABLA IDENTIFICADOR IGUAL CORCHETE_IZQ filas CORCHETE_DER'
    p[0] = ("declaracion_tabla", p[3], p[6])

# <lista_filas> ::= <fila> <lista_filas> | λ
def p_lista_filas(p):
    '''filas : fila
             | fila COMA filas
             | vacio'''
    if len(p) == 2:
        p[0] = [p[1]] if p[1] else []
    elif len(p) == 4:
        p[0] = [p[1]] + p[3]
    else:
        p[0] = []

# <fila> ::= "{" <atributo_fila> <atributos> "}"
def p_fila(p):
    '''fila : LLAVE_IZQ atributo_fila atributos LLAVE_DER'''
    p[0] = dict([p[2]] + p[3])

# <atributos> ::= "," <atributo_fila> <atributos> | λ
def p_atributos(p):
    '''atributos : COMA atributo_fila atributos
                 | vacio'''
    if len(p) == 4:
        p[0] = [p[2]] + p[3]
    else:
        p[0] = []

# <atributo_fila> ::= <identificador> ":" <dato_literal>
def p_atributo_fila(p):
    'atributo_fila : IDENTIFICADOR DOSPUNTOS dato_literal'
    p[0] = (p[1], p[3])


# -----------------------------
#   Asignación y salida
# -----------------------------
# <asignacion> ::= <identificador> "=" <expresion>
def p_asignacion(p):
    'asignacion : IDENTIFICADOR IGUAL expresion'
    p[0] = ("asignacion", p[1], p[3])

# <salida> ::= "SALIDA:" <expresion>
def p_salida(p):
    'salida : SALIDA DOSPUNTOS expresion'
    p[0] = ("salida", p[3])


# -----------------------------
#   Condicionales y bucles
# -----------------------------

# <condicional> ::= "SI:" <expresion> "ENTONCES:" <bloque> 
#                | "SI:" <expresion> "ENTONCES:" <bloque> "SINO:" <bloque>
def p_condicional(p):
    '''condicional : SI DOSPUNTOS expresion ENTONCES DOSPUNTOS bloque
                   | SI DOSPUNTOS expresion ENTONCES DOSPUNTOS bloque SINO DOSPUNTOS bloque'''
    if len(p) == 7:
        p[0] = ("si", p[3], p[6])
    else:
        p[0] = ("si_sino", p[3], p[6], p[9])

# <bucle> ::= "MIENTRAS:" <expresion> "HACER:" <bloque>
def p_bucle(p):
    'bucle : MIENTRAS DOSPUNTOS expresion HACER DOSPUNTOS bloque'
    p[0] = ("mientras", p[3], p[6])


# -----------------------------
#   Expresiones
# -----------------------------
#<expresion> ::= <literal>
#              | <identificador>
#              | <consulta>
#              | <expresion_prefija>
def p_expresion(p):
    '''expresion : literal
                 | IDENTIFICADOR
                 | consulta
                 | expresion_prefija'''
    p[0] = p[1]

#<expresion_prefija> ::= <op_aritmetico> <operando> <operando>
#                      | <op_comparacion> <operando> <operando>
#                      | <op_logico> <operando> <operando>
#                      | <op_negacion> <operando>

def p_expresion_prefija(p):
    '''expresion_prefija : op_aritmetico operando operando
                         | op_comparacion operando operando
                         | op_logico operando operando
                         | op_negacion operando'''
    if len(p) == 4:
        p[0] = ("expr_prefija_binaria", p[1], p[2], p[3])
    else:
        p[0] = ("expr_prefija_unaria", p[1], p[2])

# <operando> ::= <literal> | <identificador> | <consulta> | <expresion_prefija>
def p_operando(p):
    '''operando : literal
                | IDENTIFICADOR
                | consulta
                | expresion_prefija'''
    p[0] = p[1]


# --------------------------------------
#   Consultas 
# --------------------------------------
# <consulta> ::= "SELECCIONAR" <columnas> "DE" <identificador> | "SELECCIONAR" <columnas> "DE" <identificador> <opciones_consulta>
def p_consulta(p):
    '''consulta : SELECCIONAR columnas DE IDENTIFICADOR
                | SELECCIONAR columnas DE IDENTIFICADOR opciones_consulta'''
    if len(p) == 5:
        p[0] = ("consulta", p[2], p[4])
    else:
        p[0] = ("consulta_opciones", p[2], p[4], p[5])

# <opciones_consulta> ::= "DONDE" <expresion>
#                      | "AGRUPAR" "POR" <columnas> 
#                      | "ORDENAR" "POR" <columnas>

def p_opciones_consulta(p):
    '''opciones_consulta : DONDE expresion
                         | AGRUPAR POR columnas
                         | ORDENAR POR columnas'''
    if p[1] == 'DONDE':
        p[0] = ("donde", p[2])
    elif p[1] == 'AGRUPAR':
        p[0] = ("agrupar", p[3])
    else:
        p[0] = ("ordenar", p[3])

# <columnas> ::= <identificador> "," <columnas> | <identificador>
def p_columnas(p):
    '''columnas : IDENTIFICADOR COMA columnas
                | IDENTIFICADOR'''
    if len(p) == 4:
        p[0] = [p[1]] + p[3]
    else:
        p[0] = [p[1]]

# -----------------------------
#   Literales
# -----------------------------
# <literal> ::= <entero> | <booleano> | <cadena>
def p_literal(p):
    '''literal : ENTERO
               | booleano
               | CADENA'''
    p[0] = p[1]

# <booleano> ::= "VERDADERO" | "FALSO"
def p_booleano(p):
    '''booleano : VERDADERO
                | FALSO'''
    p[0] = (p[1] == "VERDADERO")

# <dato_literal> ::= <booleano> | <cadena> | <entero>
def p_dato_literal(p):
    '''dato_literal : booleano
                    | CADENA
                    | ENTERO'''
    p[0] = p[1]

# -----------------------------
#   Operadores
# -----------------------------
# <op_aritmetico> ::= "+" | "-" | "*" | "/" | "%"
def p_op_aritmetico(p):
    '''op_aritmetico : MAS
                     | MENOS
                     | MULT
                     | DIV
                     | MOD'''
    p[0] = p[1]

# <op_comparacion> ::= "==" | "!=" | ">" | "<"
def p_op_comparacion(p):
    '''op_comparacion : IGUALIGUAL
                      | DISTINTO
                      | MAYOR
                      | MENOR'''
    p[0] = p[1]

# <op_logico> ::= "&" | "|" | "IGUALES"
def p_op_logico(p):
    '''op_logico : AND
                 | OR
                 | IGUALES'''
    p[0] = p[1]

# <op_negacion> ::= "!"
def p_op_negacion(p):
    'op_negacion : NOT'
    p[0] = p[1]

# -----------------------------
#   Vacío
# -----------------------------

def p_vacio(p):
    '''vacio :'''
    p[0] = None


# -----------------------------
#   Manejo de errores
# -----------------------------

def p_error(p):
    if p:
        print(f"Error sintáctico en '{p.value}' (línea {p.lineno})")
    else:
        print("Error sintáctico: fin de archivo inesperado") 

parser = yacc.yacc()

## Main

In [None]:
from lexer import lexer
from parser import parser
from pprint import pprint
from graphviz import Digraph

def ast_to_graph(node, graph=None, parent=None):
    from graphviz import Digraph

    if graph is None:
        graph = Digraph("AST")
        graph.attr("node", shape="box", fontsize="10")

    if node is None:
        nid = str(id(node))
        graph.node(nid, "None")
        if parent:
            graph.edge(parent, nid)
        return graph

    nid = str(id(node))


    if isinstance(node, tuple):
        label = node[0] 
        graph.node(nid, label)

        if parent:
            graph.edge(parent, nid)

        for i, elemento in enumerate(node[1:], start=1):
            ast_to_graph(elemento, graph, nid)

        return graph


    if isinstance(node, list):
        graph.node(nid, "lista")  
        if parent:
            graph.edge(parent, nid)

        for elemento in node:
            ast_to_graph(elemento, graph, nid)

        return graph

    graph.node(nid, repr(node))
    if parent:
        graph.edge(parent, nid)

    return graph

codigo = """
INICIO:
VAR x = 7;
VAR y = 9;
SALIDA: + x y;
FIN
"""

codigo0 = """ 
INICIO:

VAR TABLA empleados = [
	{ nombre: "Ana", edad: 30, salario: 2000, departamento: "Ventas" },
	{ nombre: "Luis", edad: 45, salario: 3000, departamento: "Ventas" },
	{ nombre: "Marta", edad: 29, salario: 2500, departamento: "IT" },
	{ nombre: "Pedro", edad: 35, salario: 2800, departamento: "IT" }
];

VAR bono = + 500 200;

bono = * bono 2;

SALIDA: bono;

SI: > bono 1000 ENTONCES:
	SALIDA: "Bono mayor a mil";
SINO:
	SALIDA: "Bono menor o igual a mil";

MIENTRAS: < bono 3000 HACER:
	bono = + bono 100;
	SALIDA: bono;

SALIDA: SELECCIONAR nombre, salario DE empleados DONDE > salario 2500;

SALIDA: SELECCIONAR departamento, salario DE empleados 
        ORDENAR POR departamento;
FIN
"""

codigo1 = """
INICIO: VAR entrada = 10; 
VAR umbral = > 4 entrada;
MIENTRAS: umbral 
HACER: SALIDA: entrada; 
entrada = - entrada 1; 
FIN
"""

actual = codigo

print("tokens")
lexer.input(actual)

while True:
    tok = lexer.token()
    if not tok:
        break
    print(f"{tok.type:<15} {tok.value}")

print("\ resultados parser")
resultado = parser.parse(actual, lexer=lexer)
pprint(resultado)

g = ast_to_graph(resultado)
g.render("arbol", view=True)