### Análisis Semántico

Es la etapa que procesa la información adicional necesaria para el procesamiento de un lenguaje,
una vez que la estructura sintáctica de un programa haya sido obtenida

Los programas que se compilan no son solamente cadenas de símbolos sin significado alguno que pueden ser aceptadas como correctas o no por una máquina abstracta. El lenguaje no es más que el vehículo por el cual se intenta transmitir una serie de instrucciones a un procesador para que éste las ejecute produciendo unos resultados. Por ello, la tarea del compilador requiere la extracción del contenido semántico incluido en las distintas sentencias del programa.

Por esto, se hace necesario dotar al compilador de una serie de rutinas auxiliares que permitan captar todo aquello que no se ha expresado mediante la sintáxis del lenguaje y todo aquello que hace descender a nuestro lenguaje de programación de las alturas de una máquina abstracta hasta el nivel de un computador real. A todas estas rutinas auxiliares se les denomina genéricamente análisis semántico.

El **Analizador semántico** ejecuta sus funciones en conjunto al analizador sintáctico, ambos justo antes de la generación de código intermedio, es decir, es una etapa clave dentro del proceso de la compilación de código.

#### Análisis Semántico

**Semántica:** conjunto de reglas que especifican el significado de cualquier sentencia sintácticamente correcta y escrita en un determinado lenguaje.
La semántica corresponde al significado asociado a las estructuras formales (_sintáxis_) del lenguaje. Como las gramáticas (E)BNF, además normalmente limitadas a LR o LL, no pueden describir todos los elementos sintácticos del lenguaje, se hace preciso algún análisis adicional. Así, se denomina tradicionalmente *análisis semántico* a todo aquello que forma parte del front end más allá de lo que la gramática utilizada nos permite.

La fase de **análisis semántico** revisa el programa fuente para tratar de encontrar **errores semánticos** y reúne la información sobre los tipos para la fase posterior de generación de código. En ella se utiliza la estructura jerárquica determinada por la fase de análisis sintáctico para identificar los operadores y operandos de expresiones y proposiciones.
Un componente importante del análisis semántico es la verificación de tipos. Aquí, el compilador verifica si cada operador tiene operandos permitidos por la especificación del lenguaje fuente.

El análisis semántico, a diferencia de otras fases, no se realiza claramente diferenciado del resto de las tareas que lleva a cabo el compilador, más bien podría decirse que el análisis semántico completa las dos fases anteriores de análisis léxico y sintáctico incorporando ciertas comprobaciones que no pueden asimilarse al mero reconocimiento de una cadena dentro de un lenguaje.


#### Funciones Principales
Las funciones principales del analizador semántico, las podemis enumerar a continuación:
<ol>
    <li>Identificar cada tipo de instrucción y sus componentes</li>
    <li>Completar la Tabla de Símbolos</li>
    <li>Realizar distintas comprobaciones y validaciones:</li>
    <ol>
        <li>Comprobaciones de tipos.</li>
        <li>Comprobaciones del flujo de control.</li>
        <li>Comprobaciones de unicidad.</li>
        <li>Comprobaciones de emparejamiento.</li>
    </ol>
</ol>    

El Analizador Semántico finaliza la **fase de Análisis** del compilador y comienza la **fase de Síntesis**, en la cual se comienza a generar el código objeto. La especificación de la semántica puede realizarse de dos formas:
·                  Lenguaje natural
·                  Especificación formal: Semántica Operacional, semántica denotacional, semántica Axiomática, Gramáticas con Atributos.


#### Acciones Semánticas

Dependiendo del tipo de sentencias, las acciones semánticas pueden agruparse en:
<ol>
<li>Sentencias de Declaración: Completar la sección de tipos de la Tabla de Símbolos.</li>
<li>Sentencias “ejecutables”: Realizar comprobaciones de tipos entre los operandos implicados.</li>
<li>Funciones y procedimientos: Comprobar el número, orden y tipo de los parámetros actuales en cada llamada a una función o procedimiento.</li>
<li>Identificación de variables: Comprobar si un identificador ha sido declarado antes de utilizarlo.</li>
<li>Etiquetas: Comprobar si hay etiquetas repetidas y validación.</li>
<li>Constantes: Comprobar que no se utilicen en la parte izquierda de una asignación.</li>                 <li>Conversiones y equivalencias de tipo: Verificación.</li>
<li>Sobrecarga de operadores y funciones: Detectar y solventar.</li>
</ol> 

#### Errores semánticos

Como ya se ha mencionado anteriormente, la función del análisis semántico es analizar el código y detectar errores de tipo semánticos de existir. Un **error semántico** es aquel que necesita información sensitiva al contexto para ser identificado. Algunos de estos errores reconocidos pueden ser:
<ol>
    <li>No coinciden los tipos. </li>
    <li>Variable no declarada.</li>
    <li>Identificador reservado uso indebido.</li>
    <li>Declaración de variables múltiples en un ámbito.</li>
    <li>Acceder a una variable fuera de alcance.</li>
    <li>Parámetro formal y real no coincide.</li>
</ol>


#### Compatibilidad de Tipos

Un compilador debe comprobar si el programa fuente sigue tanto las convenciones sintácticas como las semánticas del lenguaje fuente. Esta comprobación, llamada comprobación estática (para distinguirla de la comprobación dinámica que se realiza durante la ejecución del programa objeto), garantiza la detección y comunicación de algunas clases de errores de programación. Los ejemplos de comprobación estática incluyen: 

* Comprobaciones de tipos. Un compilador debe informar de un error si se aplica un operador a un operando incompatible, por ejemplo, si se suman una variable tipo matriz y una variable de función. 

* Comprobaciones del flujo de control. Las proposiciones que hacen que el flujo del control abandone una construcción deben tener algún lugar a dónde transferir el flujo de control Por ejemplo, una proposición break en C hace que el control abandone la proposición que la engloba, while, for o switch más cercana si dicha proposición englobadora no existe, ocurre un error. 

* Comprobaciones relacionadas con nombres. En ocasiones, el mismo nombre debe aparecer dos o más veces en un mismo bloque de instrucciones, el compilador debe comprobar que se utilice el mismo nombre en ambos sitios.

Un comprobador de tipos se asegura de que el tipo de una construcción coincida con el previsto en su contexto.
####  Expresiones de tipos 
El tipo de una construcción de un lenguaje se denotará mediante una “expresión de tipo”. De manera informal, una expresión de tipo es, o bien un tipo básico o se forma aplicando un operador llamado constructor de tipos a otras expresiones de tipos. Los conjuntos de tipos y constructores básicos dependen del lenguaje que deba comprobarse. Cada lenguaje de programación requerirá unas expresiones de tipos adecuadas a sus características. A continuación, a modo de ejemplo, se definen las expresiones de tipos más comunes:

*     Tipos simples: Son expresiones de tipos los tipos simples del lenguaje, y algunos tipos especiales:
      Integer 
      Real 
      Char 
      Boolean 
      Void 
      Error

Los cuatro primeros son los tipos de datos simples más comunes en los lenguajes de programación, los dos últimos son tipos simples especiales que usaremos para su atribución a diversas partes de un programa, a fin de homogeneizar el tratamiento de todo el conjunto mediante el método de las expresiones de tipos.

##### Constructores de tipos

Permiten formar tipos complejos a partir de otros más simples. La semántica de cada lenguaje tiene asociada unos constructores de tipos propios. En general, en los lenguajes de programación se definen los siguientes constructores:

* Matrices: Si T es una expresión de tipos, entonces array(R,T)es también una expresión de tipos que representa a una matriz de rango R de elementos de tipo T.  Ejemplo: Sea el segmento de código C:  char a[10].

* Productos: Sea T1 y T2 expresiones de tipos, T1 x T2 es una expresión de tipos que representa al producto cartesiano de los tipos T1 y T2. A fin de simplificar consideraremos que el constructor u operador de tipos x es asociativo por la izquierda. 

* Registros: Sea un registro formado por los campos u1, u2 ... uN, siendo cada uno de ellos de los tipos T1,T2 ... TN, entonces, la expresión de tipos asociada al conjunto es: record ( (u1:T1) x (u2:T2) x ... x (uN:TN)).

* Punteros: Si T es una expresión de tipos, entonces pointer(T) es una expresión de tipos que representa a un puntero a una posición de memoria ocupada por un dato de tipo T. 

* Funciones: Sean T1,T2 ... TN, las expresiones de tipos asociadas a los segmentos de código correspondientes a los argumentos de una función, y sea T el tipo devuelto por la función. Entonces, la expresión de tipos asociada a la función es: ((T1xT2 x... xTN) -> T).

#### Tabla de simbolos

**Tabla de símbolos** es una importante estructura de datos creada y mantenida por los compiladores con el fin de almacenar información acerca de la ocurrencia de diversas entidades, tales como nombres de variables, nombres de funciones, objetos, clases, interfaces, etc. tabla de símbolos se utiliza en el análisis y la síntesis de un compilador.

Una tabla de símbolos pueden servir los fines siguientes en función del idioma de la mano:
<ol>
    <li>Para almacenar los nombres de todas las entidades de forma estructurada en un solo lugar.</li>

<li>Para verificar si se ha declarado una variable.</li>

<li>Comprobación del tipo de implemento, comprobando las cesiones y las expresiones en el código fuente son semánticamente correcto.</li>

<li>Para determinar el alcance de un nombre (alcance de la resolución).</li>

Una **tabla de símbolos** es simplemente una tabla que puede ser lineal o una tabla hash. Mantiene una entrada para cada uno de los nombres con el formato siguiente: **<symbol name,  type,  attribute>** 

##### Operaciones
Una tabla de símbolos, ya sea lineal o hash, debe proporcionar las siguientes operaciones.

* Insert()
Esta operación es el que se utiliza con más frecuencia en fase de análisis, es decir, la primera mitad del compilador en donde los testigos son identificados y los nombres se almacenan en la tabla. Esta operación se utiliza para añadir información en la tabla de símbolos de nombres únicos que ocurren en el código fuente. El formato o estructura en la que los nombres se almacenan depende del compilador en mano.

Un atributo de un símbolo en el código fuente es la información asociada con ese símbolo. Esta información contiene el valor, el estado, el alcance y el tipo sobre el símbolo. El insertar() toma el símbolo y sus atributos como argumentos y almacena la información en la tabla de símbolos.

Por ejemplo:
int a;
Debe ser procesada por el compilador como: **insert(a, int);**

* Lookup()
Lookup() es utilizado para buscar un nombre en la tabla de símbolos para determinar:

Si el símbolo existe en la tabla.
Si se declara antes de que se utilice.
Si el nombre se usa en el ámbito de aplicación.
Si el símbolo está inicializado.
Si el símbolo declarado varias veces.
El formato de búsqueda() varía según el lenguaje de programación. El formato básico debe coincidir con el siguiente:

**Lookup(símbolo)**
Este método devuelve el valor 0 (cero) si el símbolo no existe en la tabla de símbolos. Si el símbolo existe en la tabla de símbolos, se devuelve sus atributos almacenados en la tabla.

In [2]:
# Representar símbolos en código 

class Symbol(object):
    
    def __init__(self, name, type=None):
        self.name = name
        self.type = type
        

In [6]:
class BuiltinTypeSymbol(Symbol):
    
    def __init__(self, name):
        super().__init__(name)

    def __str__(self):
        return self.name


    
    
entero = BuiltinTypeSymbol("INTEGER")
print(entero)
real = BuiltinTypeSymbol('FLOAT')
print(real)




INTEGER
FLOAT


In [None]:
# Representar una variable con su tipo

class VarSymbol(Symbol):
    def __init__(self, name, type):
        super().__init__(name, type)

    def __str__(self):
        return '<{name}:{type}>'.format(name=self.name, type=self.type)

    __repr__ = __str__

In [None]:
class SymbolTable(object):
    def __init__(self):
        self._symbols = {}

    def __str__(self):
        s = 'Symbols: {symbols}'.format(
            symbols=[value for value in self._symbols.values()]
        )
        return s

    __repr__ = __str__

    def define(self, symbol):
        print('Define: %s' % symbol)
        self._symbols[symbol.name] = symbol

    def lookup(self, name):
        print('Lookup: %s' % name)
        symbol = self._symbols.get(name)
        # 'symbol' is either an instance of the Symbol class or 'None'
        return symbol