### Analisis sintáctico

El **análisis sintáctico** es, en el campo de la lingüística, el análisis de las funciones sintácticas o relaciones de concordancia y jerarquía que guardan las palabras agrupándose entre sí en sintagmas u oraciones.

Un analizador sintáctico (o **parser**) es un programa informático que analiza una cadena de símbolos de acuerdo a las reglas de una gramática formal. Usualmente hace parte de un compilador, en cuyo caso, transforma una entrada en un **árbol sintáctico de derivación**.

El análisis sintáctico convierte el texto de entrada en otras estructuras (comúnmente árboles), que son más útiles para el posterior análisis y capturan la jerarquía implícita de la entrada. Un **analizador léxico** crea **tokens** de una secuencia de caracteres de entrada y son estos tokens los que son procesados por el analizador sintáctico para construir la estructura de datos, por ejemplo un árbol de análisis o árboles de sintaxis abstracta.

**Lenguajes de programación**
El uso más común de los analizadores sintácticos es como parte de la fase de análisis de los compiladores. De modo que tienen que analizar el código fuente del lenguaje. Los lenguajes de programación tienden a basarse en gramáticas libres de contexto, debido a que se pueden escribir analizadores rápidos y eficientes para estas.

Las gramáticas libres de contexto tienen una expresividad limitada y sólo pueden expresar un conjunto limitado de lenguajes. Informalmente la razón de esto es que la memoria de un lenguaje de este tipo es limitada, la gramática no puede recordar la presencia de una construcción en una entrada arbitrariamente larga y esto es necesario en un lenguaje en el que por ejemplo una variable debe ser declarada antes de que pueda ser referenciada. Las gramáticas más complejas no pueden ser analizadas de forma eficiente. Por estas razones es común crear un analizador permisivo para una gramática libre de contexto que acepta un superconjunto del lenguaje (acepta algunas construcciones inválidas), después del análisis inicial las construcciones incorrectas pueden ser filtradas.

Normalmente es fácil definir una gramática libre de contexto que acepte todas las construcciones de un lenguaje pero por el contrario es prácticamente imposible construir una gramática libre de contexto que admita solo las construcciones deseadas. En cualquier caso la mayoría de analizadores no son construidos a mano sino usando generadores automáticos.

**Clasificación**
La tarea esencial de un analizador es determinar si una determinada entrada puede ser derivada desde el símbolo inicial, usando las reglas de una gramática formal, y como hacer esto, existen esencialmente dos formas:

* Analizador sintáctico descendente (Top-Down-Parser): ..un analizador puede empezar con el símbolo inicial e intentar transformarlo en la entrada, intuitivamente esto sería ir dividiendo la entrada progresivamente en partes cada vez más pequeñas, de esta forma funcionan los analizadores LL, un ejemplo es el javaCC. Una mejora en estos parsers se puede logar usando GLR (Generalized Left-to-right Rightmost derivation).

* Analizador sintáctico ascendente (Bottom-Up-Parser): un analizador puede empezar con la entrada e intentar llegar hasta el símbolo inicial, intuitivamente el analizador intenta encontrar los símbolos más pequeños y progresivamente construir la jerarquía de símbolos hasta el inicial, los analizadores LR funcionan así y un ejemplo es el Yacc. También existen SLR (Simple LR) o los LALR (Look-ahead LR) como también de los GLL7​ (Generalized Left-to-right Leftmost derivation).


#### Analizar HTML con Python: HTMLParser
El módulo **html.parse** define la clase **HTMLParser** la cual sirve de base para el análisis de archivos de texto con formato en HTML y XHTML. Cuando se vincula un archivo HTML a un objeto HTMLParser, este lo procesará de principio a fin, encontrando las etiquetas de apertura, etiquetas de cierre, datos de texto y otros componentes en el archivo fuente y “procesar” cada uno de estos elementos.

In [5]:
archivo = open('holamundo.html',"r")
 
for lineas in archivo.readlines() :
    print(lineas)
 
archivo.close()

<!DOCTYPE html>

<html>

<head>

	<title>Primer PÃ¡gina</title>

</head>

<body>

	<h1> hola mundo </h1>

</body>

</html>


In [10]:
from html.parser import HTMLParser

with open('holamundo.html','r') as file:
    parser = HTMLParser()
    parser.feed(file.read())
    
print(file)    
 

<_io.TextIOWrapper name='holamundo.html' mode='r' encoding='cp1252'>


In [22]:
from html.parser import HTMLParser

# create a subclass and override the handler methods
class MyHTMLParser(HTMLParser):
   
    def handle_starttag(self, tag, attrs):
        print("Encountered a start tag:", tag)

    def handle_endtag(self, tag):
        print("Encountered an end tag :", tag)

    def handle_data(self, data):
        print("Encountered some data  :", data)

# instantiate the parser and fed it some HTML
parser = MyHTMLParser()

with open('holamundo.html', "r") as f:
    page = f.read()
    
    
parser.feed(str(page))







Encountered some data  : 

Encountered a start tag: html
Encountered some data  : 

Encountered a start tag: head
Encountered some data  : 
	
Encountered a start tag: title
Encountered some data  : Primer PÃ¡gina
Encountered an end tag : title
Encountered some data  : 

Encountered an end tag : head
Encountered some data  : 

Encountered a start tag: body
Encountered some data  : 
	
Encountered a start tag: h1
Encountered some data  :  hola mundo 
Encountered an end tag : h1
Encountered some data  : 

Encountered an end tag : body
Encountered some data  : 

Encountered an end tag : html


In [2]:
# Script para abrir un archivo html e identificar las etiquetas que contiene

from requests_html import HTMLSession
from collections import Counter
from urllib.parse import urlparse

session = HTMLSession()
r = session.get("https://itcolima.edu.mx/www/")
unique_netlocs = Counter(urlparse(link).netloc for link in r.html.absolute_links)
for link in unique_netlocs:
    print(link, unique_netlocs[link])



itcolima.edu.mx 73
twitter.com 1
www.premiosantander.com 1
citt.itsm.edu.mx 1
consultaplaneacion.tecnm.mx 1
conacytprensa.mx 1
www.conricyt.mx 1
sites.google.com 1
www.facebook.com 1
dspace.itcolima.edu.mx 1
www.youtube.com 1
www.universia.net.mx 1


In [6]:
# Script para identificar si el archivo html contiene la etiqueta !DOCTYPE html

from html.parser import HTMLParser

# create a subclass and override the handler methods
class MyHTMLParser(HTMLParser):
    
    def handle_decl(self, data):
        print("Etiqueta encontrada: ", data)
   
    def handle_starttag(self, tag, attrs):
        print("Encountered a start tag:", tag)

    def handle_endtag(self, tag):
        print("Encountered an end tag :", tag)

    def handle_data(self, data):
        print("Encountered some data  :", data)

# instantiate the parser and fed it some HTML
parser = MyHTMLParser()

with open('holamundo.html', "r") as f:
    page = f.read()
    
    
parser.feed(str(page))


Etiqueta encontrada:  DOCTYPE html
Encountered some data  : 

Encountered a start tag: html
Encountered some data  : 

Encountered a start tag: head
Encountered some data  : 
	
Encountered a start tag: title
Encountered some data  :  Primer PÃ¡gina 
Encountered an end tag : title
Encountered some data  : 

Encountered an end tag : head
Encountered some data  : 

Encountered a start tag: body
Encountered some data  : 
	
Encountered a start tag: h1
Encountered some data  :  hola mundo 
Encountered an end tag : h1
Encountered some data  : 

Encountered an end tag : body
Encountered some data  : 

Encountered an end tag : html
Encountered some data  : 





### Contrucción de un analizador sintáctico

In [9]:
from rply import LexerGenerator
#from lexer import Lexer


class Lexer():
    def __init__(self):
        self.lexer = LexerGenerator()

    def _add_tokens(self):
        # Print
        self.lexer.add('PRINT', r'print')
        # Parenthesis
        self.lexer.add('OPEN_PAREN', r'\(')
        self.lexer.add('CLOSE_PAREN', r'\)')
        # Semi Colon
        self.lexer.add('SEMI_COLON', r'\;')
        # Operators
        self.lexer.add('SUM', r'\+')
        self.lexer.add('SUB', r'\-')
        self.lexer.add('MUL', r'\*')
        # Number
        self.lexer.add('NUMBER', r'\d+')
        # Ignore spaces
        self.lexer.ignore('\s+')

    def get_lexer(self):
        self._add_tokens()
        return self.lexer.build()
    
print("-- Analizador Léxico de la sentencia print --")
print("-- Reconoce: print(expresion); --")

text_input = input("Introduce sentencia print: ")

#text_input = """
#print(10 + 15 - 2 + 23 * 2);
#"""

lexer = Lexer().get_lexer()
tokens = lexer.lex(text_input)

for token in tokens:
    print(token)
    

-- Analizador Léxico de la sentencia print --
-- Reconoce: print(expresion); --
Introduce sentencia print: print(10+5);
Token('PRINT', 'print')
Token('OPEN_PAREN', '(')
Token('NUMBER', '10')
Token('SUM', '+')
Token('NUMBER', '5')
Token('CLOSE_PAREN', ')')
Token('SEMI_COLON', ';')


In [16]:
from rply import ParserGenerator

class Number():
    def __init__(self, value):
        self.value = value

    def eval(self):
        return int(self.value)


class BinaryOp():
    def __init__(self, left, right):
        self.left = left
        self.right = right


class Sum(BinaryOp):
    def eval(self):
        return self.left.eval() + self.right.eval()


class Sub(BinaryOp):
    def eval(self):
        return self.left.eval() - self.right.eval()

class Mul(BinaryOp):
    def eval(self):
        return self.left.eval() * self.right.eval()
    
class Div(BinaryOp):
    def eval(self):
        return self.left.eval() / self.right.eval()
    
class Print():
    def __init__(self, value):
        self.value = value

    def eval(self):
        print(self.value.eval())
        
        
class Parser():
    def __init__(self):
        self.pg = ParserGenerator(
            # A list of all token names accepted by the parser.
            ['NUMBER', 'PRINT', 'OPEN_PAREN', 'CLOSE_PAREN',
             'SEMI_COLON', 'SUM', 'SUB', 'DIV', 'MUL']
        )

    def parse(self):
        @self.pg.production('program : PRINT OPEN_PAREN expression CLOSE_PAREN SEMI_COLON')
        def program(p):
            return Print(p[2])

        @self.pg.production('expression : expression SUM expression')
        @self.pg.production('expression : expression SUB expression')
        @self.pg.production('expression : expression MUL expression')
        @self.pg.production('expression : expression DIV expression')
        def expression(p):
            left = p[0]
            right = p[2]
            operator = p[1]
            if operator.gettokentype() == 'SUM':
                return Sum(left, right)
            elif operator.gettokentype() == 'SUB':
                return Sub(left, right)
            elif operator.gettokentype() == 'MUL':
                return Mul(left, right)
            elif operator.gettokentype() == 'DIV':
                return Div(left, right)

        @self.pg.production('expression : NUMBER')
        def number(p):
            return Number(p[0].value)

        @self.pg.error
        def error_handle(token):
            raise ValueError(token)

    def get_parser(self):
        return self.pg.build()
    
print("-- Analizador Léxico de la sentencia print --")
print("-- Reconoce: print(expresion); --")

text_input = input("Introduce sentencia print: ")

lexer = Lexer().get_lexer()
tokens = lexer.lex(text_input)

pg = Parser()
pg.parse()
parser = pg.get_parser()
parser.parse(tokens).eval()


-- Analizador Léxico de la sentencia print --
-- Reconoce: print(expresion); --
Introduce sentencia print: print(2+2*5);
12


