### Analisis sintáctico

El **análisis sintáctico** es, en el campo de la lingüística, el análisis de las funciones sintácticas o relaciones de concordancia y jerarquía que guardan las palabras agrupándose entre sí en sintagmas u oraciones.

Un analizador sintáctico (o **parser**) es un programa informático que analiza una cadena de símbolos de acuerdo a las reglas de una gramática formal. Usualmente hace parte de un compilador, en cuyo caso, transforma una entrada en un **árbol sintáctico de derivación**.

El análisis sintáctico convierte el texto de entrada en otras estructuras (comúnmente árboles), que son más útiles para el posterior análisis y capturan la jerarquía implícita de la entrada. Un **analizador léxico** crea **tokens** de una secuencia de caracteres de entrada y son estos tokens los que son procesados por el analizador sintáctico para construir la estructura de datos, por ejemplo un árbol de análisis o árboles de sintaxis abstracta.

**Lenguajes de programación**
El uso más común de los analizadores sintácticos es como parte de la fase de análisis de los compiladores. De modo que tienen que analizar el código fuente del lenguaje. Los lenguajes de programación tienden a basarse en gramáticas libres de contexto, debido a que se pueden escribir analizadores rápidos y eficientes para estas.

Las gramáticas libres de contexto tienen una expresividad limitada y sólo pueden expresar un conjunto limitado de lenguajes. Informalmente la razón de esto es que la memoria de un lenguaje de este tipo es limitada, la gramática no puede recordar la presencia de una construcción en una entrada arbitrariamente larga y esto es necesario en un lenguaje en el que por ejemplo una variable debe ser declarada antes de que pueda ser referenciada. Las gramáticas más complejas no pueden ser analizadas de forma eficiente. Por estas razones es común crear un analizador permisivo para una gramática libre de contexto que acepta un superconjunto del lenguaje (acepta algunas construcciones inválidas), después del análisis inicial las construcciones incorrectas pueden ser filtradas.

Normalmente es fácil definir una gramática libre de contexto que acepte todas las construcciones de un lenguaje pero por el contrario es prácticamente imposible construir una gramática libre de contexto que admita solo las construcciones deseadas. En cualquier caso la mayoría de analizadores no son construidos a mano sino usando generadores automáticos.

**Clasificación**
La tarea esencial de un analizador es determinar si una determinada entrada puede ser derivada desde el símbolo inicial, usando las reglas de una gramática formal, y como hacer esto, existen esencialmente dos formas:

* Analizador sintáctico descendente (Top-Down-Parser): ..un analizador puede empezar con el símbolo inicial e intentar transformarlo en la entrada, intuitivamente esto sería ir dividiendo la entrada progresivamente en partes cada vez más pequeñas, de esta forma funcionan los analizadores LL, un ejemplo es el javaCC. Una mejora en estos parsers se puede logar usando GLR (Generalized Left-to-right Rightmost derivation).

* Analizador sintáctico ascendente (Bottom-Up-Parser): un analizador puede empezar con la entrada e intentar llegar hasta el símbolo inicial, intuitivamente el analizador intenta encontrar los símbolos más pequeños y progresivamente construir la jerarquía de símbolos hasta el inicial, los analizadores LR funcionan así y un ejemplo es el Yacc. También existen SLR (Simple LR) o los LALR (Look-ahead LR) como también de los GLL7​ (Generalized Left-to-right Leftmost derivation).


#### Analizar HTML con Python: HTMLParser
El módulo **html.parse** define la clase **HTMLParser** la cual sirve de base para el análisis de archivos de texto con formato en HTML y XHTML. Cuando se vincula un archivo HTML a un objeto HTMLParser, este lo procesará de principio a fin, encontrando las etiquetas de apertura, etiquetas de cierre, datos de texto y otros componentes en el archivo fuente y “procesar” cada uno de estos elementos.

In [5]:
archivo = open('holamundo.html',"r")
 
for lineas in archivo.readlines() :
    print(lineas)
 
archivo.close()

<!DOCTYPE html>

<html>

<head>

	<title>Primer PÃ¡gina</title>

</head>

<body>

	<h1> hola mundo </h1>

</body>

</html>


In [10]:
from html.parser import HTMLParser

with open('holamundo.html','r') as file:
    parser = HTMLParser()
    parser.feed(file.read())
    
print(file)    
 

<_io.TextIOWrapper name='holamundo.html' mode='r' encoding='cp1252'>


In [14]:
#Using the htmlparser with python find all the links included in the ITC page.
from requests_html import HTMLSession
from collections import Counter
from urllib.parse import urlparse

session = HTMLSession()
r = session.get("https://itcolima.edu.mx/www/")
unique_netlocs = Counter(urlparse(link).netloc for link in r.html.absolute_links)
for link in unique_netlocs:
    print(link, unique_netlocs[link])

itcolima.edu.mx 73
dspace.itcolima.edu.mx 1
www.facebook.com 1
sites.google.com 1
citt.itsm.edu.mx 1
www.universia.net.mx 1
consultaplaneacion.tecnm.mx 1
www.premiosantander.com 1
twitter.com 1
www.youtube.com 1
conacytprensa.mx 1
www.conricyt.mx 1


In [11]:
pip install requests-html

Collecting requests-html
  Downloading https://files.pythonhosted.org/packages/24/bc/a4380f09bab3a776182578ce6b2771e57259d0d4dbce178205779abdc347/requests_html-0.10.0-py3-none-any.whl
Collecting parse (from requests-html)
  Downloading https://files.pythonhosted.org/packages/c4/c0/324d280a3298cdad806c3fb64eef31aed5c4dbd15b72a309498fb71c6a17/parse-1.12.0.tar.gz
Collecting fake-useragent (from requests-html)
  Downloading https://files.pythonhosted.org/packages/d1/79/af647635d6968e2deb57a208d309f6069d31cb138066d7e821e575112a80/fake-useragent-0.1.11.tar.gz
Collecting pyquery (from requests-html)
  Downloading https://files.pythonhosted.org/packages/09/c7/ce8c9c37ab8ff8337faad3335c088d60bed4a35a4bed33a64f0e64fbcf29/pyquery-1.4.0-py2.py3-none-any.whl
Collecting w3lib (from requests-html)
  Downloading https://files.pythonhosted.org/packages/81/43/9dcf92a77f5f0afe4f4df2407d7289eea01368a08b64bda00dd318ca62a6/w3lib-1.20.0-py2.py3-none-any.whl
Collecting pyppeteer>=0.0.14 (from requests-html)
 

In [21]:
# Script para identificar la etiqueta <!DOCTYPE html>
# En un archivo html
# 
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    
    def handle_decl(self,data):
        print("Etiqueta encontrada ...",data)
        
    def handle_starttag(self,tag,attrs):
        print("Encountered a start tag: ",tag)
    
    def handle_endtag(self,tag):
        print("Encountered an end tag: ",tag)
    
    def handle_data(self,data):
        print("Encountered some data: ",data)
        
parser = MyHTMLParser()
    
with open("C:/Users/fer/Desktop/python/holamundo.html","r" )as f:
    page=f.read()
        
parser.feed(str(page))

Etiqueta encontrada ... DOCTYPE html
Encountered some data:  

Encountered a start tag:  html
Encountered some data:  

Encountered a start tag:  head
Encountered some data:  
	
Encountered a start tag:  title
Encountered some data:  Primer PÃ¡gina
Encountered an end tag:  title
Encountered some data:  

Encountered an end tag:  head
Encountered some data:  

Encountered a start tag:  body
Encountered some data:  
	
Encountered a start tag:  h1
Encountered some data:   hola mundo 
Encountered an end tag:  h1
Encountered some data:  

Encountered an end tag:  body
Encountered some data:  

Encountered an end tag:  html
