## Análisis Sintáctico

### <center> Integrantes:</center>
#### <center> Arroyo Chávez Brayan Alberto</center>
#### <center> Figueroa Campos Diego Aaron</center>
#### <center> Ochoa Sandoval Rafael Alejandro</center>

### Introducción 
Un analizador sintáctico o parser (viene del inglés: parse - analizar una cadena o texto en componentes sintácticos lógicos) es un programa que normalmente es parte de un compilador. El compilador se asegura de que el código se traduce correctamente a un lenguaje ejecutable. La tarea del analizador es, en este caso, la descomposición y transformación de las entradas en un formato utilizable para su posterior procesamiento. Se analiza una cadena de instrucciones en un lenguaje de programación y luego se descompone en sus componentes individuales [Ryte Wiki, 2019].

### Funciones del analizador sintáctico
Su principal función es analizar la secuencia de componentes léxicos de la entrada para verificar que cumplen con las reglas gramaticales especificadas. Esta interacción se aplica bajo un esquema donde el analizador léxico es una subrutina o corutina del analizador sintáctico. Recibida la orden “obtén el siguiente componente léxico” del analizador sintáctico, el analizador léxico lee los caracteres de entrada hasta que pueda identificar el siguiente componente léxico [Wikipedia, 2019]. 

### Gramática
#### Tipos
* **Tipo 3: Regulares de acuerdo al formato de producción pueden ser:**

     <li> Lineales a la derecha: </li>
    $$ A \rightarrow aB $$
    $$ A \rightarrow a $$

     <li> Lineales a la izquierda: </li>
    $$ A \rightarrow Ba $$
    $$ A \rightarrow a $$

* **Tipo 2: Libre de contexto**

     <li> A --> B siempre independiente del contexto </li>
    $$ A \rightarrow \beta\hspace{.2cm}donde A \in \sum A, \beta \in \sum^{*} $$

* **Tipo 1: Sensibles al contexto**
    $$ a_{1}Aa_{2} \rightarrow a_{1}\beta a_{2}\hspace{.2cm}donde A \in \sum A, a_{1}, a_{2} \in \sum^{*}, \beta \in \sum^{+} $$

* **Tipo 0: Sin restricciones respecto a su formato**

### ÁRBOL DE DERIVACIÓN
En árbol es un conjunto de puntos, llamados nodos, unidos por líneas llamadas aristas o arcos. Una arista conecta dos nodos distintos. Este árbol muestra claramente como se agrupan los símbolos de una cadena terminal en subcadenas, que pertenecen al lenguaje de una de las variables de la gramática. pero lo más importante es que el árbol, conocido como árbol de derivación, cuando se emplea en un compilador, es la estructura de datos que representa el programa fuente. En un compilador, la estructura del árbol del programa fuente facilita la traducción del programa fuente a código ejecutable permitiendo que el proceso de traducción sea realizado por funciones naturales recursivas. El árbol de derivación permite mostrar gráficamente como se puede derivar cualquier cadena de un lenguaje a partir del símbolo distinguido de una gramática que genera ese lenguaje. [academia,2015]

### Ejemplos de parser HTML en Python


In [1]:
# Parser del html
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("Encountered a start tag:", tag)

    def handle_endtag(self, tag):
        print("Encountered an end tag :", tag)

    def handle_data(self, data):
        print("Encountered some data  :", data)

parser = MyHTMLParser()
parser.feed('<html><head><title>Test</title></head>'
            '<body><h1>Parse me!</h1></body></html>')

Encountered a start tag: html
Encountered a start tag: head
Encountered a start tag: title
Encountered some data  : Test
Encountered an end tag : title
Encountered an end tag : head
Encountered a start tag: body
Encountered a start tag: h1
Encountered some data  : Parse me!
Encountered an end tag : h1
Encountered an end tag : body
Encountered an end tag : html


In [10]:
# Programa Python realice un análisis sintáctico de un archivo HTML
from html.parser import HTMLParser
from tabulate import tabulate

class MyHTMLParser(HTMLParser):
    
    lsStartTags = list()
    lsEndTags = list()
    lsStartEndTags = list()
    lsData = list()
    lsComments = list()
    lsDeclaration = list()
    
    def handle_starttag(self, tag, attrs):
        self.lsStartTags.append(tag)
        
    def handle_endtag(self, endTag):
        self.lsEndTags.append(endTag)
        
    def handle_startendtag(self,startendTag, attrs):
        self.lsStartEndTags.append(startendTag)

    def handle_data(self, data):
        self.lsData.append(data)

    def handle_comment(self, data):
        self.lsComments.append(data)

    def handle_decl(self, data):
        self.lsDeclaration.append(data)

# Abre archivo en modo lectura
archivo = open('holamundo.html','r')

# Lee la información restaste 
texto = archivo.read()
texto = texto.replace('\r', '').replace('\n', '').replace('  ','')

parser = MyHTMLParser()
parser.feed(str(texto))

print("Etiqueta inicial")
print(*parser.lsStartTags, sep=', ')
print("\nEtiqueta final")
print(*parser.lsEndTags, sep=', ')
print("\nEtiqueta inicial-final")
print(*parser.lsStartEndTags, sep=', ')
print("\nDatos")
print(*parser.lsData, sep=', ')
print("\nComentarios")
print(*parser.lsData, sep=', ')
print("\nDeclaraciones")
print(*parser.lsDeclaration, sep=', ')

archivo.close()

Etiqueta inicial
html, head, title, body, h1

Etiqueta final
title, head, h1, body, html

Etiqueta inicial-final


Datos
	, Primer PÃ¡gina, 	,  hola mundo 

Comentarios
	, Primer PÃ¡gina, 	,  hola mundo 

Declaraciones
DOCTYPE html


In [1]:
# Ejemplo de analizar una página web  

from html.parser import HTMLParser
import urllib.request as urllib2

class MyHTMLParser(HTMLParser):

   #Initializing lists
   lsStartTags = list()
   lsEndTags = list()
   lsStartEndTags = list()
   lsComments = list()

   #HTML Parser Methods
   def handle_starttag(self, startTag, attrs):
       self.lsStartTags.append(startTag)

   def handle_endtag(self, endTag):
       self.lsEndTags.append(endTag)

   def handle_startendtag(self,startendTag, attrs):
       self.lsStartEndTags.append(startendTag)

   def handle_comment(self,data):
       self.lsComments.append(data)

#creating an object of the overridden class
parser = MyHTMLParser()

#Opening NYTimes site using urllib2
html_page = urllib2.urlopen("https://itcolima.edu.mx/www/")

#Feeding the content
parser.feed(str(html_page.read()))

#printing the extracted values
print("Start tags", parser.lsStartTags)
print("End tags", parser.lsEndTags)
print("Start End tags", parser.lsStartEndTags)
print("Comments", parser.lsComments)

Start tags ['html', 'head', 'script', 'meta', 'meta', 'meta', 'title', 'link', 'script', 'script', 'script', 'script', 'script', 'script', 'script', 'body', 'div', 'object', 'object', 'span', 'nav', 'div', 'div', 'button', 'span', 'span', 'span', 'span', 'div', 'ul', 'li', 'a', 'li', 'a', 'span', 'ul', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'span', 'ul', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'li', 'li', 'a', 'li', 'a', 'li', 'a', 'span', 'ul', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'span', 'ul', 'li', 'a', 'li', 'a', 'li', 'a', 'span', 'ul', 'li', 'ul', 'li', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'ul', 'li', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'ul', 'li', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'li', 'a', 'l

In [8]:
# Programa Python realice un análisis sintáctico de un archivo HTML (TAREA)

from html.parser import HTMLParser
import urllib.request as urllib2

class MyHTMLParser(HTMLParser):
    
    lsStartTags = list()
    lsEndTags = list()
    lsStartEndTags = list()
    lsData = list()
    lsComments = list()
    lsDeclaration = list()
    
    def handle_starttag(self, tag, attrs):
        self.lsStartTags.append(tag)
        
    def handle_endtag(self, endTag):
        self.lsEndTags.append(endTag)
        
    def handle_startendtag(self,startendTag, attrs):
        self.lsStartEndTags.append(startendTag)

    def handle_data(self, data):
        self.lsData.append(data)

    def handle_comment(self, data):
        self.lsComments.append(data)

    def handle_decl(self, data):
        self.lsDeclaration.append(data)

parser = MyHTMLParser()
#Opening NYTimes site using urllib2
html_page = urllib2.urlopen("https://itcolima.edu.mx/www/")

#Feeding the content
parser.feed(str(html_page.read()))

print("Etiqueta inicial")
print(*parser.lsStartTags, sep=', ')
print("\nEtiqueta final")
print(*parser.lsEndTags, sep=', ')
print("\nEtiqueta inicial-final")
print(*parser.lsStartEndTags, sep=', ')
print("\nDatos")
print(*parser.lsData, sep=', ')
print("\nComentarios")
print(*parser.lsComments, sep=', ')
print("\nDeclaraciones")
print(*parser.lsDeclaration, sep=', ')

archivo.close()

Etiqueta inicial
html, head, script, meta, meta, meta, title, link, script, script, script, script, script, script, script, body, div, object, object, span, nav, div, div, button, span, span, span, span, div, ul, li, a, li, a, span, ul, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, span, ul, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, li, li, a, li, a, li, a, span, ul, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, span, ul, li, a, li, a, li, a, span, ul, li, ul, li, li, a, li, a, li, a, li, a, li, ul, li, li, a, li, a, li, a, li, a, li, a, li, ul, li, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, a, li, ul, li, li, a, li, a, li, a, li, a, li, a, li, a, li, a, div, div, div, a, object, a, object, a, object, div, form, input, button, div, div, div, div, div, article, div, div, div, h1, a, article, div, div, div, h1, a, article, div, div, div, h1, a, div, a, a, div, div, div, div, art

In [11]:
# Programa que imprime todos los URL de un sitio WEB (Entregable)

from requests_html import HTMLSession
from collections import Counter
from urllib.parse import urlparse
from html.parser import HTMLParser
import urllib.request as urllib2

class MyHTMLParser(HTMLParser):
    
    lsDeclaration = list()
    
    def handle_decl(self, data):
        self.lsDeclaration.append(data)

session = HTMLSession()
r = session.get("https://itcolima.edu.mx/www/")
unique_netlocs = Counter(urlparse(link).netloc for link in r.html.absolute_links)
for link in unique_netlocs:
    print("\nLa página ***",link,"*** aparece",unique_netlocs[link],"vez/veces")
    
parser = MyHTMLParser()
html_page = urllib2.urlopen("https://itcolima.edu.mx/www/")

parser.feed(str(html_page.read()))

if not parser.lsDeclaration:
    print("\nNo hay una declaración DOCTYPE en la página")
else:
    print("\nDeclaración:",parser.lsDeclaration)
    


La página *** itcolima.edu.mx *** aparece 73 vez/veces

La página *** www.universia.net.mx *** aparece 1 vez/veces

La página *** consultaplaneacion.tecnm.mx *** aparece 1 vez/veces

La página *** www.conricyt.mx *** aparece 1 vez/veces

La página *** www.facebook.com *** aparece 1 vez/veces

La página *** www.youtube.com *** aparece 1 vez/veces

La página *** citt.itsm.edu.mx *** aparece 1 vez/veces

La página *** conacytprensa.mx *** aparece 1 vez/veces

La página *** twitter.com *** aparece 1 vez/veces

La página *** www.premiosantander.com *** aparece 1 vez/veces

La página *** dspace.itcolima.edu.mx *** aparece 1 vez/veces

La página *** sites.google.com *** aparece 1 vez/veces

Declaración: ['DOCTYPE html']
