# Script de generación de dataset
---

* Script de Python para probar una página web según seis criterios de accesibilidad.
* Estos criterios se basan en un informe de WebAIM y se implementan siguiendo las Pautas de Accesibilidad al Contenido Web 2.2 (WCAG 2.2):
    * Idioma del documento faltante
    * Faltan textos alternativos para las imágenes
    * Etiquetas de entrada de formulario faltantes
    * Botones vacíos
    * Enlaces vacíos
    * Texto de bajo contraste

## Puntuación

* El nivel de accesibilidad requerido es un valor entre 0 y 1.
* Se compara con el nivel de accesibilidad real alcanzado en la prueba, que se calcula dividiendo las comprobaciones exitosas entre el número total de comprobaciones ejecutadas.
* Si el nivel de accesibilidad alcanzado es igual o superior al requerido, el programa devolverá **sin_prob_aw**; de lo contrario, **con_prob_aw**.

In [6]:
import sys
import urllib.parse
from bs4 import BeautifulSoup, Comment, Doctype
from selenium import webdriver
from selenium.webdriver.chrome.options import Options as ChromeOptions

In [7]:
class TAW:
  
    def __init__(self, url):
        self.url = url
        self.required_degree = 0.75
        options = ChromeOptions()
        options.headless = False
        options.add_argument("--log-level=3")
        self.driver = webdriver.Chrome(options=options)
        self.driver.get(self.url)
        self.page = BeautifulSoup(self.driver.page_source, "html.parser")
        self.correct = {"doc_language":0, "alt_texts":0, "input_labels":0, "empty_buttons":0, "empty_links":0, "color_contrast":0}
        self.wrong = {"doc_language":0, "alt_texts":0, "input_labels":0, "empty_buttons":0, "empty_links":0, "color_contrast":0}

    # Ejecuta las pruebas de la página actual
    def test_page(self):
        self.check_doc_language()
        self.check_alt_texts()
        self.check_input_labels()
        self.check_buttons()
        self.check_links()
        #self.check_color_contrast()
        self.driver.quit()
        self.calculate_result()

    # Verifica si el idioma del documento esta configurado (3.1.1 H57)
    def check_doc_language(self):
         # verifica si el atributo lang existe y no está vacío
        lang_attr = self.page.find("html").get_attribute_list("lang")[0]
        if not lang_attr is None and not lang_attr == "":
            self.correct["doc_language"] += 1
        elif not lang_attr is None:
            self.wrong["doc_language"] += 1
        else:
            self.wrong["doc_language"] += 1
       
    # Verifica si todas las imágenes de la página tienen un texto alternativo (1.1.1 H37)
    def check_alt_texts(self):
        # obtiene todos los elementos img
        img_elements = self.page.find_all("img")
        for img_element in img_elements:
            # verifica si el elemento img tiene un texto alternativo que no esté vacío
            alt_text = img_element.get_attribute_list('alt')[0]
            if not alt_text is None and not alt_text == "":
                self.correct["alt_texts"] += 1
            elif not alt_text is None:
                self.wrong["alt_texts"] += 1
            else:
                self.wrong["alt_texts"] += 1

    # Verifica si todos los elementos input en la página tienen algún tipo de etiqueta (1.3.1 H44)
    def check_input_labels(self):
        # obtiene todos los elementos input y label
        input_elements = self.page.find_all("input")
        label_elements = self.page.find_all("label")
        for input_element in input_elements:
            # excluye elemento input de tipo hidden, submit, reset y button
            if ("type" in input_element.attrs and not input_element['type'] == "hidden" and not input_element['type'] == "submit" \
                    and not input_element['type'] == "reset" and not input_element['type'] == "button") or "type" not in input_element.attrs:
                # verifica si input es de tipo image y tiene un texto alternativo que no esté vacío
                if "type" in input_element.attrs and input_element['type'] == "image" and "alt" in input_element.attrs \
                        and not input_element['alt'] == "":
                    #print("  Input of type image labelled with alt text", Utils.xpath_soup(input_element))
                    self.correct["input_labels"] += 1
                # verifica si el elemento input usa aria-label
                elif "aria-label" in input_element.attrs and not input_element['aria-label'] == "":
                    self.correct["input_labels"] += 1
                # verifica si el elemento input usa aria-labelledby
                elif "aria-labelledby" in input_element.attrs and not input_element['aria-labelledby'] == "":
                    label_element = self.page.find(id=input_element['aria-labelledby'])
                    if not label_element is None:
                        texts_in_label_element = label_element.findAll(string=True)
                        if not texts_in_label_element == []:
                            self.correct["input_labels"] += 1
                        else:
                            self.wrong["input_labels"] += 1
                    else:
                        self.wrong["input_labels"] += 1
                else:
                    # verifica si el elemento input tiene un elemento label correspondiente
                    label_correct = False
                    for label_element in label_elements:
                        # verifica si el atributo "for" del elemento label es idéntico al "id" del elemento input
                        if "for" in label_element.attrs and "id" in input_element.attrs and label_element['for'] == input_element['id']:
                            label_correct = True
                    if label_correct:
                        self.correct["input_labels"] += 1
                    else:
                        self.wrong["input_labels"] += 1

    # Verifica si todos los elementos button e input de los tipos submit, button, y reset tienen algún tipo de contenido (1.1.1 y 2.4.4)
    def check_buttons(self):
        # obtener tdosos los elementos button e input de tipos submit, button y reset
        input_elements = self.page.find_all("input", type=["submit", "button", "reset"])
        button_elements = self.page.find_all("button")

        for input_element in input_elements:
            # verifica si el elemento input tiene un atributo value que no esté vacío
            if "value" in input_element.attrs and not input_element['value'] == "":
                self.correct["empty_buttons"] += 1
            else:
                self.wrong["empty_buttons"] += 1

        for button_element in button_elements:
            # verifica si el button tiene contenido o un título
            texts = button_element.findAll(string=True)
            if not texts == [] or ("title" in button_element.attrs and not button_element["title"] == ""):
                self.correct["empty_buttons"] += 1
            else:
                self.wrong["empty_buttons"] += 1
    
    # Verifica si todos los enlaces de la página tienen algún tipo de contenido (2.4.4 G91 y H30)
    def check_links(self):
        # obtener todos los elementos a
        link_elements = self.page.find_all("a")
        for link_element in link_elements:
            # verifica si el enlace tiene contenido
            texts_in_link_element = link_element.findAll(string=True)
            img_elements = link_element.findChildren("img", recursive=False)
            all_alt_texts_set = True
            for img_element in img_elements:
                alt_text = img_element.get_attribute_list('alt')[0]
                if alt_text is None or alt_text == "":
                    all_alt_texts_set = False
            if not texts_in_link_element == [] or (not img_elements == [] and all_alt_texts_set):
                self.correct["empty_links"] += 1
            else:
                self.wrong["empty_links"] += 1

    # Calcula el resultado del test
    def calculate_result(self):
        # calcular implementaciones de correct y errores
        correct = sum(self.correct.values())
        errores = sum(self.wrong.values())
        print("Correct:", correct)
        linea = ""
        for category, value in self.correct.items():
            linea += f'{category} : {value} \t'
        print(linea)
        print("Errors:", errores)
        linea = ""
        for category, value in self.wrong.items():
            linea += f'{category} : {value} \t'
        print(linea)

        ratio = correct/(correct+errores)
        print("Ratio (correct to total):", round(ratio, 2), "\n")

        # verifica si ratio alcanza el valor mínimo deseado
        if ratio >= self.required_degree:
            print("Clase: sin_prob_aw")
        else:
            print("Clase: con_prob_aw")

In [8]:
TAW('https://www.washington.edu/accesscomputing/AU/before.html').test_page()

Correct: 38
doc_language : 0 	alt_texts : 6 	input_labels : 0 	empty_buttons : 3 	empty_links : 29 	color_contrast : 0 	
Errors: 16
doc_language : 1 	alt_texts : 5 	input_labels : 10 	empty_buttons : 0 	empty_links : 0 	color_contrast : 0 	
Ratio (correct to total): 0.7 

Clase: con_prob_aw


In [9]:
TAW('https://www.washington.edu/accesscomputing/AU/after.html').test_page()

Correct: 77
doc_language : 1 	alt_texts : 6 	input_labels : 21 	empty_buttons : 24 	empty_links : 25 	color_contrast : 0 	
Errors: 4
doc_language : 0 	alt_texts : 3 	input_labels : 0 	empty_buttons : 1 	empty_links : 0 	color_contrast : 0 	
Ratio (correct to total): 0.95 

Clase: sin_prob_aw


In [10]:
TAW('https://www.uno.edu.ar').test_page()

Correct: 294
doc_language : 1 	alt_texts : 18 	input_labels : 1 	empty_buttons : 0 	empty_links : 274 	color_contrast : 0 	
Errors: 2
doc_language : 0 	alt_texts : 0 	input_labels : 0 	empty_buttons : 1 	empty_links : 1 	color_contrast : 0 	
Ratio (correct to total): 0.99 

Clase: sin_prob_aw
