# Script de procesamiento
---

El conjunto de datos contiene observaciones del análisis de barreras de accesibilidad de las páginas web de las instituciones universitarias (universidades e institutos universitarios) de la República Argentina y la etiqueta correspondiente que indica si la página presenta o no problemas de accesibilidad web.

In [18]:
# importar bibliotecas
import pandas as pd

In [19]:
# cargar dataset
df = pd.read_csv('universidades-taw.csv', sep=';')

In [20]:
# visualizar primeras filas de observaciones
df.head()

Unnamed: 0,nombre,url,doc_language_ok,alt_texts_ok,input_labels_ok,empty_buttons_ok,empty_links_ok,color_contrast_ok,doc_language_fail,alt_texts_fail,input_labels_fail,empty_buttons_fail,empty_links_fail,color_contrast_fail,ratio,clase
0,Instituto Universitario de Gendarmería Nacional,https://iugna.edu.ar,1,6,0,7,15,41,0,5,0,0,3,8,0.813953,sin_prob_aw
1,Instituto Universitario de la Policía Federal ...,https://www.iupfa.edu.ar,0,17,0,0,93,17,1,11,0,0,11,73,0.569507,con_prob_aw
2,Instituto Universitario de Seguridad Marítima,https://iusm.edu.ar,1,4,0,1,26,47,0,3,0,0,1,4,0.908046,sin_prob_aw
3,Universidad Autónoma de Entre Ríos,https://www.uader.edu.ar/,1,3,1,13,115,125,0,54,0,3,30,68,0.624697,con_prob_aw
4,Universidad de Buenos Aires,https://www.uba.ar/,1,3,1,4,140,136,0,4,0,1,8,27,0.876923,sin_prob_aw


La salida muestra cinco observaciones con una columna para cada característica que usaremos para predecir la malignidad.

In [21]:
# estructura
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141 entries, 0 to 140
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   nombre               141 non-null    object 
 1   url                  141 non-null    object 
 2   doc_language_ok      141 non-null    int64  
 3   alt_texts_ok         141 non-null    int64  
 4   input_labels_ok      141 non-null    int64  
 5   empty_buttons_ok     141 non-null    int64  
 6   empty_links_ok       141 non-null    int64  
 7   color_contrast_ok    141 non-null    int64  
 8   doc_language_fail    141 non-null    int64  
 9   alt_texts_fail       141 non-null    int64  
 10  input_labels_fail    141 non-null    int64  
 11  empty_buttons_fail   141 non-null    int64  
 12  empty_links_fail     141 non-null    int64  
 13  color_contrast_fail  141 non-null    int64  
 14  ratio                141 non-null    float64
 15  clase                141 non-null    obj

A continuación, se muestra la cantidad de páginas con y sin problemas de accesibilidad web presentes en el dataset:

In [24]:
df['clase'].value_counts()

clase
sin_prob_aw    103
con_prob_aw     38
Name: count, dtype: int64

Entonces, hay 103 páginas que no presentan barreras de accesibilidad web, denotados como "sin_prob_aw", y 38 páginas que presentan barreras de accesibilidad web, denotados como "con_prob_aw". Por lo tanto, se tiene un problema de clasificación binaria

In [25]:
# separar variables explicativas y variable objetivo
X = df.drop(columns=['nombre', 'url', 'ratio', 'clase'])
y = df['clase']

In [26]:
X

Unnamed: 0,doc_language_ok,alt_texts_ok,input_labels_ok,empty_buttons_ok,empty_links_ok,color_contrast_ok,doc_language_fail,alt_texts_fail,input_labels_fail,empty_buttons_fail,empty_links_fail,color_contrast_fail
0,1,6,0,7,15,41,0,5,0,0,3,8
1,0,17,0,0,93,17,1,11,0,0,11,73
2,1,4,0,1,26,47,0,3,0,0,1,4
3,1,3,1,13,115,125,0,54,0,3,30,68
4,1,3,1,4,140,136,0,4,0,1,8,27
...,...,...,...,...,...,...,...,...,...,...,...,...
136,1,4,6,2,78,84,0,7,2,0,8,85
137,1,19,1,0,42,71,0,5,0,0,19,55
138,1,0,0,0,0,0,0,0,0,0,0,0
139,0,1,0,1,164,202,1,25,1,0,14,29


In [27]:
y

0      sin_prob_aw
1      con_prob_aw
2      sin_prob_aw
3      con_prob_aw
4      sin_prob_aw
          ...     
136    con_prob_aw
137    con_prob_aw
138    sin_prob_aw
139    sin_prob_aw
140    con_prob_aw
Name: clase, Length: 141, dtype: object