## Web scraping 

## @author: Roberto Mendoza 


In [1]:
import pandas as pd

from selenium import webdriver  # Nos permite navegar en la web
import re  # regrex
import time  # control del tiempo 
import unidecode # tiene muchas utilidades pero lo utilizaremos para retirar tildes 
from selenium.webdriver.support.ui import Select  # selccionar opciones de las lista desplegable
from selenium.webdriver.common.by import By  # permite seleccionar los elementos en un html
from selenium.webdriver.common.keys import Keys  # ingresar datos a un formulario
from selenium.common.exceptions import NoSuchElementException
from tqdm import tqdm # contabilizar tiempo en el loop
from selenium.webdriver.common.action_chains import ActionChains # movilizar la pantalla

# simulador de webdriver 
from webdriver_manager.chrome import ChromeDriverManager # usar diferentes versiones del browser

import warnings
warnings.filterwarnings('ignore') # eliminar warning messages 

### Selenium documentation

- Libreria Selenium

[LINK](https://www.selenium.dev/documentation/webdriver/interactions/)

- url para conocer la versión de Chrome de su computadora 

chrome://version

- Link para descaragar Chromedrive

[LINK](https://chromedriver.chromium.org/downloads)

## 1.0 Extraer tabla con información de visitas al Consejo de Ministros 
### Esta etapa fue parte de un concurso de Lucha contra la Corrupción

In [3]:
driver_visitas = webdriver.Chrome("chromedriver.exe")

In [6]:
time.sleep(5)

driver_visitas.maximize_window()

url = 'https://visitas.servicios.gob.pe/consultas/index.php?ruc_enti=20168999926'

time.sleep(5)
driver_visitas.get( url )

In [47]:
#driver_visitas = webdriver.Chrome( ChromeDriverManager().install() )
driver_visitas = webdriver.Chrome("chromedriver.exe")

# El bwoser del buscador se llama drive-visitas

driver_visitas.maximize_window()

url = 'https://visitas.servicios.gob.pe/consultas/index.php?ruc_enti=20168999926'

driver_visitas.get( url )


In [48]:
# //*[@id="maintable_next"] # relative path

# /html/body/div[1]/div/section/div/div/div[2]/div/div/div[3]/a[2] # full path 

In [30]:
driver_visitas.find_elements(By.XPATH, "//a[@aria-controls='maintable']")

[<selenium.webdriver.remote.webelement.WebElement (session="9cd0ca8368f933aa1ee571fbfde6de73", element="2975F20EFEC1917E1B2C3151AC8A9EAE_element_2956")>,
 <selenium.webdriver.remote.webelement.WebElement (session="9cd0ca8368f933aa1ee571fbfde6de73", element="2975F20EFEC1917E1B2C3151AC8A9EAE_element_2958")>,
 <selenium.webdriver.remote.webelement.WebElement (session="9cd0ca8368f933aa1ee571fbfde6de73", element="2975F20EFEC1917E1B2C3151AC8A9EAE_element_2960")>,
 <selenium.webdriver.remote.webelement.WebElement (session="9cd0ca8368f933aa1ee571fbfde6de73", element="2975F20EFEC1917E1B2C3151AC8A9EAE_element_2962")>,
 <selenium.webdriver.remote.webelement.WebElement (session="9cd0ca8368f933aa1ee571fbfde6de73", element="2975F20EFEC1917E1B2C3151AC8A9EAE_element_2964")>,
 <selenium.webdriver.remote.webelement.WebElement (session="9cd0ca8368f933aa1ee571fbfde6de73", element="2975F20EFEC1917E1B2C3151AC8A9EAE_element_2966")>,
 <selenium.webdriver.remote.webelement.WebElement (session="9cd0ca8368f933aa

In [29]:
len(driver_visitas.find_elements(By.XPATH, "//a[@aria-controls='maintable']")) - 2

6

In [32]:
# Mejor forma de contabolizat la cantidad de tablas 

int(driver_visitas.find_elements(By.XPATH, "//a[@aria-controls='maintable']")[-2].text)

21

In [33]:
# Extraer tabla 

table_html = driver_visitas.find_element(By.ID, "maintable_wrapper").get_attribute('innerHTML')

In [34]:
table_html 

'<div class="dt-buttons"><button class="dt-button buttons-excel buttons-html5" tabindex="0" aria-controls="maintable" type="button"><span>Excel</span></button> </div><table id="maintable" class="table table-bordered table-striped display compact responsive wrap no-footer dtr-inline dataTable" style="font-size: 12px; width: 100%;" role="grid" aria-describedby="maintable_info">\n                <thead>\n                <tr role="row"><th class="sorting_disabled" rowspan="1" colspan="1" style="width: 54.1887px;">Fecha de Registro</th><th class="sorting_disabled" rowspan="1" colspan="1" style="width: 53.1887px;">Fecha de Visita</th><th class="sorting_disabled" rowspan="1" colspan="1" style="width: 75.1887px;">Entidad visitada</th><th class="sorting_disabled" rowspan="1" colspan="1" style="width: 77.1887px;">Visitante</th><th class="sorting_disabled" rowspan="1" colspan="1" style="width: 73.1887px;">Documento del visitante</th><th class="sorting_disabled" rowspan="1" colspan="1" style="widt

In [35]:
# dataframe from html table

table = pd.read_html(table_html)

In [36]:
table

# el dataframe está dentro de una lista 

[   Fecha de Registro Fecha de Visita  \
 0         09/06/2023      09/06/2023   
 1         09/06/2023      09/06/2023   
 2         09/06/2023      09/06/2023   
 3         09/06/2023      09/06/2023   
 4         09/06/2023      09/06/2023   
 5         09/06/2023      09/06/2023   
 6         09/06/2023      09/06/2023   
 7         09/06/2023      09/06/2023   
 8         09/06/2023      09/06/2023   
 9         09/06/2023      09/06/2023   
 10        09/06/2023      09/06/2023   
 11        09/06/2023      09/06/2023   
 12        09/06/2023      09/06/2023   
 13        09/06/2023      09/06/2023   
 14        09/06/2023      09/06/2023   
 15        09/06/2023      09/06/2023   
 16        09/06/2023      09/06/2023   
 17        09/06/2023      09/06/2023   
 18        09/06/2023      09/06/2023   
 19        09/06/2023      09/06/2023   
 20        09/06/2023      09/06/2023   
 21        09/06/2023      09/06/2023   
 22        09/06/2023      09/06/2023   
 23        09/06

In [37]:
table[0]

Unnamed: 0,Fecha de Registro,Fecha de Visita,Entidad visitada,Visitante,Documento del visitante,Entidad del visitante,Funcionario visitado,Hora Ingreso,Hora Salida,Motivo,Lugar específico,Observación
0,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,SANTOS CURO JORGE LUIS,DNI 09900524,Entidad pública - PROYECTO ESPECIAL DE INFRAES...,SOLORZANO PARIASCA JORGE MIGUEL - OFICINA DE C...,16:48,18:00,Reunión de trabajo,SCHELL - PISO 14,
1,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,JARA AGUILAR JOSEPH,DNI 74719868,Entidad pública - PROYECTO ESPECIAL DE INFRAES...,SOLORZANO PARIASCA JORGE MIGUEL - OFICINA DE C...,16:54,18:00,Reunión de trabajo,SCHELL - PISO 14,
2,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,BUSTIOS ROJAS ANGEL ALFONSO,DNI 45437721,Entidad pública - PROVÍAS DESCENTRALIZADO,SOLORZANO PARIASCA JORGE MIGUEL - OFICINA DE C...,16:54,18:00,Reunión de trabajo,SCHELL - PISO 14,
3,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,SUAREZ CASTILLO JUANA LOURDES,DNI 31676279,Entidad pública - PROYECTO ESPECIAL DE INFRAES...,SOLORZANO PARIASCA JORGE MIGUEL - OFICINA DE C...,16:48,18:00,Reunión de trabajo,SCHELL - PISO 14,
4,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,BURGA CABRERA CARLOS OMAR,DNI 40393525,Entidad pública - MINISTERIO DE TRANSPORTES Y ...,SOLORZANO PARIASCA JORGE MIGUEL - OFICINA DE C...,16:38,18:00,Reunión de trabajo,SCHELL - PISO 14,
5,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,CARDENAS PACHAO MARCOS RUBEN,DNI 41307455,Entidad pública - MINISTERIO DE ECONOMIA Y FIN...,MONTALVAN CASTILLO GEOFRET MANUEL - OFICINA DE...,16:28,17:40,Reunión de trabajo,SCHELL - PISO 8,
6,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,OCHOA PEZO EDGAR AMERICO,DNI 23812785,Persona natural - a titulo personal,GALVEZ GALVEZ MABEL - SECRETARIA DE DESCENTRAL...,16:25,18:30,Reunión de trabajo,SCHELL - PISO 12,
7,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,MERINO TABOADA MARIA ANTONIETA JESUS,DNI 40932812,Entidad privada - COOPERACION ALEMANA AL DESAR...,BAUTISTA FAÑAÑAN IRIS MARLENI - SUBSECRETARIA ...,16:22,18:14,Reunión de trabajo,SCHELL - PISO 13,
8,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,RAMOS PEREZ ALBELA MARIO ALBERTO,DNI 21415338,Persona natural - a titulo personal,MONTOYA CHOMBA DAVID ANTONIO - SUBSECRETARIA D...,16:08,16:31,Reunión de trabajo,EDIFICIO PALACIO - OFICINA,
9,09/06/2023,09/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,LAVADO VALVERDE ELIZABETH PRISCA,DNI 21074579,Entidad pública - MUNICIPALIDAD PROVINCIAL DE ...,GANZ ALVARADO HEDDA GUADALUPE - SUBSECRETARIA ...,16:00,17:04,Reunión de trabajo,SCHELL - PISO 10,


In [46]:
# click en siguientes páginas 
driver_visitas.find_element(By.ID, "maintable_next").click()

# siempre time.sleep por que demora cargar la página web 

#time.sleep(1)

ElementClickInterceptedException: Message: element click intercepted: Element <a class="paginate_button next" aria-controls="maintable" data-dt-idx="7" tabindex="0" id="maintable_next">...</a> is not clickable at point (1108, 839). Other element would receive the click: <iframe title="reCAPTCHA" src="https://www.google.com/recaptcha/api2/anchor?ar=1&amp;k=6LdKTSocAAAAAN_TWX3cgpUMgIKpw_zGrellc3Lj&amp;co=aHR0cHM6Ly92aXNpdGFzLnNlcnZpY2lvcy5nb2IucGU6NDQz&amp;hl=es&amp;v=SglpK98hSCn2CroR0bKRSJl5&amp;size=invisible&amp;cb=crgfn0hqinpc" width="256" height="60" role="presentation" name="a-28xo9v6isxzk" frameborder="0" scrolling="no" sandbox="allow-forms allow-popups allow-same-origin allow-scripts allow-top-navigation allow-modals allow-popups-to-escape-sandbox"></iframe>
  (Session info: chrome=114.0.5735.134)
Stacktrace:
Backtrace:
	GetHandleVerifier [0x00AF6E73+48323]
	(No symbol) [0x00A89661]
	(No symbol) [0x00995308]
	(No symbol) [0x009C5202]
	(No symbol) [0x009C3D38]
	(No symbol) [0x009C253B]
	(No symbol) [0x009C193E]
	(No symbol) [0x009BA0FC]
	(No symbol) [0x009DA8DC]
	(No symbol) [0x009B9BD6]
	(No symbol) [0x009DAC34]
	(No symbol) [0x009ECAC2]
	(No symbol) [0x009DA6D6]
	(No symbol) [0x009B847C]
	(No symbol) [0x009B957D]
	GetHandleVerifier [0x00D5FD5D+2575277]
	GetHandleVerifier [0x00D9F86E+2836158]
	GetHandleVerifier [0x00D996DC+2811180]
	GetHandleVerifier [0x00B841B0+626688]
	(No symbol) [0x00A9314C]
	(No symbol) [0x00A8F4B8]
	(No symbol) [0x00A8F59B]
	(No symbol) [0x00A821B7]
	BaseThreadInitThunk [0x76347D59+25]
	RtlInitializeExceptionChain [0x77BEB74B+107]
	RtlClearBits [0x77BEB6CF+191]


In [49]:
# dict para almacenar los tables 

all_tables = {}

for i in tqdm(range(35)):  # en mi ejemplo, tengo 21 tablas. Ustedes deben colocar la cantidad de tablas que tienen
    
    table_html = driver_visitas.find_element(By.ID, "maintable_wrapper").get_attribute('innerHTML') # div qie contiene a tabla
    table = pd.read_html(table_html) # detecta la tabla y lo convierte a dataframe 
    table = table[0]
    all_tables[f"table_page_{i}"] = table  # llena el diccionario 
    driver_visitas.find_element(By.ID, "maintable_next").click()
    time.sleep(2)

    
#driver_visitas.quit()  # cierra todos los bwrosers ( ventanas )
#driver_visitas.close()  # cierra el browser donde estamos trabajando

100%|█████████████████████████████████████████████████████████████████████████████████| 35/35 [01:14<00:00,  2.13s/it]


In [36]:
#{"table1":pandas, "table2":pandas2, "table_page_3": dataframe}

In [50]:
all_tables.keys()

dict_keys(['table_page_0', 'table_page_1', 'table_page_2', 'table_page_3', 'table_page_4', 'table_page_5', 'table_page_6', 'table_page_7', 'table_page_8', 'table_page_9', 'table_page_10', 'table_page_11', 'table_page_12', 'table_page_13', 'table_page_14', 'table_page_15', 'table_page_16', 'table_page_17', 'table_page_18', 'table_page_19', 'table_page_20', 'table_page_21', 'table_page_22', 'table_page_23', 'table_page_24', 'table_page_25', 'table_page_26', 'table_page_27', 'table_page_28', 'table_page_29', 'table_page_30', 'table_page_31', 'table_page_32', 'table_page_33', 'table_page_34'])

In [51]:
total_visitas_data = pd.concat( all_tables.values() ).reset_index( drop = True )
total_visitas_data

Unnamed: 0,Fecha de Registro,Fecha de Visita,Entidad visitada,Visitante,Documento del visitante,Entidad del visitante,Funcionario visitado,Hora Ingreso,Hora Salida,Motivo,Lugar específico,Observación
0,20/06/2023,20/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,GONZALES GONZALES FELIPE CARLOS,DNI 04641954,Entidad privada - SOUTHERN PERU COPPER CORPORA...,CAIGUARAY PEREZ PAUL WERNER - VICEMINISTERIO D...,19:25,20:25,Reunión de trabajo,PALACIO - SALA VALER,
1,20/06/2023,20/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,OVIEDO CALDERON MIGUEL DARIO,DNI 04641720,Entidad privada - SOUTHERN PERU COPPER CORPORA...,CAIGUARAY PEREZ PAUL WERNER - VICEMINISTERIO D...,19:25,20:25,Reunión de trabajo,PALACIO - SALA VALER,
2,20/06/2023,20/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,ESPARCH FERNANDEZ NURIA DEL ROCIO,DNI 09304028,Entidad privada - SOUTHERN PERU COPPER CORPORA...,CAIGUARAY PEREZ PAUL WERNER - VICEMINISTERIO D...,19:25,20:25,Reunión de trabajo,PALACIO - SALA VALER,
3,20/06/2023,20/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,GUERRERO SILVA WALTHER,DNI 02874069,Entidad pública - MUNICIPALIDAD DISTRITAL DE C...,CAIGUARAY PEREZ PAUL WERNER - VICEMINISTERIO D...,18:30,19:14,Reunión de trabajo,PALACIO - SALA GRACIELA FERNANDEZ - BACA,
4,20/06/2023,20/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,RIVERA BERMEO ROSA PIERINA,DNI 43993145,Entidad pública - MUNICIPALIDAD PROVINCIAL DE ...,CAIGUARAY PEREZ PAUL WERNER - VICEMINISTERIO D...,18:30,19:14,Reunión de trabajo,PALACIO - SALA GRACIELA FERNANDEZ - BACA,
...,...,...,...,...,...,...,...,...,...,...,...,...
857,13/06/2023,11/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,,,,,,,,PALACIO,No se recibieron visitas. No se recibieron vis...
858,13/06/2023,10/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,,,,,,,,SCHELL,No se recibieron visitas. No se recibieron vis...
859,13/06/2023,10/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,,,,,,,,PIÑEIRO - ALMACÉN,No se recibieron visitas. No se recibieron vis...
860,13/06/2023,10/06/2023,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,,,,,,,,EDIFICIO PALACIO,No se recibieron visitas. No se recibieron vis...


## Uso de  BeautifulSoup

In [2]:
# Uso de  BeautifulSoup

import requests
from bs4 import BeautifulSoup

In [4]:
all_tables = {}

url = "https://www.sunedu.gob.pe/lista-universidades/" # link de SUNEDU: lista de universidad e información de licenciamiento
page_number = 1

In [5]:
response = requests.get(url)

In [6]:
response

<Response [200]>

In [7]:
soup = BeautifulSoup(response.content, "html.parser") # extre el codigo fuente (documetn HTML)

In [8]:
soup

<!DOCTYPE html>

<html lang="es-ES">
<head>
<meta content="IE=Edge" http-equiv="x-ua-compatible"/>
<meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1.0" name="viewport"/>
<title>
Lista de Universidades Peruanas</title>
<link href="https://www.sunedu.gob.pe/wp-content/uploads/2015/09/favicon.png" rel="shortcut icon"/>
<script>
mixajaxurl = "https://www.sunedu.gob.pe/wp-admin/admin-ajax.php";
</script>
<!-- html5.js for IE less than 9 -->
<!--[if lt IE 9]>
<script src="https://www.sunedu.gob.pe/wp-content/themes/TheFox/js/html5.js"></script>
<![endif]-->
<!-- css3-mediaqueries.js for IE less than 9 -->
<!--[if lt IE 9]>
<script src="https://www.sunedu.gob.pe/wp-content/themes/TheFox/js/css3-mediaqueries.js"></script>
<![endif]-->
<link href="//maxcdn.bootstrapcdn.com/font-awesome/4.7.0/css/font-awesome.min.css" rel="stylesheet"/>
<style>

			
			#icon_wrapper

			{

			position: fixed;

			top: 25%;

			left: 0px;

			z-index: 99999;

			}

			
			.awesome-social



In [9]:
# Extraer tabla de universidad publica y status de licenciamiento

table_html = str(soup.find("table", {"id":"tablepress-22"})) # find_all equivalente a find_elements de selenium
table_publica = pd.read_html(table_html)[0] # html a dataframe

In [10]:
table_publica

Unnamed: 0,N°,UNIVERSIDAD,DEPARTAMENTO,PROVINCIA,DISPOSITIVO LEGAL DE CREACIÓN,FECHA DE CREACIÓN,DISPOSITIVO LEGAL DE LICENCIAMIENTO,FECHA DE PUB. DIARIO EL PERUANO
0,1,Universidad Nacional Mayor de San Marcos,Lima,Lima,Real Cédula de Fundación,12/05/1551,Res. N° 036-2018-SUNEDU/CD,04/04/2018
1,2,Universidad Nacional de San Cristóbal de Huamanga,Ayacucho,Huamanga,Ley N° 12828,03/07/1677,Res. N° 050-2018-SUNEDU/CD,01/06/2018
2,3,Universidad Nacional de San Antonio Abad del C...,Cusco,Cusco,Real Cédula de Fundación,01/06/1692,Res. N° 059-2019-SUNEDU/CD,04/05/2019
3,4,Universidad Nacional de Trujillo,La Libertad,Trujillo,Decreto Directoral,10/05/1824,Res. N° 127-2018-SUNEDU/CD,20/09/2018
4,5,Universidad Nacional de San Agustín de Arequipa,Arequipa,Arequipa,Acta de Instalación,11/11/1828,Res. N° 098-2018-SUNEDU/CD,27/08/2018
5,6,Universidad Nacional de Ingeniería,Lima,Lima,Ley N° 12379,19/07/1955,Res. N° 073-2017-SUNEDU/CD,28/11/2017
6,7,Universidad Nacional Agraria La Molina,Lima,Lima,Ley N° 13417,08/04/1960,Res. N° 011-2017-SUNEDU/CD,20/03/2017
7,8,Universidad Nacional San Luis Gonzaga,Ica,Ica,Ley N° 12495,20/12/1955,Res. N° 002-2022-SUNEDU/CD,15/01/2022
8,9,Universidad Nacional del Centro del Perú,Junín,Huancayo,Ley N° 13827,02/01/1962,Res. N° 022-2019-SUNEDU/CD,01/03/2019
9,10,Universidad Nacional de la Amazonía Peruana,Loreto,Maynas,Ley N° 13498,14/01/1961,Res. N° 012-2019-SUNEDU/CD,01/02/2019


In [11]:
# Extraer tabla de universidad privada y status de licenciamiento

table_html = str(soup.find("table", {"id":"tablepress-23"})) # find_all equivalente a find_elements de selenium
table_privadas = pd.read_html(table_html)[0]
table_privadas

Unnamed: 0,N°,UNIVERSIDAD,DEPARTAMENTO,PROVINCIA,DISPOSITIVO LEGAL DE CREACIÓN,FECHA DE CREACIÓN,DISPOSITIVO LEGAL DE LICENCIAMIENTO O DENEGATORIA,FECHA DE PUB. DIARIO EL PERUANO,CONDICIÓN JURÍDICA
0,1,Pontificia Universidad Católica del Perú,Lima,Lima,Decreto Supremo,24/03/1917,Res. N° 025-2016-SUNEDU/CD,06/07/2016,Asociativa
1,2,Universidad Peruana Cayetano Heredia,Lima,Lima,Decreto Supremo N° 18,22/09/1961,Res. N° 029-2016-SUNEDU/CD,27/07/2016,Asociativa
2,3,Universidad Católica de Santa María,Arequipa,Arequipa,Decreto Supremo N° 24,06/12/1961,Res. N° 102-2017-SUNEDU/CD,31/12/2017,Asociativa
3,4,Universidad del Pacífico,Lima,Lima,Decreto Supremo N° 08,28/02/1962,Res. N° 030-2016-SUNEDU/CD,27/07/2016,Asociativa
4,5,Universidad de Lima,Lima,Lima,Decreto Supremo N° 23,25/04/1962,Res. N° 027-2016-SUNEDU/CD,12/07/2016,Asociativa
...,...,...,...,...,...,...,...,...,...
87,88,Universidad Santo Tomás de Aquino de Ciencia e...,Junín,Huancayo,Res. N° 407-2012-CONAFU,25/07/2012,,,Societaria
88,89,Universidad Privada SISE,Lima,Lima,Res. N° 408-2012-CONAFU,25/07/2012,,,Societaria
89,90,Universidad Seminario Evangélico de Lima (*12),Lima,Lima,Ley N° 30220,09/07/2014,,,Asociativa
90,91,Universidad Seminario Bíblico Andino (*12),Lima,Lima,Ley N° 30220,09/07/2014,,,Asociativa


In [15]:
# Se puede extraer todas las tablas disponibles 

table_html = str(soup.find_all("table")) # find_all equivalente a find_elements de selenium
table = pd.read_html(table_html)[0]

In [16]:
table 

Unnamed: 0,N°,UNIVERSIDAD,DEPARTAMENTO,PROVINCIA,DISPOSITIVO LEGAL DE CREACIÓN,FECHA DE CREACIÓN,DISPOSITIVO LEGAL DE LICENCIAMIENTO,FECHA DE PUB. DIARIO EL PERUANO
0,1,Universidad Nacional Mayor de San Marcos,Lima,Lima,Real Cédula de Fundación,12/05/1551,Res. N° 036-2018-SUNEDU/CD,04/04/2018
1,2,Universidad Nacional de San Cristóbal de Huamanga,Ayacucho,Huamanga,Ley N° 12828,03/07/1677,Res. N° 050-2018-SUNEDU/CD,01/06/2018
2,3,Universidad Nacional de San Antonio Abad del C...,Cusco,Cusco,Real Cédula de Fundación,01/06/1692,Res. N° 059-2019-SUNEDU/CD,04/05/2019
3,4,Universidad Nacional de Trujillo,La Libertad,Trujillo,Decreto Directoral,10/05/1824,Res. N° 127-2018-SUNEDU/CD,20/09/2018
4,5,Universidad Nacional de San Agustín de Arequipa,Arequipa,Arequipa,Acta de Instalación,11/11/1828,Res. N° 098-2018-SUNEDU/CD,27/08/2018
5,6,Universidad Nacional de Ingeniería,Lima,Lima,Ley N° 12379,19/07/1955,Res. N° 073-2017-SUNEDU/CD,28/11/2017
6,7,Universidad Nacional Agraria La Molina,Lima,Lima,Ley N° 13417,08/04/1960,Res. N° 011-2017-SUNEDU/CD,20/03/2017
7,8,Universidad Nacional San Luis Gonzaga,Ica,Ica,Ley N° 12495,20/12/1955,Res. N° 002-2022-SUNEDU/CD,15/01/2022
8,9,Universidad Nacional del Centro del Perú,Junín,Huancayo,Ley N° 13827,02/01/1962,Res. N° 022-2019-SUNEDU/CD,01/03/2019
9,10,Universidad Nacional de la Amazonía Peruana,Loreto,Maynas,Ley N° 13498,14/01/1961,Res. N° 012-2019-SUNEDU/CD,01/02/2019


### Beautiful Soup documentation

https://www.crummy.com/software/BeautifulSoup/bs4/doc/