## Web scraping 

## @author: Roberto Mendoza 

### Página web: Bolsa de valores de Lima

In [2]:
import pandas as pd

from selenium import webdriver  # Nos permite navegar en la web
import re  # regrex
import time  # control del tiempo 
import unidecode # tiene muchas utilidades pero lo utilizaremos para retirar tildes 
from selenium.webdriver.support.ui import Select  # selccionar opciones de las lista desplegable
from selenium.webdriver.common.by import By  # permite seleccionar los elementos en un html
from selenium.webdriver.common.keys import Keys  # ingresar datos a un formulario
from selenium.common.exceptions import NoSuchElementException
from tqdm import tqdm # contabilizar tiempo en el loop
from selenium.webdriver.common.action_chains import ActionChains # movilizar la pantalla

# simulador de webdriver 
from webdriver_manager.chrome import ChromeDriverManager # usar diferentes versiones del browser

import warnings
warnings.filterwarnings('ignore') # eliminar warning messages 

### Selenium documentation

- Libreria Selenium

[LINK](https://www.selenium.dev/documentation/webdriver/interactions/)

- url para conocer la versión de Chrome de su computadora 

chrome://version

- Link para descaragar Chromedrive

[LINK](https://chromedriver.chromium.org/downloads)

## 1.0 Accedemos a la página web 

In [84]:
# revisar versión de Chrome chrome://version

driver = webdriver.Chrome("chromedriver.exe")

In [85]:
driver.maximize_window()

url = 'https://www.bvl.com.pe/'

driver.get( url )

In [12]:
# Zoom a la página web

driver.execute_script("document.body.style.zoom='100%'")

In [13]:
# Access to the title
print('Title: ', driver.title)

# Access to the curent url 
print('Current Page URL: ', driver.current_url)

# Make screenshot of the webpage
driver.save_screenshot('imagen_web.png')

# Get page source (código fuente)
type(driver.page_source)
driver.page_source

# La mayoría de código es de diseño !!!

Title:  Bienvenidos - Bolsa de Valores de Lima - BVL
Current Page URL:  https://www.bvl.com.pe/




## 2.0 Hallando elementos html usando el método find_elements 

In [14]:
# Se necesita encontrar elementos de la página web para extraer la información 
# Algunos tags

print("Cantidad del Tag <li></li> (lista de items), ",  len(driver.find_elements(By.TAG_NAME, "li")), "\n")

print( "Se observa un solo elemento html con identificar id:fb-root, ",len(driver.find_elements(By.ID, "fb-root")), "\n" )

print( "Cantidad del Tag <a></a> (añadir link url), ", len(driver.find_elements(By.TAG_NAME, "a")), "\n" )

print("Cantidad del Tag <div></div> (división), ", len(driver.find_elements(By.TAG_NAME, "div")), "\n" )

print( "Cantidad del Tag <ul></ul> (unorder list): , ",len(driver.find_elements(By.TAG_NAME, "ul")), "\n" )

print( "Cantidad del Tag <ol></ol> (order list): , ",len(driver.find_elements(By.TAG_NAME, "ol")), "\n" )

print( "Cantidad del Tag <table></table> (table), ",len(driver.find_elements(By.TAG_NAME, "table")), "\n" )

print("Cantidad del Tag <html></html>, ", len(driver.find_elements(By.TAG_NAME, "html")), "\n" )

print( "Cantidad del Tag <body></body>, ",len(driver.find_elements(By.TAG_NAME, "body")), "\n" )

print("Cantidad del Tag <iframe></iframe>, ", len(driver.find_elements(By.TAG_NAME, "iframe")), "\n" )

print( "Cantidad del Tag <p></p>, ",len(driver.find_elements(By.TAG_NAME, "p")), "\n" )

print( "Cantidad del Tag <select></select>, ",len(driver.find_elements(By.TAG_NAME, "select")), "\n" )


print("Cantidad de elementos con atributo class:banner-cookies--button, ", 
      len(driver.find_elements(By.CLASS_NAME, 'banner-cookies--button'))) 

Cantidad del Tag <li></li> (lista de items),  127 

Se observa un solo elemento html con identificar id:fb-root,  1 

Cantidad del Tag <a></a> (añadir link url),  237 

Cantidad del Tag <div></div> (división),  589 

Cantidad del Tag <ul></ul> (unorder list): ,  23 

Cantidad del Tag <ol></ol> (order list): ,  0 

Cantidad del Tag <table></table> (table),  1 

Cantidad del Tag <html></html>,  1 

Cantidad del Tag <body></body>,  1 

Cantidad del Tag <iframe></iframe>,  2 

Cantidad del Tag <p></p>,  52 

Cantidad del Tag <select></select>,  2 

Cantidad de elementos con atributo class:banner-cookies--button,  1


In [8]:
# Dos elementos de lista despegable 
# Tenemos 3 frames 
# Un solo elemento table

In [86]:
# aceptar cookies

accept_cookies = driver.find_element(By.CLASS_NAME, 'banner-cookies--button')
accept_cookies.click()

In [19]:
# Hacemos click en la opción Mercado
# Entonces buscamos el elemtento html correspondiente

<img src="../_images/lista_bvl.png">

In [None]:
# Usando el Relative path (dirección)

# /html/body/bvl-root/bvl-main-layout/bvl-header/div/bvl-site-menu/nav/div/div[1]/ul/li[2]

# Muy extenso !!!

In [20]:
# Construimos un Relative path menos extenso 

driver.find_elements(By.XPATH, "//a[@ctrl='menuLink']")

# 6 elementos html que comaprten en mismo atributo ctrl


[<selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="8ecb38d9-64d5-4abd-9cf6-2d0d2f3e84b9")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="9b23c517-9a5c-4ba4-8475-b2c228bf8f16")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="68bd9430-3cae-479a-b51b-d8b8d6a237c3")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="7b552250-8a44-4129-b662-a4796de6c296")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="50050114-4eed-4565-baf5-df7049266836")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="de2b1ab0-dfe6-49cd-a1d3-da594621dfdc")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="04be6a26-370f-4a87-8a07-9b

In [26]:
driver.find_elements(By.LINK_TEXT, "Mercado") # Solo hay uno 

[<selenium.webdriver.remote.webelement.WebElement (session="1a57080576a690d6d2951292a0ed8123", element="9b23c517-9a5c-4ba4-8475-b2c228bf8f16")>]

In [87]:
# Solo usamos find_elements y luego click

driver.find_element(By.LINK_TEXT, "Mercado").click() 

In [88]:
# Hacer click en Resumen del mercado 
driver.find_element(By.LINK_TEXT, "Resumen del Mercado").click() 

# Observemos que demora en cargar.

In [34]:
# Me interesa la infromación de tablas 

print( len(driver.find_elements(By.TAG_NAME, "table")) )

2


In [36]:
# se confirma 3 tablas, pues hay dos elementos de cuerpo de una tabala <tbody></tbody>

driver.find_elements(By.TAG_NAME, "tbody")


[<selenium.webdriver.remote.webelement.WebElement (session="ef3da68fe4736b982baacc70fe8e03e7", element="74fb91c9-2845-4056-8a13-d1ebf68d097e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="ef3da68fe4736b982baacc70fe8e03e7", element="bb326b76-4632-4678-9dee-29491bbf2693")>]

In [41]:
# El Clase tables(diseño de tabla) es unico pues a ambas tablas se aplica un mismo diseño 
# el tab div con atributo class = 'tables contiene las tablas

table_path = driver.find_elements(By.XPATH, "//div[@class='tables']")
table_path

[<selenium.webdriver.remote.webelement.WebElement (session="ef3da68fe4736b982baacc70fe8e03e7", element="956a1a25-c7bd-40fd-b3d5-408d8fc912e5")>]

In [43]:
# Recuerde que con get_attribute accedemos a los atributos de cualquier tag <>
table_html = table_path[0].get_attribute( 'class' )
table_html 

'tables'

In [44]:
# Acceso al inner html 
table_html = table_path[0].get_attribute( 'innerHTML' )
table_html

'<bvl-market-table-header class="ng-tns-c6-0" _nghost-c7="" ng-reflect-ga="[object Object],[object Object"><div _ngcontent-c7="" class="table-header"><div _ngcontent-c7="" class="table-header-content search-showed"><div _ngcontent-c7="" class="header-items-wrapper"><h3 _ngcontent-c7="" class="title"> Renta Variable </h3></div><div _ngcontent-c7="" class="type-filters"><select _ngcontent-c7="" class="select arrow-red white ng-untouched ng-pristine ng-valid" ctrl="selectSector" ng-reflect-model="" ng-reflect-klass="select arrow-red white" ng-reflect-ng-class="[object Object]"><option _ngcontent-c7="" selected="" value="" ng-reflect-value="">SECTOR</option><!--bindings={\n  "ng-reflect-ng-for-of": "[object Object],[object Object"\n}--><option _ngcontent-c7="" value="CS" class="ng-star-inserted"> SEGUROS </option><option _ngcontent-c7="" value="CD" class="ng-star-inserted"> DIVERSAS </option><option _ngcontent-c7="" value="CA" class="ng-star-inserted"> ADMINISTRADORAS DE FONDOS DE PENSIONE

In [45]:
table = pd.read_html(table_html)
table

[                                            Nemonicos  \
 0                                            ENGEPEC1   
 1   CloseInfo corporativaValores InscritosHistóric...   
 2                                            ENDISPC1   
 3   CloseInfo corporativaValores InscritosHistóric...   
 4                                            POMALCC1   
 5   CloseInfo corporativaValores InscritosHistóric...   
 6                                            SCOTIAC1   
 7   CloseInfo corporativaValores InscritosHistóric...   
 8                                            MINSURI1   
 9   CloseInfo corporativaValores InscritosHistóric...   
 10                                           CARTAVC1   
 11  CloseInfo corporativaValores InscritosHistóric...   
 12                                           ETFPERUD   
 13  CloseInfo corporativaValores InscritosHistóric...   
 14                                            AENZAC1   
 15  CloseInfo corporativaValores InscritosHistóric...   
 16           

In [46]:
table[0]

Unnamed: 0,Nemonicos,Última,Var%
0,ENGEPEC1,3.46,19.31%
1,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
2,ENDISPC1,4.72,16.26%
3,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
4,POMALCC1,0.390,4.00%
5,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
6,SCOTIAC1,18.50,2.78%
7,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
8,MINSURI1,3.75,2.74%
9,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...


In [47]:
table[1]

Unnamed: 0,Nemonicos,Última,Var%
0,SHPC1,22.10,-13.06%
1,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
2,IFS,22.50,-2.39%
3,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
4,ALICORC1,7.00,-1.82%
5,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
6,BVN,7.77,-1.65%
7,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...
8,CPACASC1,4.00,-1.23%
9,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...,CloseInfo corporativaValores InscritosHistóric...


In [51]:
# selección 
# table[0] cuadro de alzas mayores 
# se filtra la columna 
data_alzas = table[0]
base_bvl_tb1  = data_alzas.loc[data_alzas ['Var%'].str.contains('^\d', na = False, regex = True)].reset_index()

base_bvl_tb1

Unnamed: 0,index,Nemonicos,Última,Var%
0,0,ENGEPEC1,3.46,19.31%
1,2,ENDISPC1,4.72,16.26%
2,4,POMALCC1,0.39,4.00%
3,6,SCOTIAC1,18.5,2.78%
4,8,MINSURI1,3.75,2.74%
5,10,CARTAVC1,34.5,2.68%
6,12,ETFPERUD,8.88,1.83%
7,14,AENZAC1,0.77,1.32%
8,16,SIDERC1,1.59,0.63%
9,18,CASAGRC1,8.05,0.50%


In [128]:
driver.find_elements(By.XPATH, "//div[@ctrl='selectSector']")


[<selenium.webdriver.remote.webelement.WebElement (session="c3948e99da53ec6bf2e3a012a623837f", element="c34fea69-5e7a-469e-a8c1-0e849d6204ef")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c3948e99da53ec6bf2e3a012a623837f", element="99def915-e0e8-40ec-b93e-0319a1d00f6e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c3948e99da53ec6bf2e3a012a623837f", element="07be8470-34f9-466e-a482-3aeeadcf0516")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c3948e99da53ec6bf2e3a012a623837f", element="668cb5f4-8893-4d32-b4c6-8026b2e5667f")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c3948e99da53ec6bf2e3a012a623837f", element="53c0a043-0c32-4fe6-a5c6-116d49720e5e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c3948e99da53ec6bf2e3a012a623837f", element="d5eb3b7e-6894-4568-bf42-18f6c8c5d0d8")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c3948e99da53ec6bf2e3a012a623837f", element="b8db1db2-28d5-4bc4-957a-db

In [141]:
# CLick en la lista despegable
driver.find_element(By.XPATH, "//div[@class='g-site-select--label']").click()

# extraer el nombre de los sectores 

sectors_names = driver.find_elements(By.XPATH, "//div[@ctrl='selectSector']")

list_sector = [sector.text for sector in sectors_names]
list_sector

['>SECTOR',
 'SEGUROS',
 'DIVERSAS',
 'ADMINISTRADORAS DE FONDOS DE PENSIONES',
 'AGRARIO',
 'FONDOS DE INVERSIÓN',
 'MINERAS',
 'SERVICIOS PÚBLICOS',
 'BANCOS Y FINANCIERAS',
 'INDUSTRIALES']

In [142]:
list_sector[6]

'MINERAS'

In [143]:
# Sector minería 

sector = driver.find_element(By.XPATH, "//div[contains(text() , {})]".format(f'"{list_sector[6]}"'))
sector.click()

In [147]:
table_path = driver.find_element(By.XPATH, "//div[@class='tables']")
table_html = table_path.get_attribute( 'innerHTML' )
table = pd.read_html(table_html)
base_bvl  = table[0].loc[table[0]['Var%'].str.contains('^[\d\-]', na = False, regex = True)].reset_index()

base_bvl 

Unnamed: 0,index,Nemonicos,Última,Var%
0,0,MINSURI1,3.75,2.74%


In [148]:
base_bvl  = table[1].loc[table[1]['Var%'].str.contains('^[\d\-]', na = False, regex = True)].reset_index()

base_bvl 

Unnamed: 0,index,Nemonicos,Última,Var%
0,0,SHPC1,22.1,-13.06%
1,2,BVN,7.76,-1.77%
2,4,CVERDEC1,31.0,-0.32%


In [158]:
# Aperturarmos el browser

# driver = webdriver.Chrome( ChromeDriverManager().install() )
driver = webdriver.Chrome( 'chromedriver.exe' )

driver.maximize_window()

In [159]:
# dict para almacenar los tables 

url = 'https://www.bvl.com.pe/'

driver.get( url )

all_tables = {}

variacion = ['Mayor alza','Mayor caída'] # casos de alza o caída 

# current web 

bvl_window = driver.current_window_handle # creamos el objetov ventana bvl 

print(bvl_window)

# aceptar cookies

time.sleep(3)

accept_cookies = driver.find_element_by_class_name('banner-cookies--button')
accept_cookies.click()

driver.switch_to.new_window('tab')  # nueva pestaña


#driver.switch_to.new_window('window') # nueva ventana

url = 'https://visitas.servicios.gob.pe/consultas/index.php?ruc_enti=20168999926'
driver.get( url )

pcm_window = driver.current_window_handle # creamos objetov bentana PCM
pcm_window 

CDwindow-D1F4759C0B625222D4B25C88A9C9B1D7


'CDwindow-2DE18EAC1B340D97C0E552920A0F6383'

In [161]:
driver.switch_to.window(bvl_window) # regreso a la ventana bvl

driver.switch_to.window(pcm_window)# regreso a la ventana PCM

driver.switch_to.window(bvl_window)# regreso a la ventana bvl

In [162]:
# Loop para extraer tables por cada sector económico

driver.find_element(By.LINK_TEXT, "Mercado").click() 

time.sleep(1)

driver.find_element(By.LINK_TEXT, "Resumen del Mercado").click()

time.sleep(6)

# CLick en la lista despegable

tabla = driver.find_element(By.XPATH, "//div[@class='tables']") # ubicamos la tablas para movilizarnos 

actions = ActionChains(driver)
actions.move_to_element(tabla).perform() # nos movilizamos hasta las tablas

driver.find_element(By.XPATH, "//div[@class='g-site-select--label']").click()
    
sectors_names = driver.find_elements(By.XPATH, "//div[@ctrl='selectSector']")

list_sector = [sector.text for sector in sectors_names]
 
    
for sector in tqdm(list_sector[1:]): # a partir de uno pues el caso inicial toma a todos los sectores
    
    print(sector)
    
    driver.find_element(By.XPATH, "//div[@class='g-site-select--label']").click() # click en lista deségable 
    
    driver.find_element(By.XPATH, "//div[contains(text() , {})]".format(f'"{sector}"')).click() # click en cada sector

    time.sleep(2)
        
    table_path = driver.find_element(By.XPATH, "//div[@class='tables']") # ubicamos el taf div que contiene las tablas 
        
    table_html = table_path.get_attribute( 'innerHTML' )
    
    for j in range(2):  # por que hay dos tablas 
      
        
        try:
            
            table = pd.read_html(table_html)
            table = table[j]  # eleccion de tabla 
            base_bvl  = table.loc[table['Var%'].str.contains('^[\d\-]', na = False, regex = True)].reset_index(drop = True)
            base_bvl['sector'] = sector
            base_bvl['variacion'] = variacion[j]

            name_data = sector + "_" + variacion[j] # nombre a la tabla para guardarlo en el diccionario 

            all_tables[ name_data ] = base_bvl 
                
            print(j)

        except:

            pass
    
    

    
    
    
    
    

  0%|                                                                                            | 0/9 [00:00<?, ?it/s]

SEGUROS


 11%|█████████▎                                                                          | 1/9 [00:02<00:18,  2.36s/it]

DIVERSAS


 22%|██████████████████▋                                                                 | 2/9 [00:04<00:16,  2.32s/it]

0
1
ADMINISTRADORAS DE FONDOS DE PENSIONES


 33%|████████████████████████████                                                        | 3/9 [00:06<00:13,  2.27s/it]

AGRARIO


 44%|█████████████████████████████████████▎                                              | 4/9 [00:09<00:11,  2.23s/it]

0
FONDOS DE INVERSIÓN


 56%|██████████████████████████████████████████████▋                                     | 5/9 [00:11<00:08,  2.20s/it]

0
MINERAS


 67%|████████████████████████████████████████████████████████                            | 6/9 [00:13<00:06,  2.19s/it]

0
1
SERVICIOS PÚBLICOS


 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:15<00:04,  2.21s/it]

0
1
BANCOS Y FINANCIERAS


 89%|██████████████████████████████████████████████████████████████████████████▋         | 8/9 [00:17<00:02,  2.21s/it]

0
1
INDUSTRIALES


100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:19<00:00,  2.22s/it]

0
1





In [163]:
all_tables

{'DIVERSAS_Mayor alza':   Nemonicos Última   Var%    sector   variacion
 0   AENZAC1   0.77  1.32%  DIVERSAS  Mayor alza
 1   INRETC1  35.01  0.03%  DIVERSAS  Mayor alza,
 'DIVERSAS_Mayor caída':   Nemonicos  Última    Var%    sector    variacion
 0       IFS   22.50  -2.39%  DIVERSAS  Mayor caída
 1   FIBCCAP   83.00  -0.69%  DIVERSAS  Mayor caída
 2       BAP  150.25  -0.40%  DIVERSAS  Mayor caída,
 'AGRARIO_Mayor alza':   Nemonicos Última   Var%   sector   variacion
 0  POMALCC1  0.390  4.00%  AGRARIO  Mayor alza
 1  CARTAVC1  34.50  2.68%  AGRARIO  Mayor alza
 2  CASAGRC1   8.05  0.50%  AGRARIO  Mayor alza,
 'FONDOS DE INVERSIÓN_Mayor alza':   Nemonicos  Última    Var%               sector   variacion
 0   FICOIF7  303.57  -0.38%  FONDOS DE INVERSIÓN  Mayor alza,
 'MINERAS_Mayor alza':   Nemonicos Última   Var%   sector   variacion
 0  MINSURI1   3.75  2.74%  MINERAS  Mayor alza,
 'MINERAS_Mayor caída':   Nemonicos Última     Var%   sector    variacion
 0     SHPC1  22.10  -13.06% 

In [164]:
final_data = pd.concat( all_tables.values() ).reset_index( drop = True )
final_data

Unnamed: 0,Nemonicos,Última,Var%,sector,variacion
0,AENZAC1,0.77,1.32%,DIVERSAS,Mayor alza
1,INRETC1,35.01,0.03%,DIVERSAS,Mayor alza
2,IFS,22.5,-2.39%,DIVERSAS,Mayor caída
3,FIBCCAP,83.0,-0.69%,DIVERSAS,Mayor caída
4,BAP,150.25,-0.40%,DIVERSAS,Mayor caída
5,POMALCC1,0.39,4.00%,AGRARIO,Mayor alza
6,CARTAVC1,34.5,2.68%,AGRARIO,Mayor alza
7,CASAGRC1,8.05,0.50%,AGRARIO,Mayor alza
8,FICOIF7,303.57,-0.38%,FONDOS DE INVERSIÓN,Mayor alza
9,MINSURI1,3.75,2.74%,MINERAS,Mayor alza


## 3.0 Caso 2 

### Extracción de tabla de índices 


In [170]:
driver.back() #return page 

time.sleep(2)

driver.refresh() #refresh browser

time.sleep(2)

In [171]:
driver.find_element(By.LINK_TEXT, "Mercado").click()

In [172]:
driver.find_element(By.LINK_TEXT, "Índices").click()

In [173]:
table_path = driver.find_element(By.XPATH, "//div[@class='tables']")

In [174]:
table_html = table_path.get_attribute( 'innerHTML' )
table = pd.read_html(table_html)
table

[                                               Índice  \
 0                                S&P/BVL Peru General   
 1   Close¿Qué es?ComponentesDocumentos Descargable...   
 2                                 S&P/BVL Peru Select   
 3   Close¿Qué es?ComponentesDocumentos Descargable...   
 4                            S&P/BVL Peru General ESG   
 5   Close¿Qué es?ComponentesDocumentos Descargable...   
 6                                     S&P/BVL LIMA 25   
 7   Close¿Qué es?ComponentesDocumentos Descargable...   
 8                      S&P/BVL Peru Select 20% Capped   
 9   Close¿Qué es?ComponentesDocumentos Descargable...   
 10          S&P/BVL Peru Select 20% Capped ESG Tilted   
 11  Close¿Qué es?ComponentesDocumentos Descargable...   
 12                     S&P/BVL Peru Enhanced Dividend   
 13  Close¿Qué es?ComponentesDocumentos Descargable...   
 14                              S&P/BVL Peru SmallCap   
 15  Close¿Qué es?ComponentesDocumentos Descargable...   
 16           

In [175]:
table = table[0]
base_bvl  = table.loc[table['Índice'].str.contains('^S&P', na = False, regex = True)].reset_index(drop = True)

base_bvl = base_bvl.iloc[:,0:7]
base_bvl

Unnamed: 0,Índice,Última,Ant.,Apert.,Max,Min,Var%
0,S&P/BVL Peru General,21857.86,21860.62,21788.02,21988.1,21788.02,-0.01%
1,S&P/BVL Peru Select,570.89,577.7,575.78,579.9,570.59,-1.18%
2,S&P/BVL Peru General ESG,936.27,942.11,939.93,944.42,935.79,-0.62%
3,S&P/BVL LIMA 25,30472.13,30369.23,30268.37,30614.21,30268.37,0.34%
4,S&P/BVL Peru Select 20% Capped,224.91,227.37,227.37,228.3,224.5,-1.08%
5,S&P/BVL Peru Select 20% Capped ESG Tilted,221.78,223.19,222.75,223.65,221.46,-0.63%
6,S&P/BVL Peru Enhanced Dividend,210.47,212.54,212.0,213.53,210.2,-0.97%
7,S&P/BVL Peru SmallCap,177.4,177.84,177.84,178.79,177.33,-0.25%
8,S&P/BVL Ingenius,510.71,513.75,517.84,517.84,507.19,-0.59%
9,S&P/BVL CONSUMER,1286.72,1294.27,1289.97,1298.28,1285.85,-0.58%


## Extraer tabla con información de visitas al Consejo de Ministros 
### Esta etapa fue parte de un concurso de Lucha contra la Corrupción

In [185]:
driver_visitas = webdriver.Chrome( ChromeDriverManager().install() )

# El bwoser del buscador se llama drive-visitas

driver_visitas.maximize_window()

url = 'https://visitas.servicios.gob.pe/consultas/index.php?ruc_enti=20168999926'

driver_visitas.get( url )





[WDM] - Current google-chrome version is 107.0.5304
[WDM] - Get LATEST chromedriver version for 107.0.5304 google-chrome
[WDM] - Driver [C:\Users\Roberto\.wdm\drivers\chromedriver\win32\107.0.5304.62\chromedriver.exe] found in cache


In [186]:
# El botón para la lista de periodos tiene un identificador único (ID)

driver_visitas.find_element(By.ID, "daterange-btn").click()

# CLick a los tipos de periodo

select_period = driver_visitas.find_element(By.XPATH, "//li[@data-range-key='Seleccione periodo']")
select_period.click()

In [187]:
inicio_fecha=driver_visitas.find_element(By.NAME, "daterangepicker_start") # click en fecha inicip

time.sleep(2)
inicio_fecha.clear()
inicio_fecha.send_keys('10/03/2022') # se envia la fecha 10/03/2022

In [189]:
fin_fecha = driver_visitas.find_element(By.NAME, "daterangepicker_end") # click en fecha de cierre
fin_fecha.click()
time.sleep(2)
fin_fecha.clear()
fin_fecha.send_keys('11/03/2022')

driver_visitas.find_element(By.NAME, "daterangepicker_start").click()
# otra vexz click en fecha de inicio para que la fecha de 

In [190]:
# click en enviar 
driver_visitas.find_element(By.XPATH, "//button[@class='applyBtn btn btn-sm btn-success']").click()
# click en botoom enviar
driver_visitas.find_element(By.ID, "buscar").click()

time.sleep(8)



In [191]:
# cantida de páginas 
int(driver_visitas.find_elements(By.XPATH, "//a[@class='paginate_button ']")[-1].text)

104

In [None]:
#//*[@id="maintable"]

In [192]:
table_html = driver_visitas.find_element(By.ID, "maintable_wrapper").get_attribute('innerHTML')
table = pd.read_html(table_html)

In [195]:
table[0]

Unnamed: 0,Fecha,Entidad visitada,Visitante,Documento del visitante,Entidad del visitante,Funcionario visitado,Hora Ingreso,Hora Salida,Motivo,Lugar específico,Observación
0,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,RAMIREZ CHAVARRY JOHAN,DNI 40452691,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:15,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
1,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,ZETA CHUNGA CRUZ MARIA,DNI 02726999,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:31,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
2,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,MONTEZA FACHO SILVIA MARIA,DNI 16667146,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:15,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
3,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,ALVA ROJAS CARLOS ENRIQUE,DNI 18099931,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:15,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
4,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,GAMARRA MALPARTIDA ABEL CESAR,DNI 21866507,Entidad pública - VICEMINISTERIO DE ORDEN INTERNO,LARREA SANCHEZ MANUEL EDUARDO - DESPACHO MINIS...,17:41,18:20,Reunión de trabajo,PALACIO - Sala Miguel Grau,
5,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,TAFUR HERRERA PERCY,DNI 26728711,Persona natural - a titulo personal,PALOMINO SANCHEZ PEDRO - VICEMINISTERIO DE GOB...,17:30,17:32,Reunión de trabajo,PALACIO - SALA GRACIELA FERNANDEZ - BACA,
6,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,BUSTAMANTE ROMERO IGNACIO JOSE,DNI 07874627,Entidad privada - COMPANIA MINERA ARES S.A.C.,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,17:00,18:21,Reunión de trabajo,PALACIO - Sala Miguel Grau,
7,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,PALMA GARCIA ZAPATERO JOSE AUGUSTO,DNI 06342752,Entidad privada - COMPANIA MINERA ARES S.A.C.,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,17:00,18:21,Reunión de trabajo,PALACIO - Sala Miguel Grau,
8,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,RAMOS ESTRADA ROBERTO RAUL,DNI 48344046,Entidad privada - EMPRESA 1000 JOBS SOCIEDAD A...,WINCHEZ AYLAS TANIA BEATRIZ - OFICINA DE ABAST...,16:57,17:15,Provisión de Servicios,PIÑEIRO - ALMACÉN - almacén,
9,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,PAUCAR CARHUAS NEHEMIAS MANUEL,DNI 46053107,Entidad privada - EMPRESA 1000 JOBS SOCIEDAD A...,WINCHEZ AYLAS TANIA BEATRIZ - OFICINA DE ABAST...,16:57,17:15,Provisión de Servicios,PIÑEIRO - ALMACÉN - almacén,


In [196]:
# click en siguientes páginas 
driver_visitas.find_element(By.ID, "maintable_next").click()
time.sleep(1)

In [156]:
# Extracción de las primeras 5 páginas sobre las visitas a la presidencia de consejo de ministros

driver_visitas = webdriver.Chrome( ChromeDriverManager().install() )

# El bwoser del buscador se llama drive

driver_visitas.maximize_window()

url = 'https://visitas.servicios.gob.pe/consultas/index.php?ruc_enti=20168999926'

driver_visitas.get( url )

# El botón para la lista de periodos tiene un identificador único (ID)

driver_visitas.find_element(By.ID, "daterange-btn").click()

# Click para elegir el rqango de periodo

select_period = driver_visitas.find_element(By.XPATH, "//li[@data-range-key='Seleccione periodo']")
select_period.click()

# Fecha de inicio 

inicio_fecha=driver_visitas.find_element(By.NAME, "daterangepicker_start")

time.sleep(1)
inicio_fecha.clear()
inicio_fecha.send_keys('10/03/2022')

# Fecha de cierre

fin_fecha = driver_visitas.find_element(By.NAME, "daterangepicker_end")

time.sleep(1)
fin_fecha.clear()
fin_fecha.send_keys('11/03/2022')

# Volvemos a selccionar la celda de fecha de incio 

driver_visitas.find_element(By.NAME, "daterangepicker_start").click()


# Click en aceptar y buscar
driver_visitas.find_element(By.XPATH, "//button[@class='applyBtn btn btn-sm btn-success']").click()

driver_visitas.find_element(By.ID, "buscar").click()

time.sleep(8)





[WDM] - Current google-chrome version is 107.0.5304
[WDM] - Get LATEST chromedriver version for 107.0.5304 google-chrome
[WDM] - Driver [C:\Users\Roberto\.wdm\drivers\chromedriver\win32\107.0.5304.62\chromedriver.exe] found in cache
  driver_visitas = webdriver.Chrome( ChromeDriverManager().install() )


In [157]:
# dict para almacenar los tables 

all_tables = {}

for i in tqdm(range(10)):
    
    table_html = driver_visitas.find_element(By.ID, "maintable_wrapper").get_attribute('innerHTML')
    table = pd.read_html(table_html)
    table = table[0]
    all_tables[f"table_page_{i}"] = table
    driver_visitas.find_element(By.ID, "maintable_next").click()
    time.sleep(1)

    
#driver_visitas.quit()  # cierra todos los bwrosers ( ventanas )
#driver_visitas.close()  # cierra el browser donde estamos trabajando

100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:11<00:00,  1.13s/it]


In [158]:
total_visitas_data = pd.concat( all_tables.values() ).reset_index( drop = True )
total_visitas_data

Unnamed: 0,Fecha,Entidad visitada,Visitante,Documento del visitante,Entidad del visitante,Funcionario visitado,Hora Ingreso,Hora Salida,Motivo,Lugar específico,Observación
0,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,RAMIREZ CHAVARRY JOHAN,DNI 40452691,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:15,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
1,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,ZETA CHUNGA CRUZ MARIA,DNI 02726999,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:31,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
2,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,MONTEZA FACHO SILVIA MARIA,DNI 16667146,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:15,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
3,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,ALVA ROJAS CARLOS ENRIQUE,DNI 18099931,Entidad pública - CONGRESO DE LA REPÚBLICA,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,21:15,21:57,Reunión de trabajo,PALACIO - Sala Miguel Grau,
4,03/11/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,GAMARRA MALPARTIDA ABEL CESAR,DNI 21866507,Entidad pública - VICEMINISTERIO DE ORDEN INTERNO,LARREA SANCHEZ MANUEL EDUARDO - DESPACHO MINIS...,17:41,18:20,Reunión de trabajo,PALACIO - Sala Miguel Grau,
...,...,...,...,...,...,...,...,...,...,...,...
245,28/10/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,GUZMAN MENDOZA JULIO CESAR,DNI 10132792,Entidad pública - MINISTERIO DEL AMBIENTE (MINAM),TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,15:00,17:00,Reunión de trabajo,PALACIO - PEREZ DE CUELLAR,
246,28/10/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,PUICON CARRILLO JAIME,DNI 33408687,Entidad pública - ORGANISMO DE EVALUACION Y FI...,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,15:00,17:00,Reunión de trabajo,PALACIO - PEREZ DE CUELLAR,
247,28/10/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,MELGAR TAMARA KATHERINE ANDREA,DNI 46222890,Entidad pública - ORGANISMO DE EVALUACION Y FI...,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,15:00,17:00,Reunión de trabajo,PALACIO - PEREZ DE CUELLAR,
248,28/10/2022,PRESIDENCIA DEL CONSEJO DE MINISTROS - PCM,GARCIA ARAGON FRANCISCO,DNI 31044541,Entidad pública - ORGANISMO DE EVALUACION Y FI...,TORRES VASQUEZ ANIBAL - DESPACHO MINISTERIAL -...,15:00,17:00,Reunión de trabajo,PALACIO - PEREZ DE CUELLAR,
