# CONTENIDO

- <a href='#t1'>1. ¿QUÉ ES WEB SCRAPING?</a> 
- <a href='#t2'>2. LIBRERÍAS</a> 
     - <a href='#2.1.'>2.1. Instalar librerías</a>
     - <a href='#2.2.'>2.2. Importar librerías</a>
- <a href='#t3'>3. FIJAR EL DRIVER</a> 
     - <a href='#3.1.'>3.1. Lanzar un Chrome Driver</a>
     - <a href='#3.2.'>3.2. Primeras operaciones</a>
- <a href='#t4'>4. LENGUAJE HTML</a> 
     - <a href='#4.1.'>4.1. Introducción</a>
     - <a href='#4.2.'>4.2. Párrafos</a>
     - <a href='#4.3.'>4.3. Links</a>
     - <a href='#4.4.'>4.4. Tablas</a>
     - <a href='#4.5.'>4.5. Iframes</a>
     - <a href='#4.6.'>4.6. Resumen de tags</a>
- <a href='#t5'>5. SELECCIÓN DE ELEMENTOS</a> 
     - <a href='#5.1.'>5.1. Selección de un elemento</a>
     - <a href='#5.2.'>5.2. Selección de múltiples elementos</a>
     - <a href='#5.3.'>5.3. Ejemplo práctico</a>
- <a href='#t6'>6. MANEJO DE TIEMPOS</a> 
     - <a href='#6.1.'>6.1. Time sleep</a>
     - <a href='#6.2.'>6.2. Esperas explícitas</a>     
- <a href='#t7'>7. APUNTES IMPORTANTES</a> 
     - <a href='#7.1.'>7.1. Iframes</a>
     - <a href='#7.2.'>7.2. Maximize driver</a>  
     - <a href='#7.3.'>7.3. Bloques try-except</a>  

#  <a id='t1'>1. ¿QUÉ ES WEB SCRAPING?</a>

Es el proceso de extraer datos de sitios web de manera automatizada. Incluye los siguientes pasos:

| Paso | Descripción |
|--|--|
|1. Identificación del sitio web|Implica conocer la información que se requiere, y verificar que el sitio web seleccionado contenga dicha información |
2. Inspección de la estructura | Implica explorar e inspeccionar la estructura y organización del código HTML del sitio web |
3. Selección de la herramienta | Implica seleccionar una herramienta que permita realizar el proceso de Web Scraping. En Python, algunas herramientas populares son BeautifulSoup y Selenium |
4. Escritura del código | Utilizando la herramienta seleccionada, se escriben las instrucciones que permiten acceder y descargar la información de la página web |
5. Testeo | Si bien el primer script puede parecer funcional, siempre surgen errores e imprevistos que es necesario mapear y solucionar hasta llegar a la solución más eficaz |
5. Extracción de datos | Una vez escrita la versión definitiva del script, implica ejecutarlo hasta el final |
6. Almacenamiento o procesamiento de datos | Implica organizar, y procesar la información, de tal forma que se encuentre lista para su uso |

<img src="webscraping.png" alt="image info" />

# 2. <a id='t2'>LIBRERÍAS</a>

## 2.1. <a id='2.1.'>Instalar librerías</a>

In [None]:
# !pip install selenium
# !pip install webdriver-manager

## 2.2. <a id='2.2.'>Importar librerías</a>

In [None]:
# Selenium
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.action_chains import ActionChains

# Options driver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import Select

# Dataframes
import pandas as pd
import itertools
import json
import re
import numpy as np
import itertools
from pandas import json_normalize
import unidecode

# Simulating human behavior
import datetime
import time
from time import sleep
import random

# To use explicit waits
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Download files and directories
import urllib.request
import requests
from openpyxl import Workbook
import os
from glob import glob

# <a id='t3'>3. FIJAR EL DRIVER</a> 

## <a id='3.1.'>3.1. Lanzar un Chrome Driver</a>

In [None]:
# Setear el Chrome Driver Manager
service = Service( ChromeDriverManager().install( ) )
driver = webdriver.Chrome( service = service )
driver.maximize_window()

# Setear la URL
url = f'https://appbp.contraloria.gob.pe/BuscadorCGR/Informes/Avanzado.html'
driver.get( url )

## <a id='3.2.'>3.2. Primeras operaciones</a>

In [None]:
# Acceder al título
titulo_ct = driver.title
print( f'Título: { titulo_ct }' )

In [None]:
# Acceder a la URL
url_ct = driver.current_url
print( f'URL actual: { url_ct }' )

In [None]:
# Guardar un screenshot
driver.save_screenshot( 'screenshot.png' )

In [None]:
# Refrescar la página
driver.refresh()

In [None]:
# Maximizar la página
driver.maximize_window()

In [None]:
# Cerrar todas las sesiones de web driver
driver.quit()

# <a id='t4'>4. LENGUAJE HTML</a> 

## <a id='4.1.'>4.1. Introducción</a>

HTML (HyperText Markup Language) es el lenguaje de marcado estándar utilizado para crear páginas web. Se compone de etiquetas y elementos que estructuran el contenido de una página, como encabezados, párrafos, enlaces, imágenes, formularios, entre otros.

El conocimiento de HTML es importante para el web scraping porque esta técnica consiste en extraer información de páginas web de forma automatizada. Al comprender HTML, es posible identificar los elementos relevantes en la estructura de una página, como los contenedores de datos, las etiquetas y los atributos específicos que contienen la información que deseas extraer.

1. Los documentos HTML siempre inician con `<html>` y finalizan con `</html>`.
2. Los tags HTML siempre inician con esta estructura `<tag>` y finalizan con esta estructura `</tag>`.
2. `<body></body>` constituyen la parte visible de los documentos HTML.

## <a id='4.4.'>3.2. Párrafos</a>

Los párrafos HTML se define con el tag `<p>`:

<html>
<p>Hola.</p>
<html>

Los saltos de línea HTML se definen como el tag `<br>`:

<html>
<p>Hola.</p><br>
<p>¿Cómo se encuentran?</p>
<html>

## <a id='4.3.'>4.3. Links</a>

Los links HTML se define con el tag `<a>`:

<a href="https://appbp.contraloria.gob.pe/BuscadorCGR/Informes/Avanzado.html">Link del buscador de informes de la Contraloría</a>

## <a id='4.4.'>4.4. Tablas</a>

Las tablas HTML consisten en celdas dentro de filas y columnas.
1. Las tablas HTML se definen con el tag `<table>`.
1. Las filas se definen con el tag `<tr>`.  
2. Los encabezados de las columnas se definen con el tag `<th>`.
3. Las celdas de datos se definen con el tag `<td>`.

<table>
  <tr>
    <th>Variable 1</th>
    <th>Variable 2</th>
    <th>Variable 3</th>
  </tr>
  <tr>
    <td>Dato 1</td>
    <td>Dato 2</td>
    <td>Dato 3</td>
  </tr>
  <tr>
    <td>Dato 4</td>
    <td>Dato 5</td>
    <td>Dato 6</td>
  </tr>
</table>

## <a id='4.5.'>4.5. Iframes</a>

Se utilizan para incrustar otro documento HTML dentro de la página actual. Esencialmente, permite mostrar contenido de otra página web dentro de una ventana del navegador.

<!DOCTYPE html>
<html>
<head>
  <title>Ejemplo de Iframe</title>
</head>
<body>
  <h1>Página principal</h1>
  <p>A continuación se incluye un iframe incrustado:</p>
  <iframe src="https://www.google.com" width="800" height="600" frameborder="0"></iframe>
  <p>Fin del iframe</p>
</body>
</html>

## <a id='4.6.'>4.6. Resumen de tags</a>

| Tag |	Descripción |
|---|---|
|`<html>` |Define el comienzo y el final de un documento HTML |
|`head` |Contiene información meta sobre el documento HTML |   
|`<title>` |	Define el título del documento HTML |
|`<body>` | Contiene el contenido visible del documento HTML |
|`<span>` | Define una sección en línea o un fragmento de texto |
|`<h1>` a `<h6>`|	Define encabezados HTML en orden de importancia |
|`<p>` | Define un párrafo |
| `<a>` | Crea un enlace a otra página |
| `<img>` | Muestra una imagen en el documento |
| `<table>` | Crea una tabla con filas y columnas |
| `<tr>` | Define una fila en una tabla |
| `<th>` | Define una celda de encabezado en una tabla |
| `<td>` | Define una celda de datos en una tabla |
| `<ul>` | Crea una lista desordenada |
| `<ol>` | Crea una lista ordenada |
| `<li>` | Define un elemento de lista |
|`<input>`| Crea un campo de entrada en un formulario |
| `<button>` | Crea un botón interactivo |
| `<option>` |  Define una opción de menú desplegable |
| `<label>` | Etiqueta para un elemento de formulario |
| `<iframe>` | Incrusta contenido de otro documento HTML dentro de la página |

# <a id='t5'>5. SELECCIÓN DE ELEMENTOS</a>

## <a id='5.1.'>5.1. Selección de un elemento</a>

|Método|Descripción|
|---|---|
|find_element( By.ID, "id" ) | Se usa  id|
|find_element( By.NAME, "name" ) | Se usa name|
|find_element( By.XPATH, "xpath" ) | Se usa Xpath|
|find_element( By.TAG_NAME, "tag name" ) | Se usa HTML tag|
|find_element( By.CLASS_NAME, "class name" ) | Se usa class name|
|find_element( By.CSS_SELECTOR, "css selector" )| Se usa selector|

### 5.1.1. Ejemplo de selección de un elemento por id

Considérese un documento HTML como el siguiente

<html>
<head>
  <title>FORMULARIO</title>
</head>
<body>
  <form id="loginForm">
    <input name="username" type="text" />
    <input name="password" type="password" />
    <input name="continue" type="submit" value="Login" />
  </form>
</body>
</html>

La forma de localizar el formulario mediante id sería:

In [None]:
# ----------------------- NO SE EJECUTA -------------------------- #
login_form = driver.find_element( By.ID, 'loginForm' )
# ----------------------- NO SE EJECUTA -------------------------- #

### 5.1.2. Ejemplo de selección de un elemento por Xpath

<img src="xpath.png" alt="image info" />

<html>
<body>
  <h1>SELECTOR</h1>
  <button id="myButton">Haz clic aquí</button>
</body>
</html>

La forma de localizar el formulario mediante Xpath sería:

In [None]:
# ----------------------- NO SE EJECUTA -------------------------- #
boton = driver.find_element( By.ID, '//button[@id="myButton"]' )
# ----------------------- NO SE EJECUTA -------------------------- #

## <a id='5.2.'>5.2. Selección de múltiples elementos</a>

|Método|Descripción|
|---|---|
|find_elements( By.ID, "id" ) | Se usa  id|
|find_elements( By.NAME, "name" ) | Se usa name|
|find_elements( By.XPATH, "xpath" ) | Se usa Xpath|
|find_elements( By.TAG_NAME, "tag name" ) | Se usa HTML tag|
|find_elements( By.CLASS_NAME, "class name" ) | Se usa class name|
|find_elements( By.CSS_SELECTOR, "css selector" )| Se usa selector|

### 5.2.1. Ejemplo de selección de un elemento por Xpath

<html>
<body>
  <h1>ELEMENTOS</h1>
  <ol id="myList">
    <li>Elemento 1</li>
    <li>Elemento 2</li>
    <li>Elemento 3</li>
  </ol>
</body>
</html>

La forma de localizar los elementos mediante su Xpath sería:

In [None]:
# ----------------------- NO SE EJECUTA -------------------------- #
elements = driver.find_elements( By.XPATH, '//ol[@id="myList"]/li' )
for element in elements:
    print( element.text )
# ----------------------- NO SE EJECUTA -------------------------- #

## <a id='5.3.'>5.3. Ejemplo práctico</a>

In [None]:
service = Service( ChromeDriverManager().install( ) )
driver = webdriver.Chrome( service = service )
driver.maximize_window()

url = f'https://appbp.contraloria.gob.pe/BuscadorCGR/Informes/Avanzado.html'
driver.get( url )

In [None]:
# Obtener texto
texto = driver.find_element( By.XPATH, '//*[@id="lbltotalItemsMod"]' ).text
texto

In [None]:
# Seleccionar un elemento y hacer click
anio = '2017'

periodo_boton = driver.find_element( By.XPATH, '//*[@id="aPeriodo"]' ).click()

tabla_anios   = driver.find_element( By.XPATH, '//*[@id="lblmenuanioconclusion"]' )
tabla_anios.find_element( By.XPATH, f".//label[contains(., { anio })]" ).click()

In [None]:
# driver.refresh()

In [None]:
# Seleccionar varios elementos y obtener el texto
for n in range( 1, 11 ):
    reg = [ driver.find_element( By.XPATH, f'//*[@id="tablaResultadosUltimosInformes"]/tbody/tr[{ n }]/td[1]' ).text ]
    mod = [ driver.find_element( By.XPATH, f'//*[@id="tablaResultadosUltimosInformes"]/tbody/tr[{ n }]/td[2]' ).text ]
    print( reg, mod )

# <a id='t6'>6. MANEJO DE TIEMPOS</a> 

## <a id='6.1.'>6.1. Time sleep</a>

Permite simular el comportamiento humano, al suspender temporalmente la ejecución de los scripts.

In [None]:
# driver.refresh()

In [None]:
anios = [ '2016', '2017', '2018', '2019' ]

busqueda_periodo = driver.find_element( By.XPATH, '//*[@id="aPeriodo"]' ).click()
tabla_anios      = driver.find_element( By.XPATH, '//*[@id="lblmenuanioconclusion"]' )
for anio in anios:
    time.sleep( 5 )
    tabla_anios.find_element( By.XPATH, f".//label[contains(., { anio })]" ).click() 

## <a id='6.2.'>6.2. Esperas explícitas</a>   

Establecen un tiempo de espera que garantiza que los elementos de la página web se hayan cargado completamente antes de interactuar con ellos. En caso interactuemos con elementos que no han cargado completamente, obtendremos el siguiente error `ElementNotVisibleException exception`. La lista de esperas explícitas es la siguiente:

| Método | Descripción |
|---|---|
|`presence_of_element_located`| Espera hasta que un elemento esté presente en el DOM de la página. No garantiza que el elemento esté visible |
|`visibility_of_element_located`| Espera hasta que un elemento esté visible en la página, es decir, que no esté oculto y tenga una altura y ancho mayor que cero |
|`element_to_be_clickable`| Espera hasta que un elemento esté visible y sea clickable, lo que implica que el elemento esté visible y habilitado para recibir acciones como clicks |
|`visibility_of`| Espera hasta que un elemento esté visible y tenga un tamaño mayor que cero. Es similar a `visibility_of_element_located`, pero en lugar de proporcionar una ubicación, se utiliza directamente un elemento |
|`presence_of_all_elements_located`| Espera hasta que todos los elementos que coincidan con el selector especificado estén presentes en el DOM de la página |
|`text_to_be_present_in_element`| Espera hasta que un elemento contenga un determinado texto especificado |
|`text_to_be_present_in_element_value`| Espera hasta que el valor de un elemento de entrada (input) contenga un texto específico |
|`frame_to_be_available_and_switch_to_it`| Espera hasta que un marco (iframe) esté disponible y luego se cambia al mismo para poder interactuar con él |
|`invisibility_of_element_located`| Espera hasta que un elemento esté oculto o no presente en el DOM de la página |
|`staleness_of`| Espera hasta que un elemento de la página se vuelva "stale" (desactualizado), lo que significa que ya no es parte del DOM actual. Esto puede ocurrir cuando se actualiza o se modifica la página |
|`element_to_be_selected`| Espera hasta que un elemento de opción (como una casilla de verificación o un botón de opción) esté seleccionado |
|`element_located_to_be_selected`| Espera hasta que un elemento de opción ubicado por su selector esté seleccionado |
|`element_selection_state_to_be`| Espera hasta que el estado de selección de un elemento de opción coincida con un estado específico (seleccionado o no seleccionado) |
|`element_located_selection_state_to_be`| Espera hasta que el estado de selección de un elemento de opción ubicado por su selector coincida con un estado específico |

In [None]:
# driver.refresh()

In [None]:
from selenium.webdriver.support import expected_conditions as EC

# Establecer el tiempo máximo de espera
wait = WebDriverWait( driver, 10 )
# Localizar y clickear el elemento
busqueda_periodo = wait.until( EC.element_to_be_clickable( ( By.XPATH, '//*[@id="aPeriodo"]' ) ) )\
                       .click()

In [None]:
# driver.quit()

# <a id='t7'>7. APUNTES IMPORTANTES</a> 

## <a id='7.1.'>7.1. Iframes</a>

Es necesario utilizar switch_to.frame() en Selenium cuando estás interactuando con elementos dentro de un marco o iframe (Inline Frame) en una página web. Los iframes son elementos HTML que permiten incrustar un documento HTML dentro de otro documento HTML.

### Ejemplo

In [None]:
service = Service( ChromeDriverManager().install( ) )
driver = webdriver.Chrome( service = service )
driver.maximize_window()

url = 'https://apps5.mineco.gob.pe/transparencia/Navegador/default.aspx?y=2007&ap=ActProy'
driver.get( url )

In [None]:
# Buscar elementos <iframe> en la página
iframes = driver.find_elements( By.TAG_NAME, "frame" )
if iframes:
    print( 'Hay iframes en la página.' )
    for i, iframe in enumerate( iframes ):
        iframe_html = iframe.get_attribute( 'outerHTML' )
        print( f'Ubicación del iframe { i } en el código HTML:' )
        print( iframe_html )
        print('-------------------------')        
else:
    print( 'No se encontraron iframes en la página.' )

In [None]:
anio = '2009'
seleccionar_anio = Select( driver.find_element( By.ID, "ctl00_CPH1_DrpYear" ) )
seleccionar_anio.select_by_value( f'{ anio }' )

In [None]:
# Método switch_to.frame
frame = driver.find_element( By.ID, "frame0" )
driver.switch_to.frame( frame )

In [None]:
anio = '2009'
seleccionar_anio = Select( driver.find_element( By.ID, "ctl00_CPH1_DrpYear" ) )
seleccionar_anio.select_by_value( f'{ anio }' )

In [None]:
driver.quit()

## <a id='7.2.'>7.2. Maximize driver</a> 

In [None]:
service = Service( ChromeDriverManager().install( ) )
driver  = webdriver.Chrome( service = service )

url = 'https://apps5.mineco.gob.pe/transparencia/Navegador/default.aspx?y=2007&ap=ActProy'
driver.get( url )

In [None]:
driver.maximize_window()

In [None]:
# driver.quit()

## <a id='7.3.'>7.3. Bloques try-except</a>  

Los bloques try-except permiten capturar excepciones y manejarlas de manera controlada, evitando que el programa se detenga abruptamente y permitiendo realizar acciones específicas en caso de que ocurra una excepción.

In [None]:
# Try-Except

for i in range( 5 ):
    try:
        resultado = 10 / i
        print( f'{ i } entre 10 es igual a: { resultado }' )
    except:
        print( f'Error: No se puede dividir entre cero' )

In [None]:
# Try-Except with Exception

for i in range( 5 ):
    try:
        resultado = 10 / i
        print( f'{ i } entre 10 es igual a: { resultado }' )
    except Exception as e:
        print( f'Error: { e }' )

In [None]:
# Try-Except-Pass

for i in range( 5 ):
    try:
        resultado = 10 / i
        print( f'{ i } entre 10 es igual a: { resultado }' )
    except Exception as e:
        pass

In [None]:
# Try-Except-Continue

for i in range( 5 ):
    try:
        if i == 3:
            continue
        resultado = 10 / i
        print( f'{ i } entre 10 es igual a: { resultado }' )
    except:
        print( f'Error: No se puede dividir entre cero' )