# Web Scraping. Capítulo 2.1
## Selenium
### Selectores

Este código permite inicializar selenium, se algo falla durante a execución, non dubides en pechar o navegador e abrir un novo con este bloque.

In [2]:
#Instalar gecko
from webdriver_manager.firefox import GeckoDriverManager
GeckoDriverManager().install()

#Abrir un navegador
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Firefox()

#### Seleccionando un ou varios elementos

##### find_element()

Devolve o primeiro elemento que cumpra cos criterios que lle teñamos especificado.

~~~~
from selenium.webdriver.common.by import By
driver.find_element(By.???, filtro1)
~~~~

##### find_elements()

Devolve unha lista de elementos que cumpren os criterios que lle teñamos especificado.

~~~~
from selenium.webdriver.common.by import By
driver.find_elements(By.???, filtro2)
~~~~

Ambas funcións devolven un obxecto de selenium: `selenium.webdriver.remote.webelement.WebElement`, sobre o que poderemos seguir executando finds.

A clase selenium.webdriver.common.by permite seleccionar/filtrar atendendo a unha das seguintes propiedades:
- **id**
- **name**
- **class_name**
- **css_selector**
- **tag_name**
- **xpath**
- **link_text**
- **partial_link_text**

#### Id &mdash; By.ID

Nun documento HTML só debería haber un elemento con un mesmo id. En caso de haber máis dun, só devolve o primeiro.

**Exemplos**: 
- &lt;h1 id="titulo_principal"&gt;Título da web&lt;/h1&gt;
- &lt;input type="text" id="usuario"/&gt;

~~~~
    driver.find_element(By.ID, "id")
~~~~

Se non o atopa, devolve unha excepción de tipo: **NoSuchElementException**.

In [3]:
URL_INICIAL='https://jfsanchez.es/cdn/selenium/cajon-de-sastre.html'
driver.get(URL_INICIAL)
# <input type="button" id="R1" value="Ataúlfo" data-fechareinado="(410-415)"/>

from selenium.common.exceptions import NoSuchElementException
try:
    variable_rey=driver.find_element(By.ID, 'R1')
    print("get_property('value') -> ")
    print(variable_rey.get_property('value'))

    print("get_dom_attribute('value') -> ")
    print(variable_rey.get_dom_attribute('value'))

    print("get_property('type') -> ")
    print(variable_rey.get_property('type'))

    print("get_dom_attribute('type') -> ")
    print (variable_rey.get_dom_attribute('type'))

    print("get_property('data-fechareinado') -> (falla, non é propiedade válida)")
    print(variable_rey.get_property('data-fechareinado'))
    
    print("get_dom_attribute('data-fechareinado') -> ")
    print (variable_rey.get_dom_attribute('data-fechareinado'))

except NoSuchElementException as e:
    print(e)

get_property('value') -> 
Ataúlfo
get_dom_attribute('value') -> 
Ataúlfo
get_property('type') -> 
button
get_dom_attribute('type') -> 
button
get_property('data-fechareinado') -> (falla, non é propiedade válida)
None
get_dom_attribute('data-fechareinado') -> 
(410-415)


In [4]:
from selenium.common.exceptions import  NoSuchElementException

try:
    driver.find_element(By.ID, 'oreidomambo')
except NoSuchElementException as e:
    print('Non atopo quen deles foi o rei do mambo')

Non atopo quen deles foi o rei do mambo


#### Name &mdash; By.Name


Pode haber varios elementos co mesmo nome.

**Exemplo**:
- &lt;h1 name="titular"&gt;Tit1&lt;/h1&gt;
- &lt;h1 name="titular"&gt;Tit2&lt;/h1&gt;
- ...
- &lt;h1 name="titular"&gt;TitN&lt;/h1&gt;

`find_element()` devolve o primeiro elemento, mentres que `find_elements()` devolve unha lista de `WebElement`.

De seguir iterando por `find_element()`, devolvería cada vez o seguinte, pero ollo, dentro de cada elemento seleccionado.

De non existir ningún elemento con ese atributo, lánzase unha excepción de tipo: `NoSuchElementException`

In [5]:
try:
    titulares = driver.find_elements(By.NAME, 'titular')
    for titular in titulares:
        print(f"{titular.tag_name} {titular.text}")

except NoSuchElementException as e:
    print(e)

h1 Los famosos reyes godos
h1 Presidentes de España desde 1978
h1 Ministros del interior
h1 Provincias españolas


Imprimo agora un titular con `find_element()`. Como vemos, chamar varias veces ao mesmo driver, devolve o mesmo: a primeira ocorrencia.

In [6]:
try:
    titular = driver.find_element(By.NAME, 'titular')
    print(titular.text)
    titular = driver.find_element(By.NAME, 'titular')
    print(titular.text)

except NoSuchElementException as e:
    print(e)

Los famosos reyes godos
Los famosos reyes godos


Sen embargo, se iteramos sobre o anterior resultado, o find busca o seguinte, **pero** dentro da subárbore DOM seleccionada:

In [7]:
try:
    titular = driver.find_element(By.NAME, 'titular')
    print(titular.text)
    titular = titular.find_element(By.NAME, 'titular')
    print(titular.text)

except NoSuchElementException as e:
    print('ERRO na segunda búsqueda: NON hai un titular dentro dun titular, están ao mesmo nivel, non podemos buscar así')

Los famosos reyes godos
ERRO na segunda búsqueda: NON hai un titular dentro dun titular, están ao mesmo nivel, non podemos buscar así


E se volvo atrás ao parent?

In [8]:
try:
    titular = driver.find_element(By.NAME, 'titular')
    print(titular.text)
    titular = titular.parent.find_element(By.NAME, 'titular')
    print(titular.text)

except NoSuchElementException as e:
    print('ERRO. Non debería aparecer')

Los famosos reyes godos
Los famosos reyes godos


Evidentemente volver atrás ao mesmo nivel de DOM, fai a mesma búsqueda e ofrece o mesmo (o primeiro).

E non só podemos obter propiedades e datos, tamén podemos **enviar pulsacións de teclado** aos elementos seleccionados para interactuar con eles:

In [9]:
driver.find_element(by=By.NAME, value='ministrosinterior').send_keys('Manuel Fraga Iribarne')

##### Class Name &mdash; By.CLASS_NAME

Nome de clase. Habitualmente serve para aplicar estilos CSS a todos os elementos con ese nome de clase.

**Exemplo**:

&lt;input type="button" id="R1" class="rey" value="Ataúlfo" data-fechareinado="(410-415)"/&gt;

De non existir ningún elemento con ese atributo, lánzase unha excepción de tipo: `NoSuchElementException`

In [29]:
try:
    for rei in driver.find_elements(By.CLASS_NAME, 'rey'):
        print('O rei {} mandou moito entre os anos {}'.format(rei.get_property('value'), rei.get_dom_attribute('data-fechareinado')))
except NoSuchElementException as e:
    print('ERRO. Non debería aparecer')

O rei Ataúlfo mandou moito entre os anos (410-415)
O rei Sigerico mandou moito entre os anos (415)
O rei Walia mandou moito entre os anos (415-418)
O rei Teodoredo mandou moito entre os anos (418-451)
O rei Turismundo mandou moito entre os anos (451-453)
O rei Teodorico II mandou moito entre os anos (453-466)
O rei Eurico mandou moito entre os anos (466-484)
O rei Alarico II mandou moito entre os anos (484-507)
O rei Gesaleico mandou moito entre os anos (507-511)
O rei Amalarico mandou moito entre os anos (511-531)
O rei Teudis mandou moito entre os anos (531-548)
O rei Teudiselo mandou moito entre os anos (548-59)
O rei Ágila I mandou moito entre os anos (549-555)
O rei Atanagildo mandou moito entre os anos (551-567)
O rei Liuva I mandou moito entre os anos (567-572)
O rei Leovigildo mandou moito entre os anos (570-586)
O rei Recaredo I mandou moito entre os anos (586-601)
O rei Luiva II mandou moito entre os anos (601-603)
O rei Witerico mandou moito entre os anos (603-610)
O rei Gun

##### CSS Selector &mdash; By.CSS_SELECTOR

O mesmo que o anterior, pero podemos especificar o selector completo.

**Exemplo**: button.rey

&lt;input type="button" id="R1" class="rey" value="Ataúlfo" data-fechareinado="(410-415)"/&gt;

De non existir ningún elemento con ese atributo, lánzase unha excepción de tipo: `NoSuchElementException`

In [25]:
try:
    for rey in driver.find_elements(By.CSS_SELECTOR, 'input.rey'):
        print('O rei {} mandou moito entre os anos {}'.format(rey.get_dom_attribute('value'), rey.get_dom_attribute('data-fechareinado')))
except NoSuchElementException as e:
    print('ERRO. Non debería aparecer')

O rei Ataúlfo mandou moito entre os anos (410-415)
O rei Sigerico mandou moito entre os anos (415)
O rei Walia mandou moito entre os anos (415-418)
O rei Teodoredo mandou moito entre os anos (418-451)
O rei Turismundo mandou moito entre os anos (451-453)
O rei Teodorico II mandou moito entre os anos (453-466)
O rei Eurico mandou moito entre os anos (466-484)
O rei Alarico II mandou moito entre os anos (484-507)
O rei Gesaleico mandou moito entre os anos (507-511)
O rei Amalarico mandou moito entre os anos (511-531)
O rei Teudis mandou moito entre os anos (531-548)
O rei Teudiselo mandou moito entre os anos (548-59)
O rei Ágila I mandou moito entre os anos (549-555)
O rei Atanagildo mandou moito entre os anos (551-567)
O rei Liuva I mandou moito entre os anos (567-572)
O rei Leovigildo mandou moito entre os anos (570-586)
O rei Recaredo I mandou moito entre os anos (586-601)
O rei Luiva II mandou moito entre os anos (601-603)
O rei Witerico mandou moito entre os anos (603-610)
O rei Gun

##### Tag Name &mdash; By.TAG_NAME

Se queremos atopar todas as ocurrencias dun determinado TAG HTML

De non existir ningún elemento con ese atributo, lánzase unha excepción de tipo: `NoSuchElementException`

In [12]:
try:
    titulares = driver.find_elements(By.TAG_NAME, 'h1')
    for titular in titulares:
        print(titular.text)
except NoSuchElementException as e:
    print('ERRO. Non debería aparecer')

Los famosos reyes godos
Juego de tronos
Presidentes de España desde 1978
Ministros del interior
Provincias españolas


Exemplo dunha búsqueda dun tag dentro doutro.

Primeiro seleccionanse os tr, despois búscase o primeiro td.

**Exemplo**:
~~~~
<table>
    <tr><!-- Fila 1-->
        <td>Campo A</td>
        <td>Campo B</td>
        <td>Campo C</td>
    </tr>
    <tr><!-- Fila 2-->
        <td>Campo A</td>
        <td>Campo B</td>
        <td>Campo C</td>
    </tr>
/table
~~~~

In [30]:
try:
    filas_tabla_provincias = driver.find_elements(By.TAG_NAME, 'tr')
    for provincia in filas_tabla_provincias:
        print(provincia.find_element(By.TAG_NAME, 'td').text)
except NoSuchElementException as e:
    print('ERRO. Non debería aparecer')

Provincia
Álava
Albacete
Alicante
Almería
Asturias
Ávila
Badajoz
Barcelona
Burgos
Cáceres
Cádiz
Cantabria
Castellón
Ciudad Real
Córdoba
La Coruña
Cuenca
Gerona
Granada
Guadalajara
Guipúzcoa
Huelva
Huesca
Baleares
Jaén
León
Lérida
Lugo
Madrid
Málaga
Murcia
Navarra
Orense
Palencia
Las Palmas
Pontevedra
La Rioja
Salamanca
Segovia
Sevilla
Soria
Tarragona
Santa Cruz de Tenerife
Teruel
Toledo
Valencia
Valladolid
Vizcaya
Zamora
Zaragoza


##### Link Text &mdash; By.LINK_TEXT

Buscamos mediante o texto exacto que está na ligazón dun tag de enlace:
~~~~
<a hfref="https://es.wikipedia.org/wiki/Wikipedia:Portada">Wikipedia</a>.
~~~~

De non existir ningún elemento con ese atributo, lánzase unha excepción de tipo: `NoSuchElementException`

In [14]:
try:
    enlace_premer = driver.find_element(By.LINK_TEXT, 'Wikipedia')
    enlace_premer.click()
except NoSuchElementException as e:
    print('ERRO. Non debería aparecer')

In [15]:
#Deixamos todo no mesmo estado
driver.get(URL_INICIAL)

##### Partial Link Text &mdash; By.PARTIAL_LINK_TEXT

Buscamos un cacho de texto nos tags de ligazóns:

~~~~
<a hfref="https://es.wikipedia.org/wiki/Wikipedia:Portada">Wikipedia</a>.
~~~~

De non existir ningún elemento con ese atributo, lánzase unha excepción de tipo: `NoSuchElementException`

In [16]:
try:
    enlace_premer = driver.find_element(By.PARTIAL_LINK_TEXT, 'Wiki')
    enlace_premer.click()
except NoSuchElementException as e:
    print('ERRO. Non debería aparecer')

In [17]:
#Deixamos todo no mesmo estado
driver.get(URL_INICIAL)

##### XPATH &mdash; By.XPATH

Este é quizás o máis potente, permite buscar de todo, aínda que polo mesmo un uso con toda a súa potencia resulta tamén máis complexo.

XPath é unha sorte de linguaxe empregado para localizar nodos nun documento XML.

**Titoriais**:
- <https://www.w3schools.com/xml/xpath_intro.asp>
- <https://www.w3.org/TR/xpath/>
- <http://www.zvon.org/comp/r/tut-XPath_1.html>

**TODO**: Esta parte pode que mellore nun futuro ou evolucione a outro notebook.

In [40]:
driver.get(URL_INICIAL)

print(driver.find_element(By.XPATH, '//button[text()="No hay más"]'))
print(driver.find_elements(By.XPATH, '//button'))
elemnts = (driver.find_elements(By.XPATH, '//button'))

for i in elemnts:
    print(i.text)

<selenium.webdriver.remote.webelement.WebElement (session="05d0cf5b-85f3-47b5-b08f-d715d70432f5", element="f75b336b-7a6c-433a-8b97-5bef2e2936b6")>
[<selenium.webdriver.remote.webelement.WebElement (session="05d0cf5b-85f3-47b5-b08f-d715d70432f5", element="f75b336b-7a6c-433a-8b97-5bef2e2936b6")>]
No hay más


### Accións

Estas accións aplícanse aos elementos buscados/seleccionados (`selenium.webdriver.remote.webelement.WebElement`)

- **clear**() &mdash; Aplícase a cadros de texto e outros elementos editables.
- **send_keys**(): So se aplica aos cadros de texto e elementos editables do estilo.
- **click**() &mdash; Aplícase a tódolos elementos.

Para enviar un formulario recoméndase facer click no botón submit (a opción de submit quedou obsoleta).

#### Elementos seleccionables

Primeiro debemos instancialo (buscalo ou filtralo):



In [45]:
from selenium.webdriver.support.select import Select

select_element = driver.find_element(By.ID, 'presidentes')
select = Select(select_element)

Ver a lista de opcións:

In [46]:
lista_opcions = select.options
for elemento in lista_opcions:
    print(elemento.text)

Adolfo Suárez González
Leopoldo Calvo Sotelo
Felipe González Márquez
José María Aznar López
José Luis Rodríguez Zapatero
Mariano Rajoy Brey
Pedro Sánchez Pérez-Castejón


Seleccionar por texto

In [49]:
select.select_by_visible_text('Leopoldo Calvo Sotelo')

Seleccionar por valor

In [53]:
select.select_by_value('2')

Seleccionar por índice (a primeira posición do índice é cero)

In [51]:
select.select_by_index(3)

Outras opcións **para listas múltiples**:

Seleccionar tódalas opcións:

    selected_option_list = select.all_selected_options()

Quitar a selección de  tódalas opcións:

    select.deselect_all()

Quitar a selección dunha opción (só para listas múltiples):
  
    
    select.deselect_by_value('2')

    select.deselect_by_index(2)
    
    select.deselect_by_visible_text('Texto visible')

⚠️ **AVISO**: Se tratamos de quitar a selección dunha lista que só admite seleccionar unha opción (simple, non múltiple) ou seleccionar un item desactivado (que non se pode seleccionar) entón devolveranos unha excepción de tipo: `NotImplementedError`.

### Bibliografía

- <https://www.selenium.dev/>
- <https://github.com/SeleniumHQ>
- <https://selenium-python.readthedocs.io>
- <https://selenium-python.readthedocs.io/locating-elements.html>