# Selenium Basics

In [36]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

### Configuración inicial del driver

- Selenium necesita un *driver* para interactuar con el navegador.
- Existen disponibles varios: ChromeDriver, GeckoDriver (para Firefox)...
- Desde selenium 4.2, el driver se carga automáticamente, no es necesario descargarlo por otro medio.
- Se pueden configurar *options* por defecto al abrir el navegador. Más información: https://www.selenium.dev/documentation/webdriver/drivers/options/

In [37]:
#### Chrome ####
c_options = webdriver.ChromeOptions()
c_options.add_argument("--start-maximized")
c_driver = webdriver.Chrome(options=c_options)

### Otros browsers ###
# f_options = webdriver.FirefoxOptions()
# f_driver = webdriver.Firefox(options=f_options)
# e_options = webdriver.EdgeOptions()
# e_driver = webdriver.Edge(options=e_options)

### Navegación Básica

In [38]:
# Abrir una página web
url = "https://www.google.com"
c_driver.get(url)

# Obtener el título de la página web
print("Título de la página:", c_driver.title)

# Obtener url actual
print("Url de la página:", c_driver.current_url)

# Obtener el código fuente
print("HTML:", c_driver.page_source[0:100]+'...')

Título de la página: Google
Url de la página: https://www.google.com/
HTML: <html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta charset="UTF-8"><meta ...


In [39]:
c_driver.get("https://www.youtube.com/")
time.sleep(2)

# Navegar hacia atrás y adelante
c_driver.back()  # Ir atrás
time.sleep(2)
c_driver.forward()  # Ir adelante
time.sleep(2)

In [40]:
# Abrir una nueva pestaña
c_driver.execute_script("window.open('');")
time.sleep(2)

# Cambiar a la nueva pestaña
c_driver.switch_to.window(c_driver.window_handles[1])
c_driver.get("https://linkiafp.es/master-fp-inteligencia-artificial-big-data-en-madrid/")
time.sleep(3)

### Interacción con Elementos

Para poder interacturar o encontrar cualquier elemento (o elementos) de la pagina web tendremos que primero localizarlo. Cualquier tipo de selector CSS será suficiente para localizarlo. Para más información de las distintas formas de encontrar un elemento: https://selenium-python.readthedocs.io/locating-elements.html 

- `find_element(By.ID, "id")`
- `find_element(By.NAME, "name")`
- `find_element(By.XPATH, "xpath")`
- `find_element(By.LINK_TEXT, "link text")`
- `find_element(By.PARTIAL_LINK_TEXT, "partial link text")`
- `find_element(By.TAG_NAME, "tag name")`
- `find_element(By.CLASS_NAME, "class name")`
- `find_element(By.CSS_SELECTOR, "css selector")`

In [43]:
# Abrir una página web
url = "https://www.google.com"
c_driver.get(url)


In [44]:
# Localización de un elemento html
# Al inspeccionar en la barra de busqueda tenemos que el name="q"
search_box = c_driver.find_element(By.NAME, "q")

# Escribir en la barra de búsqueda y presionar Enter
search_box.send_keys("Selenium con Python")
search_box.send_keys(Keys.RETURN)

Vamos a repetir el mismo procedimiento de antes, pero se cerrará la ventana de "privacidad" automáticamente.

In [None]:
#Cerrar el navegador
c_driver.quit()

#### Chrome ####
c_options = webdriver.ChromeOptions()
c_options.add_argument("--start-maximized")
c_driver = webdriver.Chrome(options=c_options)
# Abrir una página web
url = "https://www.google.com"
c_driver.get(url)

# Localizamos el botón de aceptar por el xpath
accept_button = c_driver.find_element(By.XPATH, "/html/body/div[2]/div[2]/div[3]/span/div/div/div/div[3]/div[1]/button[2]")
time.sleep(5)
accept_button.click()

time.sleep(2)
# Localización de la barra de busqueda
search_box = c_driver.find_element(By.NAME, "q")

# Escribir en la barra de búsqueda y presionar Enter
search_box.send_keys("Selenium con Python")
time.sleep(2)
search_box.send_keys(Keys.RETURN)

Extraer y mostrar los 10 primeros enlaces de la página web de busqueda...

In [45]:
links = c_driver.find_elements(By.TAG_NAME, "a")
for link in links[:10]:
    print(link.get_attribute("href"))

None
https://support.google.com/websearch/answer/181196?hl=es
None
https://www.google.com/webhp?hl=es&sa=X&ved=0ahUKEwjSoJ792P6JAxWAQ6QEHSFAB0EQPAgI
https://support.google.com/websearch/answer/106230?hl=es
https://www.google.es/intl/es/about/products?tab=wh
https://accounts.google.com/ServiceLogin?hl=es&passive=true&continue=https://www.google.com/search%3Fq%3DSelenium%2Bcon%2BPython%26sca_esv%3Df04f39c9057254ed%26source%3Dhp%26ei%3DRzVIZ7TfD5ejkdUPys_aYA%26iflsig%3DAL9hbdgAAAAAZ0hDVyLzETEYwTcz4-flHbtupoU18UVo%26ved%3D0ahUKEwj0ntr32P6JAxWXUaQEHcqnFgwQ4dUDCBA%26uact%3D5%26oq%3DSelenium%2Bcon%2BPython%26gs_lp%3DEgdnd3Mtd2l6IhNTZWxlbml1bSBjb24gUHl0aG9uSBpQAFgPcAB4AJABAJgBAKABAKoBALgBA8gBAPgBAZgCAKACAJgDAJIHAKAHAA%26sclient%3Dgws-wiz&ec=GAZAAQ
None
https://www.google.com/search?sca_esv=f04f39c9057254ed&q=Selenium+con+Python&udm=7&fbs=AEQNm0CbCVgAZ5mWEJDg6aoPVcBg8bCGg2iA4XkmidlqrLHO6ei0bw7w15P08zuNT8JJ05pcOnisYJ7iD3grnRoxdFSHO4pXjwIafMuMVG-KrY9ma4iK1bP1cqlJiy66RJIa7JCwPnmuaYayAdTzv8XfQRdZn4

No parecen los resultados de la busqueda... 

Esto se debe a que esta buscando el TAG_NAME de todo el documento... vamos a reducir el espacio de busqueda. 

In [46]:
center_col = c_driver.find_element(By.ID, "center_col")

links = center_col.find_elements(By.TAG_NAME, "a")
for link in links[:100]:
    print(link.get_attribute("href")) if not ('youtube.com' in link.get_attribute("href") or 'google.com' in link.get_attribute("href")) else None

https://jandimter.cl/tutoriales/selenium-py/
https://selenium-python.readthedocs.io/
https://selenium-python.readthedocs.io/installation.html
https://selenium-python.readthedocs.io/getting-started.html
https://selenium-python.readthedocs.io/locating-elements.html
https://selenium-python.readthedocs.io/api.html
https://dev.to/amigosmaker/que-es-python-selenium-spanish-nkp
https://hackernoon.com/lang/es/automatizaci%C3%B3n-web-con-python-y-selenium#:~:text=utiliza%20el%20selenio%3F-,Selenium%20nos%20permite%20navegar%20o%20usar%20un%20navegador%20sin%20la,interactuar%20con%20el%20sitio%20web.
https://www.browserstack.com/guide/python-selenium-to-run-web-automation-test#:~:text=Getting%20started%20with%20Selenium%20using,toolset%20for%20automating%20browser%20interactions.
https://es.wikipedia.org/wiki/Selenium
https://es.wikipedia.org/wiki/Selenium
https://platzi.com/tutoriales/4227-python-fundamentos/27376-que-puedes-hacer-con-python-9-usos-sorprendentes/
https://platzi.com/tutoriales/4

### Scroll down / up

In [None]:
# Abrir una página con contenido largo
c_driver.get("https://en.wikipedia.org/wiki/Web_scraping")
time.sleep(2)
# Hacer scroll down por pixeles
c_driver.execute_script("window.scrollBy(0, 2000);")
time.sleep(2)


# Hacer scroll up por pixeles
c_driver.execute_script("window.scrollBy(0, -1000);")
time.sleep(2)


In [None]:
c_driver.get("https://en.wikipedia.org/wiki/Web_scraping")

# Scroll hasta un elemento específico
element = c_driver.find_element(By.ID, "Software")
c_driver.execute_script("arguments[0].scrollIntoView();", element)
time.sleep(2)


In [None]:
# Scroll hasta el final de la página
c_driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(2)


In [None]:
c_driver.quit()