<h1>Web scraping: Temas avanzados</h1>

**Por Daniel Rojas**

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://www.stratkom.se/wp-content/uploads/2016/06/computer-programming-1024x683.jpeg")

<br>
<br>

-  La clase pasada aprendimos como realizar web scraping básico utilizando la librería ***Beautiful Soup***



-  ***Beautiful Soup*** por sí solo es bastante poderoso cuando nuestra página web objetivo está escrita en lenguaje ***HTML***

Sin embargo, hoy en día es más común encontrar páginas web cuya estructura esté hecha en ***HTML*** pero sus interacciones sean mostradas por medio de ***JavaScript***



## ¿Cuál es la diferencia entre HTML y JavaScript?


### HTML: Estructura / JavaScript: Movimiento


In [2]:
Image(url= "https://media.giphy.com/media/gZsjswrzG3IL6/giphy.gif")

<br>

-  ¿Porqué queremos ***movimiento*** en una página web?


-  Para que exista mayor interacción y los elementos no estén estáticos


## Ejemplos


-  [Twitter](http://twitter.com)
-  [URosario](http://urosario.edu.co)


<br>


-  **OJO! en este tipo de páginas web, utilizar solamente *Beautiful Soup* no es suficiente a la hora de hacer Web scraping**


-  Cuando una web está escrita en JavaScript el buscador realiza un proceso llamado ***Rendering*** que consiste en *ejecutar* el código JavaScript de la página


-  ¿Cuál es el problema?... SOLO los navegadores pueden hacer ***Rendering*** (Chrome, Firefox, Safari, Explorer)
 
 
-  ***Beautiful Soup*** y ***urllib*** NO le permiten a Python realizar este proceso


-  Es decir, el código HTML retornado estará incompleto y probablemente la información que necesitemos no estará presente


## Ejemplo


-  [Twitter](http://twitter.com)



## ¿Cómo hacer web scraping de páginas escritas en JavaScript?



### Lo que necesitaremos:

- Python 3


- Beautiful Soup


- [Selenium](http://selenium-python.readthedocs.io/)


- [PhantomJS](http://phantomjs.org/)

In [27]:
from bs4 import BeautifulSoup
from selenium import webdriver

# Definimos nuestro url

url = "https://www.davivienda.com/wps/portal/personas/nuevo"

Veamos que pasaría si utilizamos urllib y Beautiful Soup

In [28]:
from urllib.request import urlopen

webpage = urlopen(url) 

soup = BeautifulSoup(webpage, "html.parser")

print(soup.prettify)

<bound method Tag.prettify of <!DOCTYPE html>

<html lang="en">
<head>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/>
<script data-dtconfig="app=ea7c4b59f27d43eb|featureHash=ICA27SVdefghijmoqruvx|vcv=2|rdnt=1|uxrgce=1|bp=2|cuc=vrbxqx1s|dpvc=1|md=mdcc1=a#header_home2 ^rb div.userNotificationBar ^rb div.nameNotiBar,mdcc2=a.sesion ^rb ul:nth-child(1) ^rb li:nth-child(1) ^rb span:nth-child(1)|lastModification=1604516209591|dtVersion=10181191119154660|tp=500,50,0,1|uxdcw=1500|vs=2|agentUri=/wps/mypoc/ruxitagentjs_ICA27SVdefghijmoqruvx_10181191119154660.js|reportUrl=/wps/mypoc/rb_esd62814|rid=RID_-796415603|rpid=1920628608" src="/wps/mypoc/ruxitagentjs_ICA27SVdefghijmoqruvx_10181191119154660.js" type="text/javascript"></script><script data-dtconfig="app=ea7c4b59f27d43eb|featureHash=ICA27SVdefghijmoqruvx|vcv=2|rdnt=1|uxrgce=1|bp=2|cuc=vrbxqx1s|dpvc=1|md=mdcc1=a#header_home2 ^rb div.userNotificationBar ^rb div.nameNotiBar,mdcc2=a.se

Nada parecido a lo que queremos encontrar...

Intentemos otro link de la misma página:

In [29]:
url = 'https://www.davivienda.com/wps/portal/personas/nuevo#iframe'
webpage = urlopen(url) 
soup = BeautifulSoup(webpage, "html.parser")
print(soup.prettify)

<bound method Tag.prettify of <!DOCTYPE html>

<html lang="en">
<head>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/>
<script data-dtconfig="app=ea7c4b59f27d43eb|featureHash=ICA27SVdefghijmoqruvx|vcv=2|rdnt=1|uxrgce=1|bp=2|cuc=vrbxqx1s|dpvc=1|md=mdcc1=a#header_home2 ^rb div.userNotificationBar ^rb div.nameNotiBar,mdcc2=a.sesion ^rb ul:nth-child(1) ^rb li:nth-child(1) ^rb span:nth-child(1)|lastModification=1604516209591|dtVersion=10181191119154660|tp=500,50,0,1|uxdcw=1500|vs=2|agentUri=/wps/mypoc/ruxitagentjs_ICA27SVdefghijmoqruvx_10181191119154660.js|reportUrl=/wps/mypoc/rb_esd62814|rid=RID_-796415603|rpid=1920628608" src="/wps/mypoc/ruxitagentjs_ICA27SVdefghijmoqruvx_10181191119154660.js" type="text/javascript"></script><script data-dtconfig="app=ea7c4b59f27d43eb|featureHash=ICA27SVdefghijmoqruvx|vcv=2|rdnt=1|uxrgce=1|bp=2|cuc=vrbxqx1s|dpvc=1|md=mdcc1=a#header_home2 ^rb div.userNotificationBar ^rb div.nameNotiBar,mdcc2=a.se

In [30]:
import time

url = 'https://www.davivienda.com/wps/portal/personas/nuevo#iframe'

browser1 = webdriver.PhantomJS(executable_path=r"C:\phantomjs\bin\phantomjs.exe")
  
browser1.get(url)
html1 = browser1.page_source

time.sleep(5)

In [7]:
html1

'<!DOCTYPE html><html lang="en" class=" " style="overflow: hidden; height: 100%;"><head>\n\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">\n\n    <script src="https://www.googletagservices.com/activeview/js/current/osd.js?cb=%2Fr20100101"></script><script type="text/javascript" async="" src="//img03.en25.com/i/elqCfg.min.js"></script><script async="" src="https://www.googletagmanager.com/gtm.js?id=GTM-WVX9Z5"></script><script type="text/javascript" async="" src="https://www.google-analytics.com/analytics.js"></script><script type="text/javascript" async="" src="https://www.googletagmanager.com/gtag/js?id=G-955ZS6ZPLE&amp;l=dataLayer&amp;cx=c"></script><script type="text/javascript" src="/wps/ruxitagentjs_ICA27SVfgjqruvx_10213210407103252.js" data-dtconfig="app=6e3a0d00a63302d9|rcdec=1209600000|featureHash=ICA27SVfgjqruvx|vcv=2|rdnt=1|uxrgce=1|srcss=1|bp=2|srmcrv=10|cuc=vrbxqx1s|mel=100000|dpvc=1|ssv=4|lastModification=161

In [31]:
browser2 = webdriver.Chrome(executable_path=r"C:\chromedriver.exe")
time.sleep(5)
browser2.get(url)
html2 = browser2.page_source
time.sleep(5)
browser2.quit()
html2

'<html lang="en" class=" " style="overflow: hidden; height: 100%;"><head><script async="" src="https://www.googletagmanager.com/gtm.js?id=GTM-WVX9Z5&amp;_=1619271306014"></script>\n\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">\n\n    <script type="text/javascript" src="/wps/mypoc/ruxitagentjs_ICA27SVdefghijmoqruvx_10181191119154660.js" data-dtconfig="app=ea7c4b59f27d43eb|featureHash=ICA27SVdefghijmoqruvx|vcv=2|rdnt=1|uxrgce=1|bp=2|cuc=vrbxqx1s|dpvc=1|md=mdcc1=a#header_home2 ^rb div.userNotificationBar ^rb div.nameNotiBar,mdcc2=a.sesion ^rb ul:nth-child(1) ^rb li:nth-child(1) ^rb span:nth-child(1)|lastModification=1604516209591|dtVersion=10181191119154660|tp=500,50,0,1|uxdcw=1500|vs=2|agentUri=/wps/mypoc/ruxitagentjs_ICA27SVdefghijmoqruvx_10181191119154660.js|reportUrl=/wps/mypoc/rb_esd62814|rid=RID_-796415603|rpid=1920628608"></script><script type="text/javascript" src="/wps/ruxitagentjs_ICA27SVdefghijmoqruvx_101811911

Acabamos de abrir el url con el buscador **Phantom** y **Chrome** por medio de Python

In [32]:
# Esta línea permite ejecutar el Javascript

html = browser1.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
    
soup = BeautifulSoup(html, "html.parser")

In [33]:
soup

<head>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/>
<script src="https://www.googletagservices.com/activeview/js/current/osd.js?cb=%2Fr20100101"></script><script async="" src="//img03.en25.com/i/elqCfg.min.js" type="text/javascript"></script><script async="" src="https://www.googletagmanager.com/gtm.js?id=GTM-WVX9Z5"></script><script async="" src="https://www.google-analytics.com/analytics.js" type="text/javascript"></script><script async="" src="https://www.googletagmanager.com/gtag/js?id=G-955ZS6ZPLE&amp;l=dataLayer&amp;cx=c" type="text/javascript"></script><script data-dtconfig="app=6e3a0d00a63302d9|rcdec=1209600000|featureHash=ICA27SVfgjqruvx|vcv=2|rdnt=1|uxrgce=1|srcss=1|bp=2|srmcrv=10|cuc=vrbxqx1s|mel=100000|dpvc=1|ssv=4|lastModification=1619184233658|dtVersion=10213210407103252|srmcrl=1|tp=500,50,0,1|uxdcw=1500|vs=2|agentUri=/wps/ruxitagentjs_ICA27SVfgjqruvx_10213210407103252.js|reportUrl=/wps/rb_esd62814|rid=RID_-1

**Cuando usamos la función execute_script, Python hace el rendering de la página por medio del webdriver seleccionado (Phantom o Chrome)**

In [34]:
print(soup.prettify)

<bound method Tag.prettify of <head>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/>
<script src="https://www.googletagservices.com/activeview/js/current/osd.js?cb=%2Fr20100101"></script><script async="" src="//img03.en25.com/i/elqCfg.min.js" type="text/javascript"></script><script async="" src="https://www.googletagmanager.com/gtm.js?id=GTM-WVX9Z5"></script><script async="" src="https://www.google-analytics.com/analytics.js" type="text/javascript"></script><script async="" src="https://www.googletagmanager.com/gtag/js?id=G-955ZS6ZPLE&amp;l=dataLayer&amp;cx=c" type="text/javascript"></script><script data-dtconfig="app=6e3a0d00a63302d9|rcdec=1209600000|featureHash=ICA27SVfgjqruvx|vcv=2|rdnt=1|uxrgce=1|srcss=1|bp=2|srmcrv=10|cuc=vrbxqx1s|mel=100000|dpvc=1|ssv=4|lastModification=1619184233658|dtVersion=10213210407103252|srmcrl=1|tp=500,50,0,1|uxdcw=1500|vs=2|agentUri=/wps/ruxitagentjs_ICA27SVfgjqruvx_10213210407103252.js|reportU

Ahora sí estamos capturando el código HTML que nos interesa

## Otras funcionalidades de Selenium



- **Selenium nos permite generar códigos en Python que se comporten como un humano en la web** (web bots)


- Utilicemos como ejemplo la página web del [Alkosto](https://www.Alkosto.com) y [NewTours](http://demo.guru99.com/test/newtours/)

In [13]:
browser = webdriver.Chrome(executable_path=r"C:\chromedriver.exe")
browser.get("http://demo.guru99.com/test/newtours/")
time.sleep(3)

**Tipos de Localizadores**
- **ID**	To find the element by ID of the element
- **Classname**	To find the element by Classname of the element
- **Name**	To find the element by name of the element
- **Link text**	To find the element by text of the link
- **XPath**	XPath required for finding the dynamic element and traverse between various elements of the web page

__fuente: https://www.guru99.com/xpath-selenium.html__

In [37]:
browser = webdriver.Chrome(executable_path=r"C:\chromedriver.exe")
browser.get("http://demo.guru99.com/test/newtours/")

time.sleep(3)

texto_usuario = browser.find_element_by_name("userName")
texto_pass = browser.find_element_by_name("password")
boton_submit = browser.find_element_by_name("submit")

texto_usuario.send_keys("SANTIAGOMATALLANA")
time.sleep(4)
texto_pass.send_keys("prueba1234")

time.sleep(4)
boton_submit.click()

print("Terminé")

Terminé


In [38]:
browser.quit()
print("Prueba completada")

Prueba completada


In [39]:
browser = webdriver.Chrome(executable_path=r"C:\chromedriver.exe")
browser.get("http://demo.guru99.com/test/newtours/")
browser.maximize_window()
time.sleep(3)
browser.find_element_by_link_text("SUPPORT").click()
time.sleep(5)
browser.get("http://demo.guru99.com/test/newtours/")
time.sleep(5)
texto_usuario = browser.find_element_by_name("userName")
texto_pass = browser.find_element_by_name("password")
boton_submit = browser.find_element_by_name("submit")
texto_usuario.send_keys("daniel")
time.sleep(4)
texto_pass.send_keys("prueba")
boton_submit.click()
time.sleep(4)
browser.quit()
print("Prueba completada")

Prueba completada


Esta vez usaremos Chrome para poder visualizar las acciones que programemos

__Información útil para encontrar elementos con Selenium: https://www.techbeamers.com/locate-elements-selenium-python/#locate-element-by-xpath__

In [40]:
url = 'https://www.alkosto.com/'

In [22]:
Image(url= "https://www.guru99.com/images/3-2016/032816_0758_XPathinSele1.png")

In [42]:
from selenium.webdriver.common.keys import Keys

browser = webdriver.Chrome(executable_path=r"C:\chromedriver.exe")
browser.get(url)
#time.sleep(3)
texto_buscar = browser.find_element_by_xpath('//*[@id="search"]').send_keys("celulares"+"\n")
browser.maximize_window()


In [45]:
browser = webdriver.Chrome(executable_path=r"C:\chromedriver.exe")
 
browser.get(url)
#browser.maximize_window()
#time.sleep(3)
# El xpath de Computadores es:

boton_cat = browser.find_element_by_xpath('/html/body/div[1]/div[1]/div[1]/div/a[2]/em')
boton_cat.click()


In [26]:
browser.quit()

# Links Importantes: 

1. https://github.com/trembacz/xpath-finder <- Un Plugin para Chrome que permite encontrar de forma más sencilla el XPath de interés.

2. https://www.techbeamers.com/locate-elements-selenium-python/ <- Más información sobre tipos de localizadores. 

3. https://towardsdatascience.com/web-scraping-using-selenium-python-8a60f4cf40ab <- Blog con más ejemplos de lo que vimos hoy. 