# INICIANDO EN LA AUTOMATIZACIÓN WEB
-------------------------

Una carácteristica importante de python es el hecho de que nos permite trabajar de manera fácil con el entorno web. Para ello tendrémos a nuestra disposición una seríe de librerías o paquetes que nos harán fácil esta tarea

- <a href="https://requests.kennethreitz.org/en/master/" >Requests</a>
- <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>
- **Selenium**
- **Scrapy**
- entre otros


## 1. Python [Requests](https://requests.readthedocs.io/en/master/) - Solicitudes GET y POST
------------------------------

El módulo <code>request</code> es una librería de python que nos permitirá realizar todo todo de HTTP request sobre una página web.


### 1.1 Instalación

In [1]:
# Instalación
!pip install requests



### 1.2 Realizando solicitudes GET

Es bastante sencillo enviar una solicitud HTTP utilizando Requests. Empiece importando el módulo y luego haciendo la solicitud. Mira el ejemplo:

In [4]:
import requests

url = 'https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses'

response = requests.get(url)

El obejto <code>response</code> es el encargado de almacenar toda la información web concerniente al sitio web buscado

### 1.3 Obteniendo status de conexion web

El atributo <code>status_code</code> nos permitirá tener conocimiento si se establecio una correcta conexión a la página web.

In [7]:
response.status_code

200

### 1.4 Obteniendo contenido web de la página

El método <code>content</code> nos permitirá acceder al contenido del sitio web

In [12]:
data = response.content

In [18]:
data[:100]

b'<!DOCTYPE html>\n<html class="client-nojs" lang="es" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title'

### 1.5 Filtrando información

La librería requests combinado con el módulo <code>scrapy</code> nos permitirá selecciona los datos que nos interesa de una página web 

In [19]:
# Importando librerías
import requests
from scrapy.selector import Selector


In [20]:
def leer(html_path):
    """
    Read html document
    
    Parameters
    ----------
    html_path : str
    """
    with open(html_path) as f:
        data = f.read()
    return data

In [21]:
html_path = './scripts/4.demo_web/selectores.html'
# Cargamos documento html
html_doc = leer(html_path)
print(html_doc)

<html>
 <head>
  <base href='http://example.com/' />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
  </div>

  <p id="p-example">
      Hello World!
      Try <a href="www.example.com">Click Here</a> Today!
  </p>

 </body>
</html>


In [22]:
response=Selector(text=html_doc)

In [23]:
response.css('div#images > a::text').getall()

['Name: My image 1 ',
 'Name: My image 2 ',
 'Name: My image 3 ',
 'Name: My image 4 ',
 'Name: My image 5 ']

# 2. INICIANDO CON [SELENIUM](https://selenium-python.readthedocs.io/getting-started.html)
-----------------------------

Selenium es una <b>herramientas de testeo para el desarrollo de páginas web</b>. La cual es muy útil para estos fines ya que permite:
- Automatización web.
- Selección de campos mediante nombres ID, XPATH, etc.
- Entre otros

Selenium trabaja con diversos navegadores, tambien conocidos como navegadores sin cabecera como <a href="https://chromedriver.chromium.org/">google chrome</a> y <a href="https://github.com/mozilla/geckodriver">firefox.</a>

El uso de selenium es muy simple y puede servir como un buen punto de partida para el desarrollo de extractores web.

Selenium puede utilizarse en las versiones Python 2.7 y 3.x. En general, el soporte de Selenium es muy extenso y proporciona enlaces para lenguajes como Java, C #, Ruby, Python, por supuesto, y JavaScript. La documentación oficial de Selenium es excelente y fácil de entender incluso si eres un principiante.

**Realizar web Scraping con Scrapy es 20 veces más rápido que utilizando Selenium**. Además, Scrapy consume mucha menos memoria y uso de CPU que Selenium.

**Selenium solo debe usarse en casos en que la página sobre la que se requiera hacer web scraping tenga un alto contenido en javascript** el cual hace sumamente complicado scrapear mediante scrapy

### Ejemplo Extración con selenium

In [4]:
from selenium import webdriver
from scrapy.selector import Selector

In [5]:
# inicializando webdriver y página web
driver = webdriver.Chrome("./drivers/chromedriver.exe")
url="https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses"
driver.get(url)

Selenium posee un conjunto de elemtos para la realización de extracción de la data

In [6]:
sel = Selector(text = driver.page_source)

In [7]:
# selecionando tabla
table = sel.xpath('//table[@class = "wikitable plainlinks"]')

In [8]:
# columnas
columns_name = table.css('th')

In [9]:
# nombre de columnas
for col in table.css('th'):
    print(col.xpath('./text()').get().strip())

Territorio
País reclamante
Fecha
Límites


In [10]:
# columnas
filas = table.css('tr')

In [11]:
lista = []
for row in table.css('tr')[1:]:
    dicx = {}
    territorio = row.css('td')[1].css(' ::text').getall()
    pais = row.css('td')[2].css('::text').getall()
    year = row.css('td')[3].css('::text').get()
    
    dicx['territorio'] = "".join([cadena.strip() for cadena in territorio])
    dicx['pais'] = "".join([cadena.strip() for cadena in pais])
    dicx['year'] = "".join([cadena.strip() for cadena in year])
    
    lista.append(dicx)
    

In [12]:
lista

[{'territorio': 'Antártida Argentina(parte de laProvincia de Tierra del Fuego, Antártida e Islas del Atlántico Sur)',
  'pais': 'Argentina',
  'year': '1942'},
 {'territorio': 'Territorio Antártico Australiano',
  'pais': 'Australia',
  'year': '1933'},
 {'territorio': 'Territorio Chileno Antártico(parte de laProvincia de la Antártica Chilena)',
  'pais': 'Chile',
  'year': '1940'},
 {'territorio': 'Tierra Adelia(parte de lasTierras Australes y Antárticas Francesas)',
  'pais': 'Francia',
  'year': '1924'},
 {'territorio': 'Dependencia Ross', 'pais': 'Nueva Zelanda', 'year': '1923'},
 {'territorio': 'Tierra de la Reina Maud', 'pais': 'Noruega', 'year': '1939'},
 {'territorio': 'Isla Pedro I', 'pais': 'Noruega', 'year': '1929'},
 {'territorio': 'Territorio Antártico Británico',
  'pais': 'Reino Unido',
  'year': '1908'}]

In [13]:
# Al finalizar cerramos el navegador
driver.quit()