# III Web Scraping

<img src="http://hirinfotech.com/wp-content/uploads/2019/10/What-is-Web-Scraping-1024x512.png" width="791" height="396">

* Término usado para describir el uso de un programa o algoritmo para extraer y procesar grandes cantidades de datos de la web.
* Hay ocasiones en que solo se puede acceder a los datos que desea como parte de una página web. En casos como este, querrá usar una técnica llamada web scraping para obtener los datos de la página web en un formato con el que pueda trabajar en su análisis.
* Supongamos que encuentra datos de la web y no hay una forma directa de descargarlos. el web scraping con Python es una habilidad que puede usar para extraer los datos en una forma útil facil.
* El web scraping es básico para un data science, data engineer o cualquier persona que analice grandes cantidades de conjuntos de datos.

## Librerías o Framework de Web Scraping

* <b>Requests:</b> Esta librería nos permitirá hacer peticiones HTTP.
* <b>BeautifulSoup:</b> Módulo para analizar documentos HTML. Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información.
* <b>Xpath: </b>Es un Lenguaje que puede navegar y extraer a todas partes dentro de un árbol DOM ('Modelo en Objetos para la Representación de Documentos') HTML.
* <b>Selenium:</b> Módulo que se usa para automatizar la interacción con el navegador web desde Python.
* <b>Scrapy:</b> Framework de código abierto y colaborativo para extraer los datos que necesita de los sitios web. Es más eficiente que BeautifulSoup.

In [1]:
#Librerias Necesarias
import pandas as pd
import requests
import csv
from bs4 import BeautifulSoup

### Requests
La librería requests nos permite enviar solicitudes HTTP con Python.

Metodo GET:Cuando queramos obtener o descargar algún archivo html o imagen desde nuestro navegador.

Metodo POST:Envia información en forma de formulario, pasamos un diccionario al argumento data.

Cuando ejecutamos una solicitud GET o POST el servidor nos devuelve una respuesta (response).

In [2]:
# 200 significa que la página se descargó correctamente
import requests
response=requests.get("https://pokemondb.net/pokedex/all")
response.status_code

200

In [3]:
# 404  significa que la página no encontrada no existe esa url
import requests
response=requests.get("https://pokemondb.net/pokedex/all")
response.status_code

200

### BeautifulSoup 
Es una biblioteca de Python para extraer datos de archivos HTML y XML.

Si no tienes instalado la distribucion de Ananconda desde la consola cmd
```python 
pip install beautifulsoup4
```


Ver <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/"> Manual de  Beautifulsoup4</a>

In [4]:
html_doc = """
<html>
 <head>
    <title>Curso de Python</title>
 </head>
 <body>
  <p class = "title"> <b> Introduccion a Python </b> </p>
  <p class = "story"> Aprenderas 
    <a href="http://example.com/elsie" class="sister" id="link1"> Sintaxis de Python </a>,
    <a href="http://example.com/lacie" class="sister" id="link2"> WebScraping </a> y
    <a href="http://example.com/tillie" class="sister" id="link3"> Consumo de Apis Microservicios </a>;
 y vivían en el fondo de un pozo.
  </p>
 </body>
</html>"""

#### BeautifulSoup nos da un objeto, que representa el documento como una estructura de datos anidados

In [5]:
from bs4 import BeautifulSoup
# Analizador HTML incluido en la biblioteca estándar de Python, pero también admite varios analizadores Python de terceros
# 1 Html.parser de Python No tan rápido como lxml
soup = BeautifulSoup(html_doc, 'html.parser')
# 2 Analizador HTML de lxml Muy rapido
#soup = BeautifulSoup(html_doc, 'lxml')

In [6]:
# Extraer titulo del documento HTML
soup.title.text

'Curso de Python'

In [7]:
# Extraer parrafo documento HTML
soup.p.text

'  Introduccion a Python  '

In [8]:
# Extraer Parrafos del documento HTML
soup.find_all('p')

[<p class="title"> <b> Introduccion a Python </b> </p>,
 <p class="story"> Aprenderas 
     <a class="sister" href="http://example.com/elsie" id="link1"> Sintaxis de Python </a>,
     <a class="sister" href="http://example.com/lacie" id="link2"> WebScraping </a> y
     <a class="sister" href="http://example.com/tillie" id="link3"> Consumo de Apis Microservicios </a>;
  y vivían en el fondo de un pozo.
   </p>]

In [9]:
for p in soup.find_all('p'):
    print(p.text)

  Introduccion a Python  
 Aprenderas 
     Sintaxis de Python ,
     WebScraping  y
     Consumo de Apis Microservicios ;
 y vivían en el fondo de un pozo.
  


In [10]:
# Quitar espacios
soup.p.text.strip()

'Introduccion a Python'

In [11]:
# Extraer Enlace del documento HTML
soup.a

<a class="sister" href="http://example.com/elsie" id="link1"> Sintaxis de Python </a>

In [12]:
# Extraer Enlace atributos documento HTML
soup.a['href']

'http://example.com/elsie'

In [13]:
soup.a['class']

['sister']

In [14]:
soup.a['id']

'link1'

In [15]:
# find

soup.find(name=None, attrs={}, recursive=True, text=None)

* <b>name:</b> nombre del elemento html ejemplo: a,p,div,spa,etc.
* <b>attrs:</b> atributo del elemento seleccionado ejemplo class,id,etc.
* <b>recursive:</b> Si agregamos True puede repetirse o aplicarse indefinidamente la busqueda
* <b>text:</b>Busca una palabra o conjunto de palabras en el elemento

In [16]:
# Primera forma
elemento3 = soup.find(name="a", attrs={"id":"link3"}, text=None)

In [17]:
elemento3

<a class="sister" href="http://example.com/tillie" id="link3"> Consumo de Apis Microservicios </a>

In [18]:
# Segunda forma
elemento31 = soup.find("a", id="link3")

In [19]:
elemento31

<a class="sister" href="http://example.com/tillie" id="link3"> Consumo de Apis Microservicios </a>

### 3.1. Laboratorio

In [20]:
# 1 Solucion
res = requests.get("https://pokemondb.net/pokedex/all")
soup = BeautifulSoup(res.content,'lxml')
records = [] 
table = soup.find_all('table')[0]
#print(table)
for row in table.findAll("tr"):
    cells = row.findAll("td")
    numeroOrden=""
    nombre=""
    tipo=""
    for x in cells:
        numeroOrden = cells[0].text.strip()
        nombre = cells[1].text.strip()
        #print(nombre)
        tipo = cells[2].text.strip()
    #print(nombre)
    records.append((numeroOrden,nombre,tipo))	
df = pd.DataFrame(records)
df.head(5)
df.to_csv('pokemones-2019.csv', sep=';',index=False, encoding='utf-8',header=['N', 'Nombre','Tipo'])

In [21]:
# 2 Solucion
import pandas as pd
import requests
import csv
from bs4 import BeautifulSoup

res = requests.get("https://pokemondb.net/pokedex/all")
soup = BeautifulSoup(res.content,'lxml')
table = soup.find_all('table')[0] 
df2 = pd.read_html(str(table))[0]
df2.head(5)
#df.to_csv('pokemones-v2.csv', index=False, encoding='utf-8') 

Unnamed: 0,#,Name,Type,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed
0,1,Bulbasaur,Grass Poison,318,45,49,49,65,65,45
1,2,Ivysaur,Grass Poison,405,60,62,63,80,80,60
2,3,Venusaur,Grass Poison,525,80,82,83,100,100,80
3,3,Venusaur Mega Venusaur,Grass Poison,625,80,100,123,122,120,80
4,4,Charmander,Fire,309,39,52,43,60,50,65


### Xpath

Es un Lenguaje que puede navegar y extraer a todas partes dentro de un árbol DOM ('Modelo en Objetos para la Representación de Documentos') HTML.

La selección del nodo raíz de un documento con XPath es una de las expresiones XPath más cortas: "/" (una cadena con solo una barra diagonal).

El asterisco aquí, * , significa "cualquier elemento". Y /* significa "cualquier elemento debajo del nodo raíz". Los documentos HTML tienen solo un elemento como este: el elemento <html> .

Otro ejemplo: ¿cómo obtener elementos <title> ? Use /html/head/title :