# 2 - Scraping


* El ***Web Scraping*** (o Scraping) son un conjunto de técnicas que se utilizan para ***obtener de forma automática el contenido que hay en páginas web*** a través de su código HTML.


* El uso de estas técnicas tienen como finalidad ***recopilar grandes cantidades de datos de diferentes páginas web*** (se puede enmarcar dentro del Big Data) cuyo uso posterior puede ser muy variado: homogenización de datos, tratamiento de contenido para la extracción de conocimiento, etc.


* Existen múltiples librerías en diferentes lenguajes para abordar el ***Scraping***. En Python una de las ***librerías*** más utilizadas es ***“BeautifulSoup”*** para abordar este tipo de tareas y la librería ***“request”*** para las peticiones http.


###### ***NOTA***: En el fichero README.md se indica como instalar las librerías "BeautifulSoup" y "request", así como el resto de librerías necesarias para seguir este curso.

<hr> 


## Ejemplo de Scraping a la web de Jarroba.com


* A continuación se muestra un ejemplo de como "scrapear" datos de la web de https://jarroba.com/.


* Para realizar Scraping tenemos que entender en primer lugar cual es la estructura de la web ("divs", "spans", "tables", etc.).


* En este ejemplo vamos a obtener de esta página web información relativa a los Post que publica, obteniendo de la página principal los siguentes datos de cada post:

    1. Nombre del Post
    2. Autor
    3. Fecha de publicación
    
    
* A continuación mostramos la estructura de esta página web:


<img src="./imgs/02_01_scraping.png" style="width: 800px;"/>


* Podemos observar que:
    - Cada Post de la página principal se encuentra metido en una etiqueta '*div*' con identificador '*col-md-4 col-xs-12*'
    - Dentro de cada Post podemos encontar la información relativa al título, autor y fecha dentro de las etiquetas span con los siguientes identificadores:
        + título: tituloPost
        + autor: autor
        + fecha: fecha
        
        
### Proceso para scrapear los datos


1. Hacer una petición http a la página web a "scrapear" y ver si esta accesible sin problemas (nos tiene que devolver un status code de 200). En caso de que no sea accesible no procedemos al Scraping.


2. Obtenemos todo el código HTML y lo pasamos a un objeto "*BeautifulSoup*". Esta clase ya se encargará de parsear este HTML a partir de sus etiquetas e identificadores.


3. Creamos una lista que contenga en cada posición el HTML de cada unos de los Post (los "divs" con identificador *col-md-4 col-xs-12*'.


4. Por cada uno de los "divs" de cada entrada, obtenemos el título del post, nombre del autor y fecha a partir de los identificadores antes descritos de las etiquetas "spans".


* El código quedaría de la siguente manera:

In [1]:
from bs4 import BeautifulSoup
import requests

URL = "http://jarroba.com/"

# Realizamos la petición a la web
req = requests.get(URL)

# Comprobamos que la petición nos devuelve un Status Code = 200
status_code = req.status_code
if status_code == 200:

    # Pasamos el contenido HTML de la web a un objeto BeautifulSoup()
    html = BeautifulSoup(req.text, "html.parser")

    # Obtenemos todos los divs donde están las entradas
    entradas = html.find_all('div', {'class': 'col-md-4 col-xs-12'})

    # Recorremos todas las entradas para extraer el título, autor y fecha
    for i, entrada in enumerate(entradas):
        
        # Con el método "getText()" no nos devuelve el HTML
        titulo = entrada.find('span', {'class': 'tituloPost'}).getText()
        
        # Sino llamamos al método "getText()" nos devuelve también el HTML
        autor = entrada.find('span', {'class': 'autor'})
        
        fecha = entrada.find('span', {'class': 'fecha'}).getText()

        # Imprimo el Título, Autor y Fecha de las entradas
        print('{id} - {titulo} - {autor} - {fecha}\n'
              .format(id=i+1, titulo=titulo, autor=autor, fecha=fecha))

else:
    print('Status Code {status_code}'.format(status_code=status_code))

1 - Pipenv: gestor de entornos virtuales de Python - <span class="autor">Por: Ramón	Invarato</span> - 18-Sep-2020

2 - Entornos virtuales de Python: común y Anaconda - <span class="autor">Por: Ramón	Invarato</span> - 17-Sep-2020

3 - Entornos de Python: común y Anaconda (base) - <span class="autor">Por: Ramón	Invarato</span> - 14-Sep-2020

4 - Curso de Python - <span class="autor">Por: Ramón	Invarato</span> - 22-Jul-2020

5 - Curso de Python – 0. Entorno de desarrollo para Python - <span class="autor">Por: Ramón	Invarato</span> - 22-Jul-2020

6 - Curso de Python – 1. Introducción - <span class="autor">Por: Ramón	Invarato</span> - 17-Jul-2020

7 - Curso de Python – 2. Tipos básicos de datos - <span class="autor">Por: Ramón	Invarato</span> - 17-Jul-2020

8 - Curso de Python – 3. Colecciones - <span class="autor">Por: Ramón	Invarato</span> - 17-Jul-2020

9 - Curso de Python – 4. Estructuras de control de flujo - <span class="autor">Por: Ramón	Invarato</span> - 17-Jul-2020



* En la siguiente imagen podemos ver las relación entre el HTML y el código escrito:


<img src="./imgs/02_02_scraping.png" style="width: 1000px;"/>


<hr>


### Scraping de todos los Posts de la web


* De la misma manera que podemos "scrapear" un HTML, podemos "scrapear" todos los HTMLs que queramos.


* Por tanto de la web de https://jarroba.com/ podemos obtener todos los post, ya que estos los divide en páginas
    - https://jarroba.com/page/2/
    - https://jarroba.com/page/3/
    - ...
    - https://jarroba.com/page/N/


* Haciendo una petición a cada una de las páginas (siempre que esta exista) podemos obtener la misma información que en el ejemplo anterior:



In [2]:
from bs4 import BeautifulSoup
import requests

URL_BASE = "http://jarroba.com/"
MAX_PAGES = 40
counter = 0

for i in range(1, MAX_PAGES):

    # Construyo la URL
    if i > 1:
        url = "%spage/%d/" % (URL_BASE, i)
    else:
        url = URL_BASE

    # Realizamos la petición a la web
    req = requests.get(url)
    # Comprobamos que la petición nos devuelve un Status Code = 200
    statusCode = req.status_code
    if statusCode == 200:

        # Pasamos el contenido HTML de la web a un objeto BeautifulSoup()
        html = BeautifulSoup(req.text, "html.parser")

        # Obtenemos todos los divs donde estan las entradas
        entradas = html.find_all('div', {'class': 'col-md-4 col-xs-12'})

        # Recorremos todas las entradas para extraer el título, autor y fecha
        for entrada in entradas:
            counter += 1
            titulo = entrada.find('span', {'class': 'tituloPost'}).getText()
            autor = entrada.find('span', {'class': 'autor'}).getText()
            fecha = entrada.find('span', {'class': 'fecha'}).getText()

            # Imprimo el Título, Autor y Fecha de las entradas
            print('{id} - {titulo} - {autor} - {fecha}\n'
              .format(id=counter, titulo=titulo, autor=autor, fecha=fecha))

    else:
        # Si ya no existe la página y me da un 400
        break


1 - Pipenv: gestor de entornos virtuales de Python - Por: Ramón	Invarato - 18-Sep-2020

2 - Entornos virtuales de Python: común y Anaconda - Por: Ramón	Invarato - 17-Sep-2020

3 - Entornos de Python: común y Anaconda (base) - Por: Ramón	Invarato - 14-Sep-2020

4 - Curso de Python - Por: Ramón	Invarato - 22-Jul-2020

5 - Curso de Python – 0. Entorno de desarrollo para Python - Por: Ramón	Invarato - 22-Jul-2020

6 - Curso de Python – 1. Introducción - Por: Ramón	Invarato - 17-Jul-2020

7 - Curso de Python – 2. Tipos básicos de datos - Por: Ramón	Invarato - 17-Jul-2020

8 - Curso de Python – 3. Colecciones - Por: Ramón	Invarato - 17-Jul-2020

9 - Curso de Python – 4. Estructuras de control de flujo - Por: Ramón	Invarato - 17-Jul-2020

10 - Curso de Python – 5. Funciones - Por: Ramón	Invarato - 17-Jul-2020

11 - Curso de Python – 6. Bibliotecas/Paquetes - Por: Ramón	Invarato - 17-Jul-2020

12 - Curso de Python – 7. Excepciones - Por: Ramón	Invarato - 17-Jul-2020

13 - Curso de Python – 8. 

100 - ¿Que es la innovación? Parte III (Tipos de innovación) - Por: Ricardo	Moya - 09-Ene-2014

101 - ¿Qué es la innovación? Parte II (Modelo Social de Adopción de Tecnologías) - Por: Ricardo	Moya - 05-Ene-2014

102 - ¿Qué es la innovación? Parte I (Conceptos y Ejemplos) - Por: Ricardo	Moya - 02-Ene-2014

103 - Error Android – Eclipse no muestra los botones de Android después de instalar el ADT y el SDK - Por: Ramón	Invarato - 30-Dic-2013

104 - AJAX con JSP y Servelts - Por: Ricardo	Moya - 21-Dic-2013

105 - Ordenar un ArrayList en Java - Por: Ricardo	Moya - 26-Nov-2013

106 - Auto Layout iOS 7 (Video) - Por: Ricardo	Moya - 20-Nov-2013

107 - ListView de Android en pocas líneas - Por: Ramón	Invarato - 02-Nov-2013

108 - Context de Android - Por: Ramón	Invarato - 27-Oct-2013

109 - Modo Debug en Eclipse para Java – (Video) - Por: Ricardo	Moya - 20-Oct-2013

110 - AsyncTask en Android - Por: Ramón	Invarato - 30-Sep-2013

111 - Multitarea en Android - Por: Ramón	Invarato - 26-Sep-2013

1

190 - Error Android – Eclipse lanza un error que no existe por ningún lado - Por: Ramón	Invarato - 12-Dic-2011

191 - Error Android – El log no muestra nada - Por: Ramón	Invarato - 12-Dic-2011

192 - Error Android – Aplicación no especifica el nivel de la API - Por: Ramón	Invarato - 12-Dic-2011



<hr>


# Bonus Track - Scraping Anónimo
 

* Uno de los problemas que tiene el Scraping (si se hace de forma masiva) es que las webs suelen tener un sistema de protección para que desde una misma IP no se hagan más de 'N' peticiones por unidad de tiempo; por ejemplo, más de 200 peticiones por minúto desde una misma IP.


* Para resolver estos problemas lo que se suele hacer es contratar un servicio de "proxis" para que te ofrezca diferentes IPs para hacer peticiones. Este tipo de servicio suele ser muy caro si se quiere hacer bien.


* Otra opción es hacer Scraping por medio de la red TOR. Hacer Scraping de esta manera ya es algo más complejo debido a que hay que gestionar conexiones, configurar un servicio proxy, etc.


* Si se quiere profuncizar en este tema se mustran a continuación dos enlaces de interes en los que se explican "*Cómo configurar un servidor proxy para realizar scraping de forma anónima por medio de la red TOR*"

    - https://jarroba.com/scraping-anonimo-la-red-tor/
    - https://github.com/RicardoMoya/Scraping_Proxy_Tor
    

<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">
    