# WEB SCRAPING WITH PYTHON

## 1. ACERCA DEL WEB SCRAPING

En términos simples, el web scraping se basa en <b>extracción de información contenida dentro de la estructura HTML de una página web</b>

<img src='./img/web_scrapy_intro.png'>

Si quisiéramos conocer a un modo más detallado lo que se realiza para la extracción de datos web, esta se muestra a través de la figura donde se muestra el árbol de estructura HTML que es el que se debe recorrer para la obtención de la data requerida.

<img src="./img/web_scrapy.png">

<b>Los usos que se le pueda dar a los datos extraidos son diversos y dependera de lo que querramos realizar con ellos. </b>
Un caso práctico pudiera ser la extracción de datos de la siguiente página: http://books.toscrape.com/

### ATENCIÓN

<b>El web scraping pudiera ir en contra de los términos de uso de algunos sitios webs</b>. El cumplimiento de estos términos no está totalmente claro y dependerá mucho del propósito que se le quiera dar a los datos extraidos.
Es por ello que <b>debemos ser cuidadosos al momento de realizarlo.</b>

- Una de las principales medidas que se puede revisar para evitar tener problemas en el futuro, será el de revisar los <b> terminos de privacidad y uso de la página web<b> . 
- Además de ello, diversas páginas web poseen el sitio <a href="https://www.sciencedirect.com/" ><b> ROBOTS.TXT</b> </a> contenida en la página donde se especifica los sitios que no deben ser scrapeados.

## 2. POR QUÉ WEB SCRAPING?

Principales motivos por los que realizar web scraping
- **Empresas**:
    - Comparación de precios respecto a la competencia
    - Generación de clientes potenciales
    - Buscar satisfacción del cliente
    - etc.
  
- **Personales**:
    - Scrapeo de contenido en redes sociales para obtener información de esta
    - Scrapeo de páginas de contenido deportivo para clasificarlo
    - etc.

## 3. QUÉ HERRAMIENTAS UTILIZAREMOS PARA EL WEB SCRAPING?

Existen múltiples herramientas para realizar web scraping usando python, entre las principales herramientas tenemos:
- <a href="https://requests.kennethreitz.org/en/master/" >Requests</a>
- <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>
- **Selenium**
- **Scrapy**
- entre otros


### <a href="https://selenium-python.readthedocs.io/" >3.1 ACERCA DE SELENIUM ...</a> 

Selenium es una <b>herramientas de testeo para el desarrollo de páginas web</b>. La cual es muy útil para estos fines ya que permite:
- Automatización web.
- Selección de campos mediante nombres ID, XPATH, etc.
- Entre otros

Selenium trabaja con diversos navegadores, tambien conocidos como navegadores sin cabecera como <a href="https://chromedriver.chromium.org/">google chrome</a> y <a href="https://github.com/mozilla/geckodriver">firefox.</a>

El uso de selenium es muy simple y puede servir como un buen punto de partida para el desarrollo de extractores web.

##### EJEMPLO BÁSICO USANDO SELENIUM

In [4]:
from selenium import webdriver

In [5]:
driver = webdriver.Chrome("./drivers/chromedriver.exe")

In [6]:
url="https://chromedriver.chromium.org/"
driver.get(url)

In [4]:
driver.quit()

### <a href="https://docs.scrapy.org/en/latest/" >3.2 ACERCA DE SCRAPY ...</a> 

Scrapy es un <b>marco rápido de rastreo y raspado web de alto nivel</b>, utilizado para rastrear sitios web y extraer datos estructurados de sus páginas. Su uso es amplio los cuales van desde la minería de datos hasta el monitoreo y desarrollo de pruebas web automatizadas.

  <img src=https://pluralsight.imgix.net/course-images/scrapy-extracting-structured-data-v1.png width="900" height="700">

La curva de aprendizaje de scrapy en un inicio pudiera ser mucho mayor a la de selenium dado que scrapy posee multiples funcionalidades pero este es fuerzo es recompensado con la gran rápides en la recuperación de los datos web. 

#### SCRAPY VS OTRAS LIBRERIAS

<img src="http://1.bp.blogspot.com/-TYAOULT1ui8/VqwuQMt5H7I/AAAAAAAABpE/QufEvDbBTmY/s1600/DraggedImage-1.png" width="700" height="500">

## 4. EL LENGUAJE HTLM

Explicación de los fundamentos del Lenguaje de marcado de hipertexto. HTML significa lenguaje de marcado de hipertexto, y le permite al usuario crear y estructurar secciones, párrafos, encabezados, enlaces y elementos de cita en bloque (blockquotes) para páginas web y aplicaciones

<img src='./img/html_model.PNG' alt="Example" width="500" height="700">

#### Ejemplo

[pagina HTML](./src/html.html)

## 4.1. [ETIQUETAS](https://www.w3schools.com/TAGS/default.ASP) HTML

Existen varias etiquetas HTML las cuales tiene un proposito en específico:

Algunas de estas etiquetas son:
- Títulos: <code>h1, h2, h3, h4, h5, h6</code>
- Listas: <code>ol, ul</code>
- Imagenes: <code>img</code>
- Links: <code>a</code>
- Tablas: <code>table</code>
- Formularios: <code>form</code>
- etc

#### Ejemplo

## 5. CSS

El lenguaje CSS es un lenguaje que determina el estilo de los documentos HTML. Abarca opciones relativas a fuentes, colores, márgenes, líneas, altura, anchura, imágenes de fondo, entre otros. En la actualidad es posible utilizar lenguaje HTML para desarrollar el formato de páginas web.


<img src='./img/css.PNG' alt="css" width="500" height="700">

#### Ejemplo

[pagina con CCS](./src/css.html)

## 5. NUESTRO PRIMER PROGRAMA USANDO SCRAPY

Para el desarrollo del siguiente programa extractor web haremos uso de scrapy donde se darán algunos detalles adicionales sobre el entorno scrapy y su uso.

La página a utilizar como primer punto será la siguientes: http://quotes.toscrape.com/

# REFERENCIAS

In [None]:
conda install nb_conda_kernels

# MANUALES

- [Cambiar kernel Jupyter](https://medium.com/@nrk25693/how-to-add-your-conda-environment-to-your-jupyter-notebook-in-just-4-steps-abeab8b8d084)
- [Entornos virtuales python anaconda](https://www.devacademy.es/entornos-virtuales-en-python-anaconda)
- [Instalacion pip anaconda](https://stackoverflow.com/questions/41060382/using-pip-to-install-packages-to-anaconda-environment)