# Web Scraping
https://es.wikipedia.org/wiki/Web_scraping

Es una técnica para descargar/enviar información automatizada a sitios web.

Por ejemplo:
* Si quisieramos descargar todo el catálogo de productos de Amazon.com, para tenre una base de datos, usaríamos Web Scraping para automatizar la descarga de esa información.
* Para conocer el sentir de la sociedad respecto a un tema, podemos descargar twits que hablen sobre un topic en específico. 
* Para armar una base de datos de los likes, y el número de comentarios de una publicación. 
* Para enviar una cantidad grande de formularios y capturar la respuesta. 

Bibliografía:
* https://www.amazon.com/-/es/Ryan-Mitchell/dp/1491985577
* https://coddyschool.com/upload/Web-Scraping-with-Python_proglib.pdf




## Objetivo de este notebok

#### En objetivo es demostrar y documentar todo lo que tenemos que hacer para poder en marcha un proyecto de web scraping. Como prueba de concepto trataremos de descargar información publica del sitio de HSBC

![image.png](attachment:image.png)

# Pasos a seguir (índice):

1. ### Necesitamos revisar que tenemos los requisitos de: python (tener Anaconda y jupyter notebooks)
2. ### Revisar que tenemos los módulos instalados: Selenium y BeautifulSoup. Probable: pyzipper
3. ### Revisar la versión de Chrome que tenemos instalada, y comparar contra la versión de driver (robot)
4. ### Visiar el sitio web objetivo y realizar la descarga del código HTML (Selenium)
5. ### Minar el texto de la página web para encontrar información reelevante (BeautifulSoup)

---

# 1. Requisitos de Python

Para poder ejecutar el código de web scraping, vamos a necesitar tener instalado Anaconda y Jupyter Notebooks
Nota: Es muy probable que por estar visualizando este documento, ya tengas jupyter notebooks


#### Para instalar anaconda: Puede soliticar el software desde ServiceNow. Al momento de creación de este documento la versión de Anaconda es 3.7.6 64Bits, que corresponde a Python 3.6

![image.png](attachment:image.png)

#### Códigos para verificar la versión de Anaconda y Python

In [9]:
!conda --version

conda 4.10.1


In [8]:
!python --version

Python 3.8.8


# 2. Módulos necesarios

Anaconda es una suite de software, modulos y herramientas en general para trabajar con python.

**DESAFORTUNADAMENTE** Anaconda no incluye los módulos que necesitamos para hacer web scraping.

Por esta razón lo que necesitamos es aprender a instalar modulos de manera offline...

### Cómo instalar módulos en Python?

La manera más sencilla es usando PIP. 
El proyecto de https://pypi.org/, es un repositorio donde viven los proyectos más importantes de Python. Es una comunidad científica muy grande y muy profesional que reune los mejores y más usados modulos (librerias) del lenguaje. Es seguro de usar, y muy cómod, tan solo debemos escribir:

**!pip install MODULO**

In [10]:
#!pip install selenium


### NOTA: Debido a las políticas de seguridad del Banco, es probable que no podamos instalar desde pip, debido a que supone descargar información directamente desde la web y además realizar instalaciones en el equipo. 

##### Tenemos la alternativa de instalar estos paquetes de manera "manual"


--- 

## Selenium
Selenium es el modulo que nos permite mandar instrucciones a nuestro Driver (robot). 

https://pypi.org/project/selenium/#files

![image.png](attachment:image.png)

## Beautiful Soup
Este nos permite extraer la información de un código HTML (Selenium controlará a nuestro robot para dirigirse al sitio web objetivo y extraer el código HTML, y BeautifulSoup utilizará ese código HTML para extraer la información reelevante).

https://pypi.org/project/beautifulsoup4/#files

![image-2.png](attachment:image-2.png)


# EXTRA: 
# pyzipper
Este módulo nos permite extraer archivos comprimidos en ZIP con contraseña. 

https://pypi.org/project/pyzipper/#files

![image-3.png](attachment:image-3.png)



In [11]:
# Códigos si te funciona pip
!pip install selenium
!pip install beautifulsoup4
!pip install pyzipper



In [13]:
# Cuando no nos funciona pip, podemos especificar la ruta de los modulos:
#!pip install RUTA_AL_ARCHIVO_WHL#

#### NOTA: Cuando bajamos los archivos locales, tratemos siempre de bajar los archivos .whl (wheel), estos son archivos ya compilados (pre-procesados), por esta razón son más ligeros. Los archivos .tar.gz son archivos que aún falta compilarlos (procesar), son más pesados y tarda más la instalación. 

Ya descargué los archivos .whl desde cada una de sus páginas, y los coloqué en la **misma** carpeta donde se encuentra este jupyter notebook (esto es, la ruta de trabajo). 

In [None]:
!pip install "beautifulsoup4-4.11.1-py3-none-any.whl"

In [15]:
!pip install "selenium-4.1.5-py3-none-any.whl"

Processing c:\users\manyv\documents\curso python mayo 2022\02 programación con python\selenium-4.1.5-py3-none-any.whl
selenium is already installed with the same version as the provided wheel. Use --force-reinstall to force an installation of the wheel.


In [14]:
!pip install "pyzipper-0.3.5-py2.py3-none-any.whl"

Processing c:\users\manyv\documents\curso python mayo 2022\02 programación con python\pyzipper-0.3.5-py2.py3-none-any.whl
pyzipper is already installed with the same version as the provided wheel. Use --force-reinstall to force an installation of the wheel.


# 3. Verificar la versión que tenemos de Google Chrome

#### Vamos a utilizar el Driver (Robot) de Google Chrome.
NOTA: Intentamos utilizar MS Edge, pero tuvimos un error que no pudimos solucionar, el error hacia mención de "usuario activo". Por esta razón tuvimos que usar Chrome.
Documentación sobre el robot de edge:
https://docs.microsoft.com/en-us/microsoft-edge/webdriver-chromium/?tabs=python

In [17]:
#LEGACY:
# from selenium import webdriver
# driver = webdriver.Edge()
# driver.get('https://bing.com')

### Verificar versión de Google Chrome

![image.png](attachment:image.png)

### Necesitamos anotar la versión que tenemos de google chrome, notar que al hacer esto se dispara la actualización del software. 

![image.png](attachment:image.png)

### Con esta información, nos vamos a buscar el Driver(Robot) correspondiente:

https://chromedriver.chromium.org/downloads

![image.png](attachment:image.png)

### En el momento de realizar este documento, la versión correspondiente es 101.0.4951.41

![image.png](attachment:image.png)

In [6]:
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://www.sopitas.com")


In [2]:
driver.close()