# Entregable 1
### Técnicas de Recogida de Datos - Joaquín Joana Azuara - Máster Big Data Science, Universidad de Navarra

LinkedIn: https://www.linkedin.com/in/joaqu%C3%ADn-joana-azuara-92911a21b/

## Índice ##

1. ¿Qué es el web scraping?

2. BeautifulSoup

3. Selenium

4. Funciones Implementadas

5. Problemas Encontrados en la realización de la práctica

## ¿Qué es el web scraping?
Web scraping es una técnica utilizada mediante programas de software que permite extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web.

Existen distintos niveles de automatización que podemos aplicar a la hora de hacer Web Scraping. En este caso, se utilizarán librerías disponibles en internet para personalizar soluciones de Web Scraping. Estas librerías permitirán reconocer automáticamente la estructura de las páginas web que queremos analizar pudiendo seleccionar los campos que son de interés dentro del documento.

Las librerías utilizadas en este proyecto han sido:
- Selenium
- BeautifulSoup

## Selenium
Selenium es una librería que permite automatizar la navegación de páginas web mediante navegadores. Está principalmente enfocado al testeo de aplicaciones web aunque también permite desarrollar flujos de trabajo como es el caso de las técnicas de scraping.

### Requisitos para utilizar Selenium
- NAVEGADOR WEB
Selenium necesita un navegador web instalado en el sistema para poder funcionar. Dentro de las opciones disponibles están Chrome, Firefox, Edge, Internet Explorer y Safari. **En el caso de este proyecto se va a utilizar Chrome**.

- DRIVER
Además de esto, también es necesario disponer un **webdriver** que permita manejar el navegador (a modo de marioneta). Cada navegador tiene asociado un tipo de «driver». **El único propósito del ChromeDriver es lanzar e interactuar con Google Chrome**. Sin usar ChromeDriver, no es posible ejecutar pruebas de Selenium en el navegador Chrome. Es por ello que es uno de los prerrequisitos vitales a la hora de hacer scraping mediante Chrome

- CONFIGURACIÓN DEL DRIVER
El driver es el manejador de las peticiones del usuario. Se trata del objeto fundamental en Selenium que nos permitirá interactuar con el navegador y los sitios web.

- INICIALIZACIÓN DEL DRIVER
Para inicializar el «driver», en su versión más simple, usaremos el siguiente código:
> path_chromedriver = "C:/........./chromedriver.exe"\
> s = Service(path_chromedriver)\
> chrome_options = webdriver.ChromeOptions()\
> chrome_options.add_argument("--incognito")\
> browser = webdriver.Chrome(service=s, options=chrome_options)

### Consideraciones generales al utilizar esta librería
Al realizar cualquier solicitud de información mediante selenium, se procederá de la siguiente forma:
1. Se pasará como parámetro la URL del sitio web deseado.
> browser = webdriver.Chrome(service=s, options=chrome_options)\
> wait = WebDriverWait(browser, 10)\
> browser.get("https://stackoverflow.com/")
2. Se implementará un bloque Try/Except para manejar una situación de **tiempo de espera** o **elemento no localizado** en caso de que ocurra.
> try:
- wait.until(ec.visibility_of_element_located((By.CSS_SELECTOR, "etiqueta[atributo=[xxx]")))
- elemento = browser.find_element(By.CSS_SELECTOR, "etiqueta[atributo=[xxx]")
- elemento.click()
> except (NoSuchElementException, TimeoutException) as ex:
- browser.quit()
3. Los **tiempos de espera** desde el momento de carga de una página web y el inicio de busqueda de la información dentro de ella se ha realizado (casí siempre), mediante lo que Selenium denomina **Espera explícita**, es decir, ya que el tiempo de espera necesario en cargar una página web es variable, se han definido ciertas condiciones hasta el inicio de la busqueda de la información. Solo después de que se cumpla esta condición, se inicia la búsqueda de esta, evitándose así que se produzca una excepción de tipo "elemento no encontrado":
- wait.until(ec.visibility_of_element_located((By.CSS_SELECTOR, "etiqueta[atributo=[xxx]")))
- elemento = browser.find_element(By.CSS_SELECTOR, "etiqueta[atributo=[xxx]")

## BeautifulSoup

Beautiful Soup es una librería sencilla de utilizar. La librería **BeautifulSoup** es ampliamente utilizada en técnicas de**scraping** permitiendo **parsear** principalmente código HTML.

A partir de aquí lo único que hay que hacer es ir buscando los elementos que deseamos... 

Para empezar a trabajar con BeautifulSoup es necesario construir un objeto de tipo BeautifulSoup que reciba el documento que queremos parsear:

> from bs4 import BeautifulSoup\
> url = '''\
> soup = BeautifulSoup(url, features='html.parser')

A partir de aquí se pueden realizar muchas funciones relacionadas con el escrapeo de código HTML:
- Localizar elementos
- Acceder al contenido de un elemento
- Navegar por el DOM del documento
- Información adicional en: <https://aprendepython.es/pypi/scraping/beautifulsoup/>

> El primer paso para el proyecto ha sido importar el conjunto de las librerías necesarias. No solo las utilizadas para realizar el scraping, si no también las requeridas para el manejo de datos, tiempo, excepciones, etc.

In [7]:
import traceback
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.keys import Keys


from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.common.by import By


import logging
logger = logging.getLogger()

# Excepciones controladas en este programa.
from selenium.common.exceptions import (
    ElementNotSelectableException, ElementNotVisibleException, NoSuchElementException,
    TimeoutException, WebDriverException, WebDriverException)

# Librerías varias
import time
import os
import requests

# Librerías para manejo de datos
import pandas as pd
import numpy as np
import random
import re
import csv

## Funciones implementadas:
Se han utilizado funciones a la hora de implementar la funcionalidad requerida para el programa.
- def login()
- def accept_cookies_stackoverflow()
- def acceso_cuenta()
- def get_SOS_help(command)

> Aspectos generales de la implementación: Todas las funciones están protegidas mediante bloque **try - except**, de tal forma que cualquier excepción/error que se produzca durante la ejecución de su código pueda ser capturado para darle el tratamiento que se consideré más adecuado en cada caso.

## Función login()

Función que permite seleccionar y realizar click en el botón superior derecho de la página de inicio de https://stackoverflow.com  que da acceso a la ventana de log in.

Las únicas excepciones/errores que pueden ocurrir durante la ejecución de las líneas de código que hay dentro del bloque try son:
> NoSuchElementException\
> TimeoutException

En caso de que se produzca alguna excepción distinta de estas, el programa cerrará ("morirá") cerrando el navegador.

In [8]:
def login():
    try:
        wait.until(ec.visibility_of_element_located((By.CSS_SELECTOR, "nav[class='h100 ml-auto overflow-x-auto pr12']")))
        login_button = browser.find_element(By.CSS_SELECTOR, "a[data-gps-track='login.click']")
        login_button.click()
    except (NoSuchElementException, TimeoutException) as ex:
        print("Excepción al hacer login stack overflow: ", type(ex))
        browser.quit()

## Función accept_cookies_stackoverflow()

Esta segunda función permite saltar la ventana emergente de cookies que muestra el navegador al intentar acceder a la página web. La implementación realizada es similar a la de login().

In [9]:
def accept_cookies_stackoverflow():
    try:
        wait.until(ec.visibility_of_element_located((By.CSS_SELECTOR,
                                                     "button[class='flex--item s-btn s-btn__primary js-accept-cookies js-consent-banner-hide']")))
        cookies_button = browser.find_element(By.CSS_SELECTOR,
                                              "button[class='flex--item s-btn s-btn__primary js-accept-cookies js-consent-banner-hide']")
        cookies_button.click()
    except (NoSuchElementException, TimeoutException, ElementNotVisibleException) as ex:
        print("Excepción al aceptar cookies de stack overflow: ", type(ex))
        browser.quit()

## Función acceso_cuenta()

Esta función sirve para que una vez después de haber pasado por login y haber aceptado las cookis, nos lleve a esta parte de la web (https://stackoverflow.com/users/login?ssrc=head&returnurl=https%3a%2f%2fstackoverflow.com%2f) donde se solicita que se introduzca el email o usuario y la contraseña o password. Se pide esto para poder acceder a nuestra cuenta de Sack overflow, la cual se habrá creado antes de ejecutar este programa.

Esta función requiere que se establezcan el usuario y la password que se dispone en Stack overflow (**en caso contrario, el programa falla**).

In [10]:
def acceso_cuenta():
    try:
        wait.until(ec.visibility_of_element_located((By.CSS_SELECTOR, "input[id='email']")))
        username = browser.find_element(By.CSS_SELECTOR, "input[id='email']")
        wait.until(ec.visibility_of_element_located((By.CSS_SELECTOR, "input[id='password']")))
        password = browser.find_element(By.CSS_SELECTOR, "input[id='password']")
        username.clear()
        password.clear()
        username.send_keys(usuario)
        password.send_keys(clave)
        wait.until(ec.visibility_of_element_located((By.CSS_SELECTOR, "button[id='submit-button']")))
        login_button = browser.find_element(By.CSS_SELECTOR, "button[id='submit-button']")
        login_button.click()
    except (NoSuchElementException, TimeoutException, ElementNotVisibleException) as ex:
        print("Excepción al intentar acceder a mi cuenta de stack overflow: ", type(ex))
        browser.quit()

## Función get_SOS_help(command)

Por último se implementa la función "clave" de este programa.

### Parámetros requeridos: "command"
La buit-in función de Python **exec()** permite ejecutar código Python arbitrario desde una cadena o entrada de código compilado. La función exec() puede ser útil cuando se necesita ejecutar código Python generado dinámicamente.

La función **exec()** toma un fragmento de código y lo ejecuta como lo haría su intérprete de Python. exec() puede ejecutar secuencias de instrucciones, así como importaciones, llamadas y definiciones de funciones, así como instancias de clases, y más. Esencialmente, exec() puede ejecutar un programa Python completo con todas las funciones.

En caso de que se produzca una excepción al ejecutar el programa "command", se entrará en el except y mediante el uso de la librería selenium se realizará la busqueda de la solución más votada a ese problema en la web de Stack overflow.

In [11]:
def get_SOS_help(command):
    try:
        exec(command)
    except Exception as e:
        time.sleep(2)
        box_error = browser.find_element(By.CSS_SELECTOR, "input[role='combobox']")
        box_error.send_keys(str(e))
        box_error.send_keys(Keys.RETURN)
        time.sleep(2)
        more_button = browser.find_element(By.CSS_SELECTOR,
                                 "button[class='s-btn s-btn__muted s-btn__outlined s-btn__dropdown blr0 brr-sm js-dropdown-toggle']")
        more_button.click()
        time.sleep(2)
        score_button = browser.find_element(By.CSS_SELECTOR, "a[title='Highest scored search results']")
        score_button.click()

        time.sleep(3)
        lista_soluciones = browser.find_elements(By.CSS_SELECTOR, "a[href]")
        solucion_seleccionada = lista_soluciones[55]
        solucion_seleccionada.send_keys(Keys.RETURN)

        #obtener
        lista_html = browser.find_elements(By.CSS_SELECTOR, "div[class='s-prose js-post-body']")
        soup = BeautifulSoup(str(lista_html[1].text), 'html.parser')
        print(soup)

#### El código siguiente pone en ejecución el programa haciendo uso de todas las funciones anteriormente explicadas.

In [12]:
# Inicio del programa
# Inicialización variables del programa
path_chromedriver = "C:/Users/XXXXXXXXXXXXX/chromedriver.exe"
usuario = "XXXXX@gmail.com"
clave = "XXXXXX"

# Crear una instancia del navegador en modo incognito
s = Service(path_chromedriver)
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--incognito")
browser = webdriver.Chrome(service=s, options=chrome_options)
wait = WebDriverWait(browser, 10)

In [13]:
# Abro Stack Overflow
browser.get("https://stackoverflow.com/")
login()
accept_cookies_stackoverflow()
actual_site = acceso_cuenta()

In [14]:
mycode='''
product = {"item": "iPhone","price": 1599,"qty_available": 40}
print("We have total " + product["qty_available"] + " quantities of Product " + product["item"])
'''

get_SOS_help(mycode)

time.sleep(100)

Python working a bit differently to JavaScript for example, the value you are concatenating needs to be same type, both int or str...
So for example the code below throw an error:
print( "Alireza" + 1980)
like this:
Traceback (most recent call last):
  File "<pyshell#12>", line 1, in <module>
    print( "Alireza" + 1980)
TypeError: can only concatenate str (not "int") to str
To solve the issue, just add str to your number or value like:
print( "Alireza" + str(1980))
And the result as:
Alireza1980</module></pyshell#12>


# Problemas Econtrados en la realización de la práctica
Siempre que empiezo a trabajar en un nuevo proyecto (en este caso scraping de páginas web) surge la duda de cuál es la técnica más apropiada para afrontar el trabajo. En este caso, el profesor nos ha dado ideas bastante precisas sobre las técnicas y librerías más apropiadas para realizar la práctica.

No obstante, saber las librerías más adecuadas para realizar el trabajo no resuelve el problema. Es necesario conocer las característivas de esa librería antes de poder utilizarla.

## Problemas encontrados programando con la librería Selenium
Selenium permite probar y registrar las interacciones con una aplicación web y luego repetirlas las veces que se desee, de forma completamente automática. El componente de Selenium que he utilizado para realizar el scraping ha sido **Selenium WebDriver** que es una API simple que permite simular las interacciones del usuario con cualquier navegador, ya sea Firefox, Chrome, Edge, Safari o Internet Explorer. Desde 2018, la API es un estándar W3C oficial.

Me costó un tiempo entender la arquitectura de una aplicación con Selenium hasta que me di cuenta de que era necesario descargar e instalar el controlador del navegador al que quiero conectar Selenium (decidí utilizar Chrome por lo que tuve que descargarme el driver adecuado: 'chromedriver.exe')

A partir de ahí, con los ejemplos que encontré en internet, pude automatizar las interacciones con el navegador Chrome mediante clases y funciones de Selenium, en concreto observé que la secuencia estándar consiste en:
- Crear una instancia de Chrome que posteriormente controlaré mediante comandos de Selenium
- Cargar la página de inicio de 'Stackoverflow' que sirve de base para las interacciones automatizadas (posteriormente iré navegando por distintas páginas)
- Buscar los elementos con los que quiera interactuar en cada página

> Este último punto me creó grandes problemas y me supuso mucho tiempo. Fue complicado descubrir el motivo de los errores que se producián en el programa a la hora de buscar la información que debía estar en el archivo html con el que estaba trabajando.

Cuando una página es cargada por el navegador, los elementos con los que queremos interactuar pueden cargarse a intervalos de tiempo diferentes. Esto no sólo provoca que sea difícil identificar el elemento, sino también, en el caso de que el elemento no esté situado, se producirá una excepción de tipo **'NoSuchElementException'**, **ElementNotVisibleException** y **'TimeoutException'** si la página no se carga dentro de un tiempo específico. Usando las esperas, pude resolver este problema.

En Selenium hay dos tipos de esperas.
- Implicit Wait: se utiliza para establecer el tiempo de espera predeterminado en todo el programa.
- Explicit Wait: se utiliza para establecer el tiempo de espera para solo una instancia en particular.

En resumen, Implicit Wait obliga a que el programa espere un tiempo sin que deba cumplirse condición alguna. Explicit Wait supondrá que el programa realice un tiempo de espera dependiendo de la condición que se establezca.

He utilizado 'Implicit Wait' para que el WebDriver espere un tiempo antes de que lance una excepción de tipo **'NoSuchElementException'**. Configurado el tiempo, el WebDriver esperará ese tiempo antes de lanzar una excepción.

He utilizado 'Explicit Wait' para que el WebDriver espere ciertas condiciones (Expected Conditions) o el tiempo máximo excedido antes de lanzar una excepción **'ElementNotVisibleException'**.

He podido comprobar que la librería Selenium WebDriver: no es muy útil para hacer scraping en algunas circunstancias:
- **Captchas**: que se desarrollaron especialmente para proteger de los bots y el spam, por lo que no están disponibles para procesos de automatización con Selenium.
- **Códigos de respuesta HTTP**: Selenium tiene problemas para tratar con códigos de estado HTTP. (Parece que se pueden compensar estas desventajas usando un proxy adicional si es necesario).
- **Iniciar sesión en los servicios de terceros**: tanto si se trata de una plataforma de redes sociales, como un servicio en la nube o una cuenta de correo electrónico, no es recomendable iniciar sesión en los servicios de terceros a través de una sesión de Selenium. Dos son los motivos:
-    Los proveedores de esos servicios proporcionan sus propias API con fines de prueba
-    Las pruebas con el marco de trabajo en esos casos pueden ser muy laboriosas