![MBITSchool](https://i.imgur.com/UiDMkO3.png)

### Proyecto de Consolidación APIs y Web Scraping

##### Alejandro Paredero - paredero@mbitschool.com

**El proyecto de consolidación de Web Scraping, API REST y Streamlit pretende que de forma autónoma combinemos proyectos de captura, procesamiento de datos y visualización basados en un sistema o entre dos o más distintos.**

Aquí la creatividad es muy importante ✔️. Una vez resuelto los retos propuestos siéntete libre de extenderlos con características adicionales.

⚠️ **ATENCIÓN**: <u>Ten a mano las presentaciones y los cuadernos resueltos de las sesiones anteriores, te serán de gran ayuda.</u>

**Los ejercicios EXTRA son opcionales**. Si dais vuestro consentimiento tras la fecha de cierre, podré hacer publicaciones con capturas de pantalla en redes como LinkedIn con objeto de promocionaros.

Para dudas tenéis un foro en el campus o mi correo electrónico 📧 paredero@mbitschool.com

**Datos del alumno:**

- **Nombre:** `Daniel Herraiz Tello`
- **Consentimiento sobre ejercicios EXTRA:** Si realizas el ejercicio, ¿permites que pueda publicar el contenido en foto/vídeo si el resultado es relevante? `SI`
- **Comentario:** Tras realizar los diferentes retos, ¿qué te han parecido? ¿qué problemas has encontrado?

```
Escribe tu comentario aquí
```

### Reto 1 - BeautifulSoup y Streamlit: Capturar estadísticas de equipos de hockey

Vista la web https://www.scrapethissite.com/pages/forms/. Examina como se comporta la URL con la paginación.  El objetivo es capturar la información de las primeras 10 páginas y crear una aplicación sencilla en Streamlit que permita mostrar la información de las columnas "Team name", "Year", "Win", "Loses" y "+/-"

##### Ejercicio:
* Captura el los términos listados anteriormente:  "Team name", "Year", "Win", "Loses" y "+/-" , de al menos las primeras 8 páginas.
* Almacena el resultado en un **dataframe** de Steramlit.
* Implementa el cacheo de contenido de las URL (Revisa la presentación) para evitar consultas repetidas a las URL.
* **Extra**: Permite que el usuario elija el rango de página mínima y máxima a capturar contenido
* **Extra**: Permite que el usuario elija filtrar por equipos cuyo "+/-" sea superior a una cifra determinada.

*PISTA: La página 1 tiene la estructura `https://www.scrapethissite.com/pages/forms/?page_num=1` , la página 2 `https://www.scrapethissite.com/pages/forms/?page_num=2` y así sucesivamente.*

Comentarios
Si realizo una búsqueda incorrecta se queda pensando mucho tiempo.

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import selenium

In [2]:
cachedDfDict = {}
def getDfFromPage (pageNumber):
    if pageNumber in cachedDfDict:
            print(f"pag {pageNumber} obtenida desde cache")
            return cachedDfDict[pageNumber]
    else:
        url = f"https://www.scrapethissite.com/pages/forms/?page_num={pageNumber}"
        page = requests.get(url)
        table = BeautifulSoup(page.content, "html.parser").find("table", class_="table")
        #Extraigo los nombres de las columnas
        columnNames = [th.get_text(strip=True) for th in table.find_all("th")]
        #Extraigo las filas
        rows = table.find_all("tr", class_="team")
        #Extraigo la información de cada campo en cada fila
        teams = []
        for row in rows:
            values = [td.get_text(strip=True) for td in row.find_all("td")]
            teams.append(values)  
        resultDf = pd.DataFrame(teams, columns=columnNames) 
        cachedDfDict[pageNumber] = resultDf.copy()
        return resultDf  
        

   

In [4]:
teamDf = getDfFromPage(1)
print(teamDf.shape)
teamDf.head()

pag 1 obtenida desde cache
(25, 9)


Unnamed: 0,Team Name,Year,Wins,Losses,OT Losses,Win %,Goals For (GF),Goals Against (GA),+ / -
0,Boston Bruins,1990,44,24,,0.55,299,264,35
1,Buffalo Sabres,1990,31,30,,0.388,292,278,14
2,Calgary Flames,1990,46,26,,0.575,344,263,81
3,Chicago Blackhawks,1990,49,23,,0.613,284,211,73
4,Detroit Red Wings,1990,34,38,,0.425,273,298,-25


In [5]:
def getDfFromPageRange (firstPage, lastPage):
    resultDf = pd.DataFrame()
    try:
        for i in range(firstPage, lastPage + 1):
            pageDf = getDfFromPage(i)
            if resultDf.empty:
                resultDf = pageDf.copy()
            else:
                resultDf = pd.concat([resultDf, pageDf], ignore_index = True)
    except Exception:
        print ("Rango inválido de páginas, prueba otros valores")
    #Genero el dataframe
    return resultDf

In [10]:
teamsDf = getDfFromPageRange(5,8)
teamsDf.shape

pag 5 obtenida desde cache
pag 6 obtenida desde cache
pag 7 obtenida desde cache
pag 8 obtenida desde cache


(100, 9)

In [1]:
cachedDfDict[2].shape

NameError: name 'cachedDfDict' is not defined

In [7]:
teamsDf.shape

(50, 9)

In [1]:
cachedTableDict

NameError: name 'cachedTableDict' is not defined

In [None]:

page = requests.get("https://www.scrapethissite.com/pages/forms/")
print(type(page))

<class 'requests.models.Response'>


In [None]:
#guardo el html de la página en un archivo para revisarlo y acceder con facilidad
with open("rawPage.txt", "w") as file:
    file.write(page.text)

In [4]:
page = requests.get("https://www.scrapethissite.com/pages/forms/")
soup = BeautifulSoup(page.content, "html.parser")
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [19]:
#Extraigo la tabla primero
table = soup.find("table", class_="table")
#Extraigo y limpio las columnas
columnNames = [th.get_text(strip=True) for th in table.find_all("th")]
print(columnNames)

['Team Name', 'Year', 'Wins', 'Losses', 'OT Losses', 'Win %', 'Goals For (GF)', 'Goals Against (GA)', '+ / -']


In [20]:
#Extraigo las filas
rows = table.find_all("tr", class_="team")
#Extraigo la información de cada campo en cada fila
teams = []
for row in rows:
    values = [td.get_text(strip=True) for td in row.find_all("td")]
    teams.append(values)

In [21]:

#Asocio a un dataframe
teamsdf = pd.DataFrame(teams, columns=columnNames)
teamsdf.head()

Unnamed: 0,Team Name,Year,Wins,Losses,OT Losses,Win %,Goals For (GF),Goals Against (GA),+ / -
0,Boston Bruins,1990,44,24,,0.55,299,264,35
1,Buffalo Sabres,1990,31,30,,0.388,292,278,14
2,Calgary Flames,1990,46,26,,0.575,344,263,81
3,Chicago Blackhawks,1990,49,23,,0.613,284,211,73
4,Detroit Red Wings,1990,34,38,,0.425,273,298,-25


### Reto 2 - Selenium: Captura del valor del oro

Como vimos en clase, hay páginas que implementan medidas para evitar el Web Scraping. En la web de https://www.inversoro.es/precio-del-oro/precio-oro-hoy/ apreciamos cómo la página web cara un valor antiguo y pasados unos segundos actualiza. 

Esto hace que bibliotecas como `request` + `BeautifulSoup` no nos sirva aquí ya que capturamos el instante t=0. Sin embargo, con *Selenium* podemos interactuar en tiempo real mientras el navegador se ejecuta.

#### Ejercicio
Inspecciona la web, obteniendo la etiqueta HTML donde el valor aparece representado y crea un script que utilice Selenium, cargando la página y capturando  dicho valor en tiempo real cada 5 segundos en un periodo de 1 minuto. Almacena el resultado de dicho valor y del timestamp correspondiente (*[ayuda](https://www.geeksforgeeks.org/get-current-timestamp-using-python/)*)

In [None]:
import selenium

### Reto EXTRA - Selenium, BeautifulSoup y Streamlit: El comparador (simple) de precios 📊📉

Los comparadores de precios <u>es uno de los nichos de mercado más lucrativos en Internet.</u> Dado un producto o servicio a nivel de usuario nos beneficiamos del precio más bajo existente y a nivel de empresa éstas obtienen grandes beneficios gracias a sistemas de referidos o de comisiones por venta realizada.

En esta ocasión vamos a realizar un simple comparador de precios basado en el número ISBN. Un ISBN es un código normalizado internacional para libros (International Standard Book Number). Estos estaban compuestos por 10 dígitos hasta diciembre de 2006 pero, desde enero de 2007, tienen una extensión de 13 dígitos. 


Por ejemplo, el ISBN [9788478884452](https://www.google.es/search?q=9788478884452) (haz click) corresponde al libro "Harry Potter y la piedra filosofal".

Dado que no disponemos de acceso a APIs de las tiendas principales <u>capturaremos el precio a través de técnicas de Web Sraping.</u>

##### Ejercicio 

El objetivo es realizar la consulta de un ISBN, por ejemplo el de "Harry Potter y la Piedra filosofal" en al menos **tres** de las siguientes tiendas propuestas. Captura el primer resultado en EUROS, y devuelve cómo resultado cuál tiene el precio más bajo. 

Crea un sencillo interfaz en Streamlit que pregunte por el ISBN de un número (entre 10 y 13 dígitos) y devuelva como resultado el primer elemento de cada tienda examinada, con el título, la imagen (si la hubiese), el precio y un enlace para hacer click.

Como puntos extra:
* Incluye en la comparativa más de las 3 tiendas propuestas.
* Incluye por texto posteriormente cuál es la diferencia de precio en euros y en porcentaje respecto al valor más bajo detectado para saber cuánto nos estamos ahorrando.
* Crea un diagrama de barras con el precio en cada tienda para representar visualmente el ahorro en precio.

Ejemplo de tiendas propuestas:
- https://www.casadellibro.com/
- https://www.libreriacentral.com/
- https://www.iberlibro.com/
- https://www.amazon.es/
- https://ebay.es
- https://www.elcorteingles.es/

Recuerda que para cada página debes realizar ingeniería inversa, averiguando cómo se comportan las URLs de cada sitio web para hacer una búsqueda directa.

**Pista**: Utiliza Selenium para capturar datos si te resulta request/BeautifulSoup complicado de utilizar.

**Extra**: *¿Conoces alguna otra página donde comprar libros? Inclúyela en el comprador*

**Extra 2**: *¿Cómo podríamos obtener una evolución del precio durante una semana?*

In [None]:
import json
import requests
import streamlit as st
from bs4 import BeautifulSoup
from selenium import webdriver
from time import sleep

In [None]:
## ENTREGA AQUÍ EL CÓDIGO PYTHON DE LA APLICACIÓN STREAMLIT