# <center> M7 T02: Web Scraping

## Exercici 1  
Realitza web scraping d'una pàgina de la borsa de Madrid (**https://www.bolsamadrid.es**) utilitzant **BeautifulSoup** i **Selenium**.

**Beautiful Soup:**

In [1]:
# Importo las librerías que voy a utilizar:
import requests
from bs4 import BeautifulSoup
import pandas

Obtengo y almaceno la web **https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000** (que contiene la tabla que quiero extraer), mediante la función **get** de la librería **requests**:

In [2]:
# Almaceno la url de la web que quiero "scrapear":
url = 'https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000'

# Obtengo la web, mediante la función "get" de la librería "requests", y la almaceno en una variable:
page = requests.get(url)

Creo una instancia de **BeautifulSoup** para parsear la página, especificando el objeto que la contiene (con el atributo **content**) y el **parser HTML**:

In [3]:
soup = BeautifulSoup(page.content, 'html.parser')

Desde la instancia de **BeautifulSoup**, almaceno el **div** base del que cuelga la tabla:

In [4]:
base_div = soup.find(id='Base')

Desde el div base, almaceno el objeto **table** con id **ctl00_Contenido_tblAcciones**, correspondiente a la tabla:

In [5]:
table = base_div.find(id='ctl00_Contenido_tblAcciones')

Obtengo los **nombres de las columnas** (contenidos en etiquetas **th**) y los almaceno en una lista:

In [6]:
# Declaro una lista vacía, para almacenar los nombres de las columnas:
columns = []

# Itero los "th", y almaceno el texto que contienen en la lista "cols_to_df":
for col in table.find_all('th'):
    columns.append(col.text)
    
print(columns)

['Nombre', 'Últ.', '% Dif.', 'Máx.', 'Mín.', 'Volumen', 'Efectivo (miles €)', 'Fecha', 'Hora']


Creo un **dataframe** vacío, pasándole los nombres de las columnas (que están almacenados en la lista **columns**):

In [7]:
table_df = pandas.DataFrame(columns=columns)

table_df

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora


Obtengo los **registros** de la tabla, y los introduzco en el dataframe:

In [8]:
# Almaceno el contenido de las etiquetas "tr":
regs = table.find_all('tr')

# Itero el objeto "reg", que contiene los registros (saltándome el primer elemento, que no contiene nada):
for reg in regs[1:len(regs)]:
    # Creo una lista vacía, para almacenar los valores de cada registro:
    reg_values = []
    # Itero los valores de cada registro (contenidos en etiquetas "td"), para añadirlos a la lista "reg_values"
    #   (eliminando los puntos, y sustituyendo las comas con puntos):
    for value in reg.find_all('td'):
        reg_values.append(value.text.replace('.','').replace(',','.'))
    # Añado el registro actual al dataframe:
    table_df.loc[len(table_df)] = reg_values
    
table_df

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora
0,ACCIONA,159.3,-2.27,161.1,156.2,110527,17611.98,26/11/2021,Cierre
1,ACERINOX,10.11,-4.76,10.385,9.95,1534014,15629.14,26/11/2021,Cierre
2,ACS,21.02,-6.16,21.79,20.98,1656529,35093.91,26/11/2021,Cierre
3,AENA,128.45,-8.77,134.9,127.45,271884,35320.62,26/11/2021,Cierre
4,ALMIRALL,10.75,-1.65,10.99,10.56,652615,7000.16,26/11/2021,Cierre
5,AMADEUS,56.74,-7.5,57.5,52.82,3171939,178663.22,26/11/2021,Cierre
6,ARCELORMIT,24.255,-7.1,24.99,24.215,1236744,30382.07,26/11/2021,Cierre
7,BSANTANDER,2.783,-8.92,2.92,2.783,116318082,330240.91,26/11/2021,Cierre
8,BASABADELL,0.589,-6.09,0.6064,0.581,46218426,27417.96,26/11/2021,Cierre
9,BANKINTER,4.306,-5.3,4.431,4.04,4334206,18841.68,26/11/2021,Cierre


---
**Selenium**

In [9]:
# Importo las librerías que voy a utilizar:
from selenium.webdriver import Firefox
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.by import By
import pandas

Configuro el **browser**, basado en el navegador **Firefox**:

In [10]:
# Especifico que el navegador se configure como "headless":
fox_opts = Options()
fox_opts.headless = True

# Creo una instancia del navegador "Firefox":
browser = Firefox(options = fox_opts)

Obtengo y almaceno la web **https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000** (que contiene la tabla que quiero extraer), mediante la función **get** del objeto **browser**:

In [11]:
browser.get('https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000')

Almaceno el objeto **table** con id **ctl00_Contenido_tblAcciones**, correspondiente a la tabla:

In [12]:
table = browser.find_element(By.ID, 'ctl00_Contenido_tblAcciones')

Obtengo los **nombres de las columnas** (contenidos en etiquetas **th**) y los almaceno en una lista:

In [13]:
# Declaro una lista vacía, para almacenar los nombres de las columnas:
columns = []

# Itero los "th", y almaceno el texto que contienen en la lista "cols_to_df":
for col in table.find_elements(By.TAG_NAME, 'th'):
    columns.append(col.text)
    
print(columns)

['Nombre', 'Últ.', '% Dif.', 'Máx.', 'Mín.', 'Volumen', 'Efectivo (miles €)', 'Fecha', 'Hora']


Creo un **dataframe** vacío, pasándole los nombres de las columnas (que están almacenados en la lista **columns**):

In [14]:
table_df = pandas.DataFrame(columns=columns)

table_df

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora


Obtengo los **registros** de la tabla, y los introduzco en el dataframe:

In [15]:
# Almaceno el contenido de las etiquetas "tr":
regs = table.find_elements(By.TAG_NAME, 'tr')

# Itero el objeto "reg", que contiene los registros (saltándome el primer elemento, que no contiene nada):
for reg in regs[1:len(regs)]:
    # Creo una lista vacía, para almacenar los valores de cada registro:
    reg_values = []
    # Itero los valores de cada registro (contenidos en etiquetas "td"), para añadirlos a la lista "reg_values"
    #   (eliminando los puntos, y sustituyendo las comas con puntos):
    for value in reg.find_elements(By.TAG_NAME, 'td'):
        reg_values.append(value.text.replace('.','').replace(',','.'))
    # Añado el registro actual al dataframe:
    table_df.loc[len(table_df)] = reg_values

# No cierro el objeto "browser" aun, porque luego haré otra prueba:
#browser.quit()

table_df

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora
0,ACCIONA,159.3,-2.27,161.1,156.2,110527,17611.98,26/11/2021,Cierre
1,ACERINOX,10.11,-4.76,10.385,9.95,1534014,15629.14,26/11/2021,Cierre
2,ACS,21.02,-6.16,21.79,20.98,1656529,35093.91,26/11/2021,Cierre
3,AENA,128.45,-8.77,134.9,127.45,271884,35320.62,26/11/2021,Cierre
4,ALMIRALL,10.75,-1.65,10.99,10.56,652615,7000.16,26/11/2021,Cierre
5,AMADEUS,56.74,-7.5,57.5,52.82,3171939,178663.22,26/11/2021,Cierre
6,ARCELORMIT,24.255,-7.1,24.99,24.215,1236744,30382.07,26/11/2021,Cierre
7,BSANTANDER,2.783,-8.92,2.92,2.783,116318082,330240.91,26/11/2021,Cierre
8,BASABADELL,0.589,-6.09,0.6064,0.581,46218426,27417.96,26/11/2021,Cierre
9,BANKINTER,4.306,-5.3,4.431,4.04,4334206,18841.68,26/11/2021,Cierre


---

Lo que he hecho en la sección correspondiente a **Selenium** es repetir el ejemplo de la sección de **BeautifulSoup**, que no  requiere interactuar con la página. Pero la gracia de **Selenium** es justamente que permite esa interactividad, así que voy a hacer otro ejemplo, modificando un selector (para que cambien los resultados de la tabla).  
En principio, entiendo que cuando no se interactúa con la página es preferible utilizar **BeautifulSoup**, o al menos es innecesario utilizar **Selenium**.

In [16]:
# Importo la librería "Select", para poder modificar selectores en la pagina:
from selenium.webdriver.support.select import Select

Localizo y almaceno el selector **Indice**, para modificar el valor por defecto:

In [17]:
# Almaceno el selector "Indice", mediante su ID:
selector_field = browser.find_element(By.ID, 'SelIndice')

# Utilizo la librería "Select", para poder modificar el valor del selector:
selector = Select(selector_field)

Modifico el valor del selector, especificando el valor **ESI060000000**, correspondiente a la opción **IBEX MEDIUM CAP** (siendo **IBEX 35** la opción predeterminada):

In [18]:
selector.select_by_value('ESI060000000')

Localizo el botón **Consultar**, y hago click en él (para que devuelva los resultados correspondientes a la nueva opción especificada en el selector):

In [19]:
# Almaceno el botón "Consultar", mediante su ID:
button = browser.find_element(By.ID, 'ctl00_Contenido_Consultar')

# Hago click en el botón:
button.click()

Vuelvo a almacenar el objeto **table** con id **ctl00_Contenido_tblAcciones**, correspondiente a la tabla:

In [20]:
table = browser.find_element(By.ID, 'ctl00_Contenido_tblAcciones')

Obtengo los **nombres de las columnas** (contenidos en etiquetas **th**) y con ellos creo un **dataframe** vacío:

In [21]:
# Declaro una lista vacía, para almacenar los nombres de las columnas:
columns = []

# Itero los "th", y almaceno el texto que contienen en la lista "cols_to_df":
for col in table.find_elements(By.TAG_NAME, 'th'):
    columns.append(col.text)

# Creo un dataframe vacío, pasándole los nombres de las columnas:
table_df = pandas.DataFrame(columns=columns)

table_df

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora


Obtengo los **registros** de la tabla (que contiene nuevos resultados, debido a que hemos especificado un nuevo filtrado), y los introduzco en el dataframe:

In [22]:
# Almaceno el contenido de las etiquetas "tr":
regs = table.find_elements(By.TAG_NAME, 'tr')

# Itero el objeto "reg", que contiene los registros (saltándome el primer elemento, que no contiene nada):
for reg in regs[1:len(regs)]:
    # Creo una lista vacía, para almacenar los valores de cada registro:
    reg_values = []
    # Itero los valores de cada registro (contenidos en etiquetas "td"), para añadirlos a la lista "reg_values"
    #   (eliminando los puntos, y sustituyendo las comas con puntos):
    for value in reg.find_elements(By.TAG_NAME, 'td'):
        reg_values.append(value.text.replace('.','').replace(',','.'))
    # Añado el registro actual al dataframe:
    table_df.loc[len(table_df)] = reg_values

# Cierro el objeto browser (IMPORTANTE):
browser.quit()

table_df

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora
0,ACCIONA ENER,30.39,-3.52,30.88,30.05,105857,3226.45,26/11/2021,Cierre
1,APPLUS,7.65,-4.26,7.86,7.545,427462,3280.02,26/11/2021,Cierre
2,AUXFERROCAR,35.0,-4.76,36.1,35.0,52694,1874.95,26/11/2021,Cierre
3,CORP ALBA,48.8,-2.2,49.3,48.65,11791,576.86,26/11/2021,Cierre
4,DOMINION,4.395,-5.08,4.55,4.395,336483,1505.34,26/11/2021,Cierre
5,EBRO FOODS,17.0,-1.39,17.28,16.96,64004,1092.1,26/11/2021,Cierre
6,ENCE,2.136,-4.81,2.166,2.104,1793490,3826.81,26/11/2021,Cierre
7,FAES FARMA,3.322,-2.01,3.4,3.322,540496,1809.32,26/11/2021,Cierre
8,FCC,9.8,-7.02,10.7,9.8,91854,944.25,26/11/2021,Cierre
9,GESTAMP,3.87,-6.3,4.04,3.866,873861,3434.63,26/11/2021,Cierre


---
## Exercici 2  
Documenta en un word el teu conjunt de dades generat amb la informació que tenen els diferents arxius de Kaggle.  
Debéis documentar un poco la información que habéis extraído de la página web. Básicamente a nivel descriptivo explicar cada una de las variables y las principales características generales del dataset así como posibles usos de esa información.

**Explicación de las variables del dataset** (que también incluiré en un archivo Word):

- **Nombre**: Nombre de la Empresa.
- **Últ.**: Último precio de las acciones (precio actual), expresado en euros.
- **% Dif.**: Diferencia del precio actual con el precio de cierre de ayer, expresada en porcentaje.
- **Máx.**: Precio máximo alcanzado por las acciones durante la sesión, expresado en euros.
- **Mín.**: Precio mínimo alcanzado por las acciones durante la sesión, expresado en euros.
- **Volumen**: Número de acciones compradadas y vendidas durante la sesión.
- **Efectivo (miles €)**: Cantidad de dinero invertida en las acciones durante la sesión, expresada en miles de euros.
- **Fecha**: Fecha de la sesión.
- **Hora**: Hora de actualización de la tabla.

Personalmente, no tengo ninguna experiencia en inversiones en bolsa, ni los conocimientos necesarios para hacerlo con una mínima garantía de éxito (supongo), pero creo que un dataset como éste, extraído directamente de la bolsa de valores, puede ser muy útil para los inversores.  
Una idea que se me ocurre es planificar la ejecución de un script similar a éste (cada un período de tiempo determinado), que obtenga la tabla que le interese al inversor, para luego buscar en el dataset condiciones favorables para la compra o la venta de acciones, que también se realizarían de forma automática, siempre en función de los resultados.

---
## Exercici 3  
Tria una página web que tu vulguis i realitza web scraping mitjançant la llibreria **Scrapy**.  
La idea es que exploréis el framework de scrapy para realizar web scraping sencillo. Podéis presentarlo en el formato que mejor os convenga, pero que sea fácilmente legible.

Lo cierto es que he estado probando **Scrapy** y me parece un rollo.  
Para utilizarlo correctamente requiere crear un proyecto, y no se puede ejecutar desde Jupyter, salvo que hagamos una pirula que solo funciona una vez. Además, no se puede almacenar la salida en un objeto, sino que se debe guardar en un archivo.  
Intenté reproducir el ejemplo de la Bolsa de Madrid, pero solo he conseguido guardar los nombres de las columnas y los registros en claves json, pero no en un csv, así que lo que haré es reproducir el típico ejemplo de la página **http://quotes.toscrape.com** (y me olvidaré de esta librería, espero que para siempre).

In [2]:
# Importo las librerías que voy a utilizar:
import scrapy
from scrapy.crawler import CrawlerProcess

 Creo el **spider**, especificando que guarde los resultados en un archivo **json**:

In [3]:
class QuotesSpider(scrapy.Spider):
    # Nombre del proyecto:
    name = "quotes"
    # URLs sobre las que hacer scraping:
    start_urls = [
                'http://quotes.toscrape.com/page/1/',
                'http://quotes.toscrape.com/page/2/',
                ]
    # Así especificamos que los resultados se guarden en un arcnivo json:
    custom_settings = { 
                    'FEED_FORMAT' : "json",
                    'FEED_URI' : ".\\output\\quotes.json"
                    }
    # Función predeterminada, para parsear los resultados:
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').get(),
            }

Utilizo la librería **CrawlerProcess** para ejecutar el spider. Esto es necesario solamente para utilizar **scrapy** dentro de **Jupyter**, y solamente funciona una vez.  
NOTA: Si no me equivoco, la respuesta en rojo no es un error ni un warning, sino la información que devolvería por consola.

In [4]:
# Creo una instancia de la librería "CrawlerProcess", especificando el navegador como parámetro:
process = CrawlerProcess({'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'})

# Aplico el objeto sobre el "spider", e inicio el proceso:
process.crawl(QuotesSpider)
process.start()

2021-11-28 14:50:38 [scrapy.utils.log] INFO: Scrapy 2.5.1 started (bot: scrapybot)
2021-11-28 14:50:38 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 21.7.0, Python 3.9.5 (tags/v3.9.5:0a7dcbd, May  3 2021, 17:27:52) [MSC v.1928 64 bit (AMD64)], pyOpenSSL 21.0.0 (OpenSSL 1.1.1l  24 Aug 2021), cryptography 36.0.0, Platform Windows-10-10.0.19044-SP0
2021-11-28 14:50:38 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2021-11-28 14:50:38 [scrapy.crawler] INFO: Overridden settings:
{'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2021-11-28 14:50:38 [scrapy.extensions.telnet] INFO: Telnet Password: b2c211e3e8c45dc4
  exporter = cls(crawler)

2021-11-28 14:50:38 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.Lo

Luego podemos cargar el contenido del archivo en un objeto, mediante la función **load** de la librería **json**:

In [8]:
# Importo la librería "json":
import json

# Abro el archivo, y almaceno su contenido mediante la función "load":
with open('.\\output\\quotes.json') as json_file:
    json_data = json.load(json_file)

Y finalmente podemos tratar el objeto con los resultados (que están almacenados en una lista de diccionarios) como queramos, por ejemplo, para imprimirlos:

In [9]:
json_data

[{'text': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
  'author': 'Albert Einstein',
  'tags': 'change'},
 {'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
  'author': 'J.K. Rowling',
  'tags': 'abilities'},
 {'text': '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
  'author': 'Albert Einstein',
  'tags': 'inspirational'},
 {'text': '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
  'author': 'Jane Austen',
  'tags': 'aliteracy'},
 {'text': "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
  'author': 'Marilyn Monroe',
  'tags': 'be-yourself'},
 {'text': '“Try not to become a man of success. Rather become a man of value.”',
  'author': 'Albert Einstein',
  

> Como conclusión de este ejercicio, diría que tanto **BeautifulSoup** como **Selenium** son librerías muy útiles para hacer **scraping**. Personalmente, creo que utilizaré **BeautifulSoup** por defecto, y **Selenium** solamente cuando sea necesario (porque el **scraping** requiera interactuar con la página, o porque no pueda acceder a los elementos HTML con **BeautifulSoup**, debido a la programación de la página).  
> En cuanto a la librería **Scrapy**, como he dicho, voy a intentar no tener que utilizarla nunca, debido a sus limitaciones y a su escasa flexibilidad. Entiendo que quien la ha programado se lo ha currado, pero creo que teniendo **BeautifulSoup** no me aporta nada.

---