# Sprint 16 Tasca: Web Scraping

### Càrrega de llibreries

In [1]:
import pandas as pd

import requests
import pprint
from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

## Exercici 1
__Realitza web scraping d'una pàgina de la borsa de Madrid (https://www.bolsamadrid.es) utilitzant BeautifulSoup i Selenium.__

<span style='color:blue;font-size:15px'> L'objectiu és extreure la taula de dades del IBEX 35. <span>

<span style='color:blue;font-size:20px'> <b> BeautifulSoup </b> <span>

In [2]:
# Pàgina web on es troba la taula amb les dades
url = 'https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000'

In [3]:
# Es crea una variable que emmagatzema el codi HTML de la pàgina web
page = requests.get(url)

In [4]:
# Es mostra el contingut per verificar que la demanda ha funcionat
pp = pprint.PrettyPrinter()
pp.pprint(page.content)

(b'\r\n<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http:/'
 b'/www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n<html xmlns="http:/'
 b'/www.w3.org/1999/xhtml">\r\n<head data-idioma="esp" data-hora-act="Mon, 28'
 b' Jun 2021 11:46:38 GMT" data-app-path="/" data-bolsa="BMadrid" data-analytic'
 b's-id="UA-35966870-2"><meta http-equiv="X-UA-Compatible" content="IE=11" /><m'
 b'eta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><meta id='
 b'"ctl00_copyright" name="copyright" content="Copyright \xc2\xa9 BME 2021" /'
 b'><title>\r\n\tBolsa de Madrid - Precios de la sesi\xc3\xb3n\r\n</title><lin'
 b'k id="ctl00_RSSLink1" rel="alternate" type="application/rss+xml" href="/esp/'
 b'aspx/RSS/RSS.ashx?feed=Todo" title="Bolsa de Madrid: Todos los contenidos ag'
 b'regados" /><link id="ctl00_RSSLink2" rel="alternate" type="application/rss+x'
 b'ml" href="/esp/aspx/RSS/RSS.ashx?feed=NotasPrensa" title="Bolsa de Madrid: N'
 b'otas de Prensa" /><link id="ctl00_

In [5]:
# Es crea l'objecte Soup, que estructura el contingut del HTML i permet aplicar métodes
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head data-analytics-id="UA-35966870-2" data-app-path="/" data-bolsa="BMadrid" data-hora-act="Mon, 28 Jun 2021 11:46:38 GMT" data-idioma="esp">
  <meta content="IE=11" http-equiv="X-UA-Compatible"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="Copyright © BME 2021" id="ctl00_copyright" name="copyright"/>
  <title>
   Bolsa de Madrid - Precios de la sesión
  </title>
  <link href="/esp/aspx/RSS/RSS.ashx?feed=Todo" id="ctl00_RSSLink1" rel="alternate" title="Bolsa de Madrid: Todos los contenidos agregados" type="application/rss+xml"/>
  <link href="/esp/aspx/RSS/RSS.ashx?feed=NotasPrensa" id="ctl00_RSSLink2" rel="alternate" title="Bolsa de Madrid: Notas de Prensa" type="application/rss+xml"/>
  <link href="/esp/aspx/RSS/RSS.ashx?feed=Regulacion" id="ctl00_RSSLink3" rel="alternate" t

In [6]:
# Es crea un objecte que emmagatzema la informació rellevant
gdp_table = soup.find("table", attrs={"id": "ctl00_Contenido_tblAcciones"})
print(gdp_table.prettify())

<table cellpadding="3" cellspacing="0" class="TblPort" id="ctl00_Contenido_tblAcciones" width="100%">
 <tr align="center">
  <th scope="col">
   Nombre
  </th>
  <th scope="col">
   Últ.
  </th>
  <th scope="col">
   % Dif.
  </th>
  <th scope="col">
   Máx.
  </th>
  <th scope="col">
   Mín.
  </th>
  <th scope="col">
   Volumen
  </th>
  <th scope="col">
   Efectivo (miles €)
  </th>
  <th scope="col">
   Fecha
  </th>
  <th class="Ult" scope="col">
   Hora
  </th>
 </tr>
 <tr align="right">
  <td align="left" class="DifFlSb">
   <a href="/esp/aspx/Empresas/FichaValor.aspx?ISIN=ES0125220311">
    ACCIONA
   </a>
  </td>
  <td>
   129,0000
  </td>
  <td class="DifClSb">
   1,82
  </td>
  <td>
   129,5000
  </td>
  <td>
   126,6000
  </td>
  <td>
   33.933
  </td>
  <td>
   4.333,42
  </td>
  <td align="center">
   28/06/2021
  </td>
  <td align="center" class="Ult">
   11:26:20
  </td>
 </tr>
 <tr align="right">
  <td align="left" class="DifFlBj">
   <a href="/esp/aspx/Empresas/FichaV

In [7]:
# Es crea un objecte que conté la taula de la pàgina web
gdp_table_data = gdp_table.find_all("tr")
print(gdp_table_data)

[<tr align="center">
<th scope="col">Nombre</th><th scope="col">Últ.</th><th scope="col">% Dif.</th><th scope="col">Máx.</th><th scope="col">Mín.</th><th scope="col">Volumen</th><th scope="col">Efectivo (miles €)</th><th scope="col">Fecha</th><th class="Ult" scope="col">Hora</th>
</tr>, <tr align="right">
<td align="left" class="DifFlSb"><a href="/esp/aspx/Empresas/FichaValor.aspx?ISIN=ES0125220311">ACCIONA</a></td><td>129,0000</td><td class="DifClSb">1,82</td><td>129,5000</td><td>126,6000</td><td>33.933</td><td>4.333,42</td><td align="center">28/06/2021</td><td align="center" class="Ult">11:26:20</td>
</tr>, <tr align="right">
<td align="left" class="DifFlBj"><a href="/esp/aspx/Empresas/FichaValor.aspx?ISIN=ES0132105018">ACERINOX</a></td><td>9,9340</td><td class="DifClBj">-0,28</td><td>10,0150</td><td>9,8800</td><td>292.848</td><td>2.913,42</td><td align="center">28/06/2021</td><td align="center" class="Ult">11:28:36</td>
</tr>, <tr align="right">
<td align="left" class="DifFlBj"><a h

In [8]:
# S'extreu l'encapçalat de la taula
headings = []
for th in gdp_table_data[0].find_all("th"):
    # Treu qualsevol nova linia i espais extra de la dreta i l'esquerra
    headings.append(th.text.replace('\n', ' ').strip())

print(headings)

['Nombre', 'Últ.', '% Dif.', 'Máx.', 'Mín.', 'Volumen', 'Efectivo (miles €)', 'Fecha', 'Hora']


In [9]:
# Es crea un dataframe per emmagatzemar les dades extretes, utilitzant 'headings' com el nom de les columnes
dataframe = pd.DataFrame(columns = headings)
dataframe

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora


In [10]:
# Igual que en el pas anterior, s'extreu l'informació de cada fila de la taula mitjançant dos iteracions.
# La primera iteració recorre totes les files, i la segona extreu i agefeix les dades a la llista.
# Després, s'afegeixen les dades al Dataframe i es torna a crear la llista buida i així fins acabar el bucle.
table_data = []
for i in range((len(gdp_table_data)-1)): 
    for td in gdp_table_data[i+1].find_all("td"):
        table_data.append(td.text.replace('\n', ' ').strip())
    dataframe.loc[i] = table_data
    table_data = []

In [11]:
# Dataframe final amb les dades d'interès
dataframe

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora
0,ACCIONA,1290000,182,1295000,1266000,33.933,"4.333,42",28/06/2021,11:26:20
1,ACERINOX,99340,-28,100150,98800,292.848,"2.913,42",28/06/2021,11:28:36
2,ACS,227000,-39,230000,226600,201.719,"4.598,78",28/06/2021,11:30:06
3,AENA,1430500,-338,1481000,1420500,53.450,"7.714,27",28/06/2021,11:30:02
4,ALMIRALL,149500,-27,150400,149000,45.281,67790,28/06/2021,11:29:53
5,AMADEUS,628600,-169,639200,625400,63.170,"3.986,79",28/06/2021,11:30:29
6,ARCELORMIT.,257450,-176,261600,257150,158.599,"4.107,55",28/06/2021,11:30:37
7,B.SANTANDER,33015,-161,33575,32955,4.723.768,"15.693,23",28/06/2021,11:30:54
8,BA.SABADELL,5852,-266,6018,5850,9.438.278,"5.597,29",28/06/2021,11:30:39
9,BANKINTER,43170,-83,43670,43120,161.624,70046,28/06/2021,11:29:27


In [12]:
# S'exporta a CSV
dataframe.to_csv('IBEX35.csv')

<span style='color:blue;font-size:20px'> <b> Selenium </b> <span>

<span style='color:blue;font-size:15px'> Es vol accedir a la taula de dades del IBEX 35 desde la pàgina principal. <span>

In [12]:
# Pàgina principal
url2 = 'https://www.bolsamadrid.es'

In [13]:
# Es crea una instància per al navegador de Chrome
repositori = 'C:/Users/DeividK3/OneDrive/Documentos/David_Martinez/Ciberanium/IT_Academy/Data_Science_Python/Notebooks/Conceptos/Web_Scraping/chromedriver'
driver = webdriver.Chrome(repositori)

# S'entra a la página web desde el webdriver
driver.get(url2)

In [14]:
# S'imprimeix el títol de la pàgina web
print(driver.title)

Bolsa de Madrid


In [15]:
# S'imprimeix la direcció web actual
print(driver.current_url)

https://www.bolsamadrid.es/esp/aspx/Portada/Portada.aspx


In [16]:
# Es crea l'objecte 'acciones', que conté la part del HTML que permet accedir a la taula d'accions
acciones = driver.find_element_by_xpath('//div[@class="MenuLink MenuConOp Off"]/a[text()="Acciones"]')
# S'aplica el mètode click per canviar a la pàgina d'accions
acciones.click()

In [17]:
print(driver.current_url)

https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000


In [18]:
# Es crea l'objecte 'sector', que conté la part del HTML que accedeir a la llista de Sector per filtrar per 'Petróleo y Energía'
sector = driver.find_element_by_xpath('//select[@id="SelSector"]/option[text()="Petróleo y Energía"]')
# S'aplica el mètode click per canviar la selecció per defecte a l'escollida (Petróleo y Energía)
sector.click()

In [19]:
# Es crea l'objecte 'consultar', que accedeix al botó per aplicar el filtre
consultar = driver.find_element_by_xpath('//input[@id="ctl00_Contenido_Consultar"]')
# S'aplica el mètode click per canviar a la pàgina d'accions
consultar.click()

In [20]:
# Es crea un objecte que emmagatzema la informació de la taula
table = driver.find_element_by_xpath('//*[@id="ctl00_Contenido_tblAcciones"]/tbody')

In [21]:
# S'extreu l'encapçalat de la taula
headings = []

for i in table.find_elements_by_xpath('.//tr'):
    for j in i.find_elements_by_xpath('./th'):
        headings.append(j.get_attribute('textContent'))

print(headings)

['Nombre', 'Mercado', 'Últ.', '% Dif.', 'Máx.', 'Mín.', 'Volumen', 'Efectivo (miles €)', 'Fecha', 'Hora']


In [22]:
# Es crea un dataframe per emmagatzemar les dades extretes, utilitzant 'headings' com el nom de les columnes
dataframe_2 = pd.DataFrame(columns = headings)
dataframe_2

Unnamed: 0,Nombre,Mercado,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora


In [23]:
# S'extreuen les dades de cada fila de la taula i s'afegeix al dataframe buit
table_data = []
c = 0

for i in table.find_elements_by_xpath('.//tr'):
    for j in i.find_elements_by_xpath('./td'):
        table_data.append(j.get_attribute('textContent').strip())
    if table_data == []:
        continue
    dataframe_2.loc[c] = table_data
    c += 1
    table_data = []

In [24]:
# Dataframe final amb les dades d'interès
dataframe_2

Unnamed: 0,Nombre,Mercado,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora
0,ACCIONA ENER,M.Continuo,-,-,-,-,-,-,-,Cierre
1,AUDAX RENOV.,M.Continuo,19620,-091,20180,19400,247.145,48524,28/06/2021,11:31:04
2,BRASKEM PR.A,Latibex,95500,-,-,-,-,-,25/06/2021,Cierre
3,CEMIG P.,Latibex,21400,-,-,-,-,-,25/06/2021,Cierre
4,COPEL CERT.,Latibex,51000,-,-,-,-,-,25/06/2021,Cierre
5,COPEL ORDINA,Latibex,09350,-,-,-,-,-,25/06/2021,Cierre
6,COPEL PR.B,Latibex,10600,-,-,-,-,-,25/06/2021,Cierre
7,ECOENER,M.Continuo,58700,-200,60500,57700,13.780,8279,28/06/2021,10:15:54
8,ELETROBRAS B,Latibex,76000,-,-,-,-,-,25/06/2021,Cierre
9,ELETROBRAS O,Latibex,76000,-,-,-,-,-,25/06/2021,Cierre


In [25]:
# Es tanca el navegador
driver.close()

In [28]:
# S'exporta a CSV
dataframe_2.to_csv('Petro_Ener.csv')

## Exercici 2
__Documenta en un word el teu conjunt de dades generat amb la informació que tenen els diferents arxius de Kaggle.__

<span style='color:blue;font-size:15px'> Com que no tinc Word, s'utilitzarà WordPad. El document està disponible al github <span>

## Exercici 3
__Tria una página web que tu vulguis i realitza web scraping mitjançant la llibreria Scrapy.__ 