<a id="functions"></a>
# WebScraping


El web scraping (“raspado” de páginas web) consiste en la extracción de los datos significativos de una o varias páginas web determinadas, o de todas las páginas web que estén relacionadas mediante enlaces en un sitio web, para una manipulación o análisis posterior .

Esta extracción se realiza obteniendo la información a través de "eliminar" la información que no nos interesa, los metadatos y quedarnos solo con los datos que nos interesan, los datos puros.

Los datos están inmersos dentro de la maraña de información que es el HTML y debemos navegar e inspeccionar estos datos y encontrar patrones de funcionamiento. Estos patrones se repiten de forma estructurada, y nosostros debemos aplicar esos patrones para separar el "grano" (datos) de la "paja"

Para hacer estos ejercicios es necesario que repaseis los recursos disponibles en el tema sobre WebScraping, y las librerias que vamos a usar.
En el repositorio público del módulo tenéis disponibles [estos notebooks](https://github.com/jssdocente/LMSGI-2122/tree/main/_transversal/python/notebooks/2.%20Webscraping) y unos [ejemplos prácticos](https://github.com/jssdocente/LMSGI-2122/blob/main/_transversal/python/notebooks/2.%20Webscraping/2.5%20Ejemplos%20pr%C3%A1cticos%20de%20web%20scraping.ipynb) muy interesantes y de gran valor de aprendizaje.

También teneís disponbile este [documento](https://docs.google.com/document/d/1CJ7MMTkvvtuAhw02YrhRaaSyO7sj-n03wOS9E2Fs2Ko/edit?usp=sharing) qué explica los conceptos más importantes.


## 1. Obtener los valores de la Bolsa de Madrid

Para este ejercicios inspeccionaremos la [web de la Bolsa de Madrid](http://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx).
Este ejercicio lo vamos a dividir en varias partes, hasta conseguir el resultado final.

### 1.1. Obtener el nombre de los índices que componen la bolsa de Madrid.

El objetivo es obtener una lista, e imprimir esa lista con los nombres de los índices que la componen.<br>
Para obtenerla necesitamos acceder a esta página donde se encuentra un resumen de los índices, su nombre y una serie de datos adicionales.


In [10]:
# definir la función que devuelva los nombres de los índices de la Bolsa de Madrid

# importar librerias necesarias. En el resto de ejercicios, importar las necesarias, no siempre serán estas, podrán requerirse adicionales.
import requests
from bs4 import BeautifulSoup

def obtenerListaIndicesBolsaMadrid():

    page = requests.get("https://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx")   
    soup = BeautifulSoup(page.content)

    table = soup.find('table', {'id': 'ctl00_Contenido_tblÍndices'})

    # completar el código necesario
     
    lista_indices = []

    for fila in table.find_all('tr'):
        celdas = fila.find_all('td')
        if len(celdas)>0:
            lista_indices.append(celdas[0].string)

    return lista_indices

In [11]:
# Probar la funcion
obtenerListaIndicesBolsaMadrid()

['IBEX 35®',
 'IBEX 35® con Dividendos',
 'IBEX MEDIUM CAP®',
 'IBEX SMALL CAP®',
 'IBEX 35® Bancos',
 'IBEX 35® Energía',
 'IBEX 35® Construcción',
 'IBEX Gender Equality',
 'IBEX Gender Equality Total Return',
 'IBEX Gender Equality Net Return',
 'IBEX TOP Dividendo®',
 'IBEX 35® con Dividendos Netos',
 'IBEX 35® Inverso',
 'IBEX 35® Doble Inverso',
 'IBEX 35® Inverso X3',
 'IBEX 35® Inverso X5',
 'IBEX 35® Inverso X10',
 'IBEX 35® Doble Apalancado',
 'IBEX 35® Doble Apalancado Bruto',
 'IBEX 35® Doble Apalancado Neto',
 'IBEX 35® Apalancado X3',
 'IBEX 35® Apalancado Neto X3',
 'IBEX 35® Apalancado Neto X5',
 'IBEX 35® Apalancado Neto X10',
 'IBEX 35® Capped Net Return',
 'IBEX 35® Impacto Div',
 'IBEX 35® Volatilidad Objetivo 10% Estándar',
 'IBEX 35® Volatilidad Objetivo 12% Estándar',
 'IBEX 35® Volatilidad Objetivo 15% Estándar',
 'IBEX 35® Volatilidad Objetivo 18% Estándar',
 'IBEX 35® Volatilidad Objetivo 10% Financiado',
 'IBEX 35® Volatilidad Objetivo 12% Financiado',
 'IBEX

### 1.2. Obtener un diccionario con los nombres de los índices que componen la bolsa de Madrid.

El objetivo es obtener un diccionario, donde la clave sea el nombre del índice y su valor, el máximo historio que ha tenido<br>
Ese diccionario obtenido lo debemos ordenar de mayor a menor según su máximo valor.<br>
Por último imprimirlo.

In [8]:
# definir la función que devuelva los nombres de los índices de la Bolsa de Madrid
import requests
from bs4 import BeautifulSoup

def obtenerDiccioinarioIndicesBolsaMadrid():
    page = requests.get("https://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx")
    soup = BeautifulSoup(page._content)

    table = soup.find('table', {'id': 'ctl00_Contenido_tblÍndices'})

    # completar el código necesario para obtener diccionario

    dic_indices = {}

    for fila in table.find_all('tr'):
        celdas = fila.find_all('td')
        if len(celdas)>0:
            dic_indices.update({celdas[0].string: float(celdas[4].string.replace('.', '').replace(',','.'))})

    # ordenar por máximo

    dic_indicesOrd = sorted(dic_indices.items(), key=lambda x: x[1], reverse= True)

    return dic_indicesOrd


In [9]:
# Probar la funcion
obtenerDiccioinarioIndicesBolsaMadrid()

[('IBEX 35® con Dividendos', 26965.0),
 ('BCN MID 50', 25255.86),
 ('IBEX 35® Capped Net Return', 22584.4),
 ('IBEX 35® con Dividendos Netos', 22522.8),
 ('BCN INDEXCAT', 22179.9),
 ('FTSE4Good IBEX Total Return', 21176.5),
 ('IBEX 35® Doble Apalancado Bruto', 18984.3),
 ('FTSE4Good IBEX Net Return', 18674.3),
 ('BCN PER-30', 17556.07),
 ('BCN ROE-30', 17011.99),
 ('IBEX 35® Doble Apalancado Neto', 15724.6),
 ('IBEX MEDIUM CAP® con Dividendos', 15565.5),
 ('IBEX MEDIUM CAP® con Dividendos Netos', 14410.0),
 ('IBEX MEDIUM CAP®', 13495.0),
 ('IBEX SMALL CAP® con Dividendos', 12501.2),
 ('FTSE Latibex BRASIL', 12338.5),
 ('IBEX SMALL CAP® con Dividendos Netos', 12014.6),
 ('BCN PROFIT-30', 11041.0),
 ('IBEX Gender Equality Total Return', 10034.4),
 ('IBEX Gender Equality Net Return', 9835.4),
 ('IBEX 35® Inverso X3', 9369.1),
 ('FTSE4Good IBEX', 9304.1),
 ('IBEX Gender Equality', 9007.2),
 ('IBEX 35®', 8708.0),
 ('IBEX SMALL CAP®', 8342.2),
 ('IBEX TOP Dividendo® Rentabilidad', 7266.5),
 

### 1.3. Crear un dataframe (pandas) con ciertas columnas de los índices la bolsa de Madrid.

El objetivo es dar un paso más, y obtener un dataframe con las columnas (nombre, anterior, ultimo, maximo, minimo). La columna clave será el nombre del índice<br>
Por último imprimirlo.
Para la realización de este ejercicio os podeís guiar por este [Extración del texto de un discurso](https://github.com/jssdocente/LMSGI-2122/blob/main/_transversal/python/notebooks/2.%20Webscraping/2.5%20Ejemplos%20pr%C3%A1cticos%20de%20web%20scraping.ipynb).

In [6]:
# definir la función que resuelva el ejercicio
import pandas as pd
import urllib
from bs4 import BeautifulSoup

def obtenerDataframeIndicesBolsaMadrid():

  # Para crear el dataframe se necesita crear un diccionario, donde las claves son las columnas. Y cada columna tiene una lista con todos los valores de esa columna.
  #DiccDatosClaveColumna = ({"indice": [], "anterior": [],"ultimo": [],"maximo": [], "minimo": [] })
  #Obtener el valor de la columna y agregar a la lista
  #indiceNombre = obtener valor
  #anteriorValor = obtener valor
  # ...
  # guardar en el diccionario en su clave, anexando esos valores a la lista
  #datos["indice"].append(indiceNombre)
  #datos["anterior"].append(anteriorValor)

  url = "https://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx"
  html = urllib.request.urlopen(url)
  soup = BeautifulSoup(html)

  LInd = []
  LAnt = []
  LUlt = []
  LMax = []
  LMin = []

  table = soup.find('table', {'id': 'ctl00_Contenido_tblÍndices'})

  for fila in table.find_all('tr'):
    celdas = fila.find_all('td')
    if len(celdas)>0:
      LInd.append(celdas[0].string)
      LAnt.append(celdas[1].string.replace('.', '').replace(',','.'))
      LUlt.append(celdas[2].string.replace('.', '').replace(',','.'))
      LMax.append(celdas[4].string.replace('.', '').replace(',','.'))
      LMin.append(celdas[5].string.replace('.', '').replace(',','.'))


  DiccDatosClaveColumna = {"Indice":LInd, "Anterior":LAnt, "Ultimo":LUlt, "Maximo":LMax, "Minimo":LMin}
    # creación del dataframe

  dt = pd.DataFrame(DiccDatosClaveColumna)

  return dt


In [7]:
# Probar la funcion
obtenerDataframeIndicesBolsaMadrid()

Unnamed: 0,Indice,Anterior,Ultimo,Maximo,Minimo
0,IBEX 35®,8671.10,8677.00,8708.00,8667.90
1,IBEX 35® con Dividendos,26850.70,26869.10,26965.00,26840.90
2,IBEX MEDIUM CAP®,13449.20,13471.50,13495.00,13411.00
3,IBEX SMALL CAP®,8281.60,8327.60,8342.20,8280.20
4,IBEX 35® Bancos,544.50,546.50,549.00,544.20
...,...,...,...,...,...
76,Índice ITX Inverso X3,255.20,256.90,258.70,253.60
77,Índice TEF Inverso X5,4649.30,4610.80,4637.40,4386.90
78,Índice SAN Inverso X5,1643.30,1633.30,1671.50,1597.70
79,Índice BBVA Inverso X5,3743.30,3652.30,3714.10,3525.30


### 1.4. Obtener los nombres de las Acciones del índice IBEX

En este ejercicio se requiere obtener una lista de las acciones que conforman el índice del IBEX-35.<br>
Al igual que el ejercicio 1.1, los nombres de devuelven en forma de lista

In [12]:
# definir la función que devuelva los nombres de los índices de la Bolsa de Madrid

import requests
from bs4 import BeautifulSoup

def obtenerListaAccionesIBEX():
    url = "https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000&punto=indice"

    # completar el código necesario

    page = requests.get(url)   
    soup = BeautifulSoup(page.content)

    table = soup.find('table', {'id': 'ctl00_Contenido_tblAcciones'})
     
    lista_indices_acciones = []

    for fila in table.find_all('tr'):
        celdas = fila.find_all('td')
        if len(celdas)>0:
            lista_indices_acciones.append(celdas[0].string)

    return lista_indices_acciones

In [13]:
# Probar la funcion
obtenerListaAccionesIBEX()

['ACCIONA',
 'ACERINOX',
 'ACS',
 'AENA',
 'ALMIRALL',
 'AMADEUS',
 'ARCELORMIT.',
 'B.SANTANDER',
 'BA.SABADELL',
 'BANKINTER',
 'BBVA',
 'CAIXABANK',
 'CELLNEX',
 'CIE AUTOMOT.',
 'ENAGAS',
 'ENDESA',
 'FERROVIAL',
 'FLUIDRA',
 'GRIFOLS CL.A',
 'IAG',
 'IBERDROLA',
 'INDITEX',
 'INDRA A',
 'INM.COLONIAL',
 'MAPFRE',
 'MELIA HOTELS',
 'MERLIN',
 'NATURGY',
 'PHARMA MAR',
 'R.E.C.',
 'REPSOL',
 'ROVI',
 'SIEMENS GAME',
 'SOLARIA',
 'TELEFONICA']

### 1.5. Obtener un diccionario con el nombre y el volmen de la sesión

El objetivo es obtener un diccionario, donde la clave sea el nombre de la acción y el volmen movido durante la sesión<br>
Ese diccionario obtenido lo debemos ordenar de mayor a menor según su volumen.<br>
Por último imprimirlo.

In [14]:
# definir la función resuelve el ejercicio

import requests
from bs4 import BeautifulSoup

def obtenerDiccionarioListaAccionesIBEX():
    url = "https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000&punto=indice"

    page = requests.get(url)   
    soup = BeautifulSoup(page.content)

    # completar el código necesario
    
    table = soup.find('table', {'id': 'ctl00_Contenido_tblAcciones'})

    dic_indices_acciones = {}

    for fila in table.find_all('tr'):
        celdas = fila.find_all('td')
        if len(celdas)>0:
            dic_indices_acciones.update({celdas[0].string: int(celdas[5].string.replace('.', '').replace(',','.'))})


    dic_indices_accionesOrd = sorted(dic_indices_acciones.items(), key=lambda x: x[1], reverse= True)

    return dic_indices_accionesOrd

In [15]:
# Probar la funcion
obtenerDiccionarioListaAccionesIBEX()

[('BA.SABADELL', 7002806),
 ('IAG', 4766795),
 ('B.SANTANDER', 2350586),
 ('CAIXABANK', 2053229),
 ('REPSOL', 961470),
 ('BBVA', 833967),
 ('TELEFONICA', 821399),
 ('IBERDROLA', 448815),
 ('MAPFRE', 357539),
 ('BANKINTER', 258399),
 ('SIEMENS GAME', 127265),
 ('FERROVIAL', 124600),
 ('INDITEX', 107653),
 ('ACERINOX', 95516),
 ('ARCELORMIT.', 92408),
 ('CELLNEX', 81806),
 ('SOLARIA', 78914),
 ('ACS', 78325),
 ('MELIA HOTELS', 74205),
 ('GRIFOLS CL.A', 62976),
 ('MERLIN', 60393),
 ('INM.COLONIAL', 58974),
 ('ENDESA', 58877),
 ('FLUIDRA', 58701),
 ('R.E.C.', 54436),
 ('INDRA A', 45907),
 ('NATURGY', 40125),
 ('ENAGAS', 39920),
 ('AENA', 19944),
 ('PHARMA MAR', 19289),
 ('AMADEUS', 18626),
 ('ALMIRALL', 9598),
 ('ROVI', 6803),
 ('CIE AUTOMOT.', 5148),
 ('ACCIONA', 2601)]

### 1.6. Crear un dataframe (pandas) con ciertas columnas de las acciones.

El objetivo es dar un paso más, y obtener un dataframe con las columnas (fecha, nombre, precio, max, min, volumen). La columna clave será el nombre de la acción<br>
El orden de las columnas en el dataframe deben ser las siguientes: *fecha, nombre, precio, max, min, volumen*.<br>
Por último imprimirlo.

In [16]:
# definir la función que resuelva el ejercicio
def obtenerDataframeAccionesIBEX():

    # completar el código necesario para obtener diccionario

    url = "https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000&punto=indice"
    html = urllib.request.urlopen(url)
    soup = BeautifulSoup(html)

    LFec = []
    LInd = []
    LPre = []
    LMax = []
    LMin = []
    LVol = []

    table = soup.find('table', {'id': 'ctl00_Contenido_tblAcciones'})

    for fila in table.find_all('tr'):
      celdas = fila.find_all('td')
      if len(celdas)>0:
        LInd.append(celdas[0].string)
        LMax.append(float(celdas[6].string.replace('.', '').replace(',','.')))
        LMin.append(float(celdas[6].string.replace('.', '').replace(',','.')))
        LVol.append(celdas[5].string.replace('.', '').replace(',','.'))
        LPre.append(float(celdas[6].string.replace('.', '').replace(',','.')))
        LFec.append(celdas[7].string)

    DiccDatosAcciones = {"Fecha": LFec, "Indice": LInd, "Precio": LPre, "Maximo": LMax, "Minimo": LMin, "Volumen": LVol}

    # creación del dataframe

    dtt = pd.DataFrame(DiccDatosAcciones)

    # ordenar por máximo

    df = dtt.sort_values("Maximo", ascending=False)

    return df

 


In [17]:
# Probar la funcion
obtenerDataframeAccionesIBEX()

Unnamed: 0,Fecha,Indice,Precio,Maximo,Minimo,Volumen
30,18/02/2022,REPSOL,11510.46,11510.46,11510.46,961470
19,18/02/2022,IAG,9510.12,9510.12,9510.12,4766795
7,18/02/2022,B.SANTANDER,7861.35,7861.35,7861.35,2350586
11,18/02/2022,CAIXABANK,6667.62,6667.62,6667.62,2053229
8,18/02/2022,BA.SABADELL,6323.52,6323.52,6323.52,7002806
10,18/02/2022,BBVA,4825.33,4825.33,4825.33,833967
20,18/02/2022,IBERDROLA,4227.22,4227.22,4227.22,448815
34,18/02/2022,TELEFONICA,3596.1,3596.1,3596.1,821399
12,18/02/2022,CELLNEX,3193.26,3193.26,3193.26,81806
16,18/02/2022,FERROVIAL,3133.8,3133.8,3133.8,124600


### 1.7. Guardar el dataframe obtenido en un fichero CSV

El objetivo es dar un paso más, y guardar los valores obtenidos en el dataframe en un fichero CSV (separado por , o ; o ...)<br>
Este ejercicio es una continuación del ejercicio 1.6, con lo que se creará otra función para guardar el dataframe obtenido en un fichero CSV.
El orden de las columnas debe ser el siguiente: *fecha, nombre, precio, max, min, volumen*.<br>
 
Este fichero si no existe se crea, y si existe, se le anexarán las nuevas filas para los datos de la sesión para ese día.
Por último imprimirlo.

¿Ayuda? podeis seguir este [articulo](https://www.delftstack.com/es/howto/python-pandas/write-a-pandas-dataframe-to-csv/) donde explica cómo guardar un dataframe a un CSV.

In [18]:
import pandas as pd

# definir la función que resuelva el ejercicio. 

def obtenerDataframeAccionesIBEX():

    # completar el código necesario para obtener diccionario

    url = "https://www.bolsamadrid.es/esp/aspx/Mercados/Precios.aspx?indice=ESI100000000&punto=indice"
    html = urllib.request.urlopen(url)
    soup = BeautifulSoup(html)

    LFec = []
    LInd = []
    LPre = []
    LMax = []
    LMin = []
    LVol = []

    table = soup.find('table', {'id': 'ctl00_Contenido_tblAcciones'})

    for fila in table.find_all('tr'):
      celdas = fila.find_all('td')
      if len(celdas)>0:
        LInd.append(celdas[0].string)
        LMax.append(float(celdas[6].string.replace('.', '').replace(',','.')))
        LMin.append(float(celdas[6].string.replace('.', '').replace(',','.')))
        LVol.append(celdas[5].string.replace('.', '').replace(',','.'))
        LPre.append(float(celdas[6].string.replace('.', '').replace(',','.')))
        LFec.append(celdas[7].string)

    DiccDatosAcciones = {"Fecha": LFec, "Indice": LInd, "Precio": LPre, "Maximo": LMax, "Minimo": LMin, "Volumen": LVol}

    # creación del dataframe

    dtt = pd.DataFrame(DiccDatosAcciones)

    # ordenar por máximo

    df = dtt.sort_values("Maximo", ascending=False)

    return df

#Se el pasan 2 argumentos, el dataframe(df) y el nombre del fichero CSV donde se va a guardar

csvfile = "datosAccionesIbex.csv"

def saveToCSV(df, csvFileName):
    # completar el código necesario para obtener diccionario

    df.to_csv(csvFileName, index=False, sep=";")

    # ordenar por máximo
    
    return df

In [19]:
# Probar la funcion

df = obtenerDataframeAccionesIBEX()
csvfile = "datosAccionesIbex.csv"

saveToCSV(df,csvfile)

Unnamed: 0,Fecha,Indice,Precio,Maximo,Minimo,Volumen
30,18/02/2022,REPSOL,11510.46,11510.46,11510.46,961470
19,18/02/2022,IAG,9510.12,9510.12,9510.12,4766795
7,18/02/2022,B.SANTANDER,7861.35,7861.35,7861.35,2350586
11,18/02/2022,CAIXABANK,6667.62,6667.62,6667.62,2053229
8,18/02/2022,BA.SABADELL,6323.52,6323.52,6323.52,7002806
10,18/02/2022,BBVA,4825.33,4825.33,4825.33,833967
20,18/02/2022,IBERDROLA,4227.22,4227.22,4227.22,448815
34,18/02/2022,TELEFONICA,3596.1,3596.1,3596.1,821399
12,18/02/2022,CELLNEX,3193.26,3193.26,3193.26,81806
16,18/02/2022,FERROVIAL,3133.8,3133.8,3133.8,124600
