# Sprint 10 WEB SCRAPPING


### Ejercicio 1

**Realiza web scraping de dos de las tres páginas web propuestas utilitzando BeautifulSoup primero y Selenium después.**

http://quotes.toscrape.com

https://www.bolsamadrid.es

www.wikipedia.es (haz alguna búsqueda primero y escrapea algún contenido)


### Ejercicio 2

**Documenta en un Word tu conjunto de datos generados con la información que tienen los diferentes archivos de Kaggle.**

->https://www.kaggle.com/datasets/vivovinco/20212022-football-team-stats.


### Ejercicio 3

**Elije una página web que tú quieras y realiza web scraping mediante la librería Selenium primero y Scrapy después.**

El web scraping es una técnica de extracción de datos que consiste en obtener información de sitios web de manera automatizada. Esto implica recuperar datos estructurados o no estructurados de una página web y convertirlos en un formato que pueda ser utilizado para análisis, almacenamiento o visualización.

Consta de 5 pasos:
1. Definir la URL semilla (de donde se extraerán los datos o de donde se empezará a mover en caso de ws horizontal o vertical)
2. Realizar un request a la URL semilla
3. Obtener una respuesta del Servidor en formato html
4. Extraer los datos del html
5. En caso necesario repetimos el paso 2 (ws vertical/horizontal)

Web scraping horizontal: se mueve por diferentes páginas. Ej una búsqueda que tiene 4 páginas de resultados
Web scraping vertical: se mueve al interior de cada ficha o producto. Visita ficha a ficha de producto.


### Ejercicio 1

**Realiza web scraping de dos de las tres páginas web propuestas utilitzando BeautifulSoup primero y Selenium después.**

- http://quotes.toscrape.com

- https://www.bolsamadrid.es

- www.wikipedia.es (haz alguna búsqueda primero y escrapea algún contenido)

Para el primer ejercicio usaremos la web de "quotes.toscrape.com". La idea es crear un dataframe con las citas que contenga y los autores de estas.


In [1]:
import pandas as pd
import requests  #permite hacer requerimientos a las webs
from bs4 import BeautifulSoup # proporciona herramientas para extraer información de archivos HTML y XML

url = "https://quotes.toscrape.com/" # direccion web que queremos scrapear

respuesta = requests.get(url)

soup = BeautifulSoup(respuesta.text, "html.parser")

caja_citas = soup.find_all(class_="quote") #class_ porque sinó no funcionaria

datos_citas=[]

for cita in caja_citas:
    frase = cita.find(class_="text").text
    autor= cita.find(class_="author").text
    datos_citas.append({
        'Texto': frase,
        'Autor': autor
    })
    
df_citas = pd.DataFrame(datos_citas)
df_citas

Unnamed: 0,Texto,Autor
0,“The world as we have created it is a process ...,Albert Einstein
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling
2,“There are only two ways to live your life. On...,Albert Einstein
3,"“The person, be it gentleman or lady, who has ...",Jane Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe
5,“Try not to become a man of success. Rather be...,Albert Einstein
6,“It is better to be hated for what you are tha...,André Gide
7,"“I have not failed. I've just found 10,000 way...",Thomas A. Edison
8,“A woman is like a tea bag; you never know how...,Eleanor Roosevelt
9,"“A day without sunshine is like, you know, nig...",Steve Martin


In [2]:
# Haremos lo mismo para hacer scraping en 3 páginas

base_url = "https://quotes.toscrape.com/page/{}"  # Utilizamos {} como marcador de posición para el número de página

datos_citas_3pag = []

# Especificamos el número de páginas para el scraping
numero_total_paginas = 3

for pagina in range(1, numero_total_paginas + 1):
    url = base_url.format(pagina)
    respuesta = requests.get(url)
    soup = BeautifulSoup(respuesta.text, "html.parser")
    
    caja_citas = soup.find_all(class_="quote")

    for cita in caja_citas:
        frase = cita.find(class_="text").text
        autor = cita.find(class_="author").text
        datos_citas_3pag.append({
            'Texto': frase,
            'Autor': autor
        })

df_citas_3pag = pd.DataFrame(datos_citas_3pag)
df_citas_3pag


Unnamed: 0,Texto,Autor
0,“The world as we have created it is a process ...,Albert Einstein
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling
2,“There are only two ways to live your life. On...,Albert Einstein
3,"“The person, be it gentleman or lady, who has ...",Jane Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe
5,“Try not to become a man of success. Rather be...,Albert Einstein
6,“It is better to be hated for what you are tha...,André Gide
7,"“I have not failed. I've just found 10,000 way...",Thomas A. Edison
8,“A woman is like a tea bag; you never know how...,Eleanor Roosevelt
9,"“A day without sunshine is like, you know, nig...",Steve Martin


Ahora haremos un web scraping más complicado ya que se trata de un web scraping en una *web dinámica*. Y para ello necesitamos usar **Selenium**. Haremos web scraping de un valor de la página web https://www.bolsamadrid.es, actualmente su dirección es https://www.bolsasymercados.es/bme-exchange/es/Bolsa-Madrid. En concreto lo haremos de la página web https://www.bolsasymercados.es/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Ficha/Acciona-ES0125220311 que es la información histórica de los valores de Acciona los últimos 30 días.

In [3]:
from selenium import webdriver
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time



options = Options()
options.add_argument("user-agent= Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36")
driver = webdriver.Chrome(options=options)
url = "https://www.bolsasymercados.es/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Ficha/Acciona-ES0125220311"
driver.get(url)
driver.implicitly_wait(5)
content = driver.page_source
print(content) 


<html lang="es"><head data-idioma="es" data-hora-act="Sun, 10 Dec 2023 09:52:37 GMT" data-app-path="/bme-exchange"><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1"><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><meta id="Description" name="description" content="Todos los datos acerca de la cotización de las acciones de ACCIONA: precios históricos, gráficos y operaciones financieras."><meta id="copyright" name="copyright" content="Copyright © BME 2023"><meta property="og:site_name" content="BME Exchange"><meta property="og:locale" content="es"><meta property="og:type" content="website"><meta property="twitter:card" content="summary_large_image"><meta property="twitter:site" content="@BolsaBME"><meta property="og:title" content="BME Exchange"><meta property="twitter:title" content="BME Exchange"><meta property="og:url" content="https://www.bolsasymercados.es/bme-exchange/es/M

In [4]:
print(type(driver))

<class 'selenium.webdriver.chrome.webdriver.WebDriver'>


In [5]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Configura el WebDriver (suponiendo que estás usando Chrome)
driver = webdriver.Chrome()

# Abre la URL
url = "https://www.bolsasymercados.es/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Ficha/Acciona-ES0125220311"
driver.get(url)

# Para poder seguir adelante hay que aceptar las Cookies
cookie_banner = WebDriverWait(driver, 10).until(
    EC.visibility_of_element_located((By.ID, "onetrust-banner-sdk"))
)

# Acepta las cookies haciendo clic en el botón "Aceptar"
accept_button = cookie_banner.find_element(By.XPATH, "//html/body/div[6]/div[2]/div/div[1]/div/div[2]/div/button[2]")
accept_button.click()

# Encuentra el elemento usando XPath
boton = driver.find_element(By.XPATH, "//*[@id='tab1']/ul/li[5]/a")

driver.execute_script("arguments[0].click();", boton)

# Ahora puedes realizar acciones en el elemento, como hacer clic en él
boton.click()



In [7]:
# Esperar a que la tabla se cargue (ajusta el tiempo según sea necesario)
    WebDriverWait(driver,10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "selector-de-tabla"))
    )

    # Raspar la tabla después de hacer clic en el botón
    table_element = driver.find_element(By.CSS_SELECTOR, "selector-de-tabla")
    table_html = table_element.get_attribute("outerHTML")

    # Imprimir el contenido de la tabla
    print(table_html)

finally:
    # Cerrar el navegador al finalizar
    driver.quit()

IndentationError: unexpected indent (714832941.py, line 2)

In [8]:
tablas = driver.find_elements(By.CSS_SELECTOR, ".table-responsive")

for i in tablas:
    nombre = i.find_element(By.CSS_SELECTOR, '[role="columnheader"]').text # nombre de las columnas
    print(f"Tabla: {nombre} \n")

    html_tabla = i.get_attribute("outerHTML")
    df = pd.read_html(html_tabla)[0]
    print(df)
    print("=============================================")

driver.quit()

df

Tabla: Fecha 

         Fecha   Cierre  Referencia  Volumen Importe Efectivo   Último  \
0   10/11/2023  1272000     1285000   64.341     8.161.564,30  1272000   
1   13/11/2023  1261000     1272000   48.602     6.135.222,40  1261000   
2   14/11/2023  1314000     1261000  103.118    13.430.943,40  1314000   
3   15/11/2023  1316000     1314000   89.632    11.802.932,65  1316000   
4   16/11/2023  1320500     1316000   84.782    11.200.562,70  1320500   
5   17/11/2023  1291000     1320500  190.155    24.639.325,40  1291000   
6   20/11/2023  1299500     1291000   87.506    11.376.170,00  1299500   
7   21/11/2023  1243500     1299500  179.613    22.561.413,80  1243500   
8   22/11/2023  1240000     1243500  126.071    15.731.905,50  1240000   
9   23/11/2023  1255500     1240000   50.812     6.356.347,45  1255500   
10  24/11/2023  1238500     1255500   98.378    12.178.034,40  1238500   
11  27/11/2023  1263000     1238500   80.451    10.121.498,35  1263000   
12  28/11/2023  1271500

Unnamed: 0,Fecha,Cierre,Referencia,Volumen,Importe Efectivo,Último,Máximo,Mínimo,Medio
0,10/11/2023,1272000,1285000,64.341,"8.161.564,30",1272000,1275500,1257000,1268486
1,13/11/2023,1261000,1272000,48.602,"6.135.222,40",1261000,1278500,1257500,1262339
2,14/11/2023,1314000,1261000,103.118,"13.430.943,40",1314000,1318500,1261000,1302483
3,15/11/2023,1316000,1314000,89.632,"11.802.932,65",1316000,1332500,1304000,1316821
4,16/11/2023,1320500,1316000,84.782,"11.200.562,70",1320500,1330500,1313000,1321101
5,17/11/2023,1291000,1320500,190.155,"24.639.325,40",1291000,1332000,1278500,1295859
6,20/11/2023,1299500,1291000,87.506,"11.376.170,00",1299500,1310500,1286000,1300045
7,21/11/2023,1243500,1299500,179.613,"22.561.413,80",1243500,1294500,1233500,1256113
8,22/11/2023,1240000,1243500,126.071,"15.731.905,50",1240000,1270000,1240000,1247913
9,23/11/2023,1255500,1240000,50.812,"6.356.347,45",1255500,1255500,1241000,1250908


In [17]:
df.shape


(21, 9)

### Ejercicio 2

**Documenta en un Word tu conjunto de datos generados con la información que tienen los diferentes archivos de Kaggle.**

->https://www.kaggle.com/datasets/vivovinco/20212022-football-team-stats.

He decidido hacerlo sobre el dataset obtenido a partir del web scraping de la web https://www.bolsasymercados.es/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Ficha/Acciona-ES0125220311 . Hay que tener en cuenta que se trata de una web dinánica y si se quiere acceder a dicha tabla Hay que hacer clicl en el link "Información histórica". Si no no aparecerá la tabla.

He creado el archivo [Tabla de valores Acciona](https://github.com/GemmaGL/Web_Scraping/blob/main/Documento_sobre_dataset_Acciona.pdf) en la que se puede ver la composición e información sobre el data set.

### Ejercicio 3

**Elije una página web que tú quieras y realiza web scraping mediante la librería Selenium primero y Scrapy después.**

El web scraping es una técnica de extracción de datos que consiste en obtener información de sitios web de manera automatizada. Esto implica recuperar datos estructurados o no estructurados de una página web y convertirlos en un formato que pueda ser utilizado para análisis, almacenamiento o visualización.

Para este ejercicio he elegido la página Stack Overflow. Para Hacer un Scraping de las diferentes preguntas en una página sobre Python.

In [16]:
import re
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

url = "https://stackoverflow.com/questions/tagged/python"

respuesta = requests.get(url, headers=headers)


soup = BeautifulSoup(respuesta.text)

contenedor_de_preguntas = soup.find(id="questions")
lista_de_preguntas = contenedor_de_preguntas.find_all(class_= "s-post-summary") # class - siemprew class_ pq es una palabra reservada

datos_preguntas = []

for pregunta in lista_de_preguntas:
    texto_pregunta = pregunta.find("h3").text
    unidad_elemento = soup.find('span', class_='s-post-summary--stats-item-unit')
    datos_preguntas.append({
        "pregunta":texto_pregunta
    })
    if unidad_elemento.text.lower()=="answers":
        num_respuestas = pregunta.find('span', class_='s-post-summary--stats-item-number').text
        texto = unidad_elemento.text
        datos_preguntas.append({
            "votos":num_respuestas,
            "nombre": texto
        })

df_preguntas = pd.DataFrame(datos_preguntas)
df_preguntas

Unnamed: 0,pregunta
0,\nHow to Implement a Bubble Sort Algorithm in ...
1,\nHow to do a batch search in Redis?\n
2,"\nHow can I calculate the dry season onset, en..."
3,\nSending variable client to the server (socke...
4,\ndifference between png image saved after ims...
5,\nSyntax problem when made slight change when ...
6,\nWhen i choose the start face recognition it ...
7,\nPython Float and Int [closed]\n
8,\nUnable to open the remote html file in JetBr...
9,\nThe neural network is stuck in a local minim...


Había conseguido hacer web scraping de varias páginas de Amazon tanto en vertical como en horizontal con Selenium. Pero deben haber hecho diferentes modificaciones en la web y ya no sirve el código. He intentando acceder de otras maneras, pero al final aparece una manera de identificar que sólo lo puedes hacer escribiendo el texto que ves. De manera que a pesar de dejar aquí ambos códigos. No son útiles. Habría que buscar otras maneras.

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
import pandas as pd
import time

options = Options()
options.add_argument("--headless")
browser = webdriver.Chrome(options=options)
url_base = 'https://www.amazon.es/s?k=cadenas+coche+nieve&crid=2FWQVBVNVDOTY&sprefix=cadenas+%2Caps%2C90&ref=nb_sb_ss_ts-doa-p_1_8'

data = []

for page_number in range(1, 6):  # Cambia el rango según la cantidad de páginas que desees explorar
    url = f'{url_base}&page={page_number}'
    browser.get(url)
    browser.maximize_window()

    result_items = browser.find_elements(
        by=By.CSS_SELECTOR,
        value='.s-result-item'
    )

    for product in result_items:
        try:
            product_title = product.find_element(
                by=By.CSS_SELECTOR,
                value='.s-title-instructions-style'
            )
        except NoSuchElementException:
            continue

        try:
            product_price_element = product.find_element(
                by=By.CSS_SELECTOR,
                value='.a-price-whole'
            )
        except NoSuchElementException:
            continue

        product_price = product_price_element.text

        try:
            product_review_element = product.find_element(
                by=By.CSS_SELECTOR,
                value='.a-size-base.s-underline-text'
            )
        except NoSuchElementException:
            continue

        product_review = product_review_element.text
        
        data.append({
            'Title': product_title.text,
            'Price': product_price,
            'Review': product_review
        })

    # Espera breve para asegurarse de que la página se cargue completamente antes de pasar a la siguiente
    time.sleep(2)

browser.quit()
df_amazon = pd.DataFrame(data)

df_amazon

In [None]:
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
import time

#options = Options()
#options.add_argument("--headless")
#options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
browser = webdriver.Chrome() #options=options) 
url = 'https://www.amazon.es/'
browser.get(url)
browser.maximize_window()

element = browser.find_element(By.XPATH,'//*[@id="twotabsearchtextbox"]')
element.send_keys("cadenas de tela")

element1 = browser.find_element(By.XPATH,'//*[@id="nav-search-submit-button"]')
element1.send_keys("cadenas de tela")
element1.click()
