<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Ejercicio-1" data-toc-modified-id="Ejercicio-1-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Ejercicio 1</a></span></li><li><span><a href="#Ejercicio-2" data-toc-modified-id="Ejercicio-2-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Ejercicio 2</a></span></li><li><span><a href="#Ejercicio-3" data-toc-modified-id="Ejercicio-3-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Ejercicio 3</a></span></li></ul></div>

# Web Scraping: Extracción de Datos de Librería Online

## Descripción del Proyecto

Este proyecto implementa técnicas de web scraping para extraer información de una librería online. Se utilizan herramientas como BeautifulSoup y Selenium para recuperar datos estructurados de páginas web, demostrando diferentes enfoques y niveles de complejidad en la extracción de datos.


Este proyecto extrae datos de una librería online utilizando técnicas de web scraping. El sitio web utilizado es [Books to Scrape](http://books.toscrape.com/), una plataforma diseñada específicamente para practicar técnicas de scraping.

<img src="books_to_scrape.png" style="height: 500px">

**URL objetivo:** http://books.toscrape.com/catalogue/page-1.html

**Objetivos:**
- Extraer información estructurada (títulos, precios, calificaciones) de páginas web
- Implementar scraping de una sola página y de múltiples páginas
- Comparar diferentes técnicas y herramientas de scraping

## Ejercicio 1

Recuperar los datos de título y precio de los 20 libros de la página http://books.toscrape.com/catalogue/page-1.html
    

In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import requests

In [4]:
# Ejercicio 1
url = "http://books.toscrape.com/catalogue/page-1.html"
respuesta = requests.get(url)
soup = BeautifulSoup(respuesta.content, 'html.parser')

# Listas para almacenar los datos
titulos = []
precios = []

# Encontrar todos los libros
libros = soup.find_all('article', class_='product_pod')

# Extraer título y precio de cada libro
for libro in libros:
    # Extraer título
    titulo = libro.h3.a['title']
    titulos.append(titulo)
    
    # Extraer precio
    precio = libro.find('p', class_='price_color').text
    precio = float(precio.replace('£',''))
    precios.append(precio)

# Crear DataFrame
df = pd.DataFrame({
    'Titulo': titulos,
    'Precio': precios
})
df

Unnamed: 0,Titulo,Precio
0,A Light in the Attic,51.77
1,Tipping the Velvet,53.74
2,Soumission,50.1
3,Sharp Objects,47.82
4,Sapiens: A Brief History of Humankind,54.23
5,The Requiem Red,22.65
6,The Dirty Little Secrets of Getting Your Dream...,33.34
7,The Coming Woman: A Novel Based on the Life of...,17.93
8,The Boys in the Boat: Nine Americans and Their...,22.6
9,The Black Maria,52.15


## Ejercicio 2

Recuperar además el rating de los 20 libros de la página http://books.toscrape.com/catalogue/page-1.html
    

In [6]:
# Ejercicio 2
url = "http://books.toscrape.com/catalogue/page-1.html"
respuesta = requests.get(url)
soup = BeautifulSoup(respuesta.content, 'html.parser')

titulos = []
precios = []
calificaciones = []

libros = soup.find_all('article', class_='product_pod')

for libro in libros:
    # Extraer título
    titulo = libro.h3.a['title']
    titulos.append(titulo)
    
    # Extraer precio
    precio = libro.find('p', class_='price_color').text
    precio = float(precio.replace('£',''))
    precios.append(precio)
    
    # Extraer calificación
    calificacion = libro.p['class'][1]
    calificaciones.append(calificacion)

# Crear DataFrame
df = pd.DataFrame({
    'Titulo': titulos,
    'Precio': precios,
    'Calificacion': calificaciones
})
df

Unnamed: 0,Titulo,Precio,Calificacion
0,A Light in the Attic,51.77,Three
1,Tipping the Velvet,53.74,One
2,Soumission,50.1,One
3,Sharp Objects,47.82,Four
4,Sapiens: A Brief History of Humankind,54.23,Five
5,The Requiem Red,22.65,One
6,The Dirty Little Secrets of Getting Your Dream...,33.34,Four
7,The Coming Woman: A Novel Based on the Life of...,17.93,Three
8,The Boys in the Boat: Nine Americans and Their...,22.6,Four
9,The Black Maria,52.15,One


## Ejercicio 3

Recuperar los datos rating, titulo y precio para todos los títulos de la web.

Este ejercicio se puede hacer con Beautifull Soup o con Selenium. 
Lo haremos combinando ambos.



In [8]:
import pandas as pd
from bs4 import BeautifulSoup
import requests

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# para la localización de elementos en la página web
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select

# opciones del navegador de pruebas
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--no-sandbox')        # para ejecución en entorno controlado
chrome_options.add_argument('--start-maximized')   # maximizar_ventana
chrome_options.page_load_strategy = 'normal'      # WebDriver espera hasta que se carga.

from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support import expected_conditions as EC  ## condiciones de esperas
  

In [12]:
# Ejercicio 3
def extraer_pagina(url):
    respuesta = requests.get(url)
    sopa = BeautifulSoup(respuesta.content, 'html.parser')
    
    titulos = []
    precios = []
    calificaciones = []
    
    libros = sopa.find_all('article', class_='product_pod')
    
    # Si no hay libros, retornamos listas vacías
    if not libros:
        return [], [], []
    
    for libro in libros:
        titulos.append(libro.h3.a['title'])
        precios.append(float(libro.find('p', class_='price_color').text.replace('£','')))
        calificaciones.append(libro.p['class'][1])
        
    return titulos, precios, calificaciones

# Inicializar listas para todos los libros
todos_titulos = []
todos_precios = []
todas_calificaciones = []

# Iterar sobre todas las páginas
url_base = "http://books.toscrape.com/catalogue/page-{}.html"
pagina = 1

while True:
    url = url_base.format(pagina)
    titulos, precios, calificaciones = extraer_pagina(url)
    
    # Si no hay más libros, salimos del bucle
    if not titulos:
        break
        
    todos_titulos.extend(titulos)
    todos_precios.extend(precios)
    todas_calificaciones.extend(calificaciones)
    
    print(f"Página {pagina} procesada - {len(titulos)} libros encontrados")
    pagina += 1

# Crear DataFrame final
df_final = pd.DataFrame({
    'Titulo': todos_titulos,
    'Precio': todos_precios,
    'Calificacion': todas_calificaciones
})

print(f"\nTotal de libros encontrados: {len(todos_titulos)}")
df_final

Página 1 procesada - 20 libros encontrados
Página 2 procesada - 20 libros encontrados
Página 3 procesada - 20 libros encontrados
Página 4 procesada - 20 libros encontrados
Página 5 procesada - 20 libros encontrados
Página 6 procesada - 20 libros encontrados
Página 7 procesada - 20 libros encontrados
Página 8 procesada - 20 libros encontrados
Página 9 procesada - 20 libros encontrados
Página 10 procesada - 20 libros encontrados
Página 11 procesada - 20 libros encontrados
Página 12 procesada - 20 libros encontrados
Página 13 procesada - 20 libros encontrados
Página 14 procesada - 20 libros encontrados
Página 15 procesada - 20 libros encontrados
Página 16 procesada - 20 libros encontrados
Página 17 procesada - 20 libros encontrados
Página 18 procesada - 20 libros encontrados
Página 19 procesada - 20 libros encontrados
Página 20 procesada - 20 libros encontrados
Página 21 procesada - 20 libros encontrados
Página 22 procesada - 20 libros encontrados
Página 23 procesada - 20 libros encontrad

Unnamed: 0,Titulo,Precio,Calificacion
0,A Light in the Attic,51.77,Three
1,Tipping the Velvet,53.74,One
2,Soumission,50.10,One
3,Sharp Objects,47.82,Four
4,Sapiens: A Brief History of Humankind,54.23,Five
...,...,...,...
995,Alice in Wonderland (Alice's Adventures in Won...,55.53,One
996,"Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)",57.06,Four
997,A Spy's Devotion (The Regency Spies of London #1),16.97,Five
998,1st to Die (Women's Murder Club #1),53.98,One
