¿Qué Es el Web Scraping?
El web scraping es un conjunto de prácticas utilizadas para extraer automáticamente — o «scrapear» — datos de la web.

El web scraping se refiere al proceso de extracción de contenidos y datos de sitios web mediante software.

Este script realiza web scraping de la página de un libro específico en el sitio "Books to Scrape".

Primero, hacemos una petición HTTP con `requests.get(url)` para obtener el contenido HTML de la página.

Luego, usamos `BeautifulSoup(response.text, 'html.parser')` para convertir ese HTML crudo en un objeto navegable.
Esto permite buscar elementos fácilmente usando métodos como `.find()`, `.select_one()`, etc.

Extraemos el título con `soup.find('h1').text`, el precio con `soup.select_one('.price_color').text`,  y lo limpiamos con `.replace()` para quitar caracteres no deseados (como "Â").

Para la disponibilidad, usamos `.select_one('.availability').text.strip()` para eliminar espacios en blanco.

La descripción del libro está justo después del div con id `product_description`, por eso usamos `.find_next_sibling('p')`.

Finalmente, las estrellas están codificadas como una clase CSS en la etiqueta <p>, como por ejemplo: `<p class="star-rating Three">.`

Al usar `tag['class'][1]`, obtenemos el texto que indica la cantidad de estrellas (por ejemplo, "Three").

In [None]:
# Extraer la información de un solo libro

import requests
from bs4 import BeautifulSoup #Averiguar bien

# URL del libro
url = 'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'

# Hacemos la petición
response = requests.get(url)

# BeautifulSoup(response.text, 'html.parser') transforma el HTML crudo en un objeto navegable.
soup = BeautifulSoup(response.text, 'html.parser')

# Obtenemos el título
title = soup.find('h1').text

# .text te devuelve el texto visible dentro de una etiqueta HTML.
# La gente usa .text sin saber qué devuelve la etiqueta. Si la etiqueta no tiene texto visible (ej: <img> o <meta>), .text te da vacío.

# Obtenemos precio
price = soup.select_one('.price_color').text
price = price.replace('Â', '')  # Limpia cualquier carácter raro que aparezca

# Obtenemos disponibilidad
availability = soup.select_one('.availability').text.strip()

# Descripción (viene en el siguiente <p> después del div con id 'product_description')
desc_tag = soup.find('div', id='product_description')
# Usamos `.find_next_sibling('p')`, que busca el **próximo hermano (sibling)** que sea una etiqueta <p>.
description = desc_tag.find_next_sibling('p').text if desc_tag else "Sin descripción"

# Las estrellas están codificadas en la clase CSS de un <p>
# Ese guion bajo es una convención para evitar conflicto. Internamente, BeautifulSoup ya sabe que class_ se refiere al atributo class del HTML
# Al hacer tag['class'], obtenemos una lista como ['star-rating', 'Three'], y el índice [1] nos da la cantidad de estrellas en texto.
star_tag = soup.find('p', class_='star-rating')
stars = star_tag['class'][1]

# Imprimimos
print(f"Título: {title}")
print(f"Precio: {price}")
print(f"Disponibilidad: {availability}")
print(f"Descripción: {description[:60]}...")
print(f"Estrellas: {stars}")


Título: A Light in the Attic
Precio: £51.77
Disponibilidad: In stock (22 available)
Descripción: It's hard to imagine a world without A Light in the Attic. T...
Estrellas: Three


Scrapeo de varias páginas

Que hacen:

1. requests.get(url) hace una petición HTTP a la URL y devuelve la respuesta con el HTML.

2. BeautifulSoup transforma el texto HTML en un objeto para buscar etiquetas fácilmente.

3. .find() busca la primera etiqueta que cumple la condición.

4. .select() busca todas las etiquetas que cumplen un selector CSS (devuelve lista).

5. .select_one() busca el primer elemento que cumple el selector CSS (devuelve un tag).

6. En las URLs, a veces hay rutas relativas con "../", hay que limpiarlas para crear URLs absolutas.

7. time.sleep(0.1) hace que el programa espere 0.1 segundos para no saturar el servidor y evitar bloqueos.

8. El bucle while True se usa para seguir scrapeando páginas hasta que no haya más páginas siguientes.

9. Las estrellas del libro están en la clase CSS 'star-rating X', donde X es la cantidad en texto (One, Two, Three, etc).

10. Guardamos los datos en una lista de diccionarios para luego exportarlos o procesarlos fácilmente.

In [12]:
# Extraer la información de una categoría

import requests # Para hacer peticiones HTTPS y obtener el contenido de las páginas
from bs4 import BeautifulSoup # Para parsear (analizar) el contenido de la página web
import time # Para pausar entre peticiones y no sobrecargar el servidor

base_url = 'https://books.toscrape.com/catalogue/'

category_url = 'https://books.toscrape.com/catalogue/category/books/mystery_3/index.html'

# Lista donde se guardaran los datos de todos los libros
all_books = []

# Función scrape_book, toma la url de un libro especifico y devuelve los datos scrapeados en forma de diccionario
def scrape_book(url):

  # Hacemos la petición
  try:
    response = requests.get(url, timeout=10)
    response.raise_for_status()
  except requests.RequestException as e:
    print(f"❌ Error al acceder a {url}: {e}")
    return None

  # BeautifulSoup(response.text, 'html.parser') transforma el HTML crudo en un objeto navegable.
  soup = BeautifulSoup(response.text, 'html.parser')

  # Obtenemos el título
  title = soup.find('h1').text

  # Obtenemos precio
  price = soup.select_one('.price_color').text
  price = price.replace('Â', '')  # Limpia cualquier carácter raro que aparezca

  # Obtenemos disponibilidad
  availability = soup.select_one('.availability').text.strip()

  # Descripción (viene en el siguiente <p> después del div con id 'product_description')
  desc_tag = soup.find('div', id='product_description')
  # Usamos `.find_next_sibling('p')`, que busca el **próximo hermano (sibling)** que sea una etiqueta <p>.
  description = desc_tag.find_next_sibling('p').text if desc_tag else "Sin descripción"

  # Las estrellas están codificadas en la clase CSS de un <p>
  # Ese guion bajo es una convención para evitar conflicto. Internamente, BeautifulSoup ya sabe que class_ se refiere al atributo class del HTML
  # Al hacer tag['class'], obtenemos una lista como ['star-rating', 'Three'], y el índice [1] nos da la cantidad de estrellas en texto.
  star_tag = soup.find('p', class_='star-rating')
  stars = star_tag['class'][1]

  return {
    'Titulo': title,
    'Precio': price,
    'Disponibilidad': availability,
    'Estrellas': stars,
    'URL': url
  }

# Funcion scrape_category, toma la url de una categoria, recorre todas sus paginas y scrapea todos los libros que encuentra
def scrape_category(url):
  while True:
    print(f"Scrapeando pagina: {url}")
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Seleccionamos todos los libros en la pagina actual de esa categoría
    book_articles = soup.select('article.product_pod')

    for book in book_articles:

      # Obtenemos el href del libro
      relative_url = book.find('h3').find('a')['href']

      # relative_url trae la url completa, entonces la limpiamos para después concatenarla a base_url
      book_url = base_url + relative_url.replace('../../../', '')

      # Scrapeamos el libro
      book_data = scrape_book(book_url)

      # Guardamos el resultado
      all_books.append(book_data)

      # Pausa para evitar sobrecarga
      time.sleep(10)

    # Verificamos si hay un boton next para seguir scrapeando la sgte pagina
    # Usa un selector CSS (li.next > a) para encontrar el link de la siguiente página. Si existe: next_button va a tener un tag <a>.
    next_button = soup.select_one('li.next > a')
    if next_button:
      next_page_url = next_button['href']
      # rsplit(separador, cantidad) divide un string desde el final, y solo hace la cantidad de cortes que vos le indiques.
      url = url.rsplit('/', 1)[0] + '/' + next_page_url
    else:
      break

scrape_category(category_url)

print(f"Total de libros scrapeados: {len(all_books)}")
print(all_books)

Scrapeando pagina: https://books.toscrape.com/catalogue/category/books/mystery_3/index.html
❌ Error al acceder a https://books.toscrape.com/catalogue/the-last-mile-amos-decker-2_754/index.html: HTTPSConnectionPool(host='books.toscrape.com', port=443): Max retries exceeded with url: /catalogue/the-last-mile-amos-decker-2_754/index.html (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7d853d547080>, 'Connection to books.toscrape.com timed out. (connect timeout=10)'))
❌ Error al acceder a https://books.toscrape.com/catalogue/a-study-in-scarlet-sherlock-holmes-1_656/index.html: HTTPSConnectionPool(host='books.toscrape.com', port=443): Max retries exceeded with url: /catalogue/a-study-in-scarlet-sherlock-holmes-1_656/index.html (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7d853d9bbce0>, 'Connection to books.toscrape.com timed out. (connect timeout=10)'))
❌ Error al acceder a https://books.toscrape.com/catalogue/hide-away-eve-du

In [17]:
# Extraer información de toda la página

import requests # Para hacer peticiones HTTPS y obtener el contenido de las páginas
from bs4 import BeautifulSoup # Para parsear (analizar) el contenido de la página web
import time # Para pausar entre peticiones y no sobrecargar el servidor

base_url = 'https://books.toscrape.com/catalogue/'

# Lista donde se guardaran los datos de todos los libros
all_books = []

# Función scrape_book, toma la url de un libro especifico y devuelve los datos scrapeados en forma de diccionario
def scrape_book(url):

  # Hacemos la petición
  try:
    response = requests.get(url, timeout=10)
    response.raise_for_status()
  except requests.RequestException as e:
    print(f"❌ Error al acceder a {url}: {e}")
    return None

  # BeautifulSoup(response.text, 'html.parser') transforma el HTML crudo en un objeto navegable.
  soup = BeautifulSoup(response.text, 'html.parser')

  # Obtenemos el título
  title = soup.find('h1').text

  # Obtenemos precio
  price = soup.select_one('.price_color').text
  price = price.replace('Â', '')  # Limpia cualquier carácter raro que aparezca

  # Obtenemos disponibilidad
  availability = soup.select_one('.availability').text.strip()

  # Descripción (viene en el siguiente <p> después del div con id 'product_description')
  desc_tag = soup.find('div', id='product_description')
  # Usamos `.find_next_sibling('p')`, que busca el **próximo hermano (sibling)** que sea una etiqueta <p>.
  description = desc_tag.find_next_sibling('p').text if desc_tag else "Sin descripción"

  # Las estrellas están codificadas en la clase CSS de un <p>
  # Ese guion bajo es una convención para evitar conflicto. Internamente, BeautifulSoup ya sabe que class_ se refiere al atributo class del HTML
  # Al hacer tag['class'], obtenemos una lista como ['star-rating', 'Three'], y el índice [1] nos da la cantidad de estrellas en texto.
  star_tag = soup.find('p', class_='star-rating')
  stars = star_tag['class'][1]

  return {
    'Titulo': title,
    'Precio': price,
    'Disponibilidad': availability,
    'Estrellas': stars,
    'URL': url
  }

# Funcion scrape_category, toma la url de una categoria, recorre todas sus paginas y scrapea todos los libros que encuentra
def scrape_category(url):
  while True:
    print(f"Scrapeando pagina: {url}")
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Seleccionamos todos los libros en la pagina actual de esa categoría
    book_articles = soup.select('article.product_pod')

    for book in book_articles:

      # Obtenemos el href del libro
      relative_url = book.find('h3').find('a')['href']

      # relative_url trae la url completa, entonces la limpiamos para después concatenarla a base_url
      book_url = base_url + relative_url.replace('../../../', '')

      # Scrapeamos el libro
      book_data = scrape_book(book_url)

      # Guardamos el resultado
      all_books.append(book_data)

      # Pausa para evitar sobrecarga
      time.sleep(10)

    # Verificamos si hay un boton next para seguir scrapeando la sgte pagina
    # Usa un selector CSS (li.next > a) para encontrar el link de la siguiente página. Si existe: next_button va a tener un tag <a>.
    next_button = soup.select_one('li.next > a')
    if next_button:
      next_page_url = next_button['href']
      # rsplit(separador, cantidad) divide un string desde el final, y solo hace la cantidad de cortes que vos le indiques.
      url = url.rsplit('/', 1)[0] + '/' + next_page_url
    else:
      break

def scrape_all_categories():

  home_url = 'https://books.toscrape.com/index.html'
  base_site = 'https://books.toscrape.com/'

  response = requests.get(home_url)
  response.raise_for_status()
  soup = BeautifulSoup(response.text, 'html.parser')

  category_links = soup.select('div.side_categories ul li ul li a')

  print(f"\n Se encontraron {len(category_links)} categorias. \n")

  for category in category_links:
    relative_url = category['href']
    category_url = base_site + relative_url

    print(f"\n Scrapeando categoria: {category.text.strip()} -> {category_url}")

    scrape_category(category_url)

scrape_all_categories()

print(f"Total de libros scrapeados: {len(all_books)}")
print(all_books)


 Se encontraron 50 categorias. 


 Scrapeando categoria: Travel -> https://books.toscrape.com/catalogue/category/books/travel_2/index.html
Scrapeando pagina: https://books.toscrape.com/catalogue/category/books/travel_2/index.html

 Scrapeando categoria: Mystery -> https://books.toscrape.com/catalogue/category/books/mystery_3/index.html
Scrapeando pagina: https://books.toscrape.com/catalogue/category/books/mystery_3/index.html
❌ Error al acceder a https://books.toscrape.com/catalogue/the-past-never-ends_942/index.html: HTTPSConnectionPool(host='books.toscrape.com', port=443): Max retries exceeded with url: /catalogue/the-past-never-ends_942/index.html (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7d853d5832f0>, 'Connection to books.toscrape.com timed out. (connect timeout=10)'))
❌ Error al acceder a https://books.toscrape.com/catalogue/the-murder-of-roger-ackroyd-hercule-poirot-4_852/index.html: HTTPSConnectionPool(host='books.toscrape.com', port=443): 

KeyboardInterrupt: 

Para poder pasar los datos a un CSV

Un archivo CSV (valores separados por comas) es un archivo de texto que tiene un formato específico que permite guardar los datos en un formato de tabla estructurada.

with ... as f: 👉 Context manager: abre y cierra el archivo solo, incluso si explota algo. f es el manejador.

open(path, ...) 👉 ruta del archivo. Si no existe la carpeta, revienta con FileNotFoundError.

'w' 👉 write: crea el archivo o sobrescribe si ya existe.

newline='' 👉 especial para CSV en Windows: evita que se inserten líneas en blanco entre filas.

encoding='utf-8' 👉 guarda acentos/ñ/emoji sin romperse.

In [None]:
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
import csv

BASE_URL = "https://books.toscrape.com/"
CATALOGUE_URL = BASE_URL + "catalogue/"

all_books = []

def fetch_author(title):
    try:
        url  = f"https://openlibrary.org/search.json?title={requests.utils.quote(title)}&limit=1"
        resp = requests.get(url, timeout=5)
        resp.raise_for_status()
        docs = resp.json().get('docs', [])
        if docs and docs[0].get('author_name'):
            return docs[0]['author_name'][0]
    except Exception as e:
        print(f"⚠️ Error al buscar autor para «{title}»: {e}")
    return "Desconocido"

def scrape_book(url):
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()
    except requests.RequestException as e:
        print(f"❌ Error al acceder a {url}: {e}")
        return None

    soup = BeautifulSoup(response.text, 'html.parser')

    title = soup.find('h1').text
    author = fetch_author(title)
    price = soup.select_one('.price_color').text.replace('Â', '')
    availability = soup.select_one('.availability').text.strip()

    desc_tag = soup.find('div', id='product_description')
    description = desc_tag.find_next_sibling('p').text if desc_tag else "Sin descripción"

    star_tag = soup.find('p', class_='star-rating')
    stars = star_tag['class'][1] if star_tag else "No rating"

    return {
        'Titulo': title,
        'Autor': author,
        'Precio': price,
        'Disponibilidad': availability,
        'Estrellas': stars,
        'Descripcion': description,
        'URL': url
    }

def scrape_all_books():
    url = CATALOGUE_URL + "page-1.html"
    while True:
        print(f"Scrapeando página: {url}")
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')

        books = soup.select('article.product_pod')
        book_urls = []

        for b in books:
          # Encontramos el href del <a> dentro del <h3>
          relative_url = b.find('h3').a['href']

          # Limpiamos esa url
          cleaned_url = relative_url.replace('../../../', '')

          full_url = CATALOGUE_URL + cleaned_url

          book_urls.append(full_url)

        with ThreadPoolExecutor(max_workers = 15) as executor:
          results = executor.map(scrape_book, book_urls)
          for book_data in  results:
            if book_data:
              all_books.append(book_data)

        # Verificamos si hay un boton next para seguir scrapeando la sgte pagina
        # Usa un selector CSS (li.next > a) para encontrar el link de la siguiente página. Si existe: next_button va a tener un tag <a>.
        next_button = soup.select_one('li.next > a')
        if next_button:
          next_page = next_button['href']
          # rsplit(separador, cantidad) divide un string desde el final, y solo hace la cantidad de cortes que vos le indiques.
          url = url.rsplit('/', 1)[0] + '/' + next_page
        else:
          break

def export_books_to_csv(rows, path='books.csv'):
    """
    Guarda una lista de dicts (all_books) en un CSV.
    - Usa las claves del primer dict como encabezados.
    - Codifica en UTF-8.
    """
    if not rows:
        print("⚠️ Nada para guardar (lista vacía).")
        return
    # escribir encabezados y filas
    # Abre el archivo path en modo escritura ('w')
    with open(path, 'w', newline='', encoding='utf-8') as f:
        headers = list(rows[0].keys())   # columnas: Titulo, Autor, Precio, etc.
        w = csv.DictWriter(f, fieldnames=headers) # Crea un escritor CSV que sabe convertir diccionarios en filas, fija el orden de las columnas en el archivo
        w.writeheader()
        w.writerows(rows)
    print(f"✅ CSV exportado: {path} ({len(rows)} filas)")


scrape_all_books()

print(f"\n Total de libros scrapeados: {len(all_books)}")

export_books_to_csv(all_books)  # crea books.csv en tu carpeta actual



Scrapeando página: https://books.toscrape.com/catalogue/page-1.html
Scrapeando página: https://books.toscrape.com/catalogue/page-2.html
Scrapeando página: https://books.toscrape.com/catalogue/page-3.html
Scrapeando página: https://books.toscrape.com/catalogue/page-4.html
Scrapeando página: https://books.toscrape.com/catalogue/page-5.html
Scrapeando página: https://books.toscrape.com/catalogue/page-6.html
Scrapeando página: https://books.toscrape.com/catalogue/page-7.html
Scrapeando página: https://books.toscrape.com/catalogue/page-8.html
Scrapeando página: https://books.toscrape.com/catalogue/page-9.html
Scrapeando página: https://books.toscrape.com/catalogue/page-10.html
Scrapeando página: https://books.toscrape.com/catalogue/page-11.html
Scrapeando página: https://books.toscrape.com/catalogue/page-12.html
Scrapeando página: https://books.toscrape.com/catalogue/page-13.html
Scrapeando página: https://books.toscrape.com/catalogue/page-14.html
Scrapeando página: https://books.toscrape.c

Como crear una base de datos desde python utilizando SQLite

In [None]:
import sqlite3

# Conectar la base de datos local 'scraping.db'
conector = sqlite3.connect('books.db')
cursor = conector.cursor()

# Crear tabla autores
cursor.execute("""
CREATE TABLE IF NOT EXISTS authors (
               id INTEGER PRIMARY KEY AUTOINCREMENT,
               name TEXT UNIQUE
               );
""")

# Crear tabla de libros
cursor.execute("""
CREATE TABLE IF NOT EXISTS books (
               id INTEGER PRIMARY KEY AUTOINCREMENT,
               title TEXT,
               price REAL,
               availability TEXT,
               stars INTEGER,
               description TEXT,
               url TEXT UNIQUE
               );
""")

# Creamos la tabla intermedia para lograr la relación de muchos a muchos
cursor.execute("""
CREATE TABLE IF NOT EXISTS books_authors(
               book_id INTEGER,
               author_id integer,
               PRIMARY KEY (book_id, author_id),
               FOREIGN KEY (book_id) REFERENCES books(id),
               FOREIGN KEY (author_id) REFERENCES authors(id)
               )
""")

# Confirmamos la creacion de las tablas
conector.commit()


Como pasar los datos del CSV a la base de datos

In [19]:
import sqlite3, csv, os

def import_csv_to_db(csv_path='books.csv', db_path='books.db'):
    """Carga books.csv a SQLite (crea tablas si faltan)."""
    # Conexión + FKs
    conector = sqlite3.connect(db_path)
    conector.execute("PRAGMA foreign_keys = ON;")
    cursor = conector.cursor()

    # Esquema mínimo (authors, books, books_authors)
    cursor.executescript("""
    CREATE TABLE IF NOT EXISTS authors (
      id   INTEGER PRIMARY KEY AUTOINCREMENT,
      name TEXT UNIQUE
    );
    CREATE TABLE IF NOT EXISTS books (
      id           INTEGER PRIMARY KEY AUTOINCREMENT,
      title        TEXT,
      price        REAL,
      availability TEXT,
      stars        INTEGER,
      description  TEXT,
      url          TEXT UNIQUE
    );
    CREATE TABLE IF NOT EXISTS books_authors (
      book_id   INTEGER NOT NULL,
      author_id INTEGER NOT NULL,
      PRIMARY KEY (book_id, author_id),
      FOREIGN KEY (book_id)   REFERENCES books(id),
      FOREIGN KEY (author_id) REFERENCES authors(id)
    );
    """)

    star_map = {'One':1,'Two':2,'Three':3,'Four':4,'Five':5}  # texto→número
    total = 0

    # Leer CSV y volcar a DB,  'r' es para read
    with open(csv_path, 'r', newline='', encoding='utf-8') as f:
        reader = csv.DictReader(f)  # columnas: Titulo, Autor, Precio, Disponibilidad, Estrellas, Descripcion, URL
        for row in reader:
            total += 1
            title        = (row.get('Titulo') or '').strip()
            author_name  = (row.get('Autor') or 'Desconocido').strip()
            availability = (row.get('Disponibilidad') or '').strip()
            description  = (row.get('Descripcion') or '')
            url          = (row.get('URL') or '').strip()

            # Precio a float (quita £); si falla, None
            raw_price = (row.get('Precio') or '').lstrip('£').strip()
            try:
                price = float(raw_price) if raw_price else None
            except ValueError:
                price = None

            # Estrellas a int (No rating -> 0)
            stars = star_map.get((row.get('Estrellas') or '').strip(), 0)

            # Autor (evita duplicados)
            cursor.execute("INSERT OR IGNORE INTO authors(name) VALUES (?)", (author_name,))
            cursor.execute("SELECT id FROM authors WHERE name = ?", (author_name,))
            author_id = cursor.fetchone()[0]

            # Libro (evita duplicados por URL)
            cursor.execute("""
                INSERT OR IGNORE INTO books(title, price, availability, stars, description, url)
                VALUES (?, ?, ?, ?, ?, ?)
            """, (title, price, availability, stars, description, url))
            cursor.execute("SELECT id FROM books WHERE url = ?", (url,))
            book_id = cursor.fetchone()[0]

            # Relación M:N (evita duplicados por PK compuesta)
            cursor.execute("""
                INSERT OR IGNORE INTO books_authors(book_id, author_id)
                VALUES (?, ?)
            """, (book_id, author_id))

    conector.commit()
    cursor.close()
    conector.close()
    print(f"✅ Import completado: {total} filas de '{csv_path}' → '{os.path.abspath(db_path)}'")


### Consultas emocionales

####  Cómo leer SQL

SELECT → qué columnas querés ver

FROM → de qué tabla

WHERE → filtros fila a fila

ORDER BY → ordenar

LIMIT → cuántas filas máximo

JOIN → unir tablas (cuando necesitás columnas de más de una)

GROUP BY → agrupar para contar/promediar

HAVING → filtrar grupos (después del GROUP BY)

In [27]:
import sqlite3

def run_sql(sql, params=()):
    conn = sqlite3.connect('books.db')
    cur = conn.cursor()
    cur.execute(sql, params)
    rows = cur.fetchall()
    for r in rows[:20]:
        print(r)
    print(f"\n{len(rows)} filas.")
    conn.close()



run_sql("""SELECT * FROM authors LIMIT 5;""")
run_sql("""SELECT title, price, stars, url FROM books LIMIT 5;""")
run_sql("""SELECT * FROM books_authors LIMIT 5;""")





(1, 'Shel Silverstein')
(2, 'Sarah Waters')
(3, 'Michel Houellebecq')
(4, 'Gillian Flynn')
(5, 'BookNation')

5 filas.
('A Light in the Attic', 51.77, 3, 'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html')
('Tipping the Velvet', 53.74, 1, 'https://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html')
('Soumission', 50.1, 1, 'https://books.toscrape.com/catalogue/soumission_998/index.html')
('Sharp Objects', 47.82, 4, 'https://books.toscrape.com/catalogue/sharp-objects_997/index.html')
('Sapiens: A Brief History of Humankind', 54.23, 5, 'https://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html')

5 filas.
(1, 1)
(2, 2)
(3, 3)
(4, 4)
(5, 5)

5 filas.


In [26]:
run_sql(""" SELECT * FROM books  
        JOIN books_authors ON books.id = books_authors.book_id
        JOIN authors ON authors.id = books_authors.author_id
        LIMIT 10""")



(1, 'A Light in the Attic', 51.77, 'In stock (22 available)', 3, "It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love that Silverstein. Need proof of his genius? RockabyeRockabye baby, in the treetopDon't you know a treetopIs no safe place to rock?And who put you up there,And your cradle, too?Baby, I t

CATÁSTROFES DE 1 ESTRELLA

In [40]:
run_sql("""SELECT a.name, COUNT(*) AS libros_1_estrella
FROM books b
JOIN books_authors ba ON ba.book_id = b.id
JOIN authors a        ON a.id = ba.author_id
WHERE b.stars = 1 
GROUP BY a.id
ORDER BY libros_1_estrella DESC, a.name
LIMIT 10;
""")

('Desconocido', 126)
('Worth Books', 4)
('Harlan Coben', 2)
('Sophie Kinsella', 2)
('A. C. Grayling', 1)
('Ali Benjamin', 1)
('Alice Hoffman', 1)
('Amanda Jennings', 1)
('Andrew Michael Hurley', 1)
('Aracelis Girmay', 1)

10 filas.


BUENO Y BARATO

In [32]:
run_sql("""SELECT b.title, a.name AS autor, b.price, b.stars
FROM books b
JOIN books_authors ba ON ba.book_id = b.id
JOIN authors a        ON a.id = ba.author_id
WHERE b.stars >= 4 AND b.price < 10
ORDER BY b.price ASC
LIMIT 25;
""")


0 filas.


QUIEN TIENE MAS LIBROS EN STOCK

In [47]:
run_sql("""SELECT a.name, COUNT(*) AS en_stock
FROM books b
JOIN books_authors ba ON ba.book_id = b.id
JOIN authors a        ON a.id = ba.author_id
WHERE b.availability LIKE 'In stock%'
GROUP BY a.id
ORDER BY en_stock DESC, a.name
LIMIT 10;
""")

('Desconocido', 542)
('Worth Books', 9)
('Stephen King', 7)
('David Levithan', 4)
('David Sedaris', 4)
('Gillian Flynn', 4)
('Sophie Kinsella', 4)
('Whizbooks', 4)
('Jane Austen', 3)
('John Green', 3)

10 filas.


10 LIBROS MAS CAROS CON SUS AUTORES

In [46]:
run_sql("""SELECT b.title, a.name
FROM books b
JOIN books_authors ba ON ba.book_id = b.id
JOIN authors a        ON a.id = ba.author_id
WHERE b.stars = 5
ORDER BY b.title
LIMIT 10;
""")

('"Most Blessed of the Patriarchs": Thomas Jefferson and the Empire of the Imagination', 'Desconocido')
('#HigherSelfie: Wake Up Your Life. Free Your Soul. Find Your Tribe.', 'Desconocido')
('(Un)Qualified: How God Uses Broken People to Do Big Things', 'Desconocido')
('1,000 Places to See Before You Die', 'Patricia Schultz')
('10-Day Green Smoothie Cleanse: Lose Up to 15 Pounds in 10 Days!', 'Desconocido')
('A Flight of Arrows (The Pathfinders #2)', 'Desconocido')
("A Gentleman's Position (Society of Gentlemen #3)", 'Desconocido')
('A Heartbreaking Work of Staggering Genius', 'Dave Eggers')
("A New Earth: Awakening to Your Life's Purpose", 'Desconocido')
('A Piece of Sky, a Grain of Rice: A Memoir in Four Meditations', 'Desconocido')

10 filas.


PRECIO PROMEDIO GENERAL DE LIBROS

In [45]:
run_sql("""SELECT ROUND(AVG(price), 2) FROM books;
""")

(35.07,)

1 filas.
