IMPORTACIONES

In [2]:
# Hacer peticiones a la api y descargar la pagina
import requests
# Controlar pausas para que no se sature el servidor
import time
# Para tabular como una base de datos 
import pandas as pd
# Analizar el html 
from bs4 import BeautifulSoup
# Para construir URL completa
from urllib.parse import urljoin
# Conectarse a una base de datos
import sqlite3
# Guardar datos del script 
import json
# Para comprobar si existen archivos o carpetas
import os

FUNCION PARA OBTENER AUTOR CON APIs DE GOOGLE

In [None]:
def obtener_autor(titulo):
    """
    Busca el autor de un libro usando la API Google Books, 
    si no se encuentra, devuelve 'Desconocido'.
    """
    try:
        # Clave de API - sirve para identificarte al utilizar
        api_key = "AIzaSyDs8RGaU4VXtrLNIbjO_0NnsFBhhS7HBAI"

        # Crear url con el titulo del libro y nuestra clave
        url = f"https://www.googleapis.com/books/v1/volumes?q=intitle:{titulo}&key={api_key}"
        
        # Hacer la peticion
        respuesta = requests.get(url)

        # Si todo salió bien devuelve 200
        if respuesta.status_code == 200:

            # Parseamos (Convertir el texto en diccionario)
            data = respuesta.json()

            # Verifica que haya resultados
            if "items" in data and len(data["items"]) > 0:
                # Agarra la info del primer libro encontrado
                info = data["items"][0].get("volumeInfo", {})
                # Obtiene lista de autores y si no hay entonces es desconocido
                autores = info.get("authors", ["Desconocido"])
                return autores  # Devuelve autores
            
    except Exception as e:
        print("Error buscando autor:", e)
    
    # Si no hay resultados
    return ["Desconocido"]



DESCARGAR LA PAGINA PRINCIPAL

In [None]:
# URL base del sitio
base_url = "http://books.toscrape.com/"

# Devuelve el html completo de la página web
pagina = requests.get(base_url)

# Forzar codificación (para que los caracteres especiales se lean correctamente (acentos, eñes, símbolos, etc.).
pagina.encoding = "utf-8"

# Verificar que la descarga fue exitosa
print("Código de estado:", pagina.status_code)  # 200 significa OK


Código de estado: 200


CREAR LISTA DE CATEGORIAS

In [None]:
# Analizar HTML con BeautifulSoup (extrae la info de la pagina web)
soup = BeautifulSoup(pagina.text, "html.parser")

# Buscar categorias (primera ul con clase nav nav-list)
categorias_ul = soup.find("ul", class_="nav nav-list")

# lista de objetos li del ul anterior (empieza desde 1 para ignorar el de book que no es una categoria)
categorias_li = categorias_ul.find_all("li")[1:]  

# Crear lista de las categorias (nombre, url)
lista_categorias = []
for li in categorias_li:
    # Agarrar el primer "<a>" del elemento
    a_enlace = li.find("a")
    # Obtener el nombre
    nombre = a_enlace.text.strip()
    # urljoin agarra la base que ya teniamos y combina con el href de esa <a>
    link = urljoin(base_url, a_enlace["href"])
    # Agregar a la lista
    lista_categorias.append({"nombre": nombre, "link": link})


HACER EL SCRAPING

In [None]:
# JSON es un formato para guardar datos estructurados
# Nombre del archivo json
archivo_json = "libros.json"

# Verificar si el archivo existe
if os.path.exists(archivo_json):
    # Abrir archivo en modo lectura "r"
    # encoding para que los caracteres especiales se lean correctamente
    # with asegura que el archivo se cierre automáticamente
    with open(archivo_json, "r", encoding="utf-8") as f:
        # json.load(f) lee el contenido JSON del archivo y eso se guarda en libros
        libros = json.load(f)
else:
    libros = []

# Crear un conjunto de títulos ya scrapeados para evitar duplicados
# Recorre libros y extrae el valor de 'titulo', set es para que no existan nombres duplicados
titulos_existentes = set(libro['titulo'] for libro in libros)

# continuar contador desde donde quedó
cont = len(libros)  

In [None]:
# Iterar sobre categorías
for cat in lista_categorias:
    print("Scrapeando categoría:", cat["nombre"])
    # url de la categoria
    cat_url = cat["link"]

    # Avanzar todas las paginas de la categoria
    while True:
        # Descargar página de la categoría
        response = requests.get(cat_url)
        # Convierte la pagina web en un objeto que se pueda analizar mas facil
        soup = BeautifulSoup(response.text, "html.parser")
        
        # Encontrar todos los libros en la página
        articulos = soup.find_all("article", class_="product_pod")

        for art in articulos:
            # Extraer datos del libro
            titulo = art.h3.a["title"] if art.h3 and art.h3.a else "Sin título"

             # Evitar libros ya scrapeados
            if titulo in titulos_existentes:
                continue
            
            # strip() quita espacios y saltos de linea 
            precio = art.find("p", class_="price_color").text.strip().replace("Â", "")
            estrella = art.find("p", class_="star-rating")["class"][1]

            # Aumentar contador
            cont += 1
            print(cont)

            # Obtener autor desde API
            autor = obtener_autor(titulo)

            libros.append({
                "titulo": titulo,
                "precio": precio,
                "estrella": estrella,
                "categoria": cat["nombre"],
                "autor": autor
            })

            titulos_existentes.add(titulo)


        # Guardar JSON cada página
        # Abrir archivo modo escritura, si no existe lo crea
        with open(archivo_json, "w", encoding="utf-8") as f:
            # ensure_ascii=False = Permite guardar caracteres Unicode directamente
            # indent=4 = Agrega sangrías (4 espacios) para que el archivo quede formateado y legible
            # dump = metodo que convierte texto en formato json
            json.dump(libros, f, ensure_ascii=False, indent=4)
    
        # Verificar si hay siguiente pagina
        btn_sig = soup.find("li", class_="next")

        if btn_sig:
            # Obtener el link de la siguiente pagina
            btn_link = btn_sig.a["href"]

            # Armar link absoluto
            cat_url = urljoin(cat_url, btn_link)

        else:
            break

    # pausita para no saturar el servidor
    time.sleep(1)  


Scrapeando categoría: Travel
Scrapeando categoría: Mystery
Scrapeando categoría: Historical Fiction
Scrapeando categoría: Sequential Art
Scrapeando categoría: Classics
Scrapeando categoría: Philosophy
Scrapeando categoría: Romance
Scrapeando categoría: Womens Fiction
Scrapeando categoría: Fiction
Scrapeando categoría: Childrens
Scrapeando categoría: Religion
Scrapeando categoría: Nonfiction
Scrapeando categoría: Music
Scrapeando categoría: Default
Scrapeando categoría: Science Fiction
Scrapeando categoría: Sports and Games
Scrapeando categoría: Add a comment
Scrapeando categoría: Fantasy
Scrapeando categoría: New Adult
Scrapeando categoría: Young Adult
Scrapeando categoría: Science
Scrapeando categoría: Poetry
Scrapeando categoría: Paranormal
Scrapeando categoría: Art
Scrapeando categoría: Psychology
Scrapeando categoría: Autobiography
Scrapeando categoría: Parenting
Scrapeando categoría: Adult Fiction
Scrapeando categoría: Humor
Scrapeando categoría: Horror
Scrapeando categoría: Histo

CREAR BASE DE DATOS

In [None]:
#Estructura de datos en formato tabla
tabla_libros = pd.DataFrame(libros)

# Abrir conexion con la base de datos, si no existe la crea
with sqlite3.connect("libros.db") as conexion:
    # Crear cursor (puente entre python y la base de datos)
    cursor = conexion.cursor()

    # Crea la tabla libros
    cursor.execute("""
    CREATE TABLE IF NOT EXISTS libros (
        id_libro INTEGER PRIMARY KEY AUTOINCREMENT,
        titulo TEXT,
        precio TEXT,
        estrella TEXT,
        categoria TEXT
    )
    """)

    # Crea la tabla autores
    cursor.execute("""
    CREATE TABLE IF NOT EXISTS autores (
        id_autor INTEGER PRIMARY KEY AUTOINCREMENT,
        nombre TEXT
    )
    """)

    # Crea la tabla libros_autores
    cursor.execute("""
    CREATE TABLE IF NOT EXISTS libros_autores (
        id_libro INTEGER,
        id_autor INTEGER,
        FOREIGN KEY (id_libro) REFERENCES libros (id_libro),
        FOREIGN KEY (id_autor) REFERENCES autores (id_autor),
        PRIMARY KEY (id_libro, id_autor)
    )
    """)

cursor.close()


INSERTAR DATOS A LA BASE DE DATOS

In [None]:
# ------------- LIBROS --------------

# Eliminar datos si existen, para que no se duplique
with sqlite3.connect("libros.db") as conexion:
    cursor = conexion.cursor()

    # Borrar todos los libros
    cursor.execute("DELETE FROM libros;")

    # Reiniciar el contador de autoincremento
    cursor.execute("DELETE FROM sqlite_sequence WHERE name='libros';")
    conexion.commit()

    # Cargar los libros en la base de datos
    cursor.executemany("""
        INSERT INTO libros (titulo, precio, estrella, categoria)
        VALUES (:titulo, :precio, :estrella, :categoria)
    """, libros)




In [None]:
# ------------- AUTORES --------------

# Eliminar datos si existen, para que no se duplique
with sqlite3.connect("libros.db") as conexion:
    cursor = conexion.cursor()

    cursor.execute("DELETE FROM autores;")

    # Empieza a contar desde 1 otra vez
    cursor.execute("DELETE FROM sqlite_sequence WHERE name = 'autores';")

    # Obtener lista de autores únicos
    autores_unicos = tabla_libros['autor'].drop_duplicates().tolist()

    # Obtener nombre de autores existentes
    cursor.execute("SELECT nombre FROM autores")
    
    # Cargar a esta lista
    autores_cargados = cursor.fetchall()

    # Insertar autores en la tabla autores
    for autores in autores_unicos:
        for autor in autores:
            # Preguntar si ese autor ya existe en la base de datos, si es así devuelve 1
            cursor.execute("SELECT 1 FROM autores WHERE nombre = ?", (autor,))
            # Cargar respuesta
            existe = cursor.fetchone()
            # Si no existe, inserta
            if not existe:
                cursor.execute("INSERT INTO autores (nombre) VALUES (?)", (autor,))



In [14]:
try:
    cursor.close()
except:
    pass

In [None]:
# --------- RELACION LIBROS / AUTORES ----------

with sqlite3.connect("libros.db") as conexion:
    cursor = conexion.cursor()
    
    # limpiar la tabla de relaciones
    cursor.execute("DELETE FROM libros_autores;")
    conexion.commit()
    
    # Construir diccionario de autores existentes
    cursor.execute("SELECT id_autor, nombre FROM autores")

    # Se guarda en esta lista
    lista_autores = cursor.fetchall()

    # Crear un diccionario con la lista anterior (clave = nombre, valor = id_autor)
    autor_map = {nombre: id_autor for (id_autor, nombre) in lista_autores}
    
    # Traer todos los libros
    cursor.execute("SELECT id_libro, titulo FROM libros")

    # Guadar en esta lista
    # fetchall = Devuelve todas las filas como una lista de tuplas
    libros_sql = cursor.fetchall()
    
    for id_libro, titulo in libros_sql:
        # Intentar obtener todas las filas coincidentes (por si hay duplicados)
        # .loc es para acceder a alguna ubicacion en pandas
        # filas contendrá una serie (columna) con los autores que coinciden con ese título
        filas = tabla_libros.loc[tabla_libros['titulo'] == titulo, 'autor']
        
        # Si no se encuentra ninguna fila (libro sin autor), se avisa y se salta al siguiente libro
        if filas.empty:
            print(f"⚠️ No se encontró autor para el título: {titulo}")
            continue
        
        # Si hay varias filas, iterar sobre todas 
        for autor_val in filas.tolist():
            # Si es lista, iterar cada nombre dentro
            if isinstance(autor_val, list):
                # Iterar sobre cada autor, eliminando espacios vacíos
                autores_iter = [a.strip() for a in autor_val if a and str(a).strip()]
            else:
                # Convertir en lista de un solo elemento
                autores_iter = [str(autor_val).strip()]
            
            # Evitar valores vacíos por seguridad
            for autor in autores_iter:
                if not autor:
                    continue
                
                # Si no tenemos el id en el mapa, buscar/insertar en la DB y actualizar el mapa
                if autor not in autor_map:
                    # OR IGNORE para ignorar si ya existe, si no existe, inserta
                    cursor.execute("INSERT OR IGNORE INTO autores (nombre) VALUES (?)", (autor,))
                    # Obtener id del autor recién insertado (o existente)
                    cursor.execute("SELECT id_autor FROM autores WHERE nombre = ?", (autor,))
                    # Devuelve la id del autor
                    # fetchone = Devuelve una sola fila del resultado, como una tupla
                    res = cursor.fetchone()

                    if res:
                        # Cargar en el diccionario, como clave = nombre, como valor = res, [0] porque es una tupla con un unico valor 
                        autor_map[autor] = res[0]
                    else:
                        # Algo raro pasó, saltar
                        print(f"❌ No se pudo obtener id para autor: {autor}")
                        continue
                
                # obtener id del autor
                id_autor = autor_map[autor]
                
                # Insertar la relación
                cursor.execute(
                    "INSERT OR IGNORE INTO libros_autores (id_libro, id_autor) VALUES (?, ?)",
                    (id_libro, id_autor)
                )
    
    conexion.commit()
print("✅ Relaciones creadas/actualizadas correctamente.")

✅ Relaciones creadas/actualizadas correctamente.


Convertir columna estrella en datos numericos

In [None]:
# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

# Diccionario para convertir palabras a números
conversion = {
    "One": "1",
    "Two": "2",
    "Three": "3",
    "Four": "4",
    "Five": "5"
}

# Recorremos el diccionario y actualizamos
for palabra, numero in conversion.items():
    cursor.execute("""
        UPDATE libros
        SET estrella = ?
        WHERE estrella = ?
    """, (numero, palabra))

# Guardamos los cambios
conexion.commit()
conexion.close()


CONSULTAS

In [None]:
# --------------- LIBROS CON 1 ESTRELLA ---------------
# Sirve para ver qué libros tienen mala puntuación.
# Es útil para conocer títulos que no están gustando o que tienen errores

# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

consulta = """SELECT l.titulo, l.estrella FROM libros l WHERE l.estrella = 1"""

df = pd.read_sql_query(consulta, conexion)

display(df)

Unnamed: 0,titulo,estrella
0,The Great Railway Bazaar,1
1,The Road to Little Dribbling: Adventures of an...,1
2,"In a Dark, Dark Wood",1
3,A Murder in Time,1
4,That Darkness (Gardiner and Renner #1),1
...,...,...
221,Blue Like Jazz: Nonreligious Thoughts on Chris...,1
222,The Grownup,1
223,Equal Is Unfair: America's Misguided Fight Aga...,1
224,Amid the Chaos,1


In [None]:
# Consultar libros con mas de 3 autores

# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

# COUNT = para contar
# JOIN = une tablas
# GROUP BY = agrupa filas por libro
# HAVING COUNT = filtrar de acuerdo a una condicion

consulta =  """ SELECT l.titulo, COUNT(la.id_autor) AS cantidad_autores
                FROM libros l
                JOIN libros_autores la ON l.id_libro = la.id_libro
                GROUP BY l.id_libro
                HAVING COUNT(la.id_autor) > 3;
            """

df = pd.read_sql_query(consulta, conexion)

display(df)


Unnamed: 0,titulo,cantidad_autores
0,"Lumberjanes, Vol. 2: Friendship to the Max (Lu...",4
1,"Lumberjanes, Vol. 1: Beware the Kitten Holy (L...",4
2,Lumberjanes Vol. 3: A Terrible Plan (Lumberjan...,4
3,The Shack,4
4,Mesaerion: The Best Science Fiction Stories 18...,7
5,Modern Romance,4
6,Leave This Song Behind: Teen Poetry at Its Best,4
7,The Art Book,5
8,Lust & Wonder,6
9,The Art and Science of Low Carbohydrate Living,4


In [21]:
inicio = time.perf_counter() 
# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

consulta = """SELECT * FROM libros WHERE titulo = 'John Vassos: Industrial Design for Modern Life';"""

df = pd.read_sql_query(consulta, conexion)

display(df)
cursor.close()

fin = time.perf_counter()   
print(f"⏱️ Tiempo de ejecución: {fin - inicio:.3f} segundos")

Unnamed: 0,id_libro,titulo,precio,estrella,categoria
0,523,John Vassos: Industrial Design for Modern Life,£20.22,4,Default


⏱️ Tiempo de ejecución: 0.018 segundos


In [22]:
# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

#cursor.execute("""DROP INDEX idx_titulo""")
cursor.execute("""CREATE INDEX idx_titulo ON libros(titulo);""")

conexion.commit()
cursor.close()

In [23]:
inicio = time.perf_counter() 
# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

consulta = ("""
                SELECT * FROM libros WHERE titulo = 'John Vassos: Industrial Design for Modern Life';
            """)

df = pd.read_sql_query(consulta, conexion)

display(df)

cursor.close()
fin = time.perf_counter()   
print(f"⏱️ Tiempo de ejecución: {fin - inicio:.3f} segundos")

Unnamed: 0,id_libro,titulo,precio,estrella,categoria
0,523,John Vassos: Industrial Design for Modern Life,£20.22,4,Default


⏱️ Tiempo de ejecución: 0.013 segundos


In [None]:
# Seleccionar el nombre del autor que escribió mas de 3 libros con menos de 3 estrellas
# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

consulta = ("""
                SELECT nombre AS autor , COUNT(la.id_libro) AS cantidad_libros 
                FROM autores a 
                JOIN libros_autores la ON a.id_autor = la.id_autor 
                JOIN libros l ON la.id_libro = l.id_libro
                WHERE l.estrella < 3
                GROUP BY a.id_autorSaca la lista de autores que publicaron más de un libro.
                HAVING COUNT(la.id_libro) > 3
                
            """)

df = pd.read_sql_query(consulta, conexion)

display(df)

cursor.close()

Unnamed: 0,autor,cantidad_libros
0,Desconocido,10
1,Stephen King,4


In [None]:
# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

consulta = ("""
                SELECT l.titulo, a.nombre FROM libros l 
                JOIN libros_autores la ON la.id_libro = l.id_libro
                JOIN autores a ON a.id_autor = la.id_autor
                
            """)

df = pd.read_sql_query(consulta, conexion)

display(df)

cursor.close()

Unnamed: 0,titulo,nombre
0,The Age of Genius: The Seventeenth Century and...,A. C. Grayling
1,The Hound of the Baskervilles (Sherlock Holmes...,A. Conan Doyle
2,"Saga, Volume 3 (Saga (Collected Editions) #3)",A. G. Howard
3,The Year of Living Biblically: One Man's Humbl...,A. J. Jacobs
4,Where Lightning Strikes (Bleeding Stars #3),A. L. Jackson
...,...,...
930,"Skip Beat!, Vol. 01 (Skip Beat! #1)",Yoshiki Nakamura
931,Sapiens: A Brief History of Humankind,Yuval Noah Harari
932,Diary of a Minecraft Zombie Book 1: A Scare of...,Zack Zombie
933,Girl Online On Tour (Girl Online #2),Zoe Sugg


In [None]:
# Saca la lista de autores que publicaron más de un libro
# Conectar a la db
conexion = sqlite3.connect("libros.db")

# Crear cursor (permite ejecutar instrucciones)
cursor = conexion.cursor()

consulta = ("""
                SELECT a.nombre, COUNT(la.id_libro) AS cantidad_libros
                FROM autores a 
                JOIN libros_autores la ON a.id_autor = la.id_autor
                
                GROUP BY a.id_autor, a.nombre
                HAVING COUNT (la.id_libro) > 1
            """)

df = pd.read_sql_query(consulta, conexion)

display(df)

cursor.close()

Unnamed: 0,nombre,cantidad_libros
0,Desconocido,25
1,Bill Bryson,5
2,Gillian Flynn,2
3,Agatha Christie,2
4,David Baldacci,2
...,...,...
83,David Sedaris,4
84,Jeff Kinney,2
85,Barbara W. Tuchman,2
86,Ina Garten,3
