# Proyecto final de Bases de Datos Avanzadas
## 30 de abril de 2025
### Alfredo Nader, Patricio Fernández, Emilio Cruz
---

#### Creación y estructura de la base de datos y del documento

Iniciamos un entorno virtual de python y bajamos las dependencias necesarias con pip:

In [None]:
# pip install pandas sqlalchemy

y las agregamos al inicio del archivo de python:

In [None]:
import pandas as pd
from sqlalchemy import create_engine, text

Cargamos el json

In [None]:
df = pd.read_json('books.json', lines=True)

Limpiando incompatibles:

In [None]:
df = df.where(pd.notna(df), None)

Conectando a SQL:

In [None]:
engine = create_engine('mysql+pymysql://root:warmachinerox2005@127.0.0.1:3306/proyecto_final')

Creando las tablas:

In [None]:
with engine.connect() as conn:
    conn.execute(text("""
    DROP TABLE IF EXISTS Estados, Categorias, Autores, Libros;
    """))
    conn.execute(text("""
    CREATE TABLE Libros (
        id VARCHAR(24) PRIMARY KEY,
        titulo TEXT,
        isbn TEXT,
        numero_paginas INT,
        fecha_publicacion TEXT,
        url_miniatura TEXT,
        descripcion_corta TEXT,
        descripcion_larga TEXT
    );
    """))
    conn.execute(text("""
    CREATE TABLE Autores (
        id INT AUTO_INCREMENT PRIMARY KEY,
        libro_id VARCHAR(24),
        autor TEXT,
        FOREIGN KEY (libro_id) REFERENCES Libros(id)
    );
    """))
    conn.execute(text("""
    CREATE TABLE Categorias (
        id INT AUTO_INCREMENT PRIMARY KEY,
        libro_id VARCHAR(24),
        categoria TEXT,
        FOREIGN KEY (libro_id) REFERENCES Libros(id)
    );
    """))
    conn.execute(text("""
    CREATE TABLE Estados (
        id INT AUTO_INCREMENT PRIMARY KEY,
        libro_id VARCHAR(24),
        estado TEXT,
        FOREIGN KEY (libro_id) REFERENCES Libros(id)
    );
    """))

Insertar valores en la tabla

In [None]:
with engine.begin() as conn:
    for _, row in df.iterrows():
        pub = row.get('publishedDate')
        fecha = pub.get('$date') if isinstance(pub, dict) else pub

        page_count = row.get('pageCount')
        if page_count is not None:
            try:
                page_count = int(page_count)
            except (ValueError, TypeError):
                page_count = None

        conn.execute(text("""
            INSERT INTO Libros (id, titulo, isbn, numero_paginas, fecha_publicacion, 
                              url_miniatura, descripcion_corta, descripcion_larga)
            VALUES (:id, :titulo, :isbn, :numero_paginas, :fecha_publicacion, 
                   :url_miniatura, :descripcion_corta, :descripcion_larga);
        """), {
            'id': str(row['_id']),
            'titulo': row.get('title'),
            'isbn': row.get('isbn'),
            'numero_paginas': page_count,
            'fecha_publicacion': fecha,
            'url_miniatura': row.get('thumbnailUrl'),
            'descripcion_corta': row.get('shortDescription'),
            'descripcion_larga': row.get('longDescription')
        })
        
        for autor in row.get('authors') or []:
            if autor: 
                conn.execute(text("""
                    INSERT INTO Autores (libro_id, autor) VALUES (:libro_id, :autor);
                """), {'libro_id': str(row['_id']), 'autor': autor})

        for cat in row.get('categories') or []:
            if cat:
                conn.execute(text("""
                    INSERT INTO Categorias (libro_id, categoria) VALUES (:libro_id, :categoria);
                """), {'libro_id': str(row['_id']), 'categoria': cat})

        estados = row.get('status')
        if isinstance(estados, str):
            estados = [estados]
        for est in estados or []:
            if est: 
                conn.execute(text("""
                    INSERT INTO Estados (libro_id, estado) VALUES (:libro_id, :estado);
                """), {'libro_id': str(row['_id']), 'estado': est})

Verificar que se haya insertado correctamente

In [None]:
with engine.connect() as conn:
    print("\nCounts in each table:")
    for tabla in ['Libros', 'Autores', 'Categorias', 'Estados']:
        count = conn.execute(text(f"SELECT COUNT(*) FROM {tabla}")).fetchone()[0]
        print(f"{tabla}: {count} registros")

    print("\nFirst 5 books:")
    result = conn.execute(text("SELECT id, titulo, isbn FROM Libros LIMIT 5;"))
    for row in result:
        print(row)

#### Consultas

1. **Consulta por título:** Buscar libros por su título.

In [None]:
conn = engine.connect()

try:
    titulo = "Android"
    df_titulo = pd.read_sql_query(
        "SELECT * FROM Libros WHERE titulo LIKE %s", 
        conn, 
        params=(f"%{titulo}%",)
    )
    print(df_titulo)
finally:
    conn.close() 

2. **Consulta por ISBN:** Buscar un libro específico mediante su número ISBN.

In [None]:
with engine.connect() as conn:
    isbn = "1933988673"
    df_isbn = pd.read_sql_query(
        "SELECT * FROM Libros WHERE isbn = %s",
        conn,
        params=(isbn,)
    )
    print(df_isbn)

3. **Consulta por autor:** Obtener todos los libros escritos por un autor en particular.

In [None]:
with engine.connect() as conn:
    autor = "W. Frank Ableson"
    df_autor = pd.read_sql_query(
        """
        SELECT L.* 
        FROM Libros L
        JOIN Autores A ON L.id = A.libro_id
        WHERE A.autor = %s
        """, 
        conn, 
        params=(autor.strip(),)  
    )
    print(df_autor)

4. **Consulta por categoría:** Listar libros que pertenecen a una categoría específica.

In [None]:
with engine.connect() as conn:
    categoria = "Java"
    df_categoria = pd.read_sql_query(
        """
        SELECT L.* 
        FROM Libros L
        JOIN Categorias C ON L.id = C.libro_id
        WHERE C.categoria = %s
        """, 
        conn, 
        params=(categoria.strip(),)  # strip() para limpiar espacios
    )
    print(df_categoria)

5. **Consulta por estado:** Filtrar libros según su estado.

In [None]:
with engine.connect() as conn:
    estado = "PUBLISH"
    df_estado = pd.read_sql_query(
        """
        SELECT DISTINCT L.* 
        FROM Libros L
        JOIN Estados E ON L.id = E.libro_id
        WHERE E.estado = %s
        """,
        conn,
        params=(estado.strip(),)
    )
    print(f"Libros con estado '{estado}': {len(df_estado)} encontrados")
  
    print(df_estado[['id', 'titulo', 'isbn']].to_string(index=False))

6. **Número total de libros:** Contar el total de libros almacenados en la colección.

In [None]:
with engine.connect() as conn:
    df_total = pd.read_sql_query("SELECT COUNT(*) AS total_libros FROM Libros", conn)
    print(df_total)

In [None]:
import pandas as pd
from sqlalchemy import create_engine


engine = create_engine('mysql+pymysql://root:warmachinerox2005@127.0.0.1:3306/proyecto_final')

with engine.connect() as conn:
    # Consulta 7: Libros después de fecha corte
    fecha_corte = '2010-01-01'
    res7 = pd.read_sql_query(
        "SELECT titulo, fecha_publicacion FROM Libros WHERE fecha_publicacion > %s", 
        conn, 
        params=(fecha_corte,)
    )
    print("\n7. Libros después de", fecha_corte)
    print(res7.to_string(index=False))

    # Consulta 8: Autores con más de N libros
    n_libros = 2
    res8 = pd.read_sql_query(
        """SELECT autor, COUNT(*) as num_libros 
           FROM Autores 
           GROUP BY autor 
           HAVING COUNT(*) > %s""",
        conn,
        params=(n_libros,)
    )
    print("\n8. Autores con más de", n_libros, "libros")
    print(res8.to_string(index=False))

    # Consulta 9: Libros sin descripción corta
    res9 = pd.read_sql_query(
        "SELECT titulo FROM Libros WHERE descripcion_corta IS NULL",
        conn
    )
    print("\n9. Libros sin descripción corta")
    print(res9.to_string(index=False))

    # Consulta 10: Conteo por estado
    res10 = pd.read_sql_query(
        "SELECT estado, COUNT(*) as count FROM Estados GROUP BY estado",
        conn
    )
    print("\n10. Conteo por estado")
    print(res10.to_string(index=False))