## ✅ Roadmap del Proyecto de Web Scraping y Carga a Base de Datos

Este proyecto tiene como objetivo scrapear libros desde una web pública, obtener información adicional mediante una API externa y almacenar los datos en una base de datos relacional para su posterior análisis.

### 🛠️ Etapas del desarrollo

- [ ] **1. Web Scraping**
  - [x] Scrapear todos los géneros desde la página principal.
  - [x] Iterar sobre cada género para obtener todos los libros listados.
  - [ ] Extraer título, precio, stock, rating y link a la página del libro.
  - [ ] Extraer información detallada desde la página de cada libro (si es necesario).
  - [ ] Consultar la API de Google Books para obtener el autor y más detalles (usando el título).
  - [ ] Guardar los datos obtenidos en archivos `.csv` separados:
    - [ ] Libros (`libros.csv`)
    - [ ] Autores (`autores.csv`)
    - [ ] Géneros (`generos.csv`)

- [ ] **2. Validación**
  - [ ] Verificar la integridad y limpieza de los datos descargados.
  - [ ] Eliminar duplicados y manejar valores nulos si los hay.

- [ ] **3. Diseño de Base de Datos Relacional**
  - [ ] Crear script DDL:
    - [ ] Crear la base de datos (si no existe).
    - [ ] Crear las tablas `libros`, `autores`, `generos`, y tablas intermedias para relaciones N:N si aplica.
  - [ ] Crear diagrama UML/ER para visualizar relaciones.

- [ ] **4. Inserción de Datos**
  - [ ] Crear script DML para insertar los datos desde los CSV a la base de datos (usando Python + `psycopg2` o `SQLAlchemy` para PostgreSQL).
  - [ ] Comprobar inserciones correctas mediante queries de prueba.

- [ ] **5. Consultas y Análisis**
  - [ ] Escribir consultas SQL para:
    - [ ] Obtener todos los libros por género.
    - [ ] Buscar libros por autor.
    - [ ] Calcular estadísticas como precio promedio por género o autor.
  - [ ] (Opcional) Crear una vista para simplificar reportes.

---

> 📌 **Nota:** La base de datos será inicialmente verificada con SQLite por simplicidad, luego se adaptará a PostgreSQL para una implementación más robusta con PgAdmin.


In [None]:
!pip install BeautifulSoup4
!pip install sqlalchemy psycopg2-binary pandas


lista generos
lista linklibro

In [None]:
# import web grabbing client and
# HTML parser
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

# variable to store website link as string
myurl = 'http://books.toscrape.com/index.html'

# grab website and store in variable uclient
uClient = uReq(myurl)

# read and close HTML para no sobrecargar de pedidos
page_html = uClient.read()
uClient.close()

# call BeautifulSoup for parsing
page_soup = soup(page_html, "html.parser")

# grabs all the products under list tag
bookshelf = page_soup.find(
    "ul", {"class": "nav nav-list"})
links = bookshelf.findAll("a")

filename = ("Genero.csv")
f = open(filename, "w")

headers = "Gender title\n"
f.write(headers)

lista_genero= []
i=0
for link in links:
    if i != 0:
        # collect link of all genders
        a = link.get("href")
        genero = link.get_text()
        lista_genero.append(a)
        f.write(genero+ "\n")
    i=i+1 # just to ignore the first
f.close()

titulos = ("Titulos.csv")
f = open(titulos, "w")
headers = "Titulos\n"
f.write(headers)

lista_libro = [] 

for genero in lista_genero:
    f.write( "Genero xx\n")
    uGender = uReq("https://books.toscrape.com/"+genero)
    pagina_libro = uGender.read()
    uGender.close()

    gender_soup = soup(pagina_libro, "html.parser")
    libro = gender_soup.find_all("li", {"class": "col-xs-6 col-sm-4 col-md-3 col-lg-3"})
    for i in libro:
        direccion = i.select("h3 > a")#iterar los libros
        lista_libro.append(direccion)
        for j in direccion:
            f.write(j.get_text() + "\n")
f.close()

lista_autor= [] 
