# Extracci칩n y Procesamiento de Informaci칩n Bibliogr치fica desde APIs Abiertas
Este notebook tiene como objetivo extraer, procesar y estructurar informaci칩n bibliogr치fica proveniente de distintas APIs abiertas relacionadas con libros y publicaciones acad칠micas.
A partir de consultas espec칤ficas, se obtienen datos relevantes como t칤tulo, autor, a침o de publicaci칩n, editorial y DOI, los cuales son posteriormente almacenados en formato JSON y CSV para su an치lisis o reutilizaci칩n.

El flujo de trabajo sigue un enfoque t칤pico de ETL (Extract, Transform, Load), separando claramente los datos crudos (raw) de los datos procesados (processed).

## APIs utilizadas

En este proyecto se emplean tres APIs p칰blicas ampliamente utilizadas en el 치mbito acad칠mico

## Open Library API
Proporciona informaci칩n sobre libros, autores y fechas de publicaci칩n.

https://openlibrary.org/

## OpenAlex API
Ofrece datos acad칠micos estructurados, permitiendo filtrar por tipo de publicaci칩n como libros.

https://api.openalex.org/works

## Crossref API
Brinda metadatos bibliogr치ficos confiables, incluyendo editoriales y DOI.

https://api.crossref.org/works

### 游닂 Descarga de informaci칩n desde la Open Library API

Este c칩digo permite extraer informaci칩n bibliogr치fica desde la **API de Open Library** a partir de un t칠rmino de b칰squeda definido por el usuario. Los datos obtenidos corresponden a libros relacionados con la consulta realizada y se almacenan en formato **JSON** para su posterior an치lisis.

En primer lugar, se importan las librer칤as necesarias para realizar solicitudes HTTP, manipular datos en formato JSON y gestionar directorios del sistema. Luego, se define la funci칩n `descargar_openlibrary`, la cual recibe como par치metro una cadena de texto que representa el t칠rmino de b칰squeda.

La funci칩n crea autom치ticamente la carpeta `data/raw` si esta no existe, asegurando una correcta organizaci칩n de los datos crudos. Posteriormente, se construye la URL de consulta hacia la API incorporando el t칠rmino de b칰squeda y se realiza una solicitud GET para obtener los resultados.

La respuesta de la API se convierte a formato JSON y se guarda en el archivo `openlibrary.json`, utilizando codificaci칩n UTF-8 para preservar caracteres especiales y una estructura legible. Finalmente, se muestra un mensaje de confirmaci칩n indicando que el archivo fue guardado correctamente.

Este proceso representa la etapa de **extracci칩n de datos** dentro del flujo ETL del proyecto.


In [3]:
import os
os.makedirs("data/raw", exist_ok=True)

In [4]:
import requests
import json
import os

def descargar_openlibrary(query):
    # Crear carpetas si no existen
    os.makedirs("data/raw", exist_ok=True)
    
    url = f"https://openlibrary.org/search.json?q={query}"
    resp = requests.get(url)
    data = resp.json()
    
    with open("data/raw/openlibrary.json", "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

    print("Archivo openlibrary.json guardado correctamente")

descargar_openlibrary("python libros")

Archivo openlibrary.json guardado correctamente


### Conversion a csv

In [5]:
import json
import pandas as pd
import os

# Asegurar carpeta processed
os.makedirs("data/processed", exist_ok=True)

with open("data/raw/openlibrary.json", encoding="utf-8") as f:
    data = json.load(f)

libros = []

for libro in data["docs"][:100]:  # primeros 100 libros
    libros.append({
        "titulo": libro.get("title"),
        "autor": ", ".join(libro.get("author_name", [])) if "author_name" in libro else None,
        "anio_publicacion": libro.get("first_publish_year")
    })

df = pd.DataFrame(libros)
df.to_csv("data/processed/openlibrary.csv", index=False, encoding="utf-8")

df.head()


Unnamed: 0,titulo,autor,anio_publicacion
0,Pythons' Autobiography by the Pythons,"Monty Python, Graham Chapman, John Cleese, Ter...",2003
1,El gran libro de Python,"Marco Buttu, EDIZIONI LSWR",2016
2,Aprende a programar con PYTHON,Jos칠 Dimas Luj치n Castillo,2019
3,PYTHON. Curso pr치ctico de formaci칩n,Juan Carlos Or칩s Cabello,2022
4,PYTHON 3 al descubierto 2췈 Edici칩n,Arturo Fern치ndez Montoro,2013


### 游닁 Descarga de informaci칩n desde la OpenAlex API

Este c칩digo se encarga de extraer informaci칩n bibliogr치fica desde la **API de OpenAlex**, enfoc치ndose espec칤ficamente en publicaciones de tipo **libro** relacionadas con un t칠rmino de b칰squeda determinado.

En primer lugar, se importan las librer칤as necesarias para realizar solicitudes HTTP, manipular datos en formato JSON y gestionar la creaci칩n de directorios. A continuaci칩n, se define la funci칩n `descargar_openalex`, la cual recibe como par치metro una cadena de texto que representa el t칠rmino de b칰squeda.

La funci칩n crea la carpeta `data/raw` en caso de que no exista, garantizando una correcta organizaci칩n de los datos sin procesar. Posteriormente, se establece la URL base de la API de OpenAlex y se configuran los par치metros de la solicitud, donde se filtran 칰nicamente los resultados correspondientes a libros, se aplica la b칰squeda por palabra clave y se limita la cantidad de resultados a 50 registros.

La solicitud se realiza mediante el m칠todo GET y se incluye una validaci칩n del estado de la respuesta para asegurar que la consulta fue exitosa. Los datos obtenidos se convierten a formato JSON y se almacenan en el archivo `openalex_books.json`, utilizando codificaci칩n UTF-8 para conservar caracteres especiales y una estructura legible.

Finalmente, se ejecuta la funci칩n realizando una b칰squeda relacionada con *data science*, y se muestra un mensaje de confirmaci칩n indicando que el archivo fue guardado correctamente.

Este proceso corresponde a la etapa de **extracci칩n de datos** dentro del flujo ETL del proyecto.


In [8]:
import requests
import json
import os

def descargar_openalex(query):
    os.makedirs("data/raw", exist_ok=True)
    
    url = "https://api.openalex.org/works"
    params = {
        "filter": "type:book",
        "search": query,
        "per-page": 50
    }
    
    resp = requests.get(url, params=params)
    resp.raise_for_status()
    data = resp.json()
    
    with open("data/raw/openalex_books.json", "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)
    
    print("Archivo openalex_books.json guardado correctamente")

# EJECUTAR
descargar_openalex("data science")


Archivo openalex_books.json guardado correctamente


### Conversion a csv

In [9]:
import pandas as pd

with open("data/raw/openalex_books.json", encoding="utf-8") as f:
    data = json.load(f)

libros = []

for item in data["results"]:
    libros.append({
        "titulo": item.get("title"),
        "anio_publicacion": item.get("publication_year"),
        "editorial": item.get("publisher"),
        "tipo": item.get("type")
    })

df = pd.DataFrame(libros)
os.makedirs("data/processed", exist_ok=True)
df.to_csv("data/processed/openalex_books.csv", index=False, encoding="utf-8")

df.head()


Unnamed: 0,titulo,anio_publicacion,editorial,tipo
0,Data Reduction and Error Analysis for the Phys...,1993,,book
1,Spatial Data Science,2023,,book
2,Process Mining: Data Science in Action,2016,,book
3,High-Dimensional Probability: An Introduction ...,2018,,book
4,Data Science for Business: What You Need to Kn...,2013,,book


### 游닃 Descarga de informaci칩n desde la Crossref API

Este c칩digo permite extraer informaci칩n bibliogr치fica desde la **API de Crossref**, enfoc치ndose en publicaciones de tipo **libro**. Crossref es una fuente confiable de metadatos acad칠micos y editoriales, ampliamente utilizada para la identificaci칩n de publicaciones cient칤ficas mediante DOI.

En primer lugar, se importan las librer칤as necesarias para realizar solicitudes HTTP, manipular datos en formato JSON y gestionar directorios del sistema. Luego, se define la funci칩n `descargar_crossref`, la cual no requiere par치metros, ya que realiza una consulta general de libros.

La funci칩n crea la carpeta `data/raw` si no existe, asegurando una correcta organizaci칩n de los datos sin procesar. Posteriormente, se establece la URL base de la API de Crossref y se configuran los par치metros de la solicitud, filtrando 칰nicamente los resultados correspondientes a libros y limitando la cantidad de registros a 50.

La solicitud se realiza mediante el m칠todo GET y la respuesta obtenida se convierte a formato JSON. Los datos se almacenan en el archivo `crossref_books.json`, utilizando codificaci칩n UTF-8 y una indentaci칩n que facilita su lectura y an치lisis posterior.

Finalmente, se ejecuta la funci칩n y se muestra un mensaje de confirmaci칩n indicando que el archivo fue guardado correctamente.

Este procedimiento corresponde a la fase de **extracci칩n de datos** dentro del flujo ETL del proyecto.


In [12]:
import requests
import json
import os

def descargar_crossref():
    os.makedirs("data/raw", exist_ok=True)

    url = "https://api.crossref.org/works"
    params = {
        "filter": "type:book",
        "rows": 50
    }

    resp = requests.get(url, params=params)
    data = resp.json()

    with open("data/raw/crossref_books.json", "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

    print("Archivo crossref_books.json guardado correctamente")

descargar_crossref()


Archivo crossref_books.json guardado correctamente


### Conversion a csv

In [13]:
import pandas as pd

with open("data/raw/crossref_books.json", encoding="utf-8") as f:
    data = json.load(f)

libros = []

for item in data["message"]["items"]:
    libros.append({
        "titulo": item.get("title", [""])[0],
        "anio": item.get("issued", {}).get("date-parts", [[None]])[0][0],
        "editorial": item.get("publisher"),
        "doi": item.get("DOI")
    })

df = pd.DataFrame(libros)

df.to_csv(
    "data/processed/crossref_books.csv",
    index=False,
    encoding="utf-8"
)

df.head()


Unnamed: 0,titulo,anio,editorial,doi
0,Quantum Microscopy of Biological Systems,2015,Springer International Publishing,10.1007/978-3-319-18938-3
1,Excelling in the Clinic,2022,Springer International Publishing,10.1007/978-3-030-99415-0
2,Process-Oriented Dynamic Capabilities,2014,Springer International Publishing,10.1007/978-3-319-03251-1
3,Democracy and Judicial Reforms in South-East E...,2014,Springer International Publishing,10.1007/978-3-319-04420-0
4,Dichter bij diabetes,2015,Bohn Stafleu van Loghum,10.1007/978-90-368-1053-1
