# API de Goodreads

En este proyecto utilizaré el API de la página Goodreads para recopilar la información de mi perfil. En total, me interesa generar dos bases de datos: una sobre los libros que leído y otra sobre los libros que quiero leer. No obstante, el código que utilizaré a continuación se puede emplear para obtener la información de cualquier usuario.

NOTA: Con respecto a los términos y condiciones del API de la página, debo ser cuidadoso con uno en particular: "Not request any method more than once a second. Goodreads tracks all requests made by developers".

#### Algunos aspectos que me gustaría incluir después:
- Extraer información de todos los usuarios de México.
- Un programa que me sugiera cuál libro debo leer, considerando mis preferencias y las recomendaciones de los usuarios a los que sigo. 

#### Mejoras pendientes a mi código:
- Manejar errores, con try/except, en los GET requests.
- Optimizar mi función principal para que se vea más limpia con loops. No super cómo hacerlo, considerando que debo cambiar de página y cambia el código html. Una vez que logre hacer esto, podré agregarle, también, un parametro para elegir las etiquetas que queremos seleccionar.


## I. Obtener información de mi perfil

Comienzo por importar las librerías que utilizaré:

In [1]:
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import re

A su vez, defino algunas variables importantes que utilizaré en todo el proceso, incluyendo el key que generé directamente en la página de Goodreads:

In [5]:
CONSUMER_KEY = 'PnnwwD2CW9RtBv6YqsjYw'
CONSUMER_SECRET = 'S1jfjAZpNn1dH6iRBWgDINoFp8G2ucwJa1C2OHg70xw'
url = "https://www.goodreads.com/"
id_francisco_galan = '40732498'

### 1.1 Obtener código html de libreros

Con la siguiente función hago un GET request para obtener el código html de un librero. La función permite seleccionar el librero que me interesa, ya sea el de libros leídos (`'read'`) o de libros que quiero leer (`'to-read'`). 

Es importante recalcar que la función solo obtiene el códido de UNA página que despliega 200 libros. Es decir, si en el librero hay más de 200, hay que volver a llamar la función pero especificándole que queremos la segunda página o alguna sucesiva.

NOTA: Con respecto a los términos y condiciones del API de la página, debo ser cuidadoso con uno en particular: "Not request any method more than once a second. Goodreads tracks all requests made by developers".

In [3]:
def shelf_info(user_id, shelf, page):
  
    """Arroja un BeautifulSoup object de una página del librero de un usuario"""
    
    time.sleep(1.1) # Para cumplir con los términos y condiciones de Goodreads
    info = requests.get(f'{url}/review/list?v=2&id={user_id}&shelf={shelf}&sort=title&page={page}&per_page=200&key={CONSUMER_KEY}')
    print('Status code: ', info.status_code)
    info_content = info.content
    soup = BeautifulSoup(info_content, 'lxml')
    return soup

### 1.2 Explorar los tags relevantes

Exploremos el código html de un libro para saber qué tags deberemos utilizar en nuestra extracción posterior de datos. 

In [4]:
leidos_p1 = shelf_info(id_francisco_galan, 'read', 1)

NameError: name 'my_id' is not defined

In [None]:
print(leidos_p1.prettify())

Podemos ver que el registro de cada libro comienza con la etiqueta `review`. Imprimamos el código del primer libro de la lista para identificar mejor las etiquetas:

In [None]:
print(leidos_p1.find('review').prettify())

No toda la información del libro me interesa. Las etiquetas que sí me interesan son estas: `id`, `isbn`, `title`, `link/`, `num_pages`, `publisher`, `publication_year`, `average_rating`, `ratings_count`, `name`, `rating`.

Sin embargo, en lo que sigue, debo ser cuidadoso con las tags que se repiten, como `average_rating` y `ratings_count`, puesto que es la información tanto del libro como del autor del libro en específico. Quizá por eso mejor conviene poner esas etiquetas por separado.

Asimismo, la etiqueta de `link\` se repite varias veces. Y no solo eso, sino que me es difícil identificar una etiqueta clara con que la pueda extraer, por lo que quizá requiera un procedimiento distinto.

In [None]:
tags_unique = ['isbn', 'title', 'num_pages', 'publisher', 'publication_year', 'name', 'rating']
tags_repetidas = ['average_rating', 'ratings_count']
# Sin olvidar que también quiero extraer el link a la página de goodreads.

### 1.3 Extraer información de un librero

Las dos siguientes funciones permiten extraer la información de un librero de un usuario. 

La primera nos dice cuántas páginas necesitamos considerar, puesto que goodreads despliega 200 libros, como máximo, por página por estante.

In [None]:
def paginas_por_estante(libros_en_estante):
    """Nos dice cuántas páginas se requieren para mostrar esa cantidad de libros"""
    
    if libros_en_estante <= 200:
        return 1
    
    elif libros_en_estante <= 400:
        return 2
    
    elif libros_en_estante <= 600:
        return 3
    
    elif libros_en_estante <= 800:
        return 4
    
    elif libros_en_estante <= 1000:
        return 5
    
    elif libros_en_estante <= 1200:
        return 6

A continuación está la función principal que extrae todo:

In [None]:
def extract_info(user_id, shelf, libros_en_estante):
    
    diccionario = {}
    
    # Definir variables de mis tags para ir agregando información mientras avanzo por varias páginas.
    isbn = []
    title = []
    num_pages = []
    publisher = []
    publication_year = []
    name = []
    rating = []
    average_rating = []
    ratings_count = []
    links = []
    
    #Determinar cuántas páginas consideraremos dentro del estante.
    paginas_to_scrap = paginas_por_estante(libros_en_estante)
    
    # Extraer información de cada una de las páginas
    for x in range(1, paginas_to_scrap+1):
        
        # Obtener código html en formato Soup
        page = shelf_info(user_id, shelf=shelf, page=x)
        
        # Obtener información de tags que no se repiten
        
        isbn_info = page.find_all(f'isbn')
        isbn_info = [elem.get_text() for elem in isbn_info]
        isbn.append(isbn_info)
        
        title_info = page.find_all(f'title')
        title_info = [elem.get_text() for elem in title_info]
        title.append(title_info)
        
        publisher_info = page.find_all(f'publisher')
        publisher_info = [elem.get_text() for elem in publisher_info]
        publisher.append(publisher_info)
        
        num_pages_info = page.find_all(f'num_pages')
        num_pages_info = [elem.get_text() for elem in num_pages_info]
        num_pages.append(num_pages_info)
        
        publication_year_info = page.find_all(f'publication_year')
        publication_year_info = [elem.get_text() for elem in publication_year_info]
        publication_year.append(publication_year_info)
        
        name_info = page.find_all(f'name')
        name_info = [elem.get_text() for elem in name_info]
        name.append(name_info)
        
        rating_info = page.find_all(f'rating')
        rating_info = [elem.get_text() for elem in rating_info]
        rating.append(rating_info)
        
        # Obtener información de tags que se repiten
        review_blocks = page.find_all('review')
        link_pattern = re.compile(r'www.goodreads.com.*')
        
        for review in review_blocks: 
            average_rating_info = review.find(f'average_rating').get_text()
            average_rating.append(average_rating_info)

            ratings_count_info = review.find(f'ratings_count').get_text()
            ratings_count.append(ratings_count_info)
            
            # Obtener links        
            if link_pattern.search(review.get_text()):
                link = re.findall(link_pattern, review.get_text()) 
                links.append(link)
    
            else: 
                print('Missing: ', review.title)
    
    # Aplanar variables con listas dentro de una lista
    isbn = [elem for listt in isbn for elem in listt]
    title = [elem for listt in title for elem in listt]
    num_pages = [elem for listt in num_pages for elem in listt]
    publisher = [elem for listt in publisher for elem in listt]
    publication_year = [elem for listt in publication_year for elem in listt]
    name = [elem for listt in name for elem in listt]
    rating = [elem for listt in rating for elem in listt]
    
    # Pasar todo a un diccionario
    diccionario[f'user_id'] = [user_id for x in range(0, len(isbn))]
    diccionario[f'shelf'] = [shelf for x in range(0, len(isbn))]
    
    diccionario[f'isbn'] = isbn
    diccionario[f'title'] = title
    diccionario[f'author'] = name
    diccionario[f'num_pages'] = num_pages
    diccionario[f'publication_year'] = publication_year
    diccionario[f'publisher'] = publisher
    
    diccionario[f'average_rating'] = average_rating
    diccionario[f'ratings_count'] = ratings_count
    diccionario[f'links'] = links
        
    return diccionario

La función ciertamente no luce tan elegante como debería; en particular, requiere mayor uso de loops. Sin embargo, el problema que encontré fue simultánemente cambiar de página y emplear loops. No hallé una forma de hacerlo.

### 1.4 Información de mi perfil

#### a) Estante de libros leídos

In [None]:
leido_francisco_galan = extract_info(id_francisco_galan, 'read', 276)

#### b) Estante de libros por leer

In [None]:
por_leer_francisco_galan = extract_info(id_francisco_galan, 'to-read', 104)

## II. Obtener bases de datos en pandas

Ahora ya tenemos una función que almacena toda la información del estante de un usuario en un diccionario. Procedamos ahora a pasar la información a una base de datos en pandas.

### 2.1 Generar DataFrames

Antes de pasar la información a formato DataFrame en pandas, chequemos que todas las variables tengan la misma extensión:

In [None]:
def check_variables_length(dictionary):
    for x, y in dictionary.items():
        print(f'{x}: ', len(y))

In [None]:
check_variables_length(leido_francisco_galan)

Ahora sí, pasemos los datos a un DataFrame

In [None]:
pd.DataFrame(leido_francisco_galan)

In [None]:
check_variables_length(por_leer_francisco_galan)

In [None]:
pd.DataFrame(por_leer_francisco_galan)

### 2.2 Limpiar columnas

### 2.3 Revisar tipos de variables

### 2.4 Fill missing values

### 2.5 Exportar como Excel