# Adquisición de datos

## Enunciado

Desde la librería y editorial _____ nos han pedido que llevemos a cabo un proyecto utilizando tecnologías *Big Data* para poder mejorar en diversos aspectos en el mercado, creando un valor añadido en la compañia que genere así una ventaja sobre sus competidores.

Para este propósito te han pedido la realización de un listado de los libros más famosos de diversos géneros para que, analizando sus características básicas (como el género o el autor) podamos conocer qué factores hacen a estos libros despuntar sobre el resto.

Los objetivos que tiene la compañía son diversos:
 * Conocer los libros más demandados por los usuarios para mejorar el stock de sus librerías.
 * Identificar las razones que hacen a un libro recibir buenas valoraciones por parte de los usuarios.
 * Saber si el género o autor de un libro es determinante en las ventas del mismo.
 * ...

Considerando estos factores, el primer objetivo es la adquisición de un set de datos con información sobre libros de distintos géneros para poder realizar posteriormente un análisis de estos datos.

## Práctica

El objetivo de esta práctica es realizar un script que obtenga datos de libros de distintos géneros de la página web [goodreads](https://www.goodreads.com) para crear un set de datos formado por los libros más famosos de cada uno de los géneros recogidos en esta web que podrá utilizarse para un análisis y procesamiento en distintas asignaturas. 

La forma de llegar a estos libros desde la página principal es la siguiente:

En el index de la página tenemos el siguiente bloque de información con el que podemos llegar a cada uno de los géneros:

<img src='./img/goodreads_index.png'></img>


Después, si queremos llegar a cada uno de los libros de cada género, tendremos que navegar dentro de una de estos enlace hasta la parte inferior: 

<img src='./img/goodreads_fantasy.png'></img>

Para encontrarnos con los libros más famosos del género:

<img src='./img/goodreads_fantasy_books.png'></img>

Por otro lado, dentro de cada uno de los libros, queremos adquirir la siguiente información:
    
<img src='./img/goodreads_thefinalempire.png'></img>

Además del **género** y la **url** de cada uno de los libros

De esta forma, el resultado final de esta práctica será un dataset parecido al siguiente

In [7]:
datos

Unnamed: 0,title,author,description,rating,ratingCount,reviewCount,genre,book_link
0,Ways of Seeing,John Berger,John Berger’s Classic Text on ArtJohn Berger's...,3.87,262803,1636,art,https://www.goodreads.com/book/show/2784.Ways_...
1,The Story of Art,E.H. Gombrich,This text is the 16th revised and updated edit...,3.93,320492,957,art,https://www.goodreads.com/book/show/222078.The...
2,The New Drawing on the Right Side of the Brain,Betty Edwards,When Drawing on the Right Side of the Brain wa...,3.86,302244,834,art,https://www.goodreads.com/book/show/627206.The...
3,Steal Like an Artist 10 Things Nobody Told Yo...,Austin Kleon,"You don’t need to be a genius, you just need t...",3.93,206572,5753,art,https://www.goodreads.com/book/show/13099738-s...
4,Wall and Piece,Banksy,"Banksy, Britain's now-legendary ""guerilla"" str...",3.85,206106,880,art,https://www.goodreads.com/book/show/114683.Wal...
...,...,...,...,...,...,...,...,...
1395,Daughter of Smoke Bone,Laini Taylor,"Around the world, black hand prints are appear...",4.00,322665,29588,travel,https://www.goodreads.com/book/show/8490112-da...
1396,Six of Crows,Leigh Bardugo,Ketterdam: a bustling hub of international tra...,4.42,350675,42712,travel,https://www.goodreads.com/book/show/23437156-s...
1397,Scarlet,Marissa Meyer,Cinder returns in the second thrilling install...,4.27,323890,31153,travel,https://www.goodreads.com/book/show/13206760-s...
1398,Graceling,Kristin Cashore,Katsa has been able to kill a man with her bar...,4.07,396540,22549,travel,https://www.goodreads.com/book/show/3236307-gr...


Y se tendrá que almacenar en un archivo .csv

Los pasos para la resolución de esta práctica serán los siguientes:

 1. Programar 3 Spiders que cogeran primero las urls de los géneros, después las de 'More ___ Books', y por último la url de cada libro.

 2. Crear un Scrapper que tendrá que coger en el html la información señalada anteriormente.

 3. *Parsear los datos con las funciones de RegEx dadas para que cada dato sea tratable de forma sencilla.

*Códigos para parsear los datos. Se usará la librería 'Pandas'

In [5]:
import pandas as pd

headers = ['title', 'author', 'description', 'rating', 'ratingCount', 'reviewCount', 'genre', 'book_link']

datos = pd.DataFrame(books, columns=headers)

In [None]:
datos['title'].replace(to_replace='[ ](?=[ ])|[^-_,A-Za-z0-9 ]+', value='',inplace=True,regex=True)
datos['rating'].replace(to_replace='[^0-9\.]+', value='',inplace=True,regex=True)
datos['ratingCount'].replace(to_replace='[^0-9]+', value='',inplace=True,regex=True)
datos['reviewCount'].replace(to_replace='[^0-9]+', value='',inplace=True,regex=True)

In [5]:
datos['title'] = datos['title'].str.replace(';',',')
datos['author'] = datos['author'].str.replace(';',',')
datos['description'] = datos['description'].str.replace(';',',')

In [6]:
datos.to_csv('data/books.csv', sep=';', index=False)

<hr>

## Código

In [2]:
import requests
import csv
import time
import pandas as pd
import re

from bs4 import BeautifulSoup

In [2]:
url = "https://www.goodreads.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
tags = soup.find('div', class_="u-defaultType").find_all('a')
links = [url + tag.get('href') for tag in tags if tag.text != 'More genres']

In [24]:
shelves = []

for link in links:
    response = requests.get(link)
    time.sleep(1)
    soup = BeautifulSoup(response.content, "html.parser")
    shelf_link = url + soup.find_all('div', class_="moreLink")[-1].find('a').get('href')
    if '/shelf/show/' in shelf_link:
        shelves.append(shelf_link)

In [None]:
all_books = []

for shelf in shelves:
    response = requests.get(shelf)
    time.sleep(1)
    soup = BeautifulSoup(response.content, "html.parser")
    books_div = soup.find('div', class_="leftContainer").find_all('div', class_="elementList")
    books = [url + book.find('div', class_="left").find('a', class_="leftAlignedImage").get('href') for book in books_div]
    all_books.append(books)

In [None]:
books = []
for genre_books,genre_link in zip(all_books, links):
    genre = genre_link.split('/')[-1]
    for book_link in genre_books:
        print(book_link)
        response = requests.get(book_link)
        time.sleep(1)
        soup = BeautifulSoup(response.content, "html.parser")
        title = soup.find(id = "bookTitle").text if soup.find(id = "bookTitle") != None else None
        author = soup.find('a', class_="authorName").text if soup.find('a', class_="authorName") != None else None
        description = soup.find(id = "description").find_all('span')[-1].text if soup.find(id = "description") != None else None
        bookMeta = soup.find('div', id="bookMeta")
        rating = bookMeta.find('span', itemprop="ratingValue").text if bookMeta.find('span', itemprop="ratingValue") != None else None
        ratingCount = bookMeta.find('meta', itemprop="ratingCount").text if bookMeta.find('meta', itemprop="ratingCount") != None else None
        reviewCount = bookMeta.find('meta', itemprop="reviewCount").text if bookMeta.find('meta', itemprop="reviewCount") != None else None
        book_info = [title, author, description, rating, ratingCount, reviewCount, genre, book_link]
        books.append(book_info)

In [6]:
headers = ['title', 'author', 'description', 'rating', 'ratingCount', 'reviewCount', 'genre', 'book_link']

datos = pd.DataFrame(books, columns=headers)

datos['title'].replace(to_replace='[ ](?=[ ])|[^-_,A-Za-z0-9 ]+', value='',inplace=True,regex=True)
datos['rating'].replace(to_replace='[^0-9\.]+', value='',inplace=True,regex=True)
datos['ratingCount'].replace(to_replace='[^0-9]+', value='',inplace=True,regex=True)
datos['reviewCount'].replace(to_replace='[^0-9]+', value='',inplace=True,regex=True)

In [7]:
datos['title'] = datos['title'].str.replace(',',';')
datos['author'] = datos['author'].str.replace(',',';')
datos['description'] = datos['description'].str.replace(',',';')

In [9]:
datos.to_csv('data/books.csv', sep=',', index=False)

In [6]:
len(books)

1400

In [None]:
with open('data/parrot.pkl', 'wb') as f:
    pickle.dump(books, f)

In [5]:
import pickle

# Carga de la variable final del filtrado\n",
with open('data/parrot.pkl', 'rb') as filehandle:
    # read the data as binary data stream\n",
    books = pickle.load(filehandle)