# Analisis Exploratorio

## Tabla de contenidos:
* [Descarga de datos](#descarga-datos)
* [Carga inicial de los datos](#carga-inicial)
* [Observación de valores nulos](#datos-nulos)
    * [Identificadores](#columnas-identificadores)
    * [Información](#columnas-informacion)
    * [Usuarios](#columnas-usuarios)


## Descarga de datos <a class="anchor" name="descarga-datos"/>
Para la descarga de datos, se ha optado por el uso de un API.
En concreto se va a utilizar el API de goodreads, una página especializada en libros, con más de 85 millones de usuarios y más de 2.5 billones (americanos) de libros. (https://www.goodreads.com/about/us).

El API (https://www.goodreads.com/api) disponde un endpoint rest en el que se puede obtener la información detallada de un libro por _ISBN_ o por un _ID_ propio de su sistema. 
Para el caso de esta práctica se ha hecho un script en python (*goodreads.py*) que permite descargar la lista completa de libros en un fichero csv. Para facilitar el uso del notebook, se proporciorna un fichero csv con los libros descargados previamente: _books.csv_ 

Para usar el script bastaría con lanzar el comando: `python3 goodreads.py` Este script acepta parametros de entrada, como desde que libro hasta que libro se quiere ir, y cuantos libros se quieren saltar entre cada libro. `python3 goodreads.py -o FILENAME -s START_BOOK -e END_BOOK -l SKIP_BOOKS` 

## Carga inicial de los datos <a class="anchor" name="carga-inicial"/>

Se carga en memoria mediante pandas el dataset de libros almancenado en _books.csv_. 

Adicionalmente se obtiene la primera información sobre los datos que contine el dataset. 

In [4]:
import pandas as pd

df = pd.read_csv("books.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28362 entries, 0 to 28361
Data columns (total 42 columns):
id                           28362 non-null int64
isbn                         28061 non-null object
title                        28362 non-null object
isbn13                       27969 non-null float64
asin                         7 non-null object
kindle_asin                  0 non-null float64
marketplace_id               0 non-null float64
country_code                 28362 non-null object
publication_date             21862 non-null object
publisher                    21770 non-null object
language_code                8754 non-null object
is_ebook                     28362 non-null bool
books_count                  28362 non-null int64
best_book_id                 28362 non-null int64
reviews_count                28362 non-null int64
ratings_sum                  28362 non-null int64
ratings_count                28362 non-null int64
text_reviews_count           28362 non-nul

In [5]:
df.head()

Unnamed: 0,id,isbn,title,isbn13,asin,kindle_asin,marketplace_id,country_code,publication_date,publisher,...,authors,illustrator,contributor,editor,translator,narrator,to_read,read,currently_reading,genres
0,1,0439785960,Harry Potter and the Half-Blood Prince (Harry ...,9780440000000.0,,,,ES,2006/9/16,Scholastic Inc.,...,J.K. Rowling,Mary GrandPré,,,,,230083.0,7496,22382.0,"adventure,childrens,classics,contemporary,fant..."
1,6,0439139600,Harry Potter and the Goblet of Fire (Harry Pot...,9780439000000.0,,,,ES,2002/9/28,Scholastic,...,J.K. Rowling,Mary GrandPré,,,,,187868.0,8966,39685.0,"adventure,childrens,classics,contemporary,fant..."
2,11,,The Hitchhiker's Guide to the Galaxy (Hitchhik...,,,,,ES,2017/1/1,Del Rey Books,...,Douglas Adams,,,,,,2468.0,2329,19129.0,"adult,adult-fiction,adventure,aliens,british-l..."
3,16,0739322206,The Hitchhiker's Guide to the Galaxy (Hitchhik...,9780739000000.0,,,,ES,2005/3/23,Random House Audio,...,Douglas Adams,,,,,Stephen Fry,2468.0,2329,19129.0,"adult,adult-fiction,adventure,aliens,british-l..."
4,21,076790818X,A Short History of Nearly Everything,9780768000000.0,,,,ES,2004/9/14,Broadway Books,...,Bill Bryson,,,,,William Roberts,242439.0,651,16741.0,"adult,american,anthropology,education,essays,f..."


## Observación de valores nulos <a class="anchor" name="datos-nulos"/>
El siguiente paso es observar los datos, los valores que toman y si hay valores nulos. 

Para cada una de las columnas del dataset se identifica si tienen valores nulos y cuántos hay en cada uno y la acción a tomar en cada caso.


In [6]:
df[df.columns].dtypes

id                             int64
isbn                          object
title                         object
isbn13                       float64
asin                          object
kindle_asin                  float64
marketplace_id               float64
country_code                  object
publication_date              object
publisher                     object
language_code                 object
is_ebook                        bool
books_count                    int64
best_book_id                   int64
reviews_count                  int64
ratings_sum                    int64
ratings_count                  int64
text_reviews_count             int64
original_publication_date     object
original_title                object
media_type                    object
num_ratings_5                  int64
num_ratings_4                  int64
num_ratings_3                  int64
num_ratings_2                  int64
num_ratings_1                  int64
average_rating               float64
n

Con los tipos y la muestra, se puede deducir la información de cada columna:

| Columna | Tipo | Observaciones | Tipo de Campo |
| --- | --- | --- | --- |
| id | int64 | ID en GoodReads | Identificador |
| isbn | object |  ISBN | Identificador |
| title | object |  Titulo | Información |
| isbn13 | float64 | Codigo ISBN de 13 digitos |  Identificador |
| asin | object | ??? |  Identificador |
| kindle_asin | float64 | Codigo Kindle |  Identificador |
| marketplace_id | float64 | Código del mercado |  Identificador |
| country_code | object |  Código de País | Información |
| publication_date | object |  Fecha de publicación | Información | 
| publisher | object | Publicador/Editorial | Información |
| language_code | object | Código de idioma de la publicación | Información |
| is_ebook | bool | Es un E-Book | Información |
| books_count | int64 | ? | Usuarios |
| best_book_id | int64 | ? | Usuarios |
| reviews_count | int64 | Número de opiniones | Usuarios |
| ratings_sum | int64 | Sumatorio de las puntuaciones | Usuarios |
| ratings_count | int64 | Número de puntuaciones | Usuarios |
| text_reviews_count | int64 | Número de opiniones escritas | Usuarios |
| original_publication_date | object | Fecha de publicación original | Informacion |
| original_title | object| Titulo original | Informacion |
| media_type | object | Tipo de medio | Información |
| num_ratings_5 | int64 | Número de veces que han puntuado con un 5 | Usuarios |
| num_ratings_4 | int64 | Número de veces que han puntuado con un 4 | Usuarios |
| num_ratings_3 | int64 | Número de veces que han puntuado con un 3 | Usuarios |
| num_ratings_2 | int64 | Número de veces que han puntuado con un 2 | Usuarios |
| num_ratings_1 | int64 | Número de veces que han puntuado con un 1 | Usuarios |
| average_rating | float64 | Valoración media | Usuarios |
| num_pages | float64 | Número de páginas | Información |
| format | object | Formato | Información |
| edition_information | object  | Informacíón sobre la edición | Información |
| ratings_count_global | int64  | Número de valoraciones total | Usuarios |
| text_reviews_count_global | int64 | Número de reseñas total | Usuarios |
| authors | object | Autor | Información |
| illustrator | object | Ilustrador | Información | 
| contributor | object | Constribuidor | Información |
| editor | object | Editor | Información |
| translator | object | Traductor | Información |
| narrator | object | Narrador | Información |
| to_read | float64 | Número de personas que lo quieren leer | Usuarios |
| read | int64 | Número de personas que lo han leído | Usuarios |
| currently_reading | float64 | Número de personas que lo están leyendo | Usuarios |
| genres | object | Lista de géneros | Información |

Adicionalmente se ha identificado a que hace referencia cada columna:
* Identificador : Identificadores del libro
* Información: Información sobre el libro o la edición
* Usuarios: Información sobre las valoraciones de los usuarios, reseñas, etc.

Se observa cuantos valores contiene cada columna

In [7]:
df.count()

id                           28362
isbn                         28061
title                        28362
isbn13                       27969
asin                             7
kindle_asin                      0
marketplace_id                   0
country_code                 28362
publication_date             21862
publisher                    21770
language_code                 8754
is_ebook                     28362
books_count                  28362
best_book_id                 28362
reviews_count                28362
ratings_sum                  28362
ratings_count                28362
text_reviews_count           28362
original_publication_date    27524
original_title               26983
media_type                   18131
num_ratings_5                28362
num_ratings_4                28362
num_ratings_3                28362
num_ratings_2                28362
num_ratings_1                28362
average_rating               28362
num_pages                    20094
format              

### Información sobre los identificadores <a class="anchor" name="columnas-identificadores"/>

Se eliminarán todas las filas que no contengan **isbn** ni **isbn13** dado que es un identificador de libro y va ayudar a eliminar libros que no tienen todos los datos cargados.

In [8]:
df.dropna(subset=["isbn", "isbn13"], inplace=True)

Las columnas **asin**, **kindel_asin** y **marketplace_id** apenas si tienen valores, por lo que no parecen que vayan a ser estadísticamente relevantes por lo que se pueden eliminar del dataset.

In [9]:
df.drop(columns = ['asin', 'kindle_asin', 'marketplace_id'], inplace=True)

### Información sobre el libro <a class="anchor" name="columnas-informacion"/>

Se observa que todos los libros tienen titulo(**title**). En caso contrario se debería suprimir dicho libro.

In [10]:
print(df.title.isna().sum())
df.dropna(subset=["title"], inplace=True)
print(df.title.isna().sum())

0
0


Se observa que sucede con el campo **original_title**

In [11]:
df.original_title.isna().sum()

1349

Para los campos que no tienen titulo original, se va a introducir el literal "unknown"

In [12]:
df.original_title.fillna(value="unkown", inplace=True)

Las columna **country_code** no contiene nulos pero se ve que todos los valores son iguales por lo que podría ser eliminada.

In [13]:
df.country_code.unique()

array(['ES'], dtype=object)

In [14]:
df.drop(columns = ['country_code'], inplace=True)

#### ¿Qué hacer con la columna de fechas?

In [15]:
print("publication_date", df.publication_date.isna().sum())
print("original_publication_date", df.original_publication_date.isna().sum())

publication_date 6341
original_publication_date 808


Tanto la columna **publisher** como **language_code** contienen nulos y deben ser tratados como *unkown* en lugar de como nulos, dado que es una información que no ha sido proporcionada.

In [16]:
print(
    df.publisher.isna().sum(), 
    df.language_code.isna().sum()
)

6418 19302


In [17]:
df.publisher.fillna(value="unknown", inplace=True)
df.language_code.fillna(value="unknown", inplace=True)

La columna **is_ebook** tiene un valor boolean en el que indica si un libro está en formato electrónico o no. En principio no contiene nulos.

In [18]:
df.is_ebook.unique()

array([False,  True])

Parece que la columna **media_type** tiene nulos, se obtienen los valores únicos:

In [19]:
df["media_type"].unique()

array(['book', nan, 'not a book', 'periodical'], dtype=object)

Se comprueba qué tipo de elementos son considerados *not a book*:

In [20]:
df[["title", "media_type"]][df.media_type == "not a book"].head()

Unnamed: 0,title,media_type
240,The Leadership Challenge,not a book
259,The Fables of Phaedrus,not a book
609,Fabeln.,not a book
1366,The Count of Monte Cristo,not a book
1367,The Count of Monte Cristo,not a book


Se verifican ahora los que se consideran *periodical*:

In [21]:
df[["title", "media_type"]][df.media_type == "periodical"].head()

Unnamed: 0,title,media_type
2987,McSweeney's #24,periodical
4260,Vimanarama,periodical
4271,"The Invisibles, Vol. 4: Bloody Hell in America",periodical
4272,"The Invisibles, Vol. 6: Kissing Mister Quimper",periodical
5064,Calvin et Hobbes 7: Que fait la police ?,periodical


Por último, se revisa cuales son considerados nulos:

In [22]:
df[["title", "media_type"]][df.media_type.isna()].head()

Unnamed: 0,title,media_type
43,Comedy after Postmodernism: Rereading Comedy f...,
50,Just in Time! Pastoral Prayers in Public Places,
52,New Essays on 'the Portrait of a Lady',
60,Essential Jazz: The First 100 Years (with CD-ROM),
63,Ziggy the Zebra,


Se reemplazan los libros con **media_type** *NaN* por *Unknown*:

In [23]:
df.media_type.fillna(value='unknown', inplace=True)
df.media_type.unique()

array(['book', 'unknown', 'not a book', 'periodical'], dtype=object)

Se analiza la columna **num_pages**, en ella se observa que hay valores nulos. 
Hay que tenerlo en cuenta a la hora de calcular datos con ésta columna (p.ej la media, etc).

In [24]:
df.num_pages.isna().sum()

8032

Además, se comprubea si hay libros con 0 páginas, en ese caso se modifica su valor por np.nan

In [25]:
import numpy as np
df.loc[df.num_pages == 0, "num_pages"] = np.nan
df.num_pages.isna().sum()

8231

In [26]:
df.num_pages.loc[~df.num_pages.isna()].mean() #num_pages_mean sin tener en cuenta datos nulos

295.09222929936305

In [27]:
df.num_pages.loc[~df.num_pages.isna()].astype("int64").unique()

array([ 652,  734,    6, ..., 2035, 2408,  754])

Se analiza la columna **format** y se observan valores nulos

In [28]:
df.format.unique()

array(['Paperback', 'Audio CD', 'Hardcover', 'Mass Market Paperback', nan,
       'Audio Cassette', 'Audio', 'paper', 'Unknown Binding', 'MP3 CD',
       'cloth', 'Spiral-bound', 'ebook', 'Audiobook', 'Taschenbuch',
       'Map', 'Board Book', 'Book + CD', 'Board book', 'Trade Paperback',
       'dust jacket', 'コミック', 'Leather Bound', 'CD-ROM', 'Turtleback',
       'Library Binding', 'Boxed Set', 'Single Issue Magazine',
       'Loose-Leaf', 'Ring-bound', 'hardback', 'Paperback Manga',
       'DVD-ROM', 'audio cd', 'Novelty Book', 'Paperback Boxed Set',
       'Trade paperback', 'School &amp; Library Binding', 'Unbound',
       'Capa Mole', 'Stencils', 'journal', 'Rag Book', 'Braille',
       'paperback', 'Brochura (Paperback)', 'Broché', 'Gebundene Ausgabe',
       'Sheet music', 'Cards', 'Loose Leaf', 'Kindle Edition',
       'Твердый переплет', 'Paperback in Hard Sleeve',
       'Paperback + 2 CDs', 'Hardcover (Travel Size)', 'Chapbook',
       'Paperback with CD Rom', 'Poche', 'poc

Para evitar el borrado de muchos libros de forma inncesaria a todos los libros que no tengan un formato especificado se les asigna el formato "unknown"

In [29]:
df.format = df.format.fillna(value="unknown")
df.format.value_counts()

Paperback                       13926
unknown                          6555
Hardcover                        5525
Mass Market Paperback             619
Unknown Binding                   374
Audio CD                          351
Audiobook                         107
Audio Cassette                     70
Board Book                         58
Audio                              42
Spiral-bound                       40
Leather Bound                      26
ebook                              14
Library Binding                    14
paper                              13
cloth                              12
Board book                         11
Trade Paperback                     9
CD-ROM                              7
hardback                            5
Novelty Book                        5
Ring-bound                          5
Turtleback                          4
Taschenbuch                         4
MP3 CD                              4
Unbound                             3
Poche       

Del mismo modo que la columna anterior, se analiza la columna **edition_information** y se tratan los valores nulos. 

In [30]:
df.edition_information.unique()

array([nan, 'First Scholastic Trade Paperback Edition', 'Unabridged',
       'First Trade Paperback Edition', '50th Anniversary Edition',
       'Authors Guild Backinprint.com Edition', '1st THUS edition',
       'Reissue edition', 'High Risk Books Series',
       'Penguin Classics Deluxe Edition', 'Dover Giant Thrift Editions',
       'First Edition', 'EMC Masterpiece Series Access Editions',
       'Kahlil Gibran Pocket Library Series', 'Harlequin Blaze #264',
       '(Casebook Edition Text Notes and Criticism)',
       '25th Anniversary Special Edition', "Oxford World's Classics",
       '5th Edition', 'USA / Canada', 'Spanish Edition', 'first',
       'US / CAN Edition', 'الطبعة الأولى', 'Abridged',
       'Revised and Expanded Edition, Large Print', "Oprah's Book Club",
       'Third Edition', 'bilingual Greek/English', 'Deluxe Edition',
       'Second Edition', '2nd Critical edition', 'Penguin Classics',
       'Edición definitiva', 'revised w/new epilogue', 'Sixth Edition',
    

Para evitar el borrado de muchos libros de forma inncesaria se asigna el formato "unknown". 

In [33]:
df.edition_information = df.edition_information.fillna(value="unknown")
df.edition_information.value_counts().head()

unknown           26236
Abridged            174
Large Print          92
Second Edition       87
First Edition        47
Name: edition_information, dtype: int64

Se puede observar que en la mayoría de los casos no se ha propocionado información por lo que esta información puede terminar no siendo de utilidad. 

### Información sobre los usuarios <a class="anchor" name="columnas-usuarios"/>

Las columnas **books_count** y **best_book_id** no tienen un valor relevante para este estudio por lo que se eliminan del set de datos.

In [34]:
df.drop(columns=["books_count", "best_book_id"], inplace=True)

Se observan si existen nulos en las columnas referidas a las valoraciones de los usuarios:

In [36]:
print("reviews_count: {}".format(df["reviews_count"].isna().sum()))
print("ratings_sum: {}".format(df["ratings_sum"].isna().sum()))
print("ratings_count: {}".format(df["ratings_count"].isna().sum()))
print("text_reviews_count: {}".format(df["text_reviews_count"].isna().sum()))
print("text_reviews_count_global: {}".format(df.text_reviews_count_global.isna().sum()))
print("num_ratings_5: {}".format(df["num_ratings_5"].isna().sum()))
print("num_ratings_4: {}".format(df["num_ratings_4"].isna().sum()))
print("num_ratings_3: {}".format(df["num_ratings_3"].isna().sum()))
print("num_ratings_2: {}".format(df["num_ratings_2"].isna().sum()))
print("num_ratings_1: {}".format(df["num_ratings_1"].isna().sum()))
print("average_rating: {}".format(df.average_rating.isna().sum()))
print("rating_count_global: {}".format(df.ratings_count_global.isna().sum()))
print("to read: {}".format(df.to_read.isna().sum()))
print("read: {}".format(df.read.isna().sum()))
print("currently reading: {}".format(df.currently_reading.isna().sum()))

reviews_count: 0
ratings_sum: 0
ratings_count: 0
text_reviews_count: 0
text_reviews_count_global: 0
num_ratings_5: 0
num_ratings_4: 0
num_ratings_3: 0
num_ratings_2: 0
num_ratings_1: 0
average_rating: 0
rating_count_global: 0
to read: 42
read: 0
currently reading: 9580


Se analiza la columna **average_rating**. En caso de no tener valores, se deberían filtrar los registros que correspondan en una vista para hacer calculos. P.ej calcular los libros que tengan valoración por encima de la media.

A priori, no se observan libross sin valoración media.

In [42]:
df.average_rating.fillna(value="unknow", inplace=True)
df.average_rating.value_counts().head()

0.0    2980
4.0    1451
3.0     730
5.0     645
3.5     424
Name: average_rating, dtype: int64

A continuación se trata el campo **ratings_count_global**. Representa el total de valoraciones que ha recibido el libro.
En caso de tener algun valor nulo, se reemplaza por cero.

In [44]:
df.ratings_count_global.fillna(value=0, inplace=True)

Además, el tipo de datos es el correcto para un contador

In [41]:
df.ratings_count_global.dtype

dtype('int64')

Las columnas **to_read**, **read**, **currently_reading** se interprentan como un contador con la gente que ha leído, está leyendo o va leer el libro, por lo que se establece que los valores nulos se sustituyen por 0.

In [46]:
df.to_read.fillna(value=0, inplace=True)
df.read.fillna(value=0, inplace=True)
df.currently_reading.fillna(value=0, inplace=True)

Dado que representa un número de personas, expresamos los resultados como números enteros

In [51]:
df.to_read.astype('int64')
df.read.astype('int64')
df.currently_reading.astype('int64')

0        22382
1        39685
3        19129
4        16741
5          841
6        20328
7           22
8            1
9            0
10           1
11          22
12          20
13          98
14           3
15          17
16          13
17          44
18          44
19           1
20        2716
21         831
22          21
23           1
24        1625
25           0
26           0
27          25
28           0
29       55587
30       55587
         ...  
28332        0
28333        0
28334        0
28335        0
28336        1
28337        0
28338        0
28339      833
28340      393
28341        9
28342      409
28343      181
28344        0
28345        0
28346        0
28347        1
28348       25
28349        8
28350        0
28351        0
28352        0
28353       21
28354        0
28355       79
28356        5
28357        2
28358        0
28359        1
28360        0
28361      117
Name: currently_reading, Length: 27856, dtype: int64

In [53]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 27856 entries, 0 to 28361
Data columns (total 36 columns):
id                           27856 non-null int64
isbn                         27856 non-null object
title                        27856 non-null object
isbn13                       27856 non-null float64
publication_date             21515 non-null object
publisher                    27856 non-null object
language_code                27856 non-null object
is_ebook                     27856 non-null bool
reviews_count                27856 non-null int64
ratings_sum                  27856 non-null int64
ratings_count                27856 non-null int64
text_reviews_count           27856 non-null int64
original_publication_date    27048 non-null object
original_title               27856 non-null object
media_type                   27856 non-null object
num_ratings_5                27856 non-null int64
num_ratings_4                27856 non-null int64
num_ratings_3                278