## Carga inicial de los datos

Cargamos con pandas en memoria nuestro dataset de libros

In [9]:
import pandas as pd

df = pd.read_csv("books.csv")
df.head()

Unnamed: 0,id,isbn,author,title,isbn13,asin,kindle_asin,marketplace_id,country_code,publication_date,...,average_rating,num_pages,format,edition_information,ratings_count_global,text_reviews_count_global,authors,to_read,read,currently_reading
0,1,0439785960,,Harry Potter and the Half-Blood Prince (Harry ...,9780440000000.0,,,,ES,2006/9/16,...,4.56,652.0,Paperback,,1919694,25791,"['J.K. Rowling', 'Mary GrandPré']",229495.0,7492,22335.0
1,3,0439554934,,Harry Potter and the Sorcerer's Stone (Harry P...,9780440000000.0,,,,ES,1997/6/26,...,4.46,320.0,Hardcover,,5536122,69174,"['J.K. Rowling', 'Mary GrandPré']",3286.0,15019,87801.0
2,5,043965548X,,Harry Potter and the Prisoner of Azkaban (Harr...,9780440000000.0,,,,ES,2004/5/1,...,4.55,435.0,Mass Market Paperback,,2120869,33324,"['J.K. Rowling', 'Mary GrandPré']",193024.0,10469,31945.0
3,7,0439887453,,"The Harry Potter Collection (Harry Potter, #1-6)",9780440000000.0,,,,ES,2006/9/1,...,4.73,,Paperback,Box Set,1597,115,"['J.K. Rowling', 'Mary GrandPré']",4521.0,24,189.0
4,9,0976540606,,"Unauthorized Harry Potter Book Seven News: ""Ha...",9780977000000.0,,,,ES,2005/4/26,...,3.69,152.0,Paperback,,18,1,['W. Frederick Zimmerman'],27.0,2,


Contamos cuantos valores tiene cada columna para intuir que columnas tienen valores nulos:

In [10]:
df.count() 

id                           3080
isbn                         3051
author                          0
title                        3080
isbn13                       3061
asin                            2
kindle_asin                     0
marketplace_id                  0
country_code                 3080
publication_date             3080
publisher                    3038
language_code                1208
is_ebook                     3080
books_count                  3080
best_book_id                 3080
reviews_count                3080
ratings_sum                  3080
ratings_count                3080
text_reviews_count           3080
original_publication_date    3080
original_title               2940
media_type                   2144
num_ratings_5                3080
num_ratings_4                3080
num_ratings_3                3080
num_ratings_2                3080
num_ratings_1                3080
average_rating               3080
num_pages                    2877
format        

Se observa que las columnas **isbn** y **isbn13** tienen muy pocos valores nulos por lo que se pueden eliminar las filas que no contienen dicho valor, dado que es el identificador del libro según un estándar internacional.

In [11]:
df.dropna(subset=["isbn", "isbn13"], inplace=True)
df.isbn.isna().sum()
df.isbn13.isna().sum()
df.count()

id                           3049
isbn                         3049
author                          0
title                        3049
isbn13                       3049
asin                            0
kindle_asin                     0
marketplace_id                  0
country_code                 3049
publication_date             3049
publisher                    3007
language_code                1190
is_ebook                     3049
books_count                  3049
best_book_id                 3049
reviews_count                3049
ratings_sum                  3049
ratings_count                3049
text_reviews_count           3049
original_publication_date    3049
original_title               2913
media_type                   2115
num_ratings_5                3049
num_ratings_4                3049
num_ratings_3                3049
num_ratings_2                3049
num_ratings_1                3049
average_rating               3049
num_pages                    2846
format        

Las columnas **asin**, **kindel_asin** y **marketplace_id** apenas si tienen valores, por lo que no parecen que vayan a ser estadísticamente relevantes por lo que se pueden eliminar del dataset

In [12]:
df = df.drop(['asin', 'kindle_asin', 'marketplace_id'], axis=1)
df.count()

id                           3049
isbn                         3049
author                          0
title                        3049
isbn13                       3049
country_code                 3049
publication_date             3049
publisher                    3007
language_code                1190
is_ebook                     3049
books_count                  3049
best_book_id                 3049
reviews_count                3049
ratings_sum                  3049
ratings_count                3049
text_reviews_count           3049
original_publication_date    3049
original_title               2913
media_type                   2115
num_ratings_5                3049
num_ratings_4                3049
num_ratings_3                3049
num_ratings_2                3049
num_ratings_1                3049
average_rating               3049
num_pages                    2846
format                       2991
edition_information           218
ratings_count_global         3049
text_reviews_c

Las columna **country_code** no contiene nulos pero se ve que todos los valores son iguales por lo que podría ser eliminada. Por otor lado, la columna **publication_date** no contiene nulos en el subset de datos.

In [15]:
df.country_code.unique()

array(['ES'], dtype=object)

In [26]:
df.publication_date.describe()

count         3049
unique        1602
top       2005/1/1
freq            23
Name: publication_date, dtype: object

La columna **publisher** contiene nulos y deben ser tratados como *unkown* en lugar de como nulos, dado que es una información que no ha sido proporcionada.

In [29]:
df.publisher.isna().sum()

42

In [31]:
df.publisher = df.publisher.fillna(value="unknow")
df.publisher.describe()

count       3049
unique      1248
top       unknow
freq          42
Name: publisher, dtype: object

La columna **language_code** proporciona información sobre el idioma en que está escrito el libro

In [34]:
df.language_code.unique()

array(['eng', 'en-US', nan, 'fre', 'en-GB', 'spa', 'grc', 'en-CA', 'jpn',
       'nl', 'ger', 'lat', 'ita', 'zho'], dtype=object)

Del mismo modo que tenemos en cuenta los publicadores como desconocidos vamos a hacer el mismo trabajo con el idioma de los libros que no son indicados

In [36]:
df.language_code = df.language_code.fillna(value="unknow")
df.language_code.isna().sum()

0

La columna **is_ebook** tiene un valor boolean en el que indica si un libro está en formato electrónico o no. En principio no contiene nulos.

In [41]:
df.is_ebook.unique()

array([False,  True])