# Los 50 libros más vendidos de Amazon 2009 - 2019

[Data Set Amazon Top 50 Bestselling Books 2009 - 2019](https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019)

In [None]:
import pandas as pd
import numpy as np


import plotly 
import plotly.express as px
import plotly.graph_objs as go
import plotly.offline as py
from plotly.offline import iplot
from plotly.subplots import make_subplots
import plotly.figure_factory as ff

In [None]:
df = pd.read_csv('db/bestsellers-with-categories.csv')
df

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


## Observando los datos

Observando la cantidad de **datos nulos** en el DataFrame

In [None]:
df.isnull().sum()

Name           0
Author         0
User Rating    0
Reviews        0
Price          0
Year           0
Genre          0
dtype: int64

**Observando los tipos de datos**:

Podemos obervar que los tipos de datos estan correctos y no es necesario realizar ninguna modificacion.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


**Resumiento los resultados del conjunto de datos**:

- El conjunto contiene 550 autores,genero y libros en total.
- Las variables de tipo objeto como el genero, nos pueden ayudar a obtener un analisis complejo y detallado.
- Es muy probable que las reseñas y las columnas de precios tengan outliers (valores atípicos). (Media - Diferencia mediana, diferencia entre **75%** y **valor máximo**, diferencia entre **25%** y **valor mínimo**)

In [None]:
df.describe(include='all')

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
count,550,550,550.0,550.0,550.0,550.0,550
unique,351,248,,,,,2
top,Publication Manual of the American Psychologic...,Jeff Kinney,,,,,Non Fiction
freq,10,12,,,,,310
mean,,,4.618364,11953.281818,13.1,2014.0,
std,,,0.22698,11731.132017,10.842262,3.165156,
min,,,3.3,37.0,0.0,2009.0,
25%,,,4.5,4058.0,7.0,2011.0,
50%,,,4.7,8580.0,11.0,2014.0,
75%,,,4.8,17253.25,16.0,2017.0,


# Análisis

Existen 248 autores unicos en el dataset

In [None]:
df['Author'].nunique()

248

## Contando los Generos

Al analizar los generos que existen podremos observar que no existen mas de dos tipos de generos, pero nos ayudara a mostrar sus diferencias.

In [None]:
df['Genre'].value_counts(normalize=True)

Non Fiction    0.563636
Fiction        0.436364
Name: Genre, dtype: float64

In [None]:
fig = px.histogram(df, x='Genre' , title='Genero')
fig.update_layout(xaxis={'categoryorder':'total descending'})
fig.show()

## Calificacion del Usuario
- La puntuación **media** y la **mediana** están bastante próximas entre sí. (**Mediana** = 4.7, **Media** = 4.618)
- Dado que la puntuación** mediana es mayor que la puntuación media**, podemos esperar **valores atípicos del lado mínimo**.
- Lo más probable es que dejemos una **distribución sesgada**. Pero aún podemos esperar una distribución cercana a la normal de la variable.

In [None]:
df['User Rating'].describe(include='all')

count    550.000000
mean       4.618364
std        0.226980
min        3.300000
25%        4.500000
50%        4.700000
75%        4.800000
max        4.900000
Name: User Rating, dtype: float64

In [None]:
fig = px.histogram(df, x='User Rating', 
    title='Calificacion del usuario',
    hover_data=df[['Author','User Rating']],
    marginal="box"
)
fig.show()

- Como habiamos mencionado realmente tenemos valores atipicos del lado minimo.
- La distribucion esta ligeramente sesgada a la izquierda, pero esta cercaba a la distribucion normal.
- El libro con la calificacion mas baja es **J.K.Rowling's 'Casual Vacancy'**

## Reseña
- Tenemos una gran diferencia entre los valores **medios** y la **mediana** (media = 11953, mediana = 8580).
- Tiene una distribución muy sesgada con los **valores atípicos en el lado máximo**.
- Podemos esperar una **distribución muy sesgada a la derecha** con posibles **valores atípicos en el lado máximo**.

In [None]:
df['Reviews'].describe()

count      550.000000
mean     11953.281818
std      11731.132017
min         37.000000
25%       4058.000000
50%       8580.000000
75%      17253.250000
max      87841.000000
Name: Reviews, dtype: float64

In [None]:
fig = px.histogram(df, x='Reviews',
    title='Reseñas',
    hover_data=df[['Name','Author']],
    marginal='box'
)
fig.show()

- Podemos comprobar que la distribución esta **muy sesgada a la derecha** con los valores atípicos en el lado máximo.
- El libro Kristin Hannah's 'The Nightingale' se encuentra entre los valores atípicos con más de 49.000 reseñas. O otro libro que esta altamente sesgado es 'where the crawdads sing delia owens' con más de 87,000 reseñas.

## Precio
- Podemos esperar una **distribución ligeramente sesgada**. 
- Aún así, la distribución estará cerca de la distribución normal. 
- Podemos esperar valores atípicos en el **lado máximo**.
- También tenemos **libros gratuitos** en el dataset.

In [None]:
df['Price'].describe()

count    550.000000
mean      13.100000
std       10.842262
min        0.000000
25%        7.000000
50%       11.000000
75%       16.000000
max      105.000000
Name: Price, dtype: float64

In [None]:
fig = px.histogram(df, x='Price',
    title='Precios',
    marginal='box',
    hover_data=df[['Name','Author']]
)
fig.show()

- Como esperábamos, tenemos una distribución** ligeramente sesgada a la derecha con valores atípicos en el lado máximo**.
- También tenemos 13 libros en el rango de **precio $ 0-1**.
- Antes de pasar a los detalles, veamos la matriz de correlación de nuestro conjunto de datos. 

## Observando la Matriz de correlacion de nuestro DataSet

In [None]:
df.drop('Year', axis=1).corr()

Unnamed: 0,User Rating,Reviews,Price
User Rating,1.0,-0.001729,-0.133086
Reviews,-0.001729,1.0,-0.109182
Price,-0.133086,-0.109182,1.0


In [None]:
index_vals = df['Genre'].astype('category').cat.codes #Convierte los valores a ceros y unos

fig = go.Figure(data=go.Splom(
    dimensions=[
        dict(label ='User Rating', values= df['User Rating']),
        dict(label ='Reviews', values= df['Reviews']),
        dict(label ='Price', values= df['Price'])
    ],
    showupperhalf=False,
    text= df['Name'],
    marker = dict(
        color=index_vals,
        showscale=False, # colors encode categorical variables
        line_color='white', 
        line_width=0.5
    )
))

fig.update_layout(
    title='Books',
    width=1000,
    height=1000,
)
fig.show()


- Podemos analizar que no se encuentra ninguna correlacion significativa para poder dar un analisis mas detallado.

## Generos de Pelicuas por Año

In [None]:
genre_by_year = df.groupby('Year')['Genre'].value_counts().reset_index(level=0).rename(columns={'Genre':'Genre_count'}, index={'index':'Genre'})
genre_by_year

Unnamed: 0_level_0,Year,Genre_count
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1
Non Fiction,2009,26
Fiction,2009,24
Non Fiction,2010,30
Fiction,2010,20
Non Fiction,2011,29
Fiction,2011,21
Non Fiction,2012,29
Fiction,2012,21
Non Fiction,2013,26
Fiction,2013,24


In [None]:
fig = px.line(
    genre_by_year, 
    x='Year',
    y='Genre_count',
    color= genre_by_year.index, 
    title='Movies By Genre in Each Year'
)
fig.show()

- Los libros de no ficción hubo una reduccion drastica en el año 2014, pero aumentaron en el año 2015.
- Los libros de ficción en el año 2014 llego a su maximo de crecimiento, pero en el año 2015 hubo una bajada muy grande.
- Existe una inconsistencia en el conteo por año en los libros de fucción y no ficción.

## Precio de los Libros por Año

In [None]:
fig = px.scatter(
    df,
    x='Year',
    y='Price',
    hover_data=df[['Name','Author']],
    title='Precio de los Libros por Año'
)
fig.show()

- Los precios de los libros en todos los años se mantiene en el mismo rango de precios, pero existen algunos años que tienen varios valores atipicos.
- Tenemos libros de 2013 y 2014 al precio de $ 105 de la Asociación Estadounidense de Psiquiatría. 

## Numeros de Reseñas en Cada Año

In [None]:
fig = px.scatter(
    df,
    x='Year',
    y='Reviews',
    hover_data=df[['Name','Author']],
    color='Genre',
    title='Numeros de Reseñas en Cada Año'
)
fig.show()

- Podemos encontrar que a partir del año 2010 empieza a tener una distribucion similar.
- Existen valores atipicos que afectan la distribucion.

## Calificion del Usuario por año

In [None]:
df.columns

Index(['Name', 'Author', 'User Rating', 'Reviews', 'Price', 'Year', 'Genre'], dtype='object')

In [None]:
fig = px.scatter(df,
    x='Year',
    y='User Rating',
    color='Genre',
    hover_data=df[['Name','Author']]
)
fig.show()

- La calificacion de los usuarios tienen casi la misma distribucion tras cada año, pero en cada año apartir del 2010 se empieza a ver valores atipicos.

## Los 20 libros mejores calificados

In [None]:
top_20 = df.sort_values('User Rating',ascending=False)[:20]
top_20.head(3)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
431,The Magnolia Story,Chip Gaines,4.9,7861,5,2016,Non Fiction
87,Dog Man: Lord of the Fleas: From the Creator o...,Dav Pilkey,4.9,5470,6,2018,Fiction
85,Dog Man: Fetch-22: From the Creator of Captain...,Dav Pilkey,4.9,12619,8,2019,Fiction


In [None]:
fig = px.bar(top_20,
    x='Name',
    y='User Rating',
    hover_data=df[['Year','Genre','Price']],
    color='Genre'
)
fig.update_layout(xaxis={'categoryorder':'total descending'})
fig.show()

- Los libros que tienen ediciones anuales son las que mas reseñas tuvieron por parte de los usuarios.
- Solo existe un libro de No ficcion que esta dentreo de este top.
- Por ultimo el libro mas caro fue de $10.  

## Los 20 libros menos calificados

In [None]:
bottom_20 = df.sort_values('User Rating')[:20]
fig = px.bar(bottom_20,
    x='Name',
    y='User Rating',
    hover_data=df[['Year','Price','Genre']],
    color='Genre'
)
fig.update_layout(xaxis={'categoryorder':'total descending'})
fig.show()

- La calificacion de usuario mas baja fue de 3.3
- El libro mas caro fue de $20.
- Solo hay un libro de no ficcion y tiene la maxima calificacion.

## Top 25 Autores

In [None]:
top_author_25 = df['Author'].value_counts()[:20]
top_author_25

Jeff Kinney                           12
Suzanne Collins                       11
Rick Riordan                          11
Gary Chapman                          11
American Psychological Association    10
Dr. Seuss                              9
Gallup                                 9
Rob Elliott                            8
Stephen R. Covey                       7
Bill O'Reilly                          7
Eric Carle                             7
Dav Pilkey                             7
Stephenie Meyer                        7
Stieg Larsson                          6
Don Miguel Ruiz                        6
E L James                              6
J.K. Rowling                           6
The College Board                      6
Harper Lee                             6
Sarah Young                            6
Name: Author, dtype: int64

In [None]:
fig = px.bar(top_author_25,
    x=top_author_25.index,
    y=top_author_25.values,
    labels={'y':'Numeros de Libros','index':'Autores'},
    title='Top 25 Autores'
)
fig.update_layout(xaxis={'categoryorder':'total descending'})
fig.show()

## Top 25 Autores por Califiacion de Usuario

In [None]:
df.columns

Index(['Name', 'Author', 'User Rating', 'Reviews', 'Price', 'Year', 'Genre'], dtype='object')

In [None]:
top_25_authors_ratings = df[df['Author'].isin(top_author_25.index)][['Author','User Rating', 'Reviews']]
top_25_authors_ratings

Unnamed: 0,Author,User Rating,Reviews
38,Stephenie Meyer,4.6,9769
42,Jeff Kinney,4.8,4505
46,Suzanne Collins,4.7,22614
47,Suzanne Collins,4.7,22614
48,Suzanne Collins,4.7,22614
...,...,...,...
508,Harper Lee,4.8,26234
509,Harper Lee,4.8,26234
513,Stephenie Meyer,4.7,11676
528,Dr. Seuss,4.7,1873


In [None]:
top_25_authors_ratings_grouped=top_25_authors_ratings.groupby('Author')[['User Rating','Reviews']].mean().sort_values('Reviews', ascending=False)
top_25_authors_ratings_grouped

Unnamed: 0_level_0,User Rating,Reviews
Author,Unnamed: 1_level_1,Unnamed: 2_level_1
E L James,4.233333,29668.5
Suzanne Collins,4.663636,25302.636364
Harper Lee,4.6,24358.666667
Don Miguel Ruiz,4.7,23308.0
Dr. Seuss,4.877778,19616.111111
Sarah Young,4.9,19576.0
Eric Carle,4.9,19546.0
Gary Chapman,4.736364,13268.909091
J.K. Rowling,4.45,11755.833333
Bill O'Reilly,4.642857,9112.428571


In [None]:
fig = px.bar(top_25_authors_ratings_grouped,
    x=top_25_authors_ratings_grouped.index,
    y='User Rating',
    title='Top 25 Autores por Califiacion de Usuario'
)
fig.update_layout(xaxis={'categoryorder':'total descending'})
fig.show()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=322df7a5-4b18-4ddb-8f91-c142e3bf7671' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>