In [1]:
import pandas as pd
import numpy as np

In [5]:
df_books = pd.read_csv('./data/bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv',sep=',',header=0)
df_books

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


## pivot_table

In [6]:
# Como resultado, los valores de Author pasan a formar el índice 
# por fila y los valores de Genre pasan a formar parte de los índices 
# por columna, y el User Rating se mantiene como valor.

df_books.pivot_table(index='Author', columns='Genre', values='User Rating')

Genre,Fiction,Non Fiction
Author,Unnamed: 1_level_1,Unnamed: 2_level_1
Abraham Verghese,4.6,
Adam Gasiewski,,4.400000
Adam Mansbach,4.8,
Adir Levy,4.8,
Admiral William H. McRaven,,4.700000
...,...,...
Walter Isaacson,,4.566667
William Davis,,4.400000
William P. Young,4.6,
Wizards RPG Team,4.8,


In [8]:
# En este caso tenemos por cada género, la suma a lo largo de los años.
# no solo podemos obtener la suma, también podemos obtener la media, 
# la desviación estándar, el conteo, la varianza, etc. 
# Únicamente con cambiar el parámetro aggfunc que traduce función de
# agrupamiento.

df_books.pivot_table(index='Genre',columns='Year', values='User Rating',aggfunc='sum')

Year,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,110.2,92.3,97.0,94.4,109.1,134.3,79.1,89.6,113.7,99.5,96.4
Non Fiction,119.0,135.6,130.9,132.2,118.6,96.8,153.3,144.3,119.3,133.9,140.6


### Pivot

Un parámetro interesante de esta función es el fill_value: el cual nos permitirá determinar con que contenido queremos visualizar los valores NaN, para este ejemplo uso el caracter " - " :

## Melt

El método melt toma las columnas del DataFrame y las pasa a filas, con dos nuevas columnas para especificar la antigua columna y el valor que traía.

In [9]:
# Ejemplo

df_books[['Name','Genre']].head(5)

Unnamed: 0,Name,Genre
0,10-Day Green Smoothie Cleanse,Non Fiction
1,11/22/63: A Novel,Fiction
2,12 Rules for Life: An Antidote to Chaos,Non Fiction
3,1984 (Signet Classics),Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",Non Fiction


In [10]:
# Aplicando Melt

df_books[['Name','Genre']].head(5).melt()

Unnamed: 0,variable,value
0,Name,10-Day Green Smoothie Cleanse
1,Name,11/22/63: A Novel
2,Name,12 Rules for Life: An Antidote to Chaos
3,Name,1984 (Signet Classics)
4,Name,"5,000 Awesome Facts (About Everything!) (Natio..."
5,Genre,Non Fiction
6,Genre,Fiction
7,Genre,Non Fiction
8,Genre,Fiction
9,Genre,Non Fiction


In [11]:
# Nuevo ejemplo
# Simplemente, podemos seleccionar las columnas que no quiero 
# hacer melt usando el parámetro id_vars. Para este caso Year y 
# también la única columna que quiero aplicar el melt, para este caso 
# Genre con la propiedad value_vars.

df_books.melt(id_vars='Year',value_vars='Genre')

Unnamed: 0,Year,variable,value
0,2016,Genre,Non Fiction
1,2011,Genre,Fiction
2,2018,Genre,Non Fiction
3,2017,Genre,Fiction
4,2019,Genre,Non Fiction
...,...,...,...
545,2019,Genre,Fiction
546,2016,Genre,Non Fiction
547,2017,Genre,Non Fiction
548,2018,Genre,Non Fiction


In [13]:
# En melt podemos adicionalmente con parámetros determinar el nombre de nuestras columnas usando:
# var_name='nombre_columna_variables
# value_name='nombre_columna_valores'

df_books.melt(id_vars=['Author'], 
              var_name='Variables', 
              value_vars=['Name', 'Genre'], 
              value_name='Valores')

Unnamed: 0,Author,Variables,Valores
0,JJ Smith,Name,10-Day Green Smoothie Cleanse
1,Stephen King,Name,11/22/63: A Novel
2,Jordan B. Peterson,Name,12 Rules for Life: An Antidote to Chaos
3,George Orwell,Name,1984 (Signet Classics)
4,National Geographic Kids,Name,"5,000 Awesome Facts (About Everything!) (Natio..."
...,...,...,...
1095,Jeff Kinney,Genre,Fiction
1096,Jen Sincero,Genre,Non Fiction
1097,Jen Sincero,Genre,Non Fiction
1098,Jen Sincero,Genre,Non Fiction
