# pivot y melt

Estas son dos funciones que sirven para cambiar la estructura del df de acuerdo a nuestras necesidades

### pivot
`pivot_table()` transforma lo valores de determinadas columnas/filas en los índices de un nuevo DF, y la intersección de estos es el valor resultante, tiene los siguientes parámetros:
* `index = 'columna'` elemento que será el índice
* `columns = 'columna'` elemento que estará en las columnas
* `value = 'columna'` elemento que se estará analizando con las filas / columnas especificadas 
* `aggfunc = 'nombreFunción'` se indica una función para ordenar los elementos, entre algunas de sus posibilidades está:
    * medidas estadísticas / operaciones matemáticas
      * **sum**: sumarlos
      * **mean**: promedio
      * **median**: mediana
    * concatenación de funciones por medio de `agg(func1, func2)` 
      * también podemos usar funciones personalizadas por medio de lambda

Para hacer un análisis específico respecto a un atributo del dataset (los `values`) teniendo como vactores de análisis los elementos que están en las filas(`index`)/columnas(`columns`)

aplicación:
analizar la columna "Aprobación" de cada autor (estando en las filas: `index`) y comparando por el género si es o no ficción (`columns`) que son los índices de la columnas

* podría ser parecido  a una operación con el producto cartesiano teniendo como input las columnas *Autor* / *Genero*
  * El resultado serán los valores de *Aprobación* relacionadas dentro de la intersección de estas dos columnas

así: `df_books.pivot_table(index = 'Autor', columns = 'Genre, values = 'Aprobacion')`





In [1]:
import pandas as pd

In [16]:
path = '../data/bestsellers_with_categories.csv'
names = names = ['Nombre', 'Autor', 'Aprobacion', 'Reviews', 'Precio', 'Año', 'Genero']

data = pd.read_csv(path, sep = ',', header = 0, names = names)

df_books = pd.DataFrame(data)

In [3]:
# Dadas filas/cols (Autor/Genero) Analizar los reviews POR GENERO de CADA AUTOR
df_books.pivot_table(index = 'Autor', columns = 'Genero', values = 'Reviews')

Genero,Fiction,Non Fiction
Autor,Unnamed: 1_level_1,Unnamed: 2_level_1
Abraham Verghese,4866.0,
Adam Gasiewski,,3113.000000
Adam Mansbach,9568.0,
Adir Levy,8170.0,
Admiral William H. McRaven,,10199.000000
...,...,...
Walter Isaacson,,6222.666667
William Davis,,7497.000000
William P. Young,19720.0,
Wizards RPG Team,16990.0,


In [4]:
# Analizar la aprobación por género de cada autor
df_books.pivot_table(index= "Autor" , columns ="Genero" , values ="Aprobacion" )#, aggfunc='sum'

Genero,Fiction,Non Fiction
Autor,Unnamed: 1_level_1,Unnamed: 2_level_1
Abraham Verghese,4.6,
Adam Gasiewski,,4.400000
Adam Mansbach,4.8,
Adir Levy,4.8,
Admiral William H. McRaven,,4.700000
...,...,...
Walter Isaacson,,4.566667
William Davis,,4.400000
William P. Young,4.6,
Wizards RPG Team,4.8,


Podemos obervar que un elemento de la columna *autor* suele tener un solo género literario, así que no es una transformación muy útil, pero veamos si podemos lograr algo mejor agregando otro parámetro al `pivot_table`

In [5]:
# analizar ∑ de aprobación(sumarlas todas) por año en cada género
df_books.pivot_table(index = 'Genero' , columns = 'Año' , values = 'Aprobacion', aggfunc = 'sum')

Año,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,110.2,92.3,97.0,94.4,109.1,134.3,79.1,89.6,113.7,99.5,96.4
Non Fiction,119.0,135.6,130.9,132.2,118.6,96.8,153.3,144.3,119.3,133.9,140.6


En este caso tenemos una división por género(*index*), la suma de la aprobación a lo largo de los años, gracias al `aggfunc= ` podemos obtener otros cálculos estadísticos, conteos. Simplemente cambiando la función indicada aquí. 

### melt()
 El método `melt()` toma columnas del df y las pasa a filas, con dos nuevas columnas para especificar la columna original, y el valor que tenía

* **(1)** Para ello hay que hacer una selección de las columnas a las cuales queremos hacer el melt:

  * `df_books[['Nombre', 'Genero']]`

* **(2)** Estando especificasas las columans con las que se hará el análisis, se agrega el `melt()` puediendo usar los siguientes parámetros:
  * `idvars = 'columna'` se especifica la columna con la que no se quiere hacer el melt
  * `value_vars = 'col'` se especifica la columna co la que sí se quiere hacer el melt

  





In [6]:
# tomar como valor el año y analizarlo en función del género
df_books[['Genero', 'Año']].head(5).melt()

Unnamed: 0,variable,value
0,Genero,Non Fiction
1,Genero,Fiction
2,Genero,Non Fiction
3,Genero,Fiction
4,Genero,Non Fiction
5,Año,2016
6,Año,2011
7,Año,2018
8,Año,2017
9,Año,2019


In [7]:
# analizar cómo se distribuyen los años de publicación según el género (ficción/no ficción)
df_books.melt(id_vars='Genero', value_vars= 'Año').head(6)

Unnamed: 0,Genero,variable,value
0,Non Fiction,Año,2016
1,Fiction,Año,2011
2,Non Fiction,Año,2018
3,Fiction,Año,2017
4,Non Fiction,Año,2019
5,Fiction,Año,2011


La columna con la que se hacer el melt es `value_vars=Año` en función del `id_vars=Genero`

### Apply 
Es una función muy poderosa que permite aplicar funciones (def) al df, `apply()` tiene los siguientes parámetros:
* la función que se requiera aplicar en el df, especificando prefentemente una columna 

In [8]:
# función que multiplica por 2 un valor
def mult(value):
    value = value *2
    return value

#por medio de un apply(), aplicamos la función a la columna: Aprobación
df_books['Aprobacion'].apply(mult).head(3)


0    9.4
1    9.2
2    9.4
Name: Aprobacion, dtype: float64

In [17]:
# solo por práctica, hacemos un df donde comparamos los valores con la función apply y sin la función apply
df_1 = df_books['Aprobacion']
df_2 = df_books['Aprobacion'].apply(mult)
df_list = [df_1, df_2]
[pd.DataFrame(i) for i in df_list]
pd.concat([df_1, df_2], axis = 1).head(4)

Unnamed: 0,Aprobacion,Aprobacion.1
0,4.7,9.4
1,4.6,9.2
2,4.7,9.4
3,4.7,9.4


In [10]:
# guardamos esos resultados en una columna
df_books['Aprobacion_*2'] = df_books['Aprobacion'].apply(mult)

#con una func anónima multiplicamos la columna aprobacion *3
df_books['Aprobacion_*3']= df_books['Aprobacion'].apply(lambda x: x *3)
df_books

Unnamed: 0,Nombre,Autor,Aprobacion,Reviews,Precio,Año,Genero,Aprobacion_*2,Aprobacion_*3
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,9.4,14.1
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,9.2,13.8
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,9.4,14.1
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,9.4,14.1
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,9.6,14.4
...,...,...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction,9.8,14.7
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction,9.4,14.1
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction,9.4,14.1
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction,9.4,14.1


Apply en muchas columnas con condiciones, hay que especificar a qué los vamos aplicar ( si a filas ó a columnas)
* por medio de la siguiente condición:
    * *si la columna Genero es Fiction, multiplicar aprobación * 2, si no, entonces dejar tal cuál está*


In [22]:
#multiplicar * 2 los datos  que cumplas con la condición (en la columnas)
df_books['Aprobacion_la4']= df_books.apply(lambda x: x['Aprobacion'] *4 
                                                if x['Genero'] == 'Fiction' 
                                                else x['Aprobacion'], axis = 1)


In [21]:
df_books

Unnamed: 0,Nombre,Autor,Aprobacion,Reviews,Precio,Año,Genero,Aprobacion_la4
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction,4.7
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction,18.4
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction,4.7
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction,18.8
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction,4.8
...,...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction,19.6
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction,4.7
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction,4.7
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction,4.7


Esto puede aplicarse a cualquier columna en una lógica de una función (def), también puede ser una ya establecida ó una lambda
*  puede utilizarse para calcular, llamar a una API, consultar datos ó para lo que se requiera resolver con el df
    * la ventaja es que es mucho más rápido que hacerlo con un `for` ya sea en unas columnas ó en todo el df