# Curso de Manipulación de Datos con NumPy y Pandas

## Capítulo: `pivot_table` y `melt`
En este capítulo, exploraremos dos poderosas herramientas de manipulación de datos en Pandas: `pivot_table` y `melt`. Estas funciones permiten transformar y reorganizar conjuntos de datos de manera eficiente y elegante.

### `pivot_table`

La función `pivot_table` en Pandas proporciona una forma flexible de resumir y analizar datos. Permite crear tablas dinámicas similares a las que se encuentran en hojas de cálculo, pero con una mayor capacidad de personalización. A través de esta técnica, podemos obtener valiosos insights al segmentar y resumir datos complejos.

### `melt`

Por otro lado, `melt` es una herramienta fundamental para la transformación de datos. Esta función nos brinda la capacidad de "derretir" o "despivotar" conjuntos de datos, convirtiendo columnas en filas y facilitando la manipulación y visualización de datos en diferentes formatos.

Ambas funciones, `pivot_table` y `melt`, son esenciales en el kit de herramientas de cualquier analista de datos o científico de datos, ya que proporcionan la capacidad de manejar y adaptar conjuntos de datos para satisfacer una amplia gama de necesidades de análisis.

En este capítulo, exploraremos ejemplos prácticos y casos de uso de `pivot_table` y `melt`, lo que te permitirá ampliar tus habilidades en la manipulación de datos con Pandas.

¡Esperamos que disfrutes de este capítulo y encuentres estas técnicas de gran utilidad en tu trabajo con datos!


In [17]:
# Dependencias
import pandas as pd
import numpy as np 
# Base de datos a trabajar
df_books = pd.read_csv('/Users/data4if/Desktop/Data-Science/project_zero/zero/bestsellers con categorias.csv',sep=',',header=0) 
df_books.head(3)
# df_books.info()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction


In [18]:
df_books.pivot_table(index='Author',columns='Genre',values='User Rating')

Genre,Fiction,Non Fiction
Author,Unnamed: 1_level_1,Unnamed: 2_level_1
Abraham Verghese,4.6,
Adam Gasiewski,,4.400000
Adam Mansbach,4.8,
Adir Levy,4.8,
Admiral William H. McRaven,,4.700000
...,...,...
Walter Isaacson,,4.566667
William Davis,,4.400000
William P. Young,4.6,
Wizards RPG Team,4.8,


### Como resultado: 

los valores de Author pasan a formar el índice por fila y los valores de Genre pasan a formar parte de los índices por columna, y el User Rating se mantiene como valor.

Por supuesto, para este caso, un Author suele tener un solo género literario, así que no es una transformación muy útil, pero veamos si podemos lograr algo mejor.

En este caso tenemos por cada género, la suma a lo largo de los años. Esto es mucho más interesante, ¿verdad? La mejor noticia es que no solo podemos obtener la suma, también podemos obtener la media, la desviación estándar, el conteo, la varianza, etc. Únicamente con cambiar el parámetro aggfunc que traduce función de agrupamiento.

In [19]:
df_books.pivot_table(index='Genre',columns='Year', values='User Rating',aggfunc='sum')

Year,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,110.2,92.3,97.0,94.4,109.1,134.3,79.1,89.6,113.7,99.5,96.4
Non Fiction,119.0,135.6,130.9,132.2,118.6,96.8,153.3,144.3,119.3,133.9,140.6


In [20]:
df_books.pivot_table(index='Genre',columns='Year', values='User Rating',aggfunc='mean')

Year,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,4.591667,4.615,4.619048,4.495238,4.545833,4.631034,4.652941,4.715789,4.7375,4.738095,4.82
Non Fiction,4.576923,4.52,4.513793,4.558621,4.561538,4.609524,4.645455,4.654839,4.588462,4.617241,4.686667


In [21]:
df_books.pivot_table(index='Genre',columns='Year', values='User Rating',aggfunc='std')

Year,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,0.224416,0.200722,0.177817,0.387913,0.359927,0.2451,0.335629,0.252241,0.173988,0.193588,0.119649
Non Fiction,0.183973,0.180803,0.211667,0.189957,0.211805,0.192106,0.166002,0.184099,0.177374,0.181401,0.152527


In [22]:
df_books.pivot_table(index='Genre',columns='Year', values='User Rating',aggfunc='var')

Year,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Fiction,0.050362,0.040289,0.031619,0.150476,0.129547,0.060074,0.112647,0.063626,0.030272,0.037476,0.014316
Non Fiction,0.033846,0.03269,0.044803,0.036084,0.044862,0.036905,0.027557,0.033892,0.031462,0.032906,0.023264


## melt

El método melt toma las columnas del DataFrame y las pasa a filas, con dos nuevas columnas para especificar la antigua columna y el valor que traía.

Por ejemplo, simplemente al imprimir las cinco primeras filas del DataFrame con las columnas de Name y Genre se tiene este resultado.
Para ello ejecuta la siguiente línea en tu Jupyter Notebook:

Aplica melt de la siguiente manera: Ahora cada resultado de las dos columnas pasa a una fila de este modo a tipo llave:valor

In [24]:
df_books[['Name','Genre']].head(5).melt()

Unnamed: 0,variable,value
0,Name,10-Day Green Smoothie Cleanse
1,Name,11/22/63: A Novel
2,Name,12 Rules for Life: An Antidote to Chaos
3,Name,1984 (Signet Classics)
4,Name,"5,000 Awesome Facts (About Everything!) (Natio..."
5,Genre,Non Fiction
6,Genre,Fiction
7,Genre,Non Fiction
8,Genre,Fiction
9,Genre,Non Fiction


Simplemente, podemos seleccionar las columnas que no quiero hacer melt usando el parámetro id_vars. Para este caso Year y también la única columna que quiero aplicar el melt, para este caso Genre con la propiedad value_vars.



In [25]:
df_books.melt(id_vars='Year',value_vars='Genre')

Unnamed: 0,Year,variable,value
0,2016,Genre,Non Fiction
1,2011,Genre,Fiction
2,2018,Genre,Non Fiction
3,2017,Genre,Fiction
4,2019,Genre,Non Fiction
...,...,...,...
545,2019,Genre,Fiction
546,2016,Genre,Non Fiction
547,2017,Genre,Non Fiction
548,2018,Genre,Non Fiction


Hemos conocido pivot y melt, dos herramientas muy útiles para manipular nuestros DataFrames.

Te espero en la siguiente clase donde conoceremos cómo utilizar Apply.