# Uso de *Group by* y otras funciones de agregación con `Numpy`.

In [1]:
import numpy as np
import pandas as pd

Puede que tengamos varias observaciones que tengan el mismo nivel en alguna característica y que querramos realizar cálculos con otras variables a partir de estos elementos en común. Para ello, desde `SQL` se puede usar la sentencia `GROUP BY`. Una función semejante sucede en Pandas. Para ello, comencemos realizando la lectura del marco de datos con el cual trabajaremos:

In [3]:
datos = pd.read_csv('../Datos/bestsellers.csv')
datos.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


Supongamos que queremos conocer cuán comunes son los registros por autor, para lo cual usamos el método `.groupby()`:

In [6]:
datos.groupby('Author').count()

Unnamed: 0_level_0,Name,User Rating,Reviews,Price,Year,Genre
Author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2,2,2,2,2,2
Adam Gasiewski,1,1,1,1,1,1
Adam Mansbach,1,1,1,1,1,1
Adir Levy,1,1,1,1,1,1
Admiral William H. McRaven,1,1,1,1,1,1
...,...,...,...,...,...,...
Walter Isaacson,3,3,3,3,3,3
William Davis,2,2,2,2,2,2
William P. Young,2,2,2,2,2,2
Wizards RPG Team,3,3,3,3,3,3


Nótese que se contará los registros para cada una de las columnas y que la variable `Author`, que es la que se empleó para hacer la agrupación, ahora se convierte en el índice. Supongamos que queremos saber cuántos registros tiene `datos` asociados al autor Wizard RPG Team:

In [10]:
datos.groupby('Author').count().loc['Wizards RPG Team']

Name           3
User Rating    3
Reviews        3
Price          3
Year           3
Genre          3
Name: Wizards RPG Team, dtype: int64

Nótese que se usó el método `.loc()` para poder realizar el filtro.

Ahora bien, si no nos interesa que la (s) variable (s) de agrupación sean usadas como índices, podemos usar el método `.reset_index()`.

In [11]:
datos.groupby('Author').sum().reset_index()

Unnamed: 0,Author,User Rating,Reviews,Price,Year
0,Abraham Verghese,9.2,9732,22,4021
1,Adam Gasiewski,4.4,3113,6,2017
2,Adam Mansbach,4.8,9568,9,2011
3,Adir Levy,4.8,8170,13,2019
4,Admiral William H. McRaven,4.7,10199,11,2017
...,...,...,...,...,...
243,Walter Isaacson,13.7,18668,61,6040
244,William Davis,8.8,14994,12,4025
245,William P. Young,9.2,39440,16,4026
246,Wizards RPG Team,14.4,50970,81,6054


Esta función asignará índices enteros ordenados comenzando en cero.

## Usando varias funciones de agregación.

Supongamos que queremos conocer varias métricas para una agrupación y cada columna. Para lo anterior podemos usar la función `.agg()`, y como arguments le pasamos una lista con las funciones que queremos que se realicen.

In [12]:
datos.groupby('Author').agg(['min', 'max'])

Unnamed: 0_level_0,Name,Name,User Rating,User Rating,Reviews,Reviews,Price,Price,Year,Year,Genre,Genre
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max
Author,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Abraham Verghese,Cutting for Stone,Cutting for Stone,4.6,4.6,4866,4866,11,11,2010,2011,Fiction,Fiction
Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,Milk and Vine: Inspirational Quotes From Class...,4.4,4.4,3113,3113,6,6,2017,2017,Non Fiction,Non Fiction
Adam Mansbach,Go the F**k to Sleep,Go the F**k to Sleep,4.8,4.8,9568,9568,9,9,2011,2011,Fiction,Fiction
Adir Levy,What Should Danny Do? (The Power to Choose Ser...,What Should Danny Do? (The Power to Choose Ser...,4.8,4.8,8170,8170,13,13,2019,2019,Fiction,Fiction
Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,Make Your Bed: Little Things That Can Change Y...,4.7,4.7,10199,10199,11,11,2017,2017,Non Fiction,Non Fiction
...,...,...,...,...,...,...,...,...,...,...,...,...
Walter Isaacson,Leonardo da Vinci,Steve Jobs,4.5,4.6,3014,7827,20,21,2011,2017,Non Fiction,Non Fiction
William Davis,"Wheat Belly: Lose the Wheat, Lose the Weight, ...","Wheat Belly: Lose the Wheat, Lose the Weight, ...",4.4,4.4,7497,7497,6,6,2012,2013,Non Fiction,Non Fiction
William P. Young,The Shack: Where Tragedy Confronts Eternity,The Shack: Where Tragedy Confronts Eternity,4.6,4.6,19720,19720,8,8,2009,2017,Fiction,Fiction
Wizards RPG Team,Player's Handbook (Dungeons & Dragons),Player's Handbook (Dungeons & Dragons),4.8,4.8,16990,16990,27,27,2017,2019,Fiction,Fiction


Ahora vamos a hacer que para la agregación, tome el mínimo, la media, la mediana y el máximo para los *reviews*, mientras que para el *user rating* se nos dé la suma, para lo cual podemos pasar al método `.agg()` un diccionario, donde la llave será cada columna o característica de interés y el valor será una lista con las funciones que queremos estudiar para esa característica.

In [13]:
datos.groupby('Author').agg({
    'Reviews': ['min', 'median', 'mean', 'max'],
    'User Rating': ['sum']
})

Unnamed: 0_level_0,Reviews,Reviews,Reviews,Reviews,User Rating
Unnamed: 0_level_1,min,median,mean,max,sum
Author,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Abraham Verghese,4866,4866.0,4866.000000,4866,9.2
Adam Gasiewski,3113,3113.0,3113.000000,3113,4.4
Adam Mansbach,9568,9568.0,9568.000000,9568,4.8
Adir Levy,8170,8170.0,8170.000000,8170,4.8
Admiral William H. McRaven,10199,10199.0,10199.000000,10199,4.7
...,...,...,...,...,...
Walter Isaacson,3014,7827.0,6222.666667,7827,13.7
William Davis,7497,7497.0,7497.000000,7497,8.8
William P. Young,19720,19720.0,19720.000000,19720,9.2
Wizards RPG Team,16990,16990.0,16990.000000,16990,14.4


También podemos hacer agrupaciones para varias columnas.

In [14]:
datos.groupby(['Author', 'Year']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,User Rating,Reviews,Price,Genre
Author,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2010,1,1,1,1,1
Abraham Verghese,2011,1,1,1,1,1
Adam Gasiewski,2017,1,1,1,1,1
Adam Mansbach,2011,1,1,1,1,1
Adir Levy,2019,1,1,1,1,1
...,...,...,...,...,...,...
Wizards RPG Team,2017,1,1,1,1,1
Wizards RPG Team,2018,1,1,1,1,1
Wizards RPG Team,2019,1,1,1,1,1
Zhi Gang Sha,2009,1,1,1,1,1
