# groupby( )
Esta función permite agrupar datos en función de los de más. Es decir, hacer el análisis del df en función de una de las columnas que

* Al analizar algunos parámetros, varios elementos del dataset pueden tener parámetros que se repiten (como el género de un libro) **de manera que tienen algo en común**

    * Esto permite agrupar los elementos, puediendo analizar el comportamiento de varias columnas agrupadas por cosas en común
        * pudiendo saber E/M ¿cuántos libros se tienen de un género específico? ó ¿Cuál es la media de un comportamiento que tienen en común un grupo de parámetros?

Estos son los pasos a seguir:
 * Agrupar desde una columna específica por medio de la función `df.groupby('columna')` con los siguientes argumentos:
    * Se coloca la columna desde la cuál se requiere agrupar el dataset
    

In [2]:
import pandas as pd

In [17]:
path = '../data/bestsellers_with_categories.csv'
names= ['Nombre', 'Autor', 'Aprobacion', 'Reviews', 'Precio', 'Año', 'Genero']

data = pd.read_csv(path, sep=',', header = 0, names = names)
df_books = pd.DataFrame(data)
df_books.head(3)

Unnamed: 0,Nombre,Autor,Aprobacion,Reviews,Precio,Año,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction


In [22]:
# agrupar por autor para ver qué tantos registros tiene cada uno de estos
df_books.groupby('Autor').count()

Unnamed: 0_level_0,Nombre,Aprobacion,Reviews,Precio,Año,Genero
Autor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2,2,2,2,2,2
Adam Gasiewski,1,1,1,1,1,1
Adam Mansbach,1,1,1,1,1,1
Adir Levy,1,1,1,1,1,1
Admiral William H. McRaven,1,1,1,1,1,1
...,...,...,...,...,...,...
Walter Isaacson,3,3,3,3,3,3
William Davis,2,2,2,2,2,2
William P. Young,2,2,2,2,2,2
Wizards RPG Team,3,3,3,3,3,3


#### implementación: 
*para mostrar el conteo de los datos usamos la función `.count()`* usando ambas funciones juntas, se vería de la siguiente forma:
 * `df_books.groupby('Autor').count()` agrupar por la columna *Autor* y mostrar el conteo de los datos de las demás columnas
 * `df_books.groupby('Autor').median()` agrupar por la columna *autor* y mostrar la mediana de los datos de las demás columnas

 La columna *Autor* em casos anteriores pasa a ser el índice(por eso la columna *autor* se ve un poco más abajo de las demás)
 * gracias a que al usar el `df_books.groupby('Autor')` la "columna" se convierte en un índice. Podemos usar `.loc` y acceder a un dato en específico del df. 
 
 * `df_books.groupby('Autor').sum().loc['William Davis']`: Agrupar por columna *Autor* y mostrar la suma de los valores de las demás columnas para: 'William Davis'

 * `df_books.groupby('Autor').sum().reset_index()` agrupar por *Autor* y mostrar la suma de los valores delas demás columnas
   * colocar los índices que el df trae por defecto por medio de `reset_index()`, vuelve al dataset a su estado anterior, es decir que la *columna* que antes era el índice, vuelve a ser un atributo normal y se pude volver a tratar el dataset tal como estaba antes de hacer el `groupby`



In [13]:
# agrupando por columna Autor: 
# mostrar el número de ocurrencias, contanto la cantidad de veces que se repiten los elementos
df_books.groupby('Autor').count()

Unnamed: 0_level_0,Nombre,Aprobacion,Reviews,Precio,Año,Genero
Autor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2,2,2,2,2,2
Adam Gasiewski,1,1,1,1,1,1
Adam Mansbach,1,1,1,1,1,1
Adir Levy,1,1,1,1,1,1
Admiral William H. McRaven,1,1,1,1,1,1
...,...,...,...,...,...,...
Walter Isaacson,3,3,3,3,3,3
William Davis,2,2,2,2,2,2
William P. Young,2,2,2,2,2,2
Wizards RPG Team,3,3,3,3,3,3


In [33]:
#para calcular la media, seleccionamos las columnas numéricas, y la columna con la que agrupamos
df_numeric = df_books[['Aprobacion','Reviews', 'Precio', 'Año', 'Autor']]
df_numeric.groupby('Autor').mean()

# lo mismo con el máximo
df_books.groupby('Autor').max()

# sumamos las ocurrencias de cada uno de los autores sumando(todas las aprobaciones, reviews)
df_books.groupby('Autor').sum()


Unnamed: 0_level_0,Nombre,Aprobacion,Reviews,Precio,Año,Genero
Autor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,Cutting for StoneCutting for Stone,9.2,9732,22,4021,FictionFiction
Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,4.4,3113,6,2017,Non Fiction
Adam Mansbach,Go the F**k to Sleep,4.8,9568,9,2011,Fiction
Adir Levy,What Should Danny Do? (The Power to Choose Ser...,4.8,8170,13,2019,Fiction
Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,4.7,10199,11,2017,Non Fiction
...,...,...,...,...,...,...
Walter Isaacson,Leonardo da VinciSteve JobsSteve Jobs,13.7,18668,61,6040,Non FictionNon FictionNon Fiction
William Davis,"Wheat Belly: Lose the Wheat, Lose the Weight, ...",8.8,14994,12,4025,Non FictionNon Fiction
William P. Young,The Shack: Where Tragedy Confronts EternityThe...,9.2,39440,16,4026,FictionFiction
Wizards RPG Team,Player's Handbook (Dungeons & Dragons)Player's...,14.4,50970,81,6054,FictionFictionFiction


En este momento *autor* se comporta como el índice del df

In [29]:
# agrupar por autor, y a partir de este buscar el mínimo de cada columna. En función del autor
df_books.groupby('Autor').min()

Unnamed: 0_level_0,Nombre,Aprobacion,Reviews,Precio,Año,Genero
Autor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,Cutting for Stone,4.6,4866,11,2010,Fiction
Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,4.4,3113,6,2017,Non Fiction
Adam Mansbach,Go the F**k to Sleep,4.8,9568,9,2011,Fiction
Adir Levy,What Should Danny Do? (The Power to Choose Ser...,4.8,8170,13,2019,Fiction
Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,4.7,10199,11,2017,Non Fiction
...,...,...,...,...,...,...
Walter Isaacson,Leonardo da Vinci,4.5,3014,20,2011,Non Fiction
William Davis,"Wheat Belly: Lose the Wheat, Lose the Weight, ...",4.4,7497,6,2012,Non Fiction
William P. Young,The Shack: Where Tragedy Confronts Eternity,4.6,19720,8,2009,Fiction
Wizards RPG Team,Player's Handbook (Dungeons & Dragons),4.8,16990,27,2017,Fiction


Dado que el autor se comporta como el índice del df, pocemos usar `.loc` buscando por etiquetas

In [34]:
# agrupar por Autor, mostrar la suma de los valores  de las columnas para autor = William Davis
df_books.groupby('Autor').sum().loc['William Davis'] 

Nombre        Wheat Belly: Lose the Wheat, Lose the Weight, ...
Aprobacion                                                  8.8
Reviews                                                   14994
Precio                                                       12
Año                                                        4025
Genero                                   Non FictionNon Fiction
Name: William Davis, dtype: object

El resultado sigue siendo un agrupamiento específico por *autor* en cuanto a sumas

Ahora, reseteamos el índices para que *autor* ya no sea el índice, sino parte de las columnas

In [35]:
df_books.groupby('Autor').sum().reset_index()

Unnamed: 0,Autor,Nombre,Aprobacion,Reviews,Precio,Año,Genero
0,Abraham Verghese,Cutting for StoneCutting for Stone,9.2,9732,22,4021,FictionFiction
1,Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,4.4,3113,6,2017,Non Fiction
2,Adam Mansbach,Go the F**k to Sleep,4.8,9568,9,2011,Fiction
3,Adir Levy,What Should Danny Do? (The Power to Choose Ser...,4.8,8170,13,2019,Fiction
4,Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,4.7,10199,11,2017,Non Fiction
...,...,...,...,...,...,...,...
243,Walter Isaacson,Leonardo da VinciSteve JobsSteve Jobs,13.7,18668,61,6040,Non FictionNon FictionNon Fiction
244,William Davis,"Wheat Belly: Lose the Wheat, Lose the Weight, ...",8.8,14994,12,4025,Non FictionNon Fiction
245,William P. Young,The Shack: Where Tragedy Confronts EternityThe...,9.2,39440,16,4026,FictionFiction
246,Wizards RPG Team,Player's Handbook (Dungeons & Dragons)Player's...,14.4,50970,81,6054,FictionFictionFiction


In [39]:
df_books.groupby('Autor').describe().T

Unnamed: 0,Autor,Abraham Verghese,Adam Gasiewski,Adam Mansbach,Adir Levy,Admiral William H. McRaven,Adult Coloring Book Designs,Alan Moore,Alex Michaelides,Alice Schertle,Allie Brosh,...,Todd Burpo,Tony Hsieh,Tucker Carlson,Veronica Roth,W. Cleon Skousen,Walter Isaacson,William Davis,William P. Young,Wizards RPG Team,Zhi Gang Sha
Aprobacion,count,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,2.0,1.0,1.0,4.0,1.0,3.0,2.0,2.0,3.0,2.0
Aprobacion,mean,4.6,4.4,4.8,4.8,4.7,4.5,4.8,4.5,4.9,4.7,...,4.7,4.6,4.8,4.4,4.8,4.566667,4.4,4.6,4.8,4.6
Aprobacion,std,0.0,,,,,,,,,,...,0.0,,,0.33665,,0.057735,0.0,0.0,0.0,0.0
Aprobacion,min,4.6,4.4,4.8,4.8,4.7,4.5,4.8,4.5,4.9,4.7,...,4.7,4.6,4.8,3.9,4.8,4.5,4.4,4.6,4.8,4.6
Aprobacion,25%,4.6,4.4,4.8,4.8,4.7,4.5,4.8,4.5,4.9,4.7,...,4.7,4.6,4.8,4.35,4.8,4.55,4.4,4.6,4.8,4.6
Aprobacion,50%,4.6,4.4,4.8,4.8,4.7,4.5,4.8,4.5,4.9,4.7,...,4.7,4.6,4.8,4.55,4.8,4.6,4.4,4.6,4.8,4.6
Aprobacion,75%,4.6,4.4,4.8,4.8,4.7,4.5,4.8,4.5,4.9,4.7,...,4.7,4.6,4.8,4.6,4.8,4.6,4.4,4.6,4.8,4.6
Aprobacion,max,4.6,4.4,4.8,4.8,4.7,4.5,4.8,4.5,4.9,4.7,...,4.7,4.6,4.8,4.6,4.8,4.6,4.4,4.6,4.8,4.6
Reviews,count,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,2.0,1.0,1.0,4.0,1.0,3.0,2.0,2.0,3.0,2.0
Reviews,mean,4866.0,3113.0,9568.0,8170.0,10199.0,2313.0,3829.0,27536.0,1884.0,4896.0,...,15779.0,1651.0,3923.0,19547.5,1680.0,6222.666667,7497.0,19720.0,16990.0,128.5


### otras funciones útiles

* **.apply()**: la usamos como si fuera `agg()` pero cuando sólo queremos colocar una función
    * importante aclarar que con `agg()` se aceptan 2 ó más funciones para usarse en el dataset

\
* **.sample()**: analizar los resultados por medio de un "sample" aleatorio
  * en este caso se está agrupando por autor(índice) analizando el mínimo y máximo de cada una de las columnas
    * así: `df_books.groupby('Autor').agg(['min','max']).sample()`




In [52]:
df_books.groupby('Autor').agg(['min', 'max']).sample()

Unnamed: 0_level_0,Nombre,Nombre,Aprobacion,Aprobacion,Reviews,Reviews,Precio,Precio,Año,Año,Genero,Genero
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max
Autor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Craig Smith,The Wonky Donkey,The Wonky Donkey,4.8,4.8,30183,30183,4,4,2018,2019,Fiction,Fiction


#### agg( ) funciones de agregación

`.agg()` permite aplicar varias funciones al df una vez agrupado según una columna específica.

##### implementación
Agrupar por columna: **Autor** y mostrar el mínimo y máximo de las demás columnas. consiste
* mostrar cada columna dividida en dos: *min max* Estas contienen los valores máx/min de las columnas por cada *autor*

  * Hay que notar que la columna *Autor* pasa a ser el index , y se quieresaber el min/max por cada columna que estoy trabajando

    * Dentro de `.agg()` se están sacando dos métricasdistintas: el min/max, anque se podría hacer también la suma y el conteo, ó cosas más específicas

    así: `df_books.groupby('Autor').agg(['min','max'])` 



In [41]:
# agrupar por autor, usando funcioens de agregación 
df_books.groupby('Autor').agg(['min','max'])

Unnamed: 0_level_0,Nombre,Nombre,Aprobacion,Aprobacion,Reviews,Reviews,Precio,Precio,Año,Año,Genero,Genero
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max
Autor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Abraham Verghese,Cutting for Stone,Cutting for Stone,4.6,4.6,4866,4866,11,11,2010,2011,Fiction,Fiction
Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,Milk and Vine: Inspirational Quotes From Class...,4.4,4.4,3113,3113,6,6,2017,2017,Non Fiction,Non Fiction
Adam Mansbach,Go the F**k to Sleep,Go the F**k to Sleep,4.8,4.8,9568,9568,9,9,2011,2011,Fiction,Fiction
Adir Levy,What Should Danny Do? (The Power to Choose Ser...,What Should Danny Do? (The Power to Choose Ser...,4.8,4.8,8170,8170,13,13,2019,2019,Fiction,Fiction
Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,Make Your Bed: Little Things That Can Change Y...,4.7,4.7,10199,10199,11,11,2017,2017,Non Fiction,Non Fiction
...,...,...,...,...,...,...,...,...,...,...,...,...
Walter Isaacson,Leonardo da Vinci,Steve Jobs,4.5,4.6,3014,7827,20,21,2011,2017,Non Fiction,Non Fiction
William Davis,"Wheat Belly: Lose the Wheat, Lose the Weight, ...","Wheat Belly: Lose the Wheat, Lose the Weight, ...",4.4,4.4,7497,7497,6,6,2012,2013,Non Fiction,Non Fiction
William P. Young,The Shack: Where Tragedy Confronts Eternity,The Shack: Where Tragedy Confronts Eternity,4.6,4.6,19720,19720,8,8,2009,2017,Fiction,Fiction
Wizards RPG Team,Player's Handbook (Dungeons & Dragons),Player's Handbook (Dungeons & Dragons),4.8,4.8,16990,16990,27,27,2017,2019,Fiction,Fiction


In [47]:
# agrupar por la columna Autor y Año. Y contar los valores de las demás columnas
df_books.groupby(['Autor', 'Año']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Aprobacion,Reviews,Precio,Genero
Autor,Año,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2010,1,1,1,1,1
Abraham Verghese,2011,1,1,1,1,1
Adam Gasiewski,2017,1,1,1,1,1
Adam Mansbach,2011,1,1,1,1,1
Adir Levy,2019,1,1,1,1,1
...,...,...,...,...,...,...
Wizards RPG Team,2017,1,1,1,1,1
Wizards RPG Team,2018,1,1,1,1,1
Wizards RPG Team,2019,1,1,1,1,1
Zhi Gang Sha,2009,1,1,1,1,1


### usar .agg( ) con funciones lambda

Respecto a `agg()` se pueden usar las funciones *lambda* en esta. Resulta de ayuda para obtener funciones "custom" ya sea para modificar un valor ó para filtar valores.

* A la columna `Año` se le resta 2000 a los años y se obtiene una lista de los últimos dos dígitos del año relacionado por cada autos
    `df_books.groupby('Autor').agg({'Año' : lambda x: [i - 2000] for i in x })`

* otra forma de usarlo es: los *Reviews* en vez de sumar cada valor (con `sum()`), se suma el cuadrado de sus valores:
    `df_books.groupby('Reviews').agg( { 'Reviews' : ['min' , 'max'], 'Aprobacion' : 'sum' } )`

    * Nuevamente, la columna *Autor* pasa a ser el índice, se tienen los max/min de los "Reviews", a parte del *Aprobacion* (user rating) donde se tiene la suma de los valores agrupados por el índice *autor*


In [5]:
df_books.groupby('Autor').agg( { 'Año' : lambda x: [i - 2000] for i  in x} )

NameError: name 'x' is not defined

Agrupando por autor, desde un diccionario tomar columna "reviews", de estos tomas el min/max , y desde la columna "aprobacion" tomar la suma 

In [44]:
# agrupamiento por autor, y sacar el min/max de reviews, y la suma de aprobación
df_books.groupby('Autor').agg( { 'Reviews': ['min', 'max'], 'Aprobacion': 'sum' } )

Unnamed: 0_level_0,Reviews,Reviews,Aprobacion
Unnamed: 0_level_1,min,max,sum
Autor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Abraham Verghese,4866,4866,9.2
Adam Gasiewski,3113,3113,4.4
Adam Mansbach,9568,9568,4.8
Adir Levy,8170,8170,4.8
Admiral William H. McRaven,10199,10199,4.7
...,...,...,...
Walter Isaacson,3014,7827,13.7
William Davis,7497,7497,8.8
William P. Young,19720,19720,9.2
Wizards RPG Team,16990,16990,14.4


Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Aprobacion,Reviews,Precio,Genero
Autor,Año,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2010,1,1,1,1,1
Abraham Verghese,2011,1,1,1,1,1
Adam Gasiewski,2017,1,1,1,1,1
Adam Mansbach,2011,1,1,1,1,1
Adir Levy,2019,1,1,1,1,1
...,...,...,...,...,...,...
Wizards RPG Team,2017,1,1,1,1,1
Wizards RPG Team,2018,1,1,1,1,1
Wizards RPG Team,2019,1,1,1,1,1
Zhi Gang Sha,2009,1,1,1,1,1


En este caso dos columnas *autor* y *año* son tratadas como un ínide (llave compuesta) y se pueden ve cuántos registros se tienen de cada elementos, que en este caso es por cada autor, relacionado con el año de publicación , si hay más años se pasa a la siguiente fila y se muestran los datos de este

**conclusión**: Con groupby, junto con otras funciones, es posible hacer múltiples combinaciones, ya sea por la llave de agrupamiento  `df.gropuby('columa')` 
* ó por resultados que se tenfan en funciones de agregación `agg()`