# Agrupando datos

In [8]:
import pandas as pd

In [9]:
df = pd.read_csv('datasets/bestsellers-with-categories_e591527f-ae45-4fa5-b0d1-d50142128fa6.csv')
df.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


Podemos empezar haciendo un ``DataFrame.groupby()``, aunque esto no nos va a dar mucha información.

In [10]:
grouped_df = df.groupby('Author')
grouped_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd03983abf0>

Esto es porque el tipo de dato que retorna groupby no es un DataFrame exactamente, sino uno agrupado, además de que no tiene una representación, al menos no por sí solo. Ahora, si usamos el método ``count()``, obtenemos más información sobre este dataset agrupado.

In [11]:
grouped_df.count()

Unnamed: 0_level_0,Name,User Rating,Reviews,Price,Year,Genre
Author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2,2,2,2,2,2
Adam Gasiewski,1,1,1,1,1,1
Adam Mansbach,1,1,1,1,1,1
Adir Levy,1,1,1,1,1,1
Admiral William H. McRaven,1,1,1,1,1,1
...,...,...,...,...,...,...
Walter Isaacson,3,3,3,3,3,3
William Davis,2,2,2,2,2,2
William P. Young,2,2,2,2,2,2
Wizards RPG Team,3,3,3,3,3,3


Aquí, el índice es el autor. Podemos usar ``.loc[]`` para buscar a través de los registros.

In [12]:
grouped_df.count().loc['Walter Isaacson']

Name           3
User Rating    3
Reviews        3
Price          3
Year           3
Genre          3
Name: Walter Isaacson, dtype: int64

Si queremos pasar autor como una columna, y asignarle un índice numérico, podemos usar el método ``reset_index()``.

In [13]:
grouped_df.count().reset_index()

Unnamed: 0,Author,Name,User Rating,Reviews,Price,Year,Genre
0,Abraham Verghese,2,2,2,2,2,2
1,Adam Gasiewski,1,1,1,1,1,1
2,Adam Mansbach,1,1,1,1,1,1
3,Adir Levy,1,1,1,1,1,1
4,Admiral William H. McRaven,1,1,1,1,1,1
...,...,...,...,...,...,...,...
243,Walter Isaacson,3,3,3,3,3,3
244,William Davis,2,2,2,2,2,2
245,William P. Young,2,2,2,2,2,2
246,Wizards RPG Team,3,3,3,3,3,3


También, podemos pedirle que agrupe aplicando alguna función a los datos. Para esto usamos ``.agg()``.

In [24]:
grouped_df.agg(
    {
        'Name': ['count'],
        'User Rating': ['mean'],
        'Reviews': ['sum'],
        'Price': ['min', 'max', 'mean']
    }
).reset_index()

Unnamed: 0_level_0,Author,Name,User Rating,Reviews,Price,Price,Price
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,sum,min,max,mean
0,Abraham Verghese,2,4.600000,9732,11,11,11.000000
1,Adam Gasiewski,1,4.400000,3113,6,6,6.000000
2,Adam Mansbach,1,4.800000,9568,9,9,9.000000
3,Adir Levy,1,4.800000,8170,13,13,13.000000
4,Admiral William H. McRaven,1,4.700000,10199,11,11,11.000000
...,...,...,...,...,...,...,...
243,Walter Isaacson,3,4.566667,18668,20,21,20.333333
244,William Davis,2,4.400000,14994,6,6,6.000000
245,William P. Young,2,4.600000,39440,8,8,8.000000
246,Wizards RPG Team,3,4.800000,50970,27,27,27.000000


Incluso, podemos agrupar por varias claves:

In [29]:
df.groupby(['Author', 'Year']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,User Rating,Reviews,Price,Genre
Author,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2010,1,1,1,1,1
Abraham Verghese,2011,1,1,1,1,1
Adam Gasiewski,2017,1,1,1,1,1
Adam Mansbach,2011,1,1,1,1,1
Adir Levy,2019,1,1,1,1,1
...,...,...,...,...,...,...
Wizards RPG Team,2017,1,1,1,1,1
Wizards RPG Team,2018,1,1,1,1,1
Wizards RPG Team,2019,1,1,1,1,1
Zhi Gang Sha,2009,1,1,1,1,1
