# Agrupado y agregaciones
pg. 158

In [1]:
import numpy as np
import pandas as pd

In [3]:
import seaborn as sns

In [4]:
planets = sns.load_dataset('planets')

In [5]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [7]:
planets.shape

(1035, 6)

### Agregaciones en Pandas

Las series, como en Numpy retornan un valor.

In [8]:
planets['mass'].mean()

2.6381605847953216

El DF retorna el agregado para cada columna.

In [11]:
planets.mean()

number               1.785507
orbital_period    2002.917596
mass                 2.638161
distance           264.069282
year              2009.070531
dtype: float64

Si especificas columnas te hace el agregado de todas.

In [14]:
planets.head().mean(axis=1)

0    472.1600
1    588.5868
2    559.4880
3    492.8100
4    531.2380
dtype: float64

Un método super útil es `describe()`, que da información de cada columna numérica

In [15]:
planets.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


### GroupBy: Split, Apply, Combine

#### Partir, aplicar, combinar
- `split` romper y agrupar el DF dependiendo del valor dado.
- `apply` copmutar funciones, transformaciones, filtros a los grupos individuales.
- `combine` agrupar los resultados en un array de salida.

Se podría hacer esto manualmente usando masking, agregaciones, merge... Pero hay que instanciar los pasos intermedios, es menos efectivo. El poder de GroupBy es que te libra de todos estos pasos.

In [16]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [17]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fe4f4afdf40>

El resulstado es un `DataFrameGroupBy`. Preparado para trabajar con los grupos. No se hace computación hasta que no se aplica una acción. "Lazy Evaluation". Lo convierte en muy eficaz. Al aplicar una acción se realiza y combina los resultados.

In [18]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


### El Objeto GroupBy