# Groupby operations

Some imports:

In [2]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
try:
    import seaborn
except ImportError:
    pass

pd.options.display.max_rows = 10

## Some 'theory': the groupby operation (split-apply-combine)


El concepto de "agrupar por": queremos **aplicar la misma función en subconjuntos de su marco de datos, en función de alguna clave para dividir el marco de datos en subconjuntos**

Esta operación también se conoce como la operación "dividir-aplicar-combinar", que incluye los siguientes pasos:


* **Splitting ** los datos en grupos según algunos criterios
* **Applying ** una función a cada grupo de forma independiente
* **Combining ** los resultados en una estructura de datos

<img src="img/splitApplyCombine.png">

Similar to SQL `GROUP BY`

El ejemplo de la imagen en sintaxis de pandas:

In [None]:
df = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],
                   'data': [0, 5, 10, 5, 10, 15, 10, 15, 20]})
df

Usando las operaciones de filtrado y reducciones que hemos visto en los cuadernos anteriores, podríamos hacer algo como:

    df[df['key'] == "A"].sum()
    df[df['key'] == "B"].sum()
    ...

Pero pandas proporciona el método `groupby` para hacer esto:

In [None]:
df.groupby('key').aggregate(np.sum)  # 'sum'

In [None]:
df.groupby('key').sum()

Y hay muchos más métodos disponibles.

## And now applying this on some real data

Volvemos a los datos de supervivencia del titanic:

In [3]:
df = pd.read_csv("data/titanic.csv")

In [4]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


<div class="alert alert-success">
    <b>EXERCISE</b>: Usando groupby (), calcule la edad promedio para cada sexo.
</div>

In [None]:
df.groupby('Sex')['Age'].mean()

<div class="alert alert-success">
    <b>EXERCISE</b>: Calcule la tasa de supervivencia promedio de todos los pasajeros.
</div>

In [None]:
df['Survived'].sum() / len(df['Survived'])

<div class="alert alert-success">
    <b>EXERCISE</b>: Calcule esta tasa de supervivencia para todos los pasajeros menores de 25 años (recuerde: filtrado / indexación booleana).
</div>

In [None]:
df25 = df[df['Age'] <= 25]
df25['Survived'].sum() / len(df25['Survived'])

<div class="alert alert-success">
    <b>EXERCISE</b>: ¿Existe alguna diferencia en esta tasa de supervivencia entre los sexos? (consejo: escriba el cálculo anterior de la tasa de supervivencia como una función)
</div>

In [12]:
def survival_ratio(survived):
    return survived.sum() / len(survived)

In [13]:
df.groupby('Sex')['Survived'].aggregate(survival_ratio)

Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64

<div class="alert alert-success">
    <b>EXERCISE</b>: Haga un diagrama de barras de la tasa de supervivencia para las diferentes clases (columna 'Pclass').
</div>

In [None]:
df.groupby('Pclass')['Survived'].aggregate(survival_ratio).plot(kind='bar')

Si está listo, puede encontrar más ejercicios grupales en el cuaderno "Operaciones avanzadas de grupo por".