# Agrupamiento (group by)

En el manejo de panda hay una operacion compuesta de tres suboperaciones que se utiliza con mucha frecuencia para resumir los datos:
1. **Agrupamiento**
1. **Operacion**
1. **Agregacion**

Para ello se utiliza la funcion **groupby** de pandas.  Esta funcion nos devuelve un objeto de la clase **groupby**. Este objeto es iterable y nos devuelve una tupla. El primer componente de la tupla es el nombre de cada grupo. El segundo componente de la tupla es un objeto de la clase DataFrame con un dataframe para el grupo correspondiente (es decir si hay 10 grupos se forman 10 dataframes). A este objeto se le puede pasar de forma encadenada una funcion de agregacion. Si esta funcion es propia de pandas se puede pasar directamente. Si no es una funcion de pandas (por ejemplo es de numpy o una funcion hecha por el programador), se le pasa como argumento de la funcion **agg(funcion)**

In [25]:
import pandas as pd
import numpy as np
import pickle

In [26]:
with open('titanic_df.pkl', 'rb') as f:
    df = pickle.load(f)

In [27]:
grupos = df.groupby(df.sexo)

In [28]:
type(grupos)

pandas.core.groupby.generic.DataFrameGroupBy

In [30]:
for group, frame in grupos:
    print('Grupo: ', group)
    print(frame)

Grupo:  0
     sobrevive  clase  edad  familiares  hijos   tarifa  sexo
4            0      3  35.0           0      0   8.0500     0
5            0      3  27.0           0      0   8.4583     0
6            0      1  54.0           0      0  51.8625     0
7            0      3   2.0           3      1  21.0750     0
12           0      3  20.0           0      0   8.0500     0
..         ...    ...   ...         ...    ...      ...   ...
879          0      2  28.0           0      0  10.5000     0
880          0      3  25.0           0      0   7.0500     0
882          0      2  27.0           0      0  13.0000     0
885          1      1  26.0           0      0  30.0000     0
886          0      3  32.0           0      0   7.7500     0

[572 rows x 7 columns]
Grupo:  1
     sobrevive  clase  edad  familiares  hijos   tarifa  sexo
1            1      1  38.0           1      0  71.2833     1
2            1      3  26.0           0      0   7.9250     1
3            1      1  35.

In [33]:
# aplicamos una operacion de agregacion. En este caso la media
grupos = df.groupby('sexo').mean()
grupos

Unnamed: 0_level_0,sobrevive,clase,edad,familiares,hijos,tarifa
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,0.190559,2.384615,30.446101,0.431818,0.237762,25.666075
1,0.742038,2.159236,27.719745,0.694268,0.649682,44.479818


In [34]:
# Podemos aplicar un funcion que no sea del framework pandas
grupos = df.groupby('sexo').agg(np.mean)

In [35]:
grupos

Unnamed: 0_level_0,sobrevive,clase,edad,familiares,hijos,tarifa
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,0.190559,2.384615,30.446101,0.431818,0.237762,25.666075
1,0.742038,2.159236,27.719745,0.694268,0.649682,44.479818


In [46]:
# o una funcion construida a medidad
def restar_dos (grupo):
    return (grupo.mean() - 2)

In [47]:
df.groupby('sexo').agg(restar_dos)

Unnamed: 0_level_0,sobrevive,clase,edad,familiares,hijos,tarifa
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,-1.809441,0.384615,28.446101,-1.568182,-1.762238,23.666075
1,-1.257962,0.159236,25.719745,-1.305732,-1.350318,42.479818


Como ejercicio adicional vamos a ver si existe diferencia significativa en las tarifas pagadas entre los pasajeros que sobrevivieron y los que no. Para ello vamos a llevar a cabo el text t-student

In [48]:
from scipy.stats import ttest_ind

In [49]:
result = ttest_ind (df['tarifa'][df.sobrevive == 0],df['tarifa'][df.sobrevive==1])

In [52]:
print(result)

Ttest_indResult(statistic=-7.869052911142867, pvalue=1.0416165356602257e-14)


Evidentemente sobrevivieron mas los pasajeros que pagaron una tarifa mayor