# PRACTICA GUIADA 1: Agregando y agrupando datos

* La sumarización es parte fundamental del análisis: computar medidas como ``sum()``, ``mean()``, ``median()``, ``min()`` y ``max()`` son tareas básicas para comenzar a explorar un dataset.

* En esta sección veremos algunas opciones para realizar agregaciones de datos en Pandas.


In [1]:
import numpy as np
import pandas as pd

## Analizando la encuesta en centros de atención turística

El GCBA realiza encuestas a los turistas que se acercan a los centros de atención. Se pregunta el motivo de la consulta, los días que dura el viaje, el país de origen, entre otras cosas.

El dataset es de acceso público en el portal de datos abiertos del GCBA.


In [2]:
turistas = pd.read_csv("../Data/resultado-de-encuestas-2016.csv", sep = ";")
turistas.shape

(106942, 53)

In [3]:
turistas.head()

Unnamed: 0,X,Y,ID,FECHA,CAT,DIRECCION,BARRIO,COMUNA,PASAJEROS,PERNOCTACIONES,...,SALUD,TANGO,VISITAS_GUIADAS,ESTUDIANTE_EXTRANJERO,CONSULTA_DE_PASAJERO_EN_TRANSITO,SUBE,APPS,SURF_URBANO,USO_DE_INSTALACIONES,CANT_DE_MOTIVOS
0,-58412118,-34571635,1,14/06/2016,PLANETARIO,AV. SARMIENTO Y AV. FIGUEROA ALCORTA,PALERMO,COMUNA 14,2,7,...,0,0,0,0,0,0,0,0,0,2
1,-58412118,-34571635,2,14/06/2016,PLANETARIO,AV. SARMIENTO Y AV. FIGUEROA ALCORTA,PALERMO,COMUNA 14,2,15,...,0,0,0,0,0,0,0,0,0,1
2,-58412118,-34571635,3,14/06/2016,PLANETARIO,AV. SARMIENTO Y AV. FIGUEROA ALCORTA,PALERMO,COMUNA 14,2,8,...,0,0,0,0,0,0,0,0,0,3
3,-58412118,-34571635,4,14/06/2016,PLANETARIO,AV. SARMIENTO Y AV. FIGUEROA ALCORTA,PALERMO,COMUNA 14,5,7,...,0,0,0,0,0,0,0,0,0,7
4,-58412118,-34571635,5,14/06/2016,PLANETARIO,AV. SARMIENTO Y AV. FIGUEROA ALCORTA,PALERMO,COMUNA 14,2,3,...,0,0,0,0,0,0,0,0,0,1


Veamos todas las columnas

In [3]:
turistas.columns

Index(['X', 'Y', 'ID', 'FECHA', 'CAT', 'DIRECCION', 'BARRIO', 'COMUNA',
       'PASAJEROS', 'PERNOCTACIONES', 'ARGENTINA', 'PAIS_EXT', 'ACCESIBILIDAD',
       'AGENCIAS_COMPAÑIAS_AEREAS', 'AGENDA_CULTURAL', 'ALOJAMIENTO',
       'ALREDEDORES_BA', 'ARTE_Y_ARQUITECTURA', 'ATRACTIVOS_TURISTICOS',
       'CAMBIO_BANCO_CAJEROS', 'BARRIOS', 'BICICLETAS', 'BUS_TURISTICO',
       'COMPRAS', 'DEPORTES', 'EVENTOS_ESPECTACULOS', 'FERIAS_MERCADOS',
       'GASTRONOMIA', 'GUIAS_TEMATICAS', 'INFO_ARGENTINA', 'INFO_URUGUAY',
       'LGBTIQ', 'LITERARIO', 'MAPAS_CIUDAD', 'MUSEOS', 'NIÑOS',
       'VIDA_NOCTURNA', 'ORGANISMOS_OFICIALES', 'ORIENTACION_TRANSPORTE',
       'OTROS', 'PARQUES', 'QUE_HACER_EN_BA', 'RELIGIOSO', 'SALUD', 'TANGO',
       'VISITAS_GUIADAS', 'ESTUDIANTE_EXTRANJERO',
       'CONSULTA_DE_PASAJERO_EN_TRANSITO', 'SUBE', 'APPS', 'SURF_URBANO',
       'USO_DE_INSTALACIONES', 'CANT_DE_MOTIVOS'],
      dtype='object')

Veamos si el dataset tiene datos faltantes.

In [4]:
turistas.isnull().sum()

X                                   0
Y                                   0
ID                                  0
FECHA                               0
CAT                                 0
DIRECCION                           0
BARRIO                              0
COMUNA                              0
PASAJEROS                           0
PERNOCTACIONES                      0
ARGENTINA                           0
PAIS_EXT                            0
ACCESIBILIDAD                       0
AGENCIAS_COMPAÑIAS_AEREAS           0
AGENDA_CULTURAL                     0
ALOJAMIENTO                         0
ALREDEDORES_BA                      0
ARTE_Y_ARQUITECTURA                 0
ATRACTIVOS_TURISTICOS               0
CAMBIO_BANCO_CAJEROS                0
BARRIOS                             0
BICICLETAS                          0
BUS_TURISTICO                       0
COMPRAS                             0
DEPORTES                            0
EVENTOS_ESPECTACULOS                0
FERIAS_MERCA

Parecería ser que no hay datos faltantes.

## Agregaciones simples en Pandas

* Al igual que en un array de una dimensión para una ``Series`` la agregación devuelve un valor único. Veamos cuántos días en total y en promedio dura el viaje de las personas que se acercaron a estos centros de atención.

In [6]:
turistas["PERNOCTACIONES"].sample(25)

91752     NS/NC
106822        1
60429     NS/NC
9231          2
41479     NS/NC
68684         5
97921     NS/NC
11199     NS/NC
39896         2
100968        4
79521         2
59362         5
8060      NS/NC
106746        1
19061     NS/NC
37125         1
77324     NS/NC
106212    NS/NC
103923        7
88470     NS/NC
18975        10
90445         1
56936         6
48563         4
91728         0
Name: PERNOCTACIONES, dtype: object

Veamos que la columna incluye valores no numéricos. Primero tenemos que removerlos y luego podemos hacer los cálculos.

In [7]:
# el método str.extract permite extraer un grupo pasando una REGEX. Para probar REGEX se puede entrar en https://regex101.com/ o https://regexr.com/ 

turistas['PERNOCTACIONES'] = turistas['PERNOCTACIONES']\
                             .str.extract('(\d+)', expand=False).astype('float')

In [8]:
turistas["PERNOCTACIONES"].sample(25)

70177     5.0
74518     3.0
68217     NaN
60915     3.0
2382      4.0
93097     3.0
26598     4.0
13543     1.0
95506     3.0
58945    10.0
9936     10.0
5416      NaN
93221     4.0
25120     5.0
77657     NaN
58995     5.0
26354     7.0
61391     3.0
51044     2.0
40214     NaN
37868     NaN
9698     30.0
25325     NaN
94581     NaN
91800     NaN
Name: PERNOCTACIONES, dtype: float64

In [9]:
turistas["PERNOCTACIONES"].fillna(turistas["PERNOCTACIONES"].mean(), inplace=True)

In [10]:
print('Suma de Pernoctaciones: {:.2f}'.format(turistas["PERNOCTACIONES"].sum()))

Suma de Pernoctaciones: 742210.12


In [11]:
print('Media de Pernoctaciones: {:.2f}'.format(turistas["PERNOCTACIONES"].mean()))

Media de Pernoctaciones: 6.94


* Para un ``DataFrame``, los `aggregate` retornan por default resultados al interior de cada columna:

* Especificando el argumento ``axis`` es posible agregar los resultados para cada fila.

**Nota:** Al igual que en el caso de NumPy, en `axis` se define la dimensión sobre la que se colapsan los datos. Si quiero resultados por fila, entonces, `axis='columns'` y en otro caso `axis='rows'`

En el archivo ya viene calculada la cantidad de motivos por los que se acercan los turistas. Calculemos nosotros ese dato y comparémoslo con el original, ya que es común que hayan errores en la información.

In [12]:
# Los motivos van desde la columna ACCESIBILIDAD hasta USO_DE_INSTALACIONES
# Calculo la suma por fila
n_motivos_calculado = turistas.loc[:,"ACCESIBILIDAD":"USO_DE_INSTALACIONES"]\
                      .sum(axis = 'columns')
# Me quedo con el valor original
n_motivos_original = turistas['CANT_DE_MOTIVOS']

# Vemos que hay errores en el campo original:
print('¿Cantidad total calculada y original son iguales? {}'\
       .format(n_motivos_calculado.equals(n_motivos_original)))

¿Cantidad total calculada y original son iguales? False


In [13]:
# ¿Cuántos están mal? 52
(n_motivos_calculado != n_motivos_original).sum()

52

* Las ``Series`` y ``DataFrame`` de Pandas incluyen muchas funciones de agregación.

* Hay, además, un método ``describe()`` que computa algunas medidas agregadas por defecto para cada columna y devuelve un `DataFrame` como resultado.


In [14]:
turistas[['PASAJEROS', 'PERNOCTACIONES']].describe()

Unnamed: 0,PASAJEROS,PERNOCTACIONES
count,106942.0,106942.0
mean,1.961764,6.940305
std,1.327208,16.447574
min,1.0,0.0
25%,1.0,4.0
50%,2.0,6.940305
75%,2.0,6.940305
max,150.0,365.0


Podemos observar que hay valores raros, ya que en pasajeros vemos 150... ¿es un error o nos falta conocer "el negocio"? Tal vez alguien consulto por un grupo de viajeros...

* ¿Qué pueden decir de estos datos?

In [15]:
# Alternativas para el método .describe()

turistas.describe(percentiles=[0.1,0.25,0.35,0.5,0.8], include='float')

Unnamed: 0,PERNOCTACIONES
count,106942.0
mean,6.940305
std,16.447574
min,0.0
10%,2.0
25%,4.0
35%,5.0
50%,6.940305
80%,6.940305
max,365.0


Resumen de algunas funciones de agregación en Pandas:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

Todos son métodos de los objetos ``DataFrame`` y ``Series``.

* Muchas veces esto no es suficiente y es necesario usar otras operaciones de sumarización.
* La operación ``groupby`` permite computar medidas agregadas de forma eficente en subsets de los datos.

## GroupBy: Split, Apply, Combine

* Muchas veces es importante poder realizar operaciones de agregación de forma condicional a algún subconjunto de datos (por ejemplo, para los casos que cumplen alguna condición). Esto es implementado por el operador `groupby`
* El nombre `groupby` proviene del lenguaje SQL.
* Es útil pensarlo en los términos de Hadley Wickham: *split, apply, combine* (dividir-aplicar-combinar)

### Split, apply, combine

![title](img/split-apply-combine.png)

- El paso *split*  implica dividir y reagrupar un ``DataFrame`` en base a una determinada key.
- El paso *apply* supone computar alguna función (generalmente, alguna agregación, transformación o filtro) sobre los grupos constituidos en el paso anterior.
- El paso *combine* hace un "merge" de los resultados de dichas operaciones en un nuevo array.

* Si bien cada uno de los pasos pueden hacerse "manualmente", el ``GroupBy`` generalmente puede hacerlo en un solo paso.
* La ventaja del ``GroupBy`` es que permite abstraer los tres pasos anteriores: el usuario no necesita pensar en "cómo" hacer el cómputo, sino más bien pensar la operación como un todo.

* La operación split-apply-combine más básica con el método ``groupby()`` es pasar el nombre de una determinada clave de columna:

### El objeto GroupBy

* El objeto ``GroupBy`` es un abstracción muy flexible.
* Puede ser tratado como una colección de `DataFrame` y hace algunas cosas complicadas por detrás...
* Quizá las operaciones más importantes de un objeto ``GroupBy`` sean las *aggregate*, *filter*, *transform*, y *apply*

In [16]:
turistas.groupby('PAIS_EXT')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000199F5184668>

In [17]:
turistas.groupby('PAIS_EXT').groups

{' ': Int64Index([     3,      4,      7,     13,     14,     15,     17,     20,
                 21,     24,
             ...
             106921, 106922, 106923, 106924, 106925, 106926, 106933, 106934,
             106935, 106936],
            dtype='int64', length=39685),
 'ALBANIA': Int64Index([41439], dtype='int64'),
 'ALEMANIA': Int64Index([    43,    587,    631,    636,    690,    696,    965,   1033,
               1047,   1196,
             ...
             106760, 106775, 106852, 106883, 106886, 106888, 106894, 106896,
             106931, 106941],
            dtype='int64', length=2501),
 'ANDORRA': Int64Index([25100], dtype='int64'),
 'ANGOLA': Int64Index([64760, 65797, 72922, 83720], dtype='int64'),
 'ARABIA SAUDITA': Int64Index([25249, 26785], dtype='int64'),
 'ARGELIA': Int64Index([51307], dtype='int64'),
 'ARMENIA': Int64Index([  9985,  26950,  28792,  46824,  64241,  65335,  65626,  65646,
              65912,  66041,  74395, 101254],
            dtype='int64'),
 'AR

* Notar que no se retorna un ``DataFrame`` sino un objeto ``DataFrameGroupBy``.
* Se puede pensar en el `DataFrameGroupBy` como una vista especial de un `DataFrame` que construye los grupos pero que no realiza ningún cómputo hasta que la etapa de agregación es aplicada.
* Esta **"lazy evaluation"** hace que las operaciones de agregación puedan ser computadas de forma muy eficiente.
* Para producir un resultado podemos aplicar una función de agregación a este ``DataFrameGroupBy`` que a realizar la operación (apply) y avanzar en el paso de combine.

In [18]:
turistas[['PASAJEROS', 'PERNOCTACIONES','PAIS_EXT']]\
                                      .groupby('PAIS_EXT').sum().sort_values("PASAJEROS",\
                                       ascending = False).head()

Unnamed: 0_level_0,PASAJEROS,PERNOCTACIONES
PAIS_EXT,Unnamed: 1_level_1,Unnamed: 2_level_1
,70292,240920.63584
BRASIL,41810,104006.09983
CHILE,12262,34669.305709
ESTADOS UNIDOS,11032,36470.006331
ESPAÑA,8728,37284.692595


* Se podría realizar virtualmente cualquier operación común de agregación de Pandas o NumPy y casi cualquier operación válida para un `DataFrame` como veremos a continuación.

#### Indexing de columnas

* El objeto ``GroupBy`` soporta el indexado de columnas de la misma forma que un ``DataFrame``, y devuelve un objeto ``GroupBy`` modificado:

In [19]:
turistas.groupby('PAIS_EXT')['ALREDEDORES_BA']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001998000CCF8>

* Seleccionamos una ``Series`` particular del  ``DataFrame`` original referenciándolo con su nombre de columna.
* Al igual que antes, no se realiza ningún cómputo hasta que llamamos alguna función de agregación sobre el objeto.

In [20]:
turistas.groupby('PAIS_EXT')['ALREDEDORES_BA'].sum().sort_values(ascending = False).head()

PAIS_EXT
           546
BRASIL     382
CHILE      163
ESPAÑA     126
URUGUAY    108
Name: ALREDEDORES_BA, dtype: int64

* ¿Qué se observa en estos datos?

#### Iteración sobre grupos

* El objeto ``GroupBy`` soporta la iteración directa sobre grupos, devolviendo cada grupo como una ``Series`` o un ``DataFrame``.


In [21]:
for (pais, group) in turistas.groupby('PAIS_EXT'):
    print("{0:20} shape={1} ".format(pais, group.shape))

                     shape=(39685, 53) 
ALBANIA              shape=(1, 53) 
ALEMANIA             shape=(2501, 53) 
ANDORRA              shape=(1, 53) 
ANGOLA               shape=(4, 53) 
ARABIA SAUDITA       shape=(2, 53) 
ARGELIA              shape=(1, 53) 
ARMENIA              shape=(12, 53) 
ARUBA                shape=(2, 53) 
AUSTRALIA            shape=(1474, 53) 
AUSTRIA              shape=(181, 53) 
AZERBAIYAN           shape=(1, 53) 
BAHAMAS              shape=(4, 53) 
BANGLADESH           shape=(1, 53) 
BELGICA              shape=(193, 53) 
BERMUDAS             shape=(1, 53) 
BIELORRUSIA          shape=(3, 53) 
BOLIVIA              shape=(525, 53) 
BOSNIA Y HERZEGOVINA shape=(1, 53) 
BRASIL               shape=(18613, 53) 
BRUNEI               shape=(1, 53) 
BULGARIA             shape=(16, 53) 
CABO VERDE           shape=(1, 53) 
CANADA               shape=(1165, 53) 
CATAR                shape=(3, 53) 
CHILE                shape=(5630, 53) 
CHINA                shape=(636, 53)

* Si bien podemos hacer este tipo de operaciones de forma manual, veremos enseguida la potencialidad que tienen las funcionalidades ``apply``.

#### Dispatch methods

* Cualquier método no implementado de forma explícita por el objeto ``GroupBy`` será ejecutado en cada grupo. Estos métodos se heredan de la clase DataFrame. 
* Por ejemplo, se puede usar el método ``describe()`` de ``DataFrame``s para realizar muchas operaciones de agregación al interior de cada grupo.

In [22]:
turistas.groupby('PAIS_EXT')[['PASAJEROS', 'PERNOCTACIONES']].describe()

Unnamed: 0_level_0,PASAJEROS,PASAJEROS,PASAJEROS,PASAJEROS,PASAJEROS,PASAJEROS,PASAJEROS,PASAJEROS,PERNOCTACIONES,PERNOCTACIONES,PERNOCTACIONES,PERNOCTACIONES,PERNOCTACIONES,PERNOCTACIONES,PERNOCTACIONES,PERNOCTACIONES
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
PAIS_EXT,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
,39685.0,1.771249,1.316617,1.0,1.00,2.0,2.00,60.0,39685.0,6.070824,9.087899,0.000000,4.000000,6.940305,6.940305,365.000000
ALBANIA,1.0,2.000000,,2.0,2.00,2.0,2.00,2.0,1.0,10.000000,,10.000000,10.000000,10.000000,10.000000,10.000000
ALEMANIA,2501.0,1.834866,0.950537,1.0,1.00,2.0,2.00,19.0,2501.0,8.446282,23.848800,0.000000,3.000000,5.000000,6.940305,365.000000
ANDORRA,1.0,1.000000,,1.0,1.00,1.0,1.00,1.0,1.0,11.000000,,11.000000,11.000000,11.000000,11.000000,11.000000
ANGOLA,4.0,1.750000,0.957427,1.0,1.00,1.5,2.25,3.0,4.0,7.220153,2.066661,5.000000,6.455229,6.940305,7.705229,10.000000
ARABIA SAUDITA,2.0,1.500000,0.707107,1.0,1.25,1.5,1.75,2.0,2.0,5.000000,0.000000,5.000000,5.000000,5.000000,5.000000,5.000000
ARGELIA,1.0,4.000000,,4.0,4.00,4.0,4.00,4.0,1.0,15.000000,,15.000000,15.000000,15.000000,15.000000,15.000000
ARMENIA,12.0,2.166667,0.937437,1.0,2.00,2.0,2.00,4.0,12.0,6.416667,4.925967,2.000000,3.000000,5.000000,8.000000,20.000000
ARUBA,2.0,1.500000,0.707107,1.0,1.25,1.5,1.75,2.0,2.0,4.470153,3.493323,2.000000,3.235076,4.470153,5.705229,6.940305
AUSTRALIA,1474.0,2.023066,0.946360,1.0,1.00,2.0,2.00,10.0,1474.0,6.662783,14.833097,0.000000,3.000000,5.000000,6.940305,365.000000


* ¿Qué puede decirse de estos datos? 
* Este es solo un ejemplo de la utilidad de estos métodos. Notar que son aplicados a cada uno de los grupos individuales y que los resultados son combinados en un objeto `GroupBy` y retornados.

### Aggregate, filter, transform, apply

* Hay muchas más opciones de operaciones disponibles.
* Los objetos ``GroupBy`` tienen algunos métodos muy útiles: ``aggregate()``, ``filter()``, ``transform()`` y ``apply()`` que implementan muchas operaciones en la etapa previa al "combine"

* Ilustremos estas operaciones con el siguiente ``DataFrame``:

#### Aggregation

* El método ``aggregate()`` permite una gran flexibilidad:
* Puede tomar un string, una función o una lista y computar todos los agregados en un solo paso.

In [23]:
turistas.groupby('ARGENTINA')["PASAJEROS"].aggregate([np.min, np.mean, np.median,\
                                                      np.max, np.sum])

Unnamed: 0_level_0,amin,mean,median,amax,sum
ARGENTINA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,1,2.073941,2,150,140130
BUENOS AIRES,1,2.021074,2,50,9111
CATAMARCA,1,1.79375,2,9,287
CHACO,1,1.876751,2,7,670
CHUBUT,1,1.899371,2,5,604
CIUDAD DE BUENOS AIRES,1,1.510368,1,40,31174
CORDOBA,1,2.119264,2,25,9098
CORRIENTES,1,1.920502,2,12,918
ENTRE RIOS,1,1.92721,2,19,1112
FORMOSA,1,1.892617,2,10,282


* Otra forma útil es pasar un diccionario que mapea nombres de columnas con operaciones. De esta forma se puede espeficiar una operación distinta a cada columna.

In [24]:
turistas.groupby('ARGENTINA')['PASAJEROS'].aggregate([np.min, 
                 np.median, np.max, np.sum]).rename(columns={'amin': 'grupo_mas_chico',
                'median': 'grupo_mediano','amax':'grupo_mas_chico','sum':'total'}).head()

Unnamed: 0_level_0,grupo_mas_chico,grupo_mediano,grupo_mas_chico,total
ARGENTINA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,1,2,150,140130
BUENOS AIRES,1,2,50,9111
CATAMARCA,1,2,9,287
CHACO,1,2,7,670
CHUBUT,1,2,5,604


#### Filtering

* Una operación filtering permite "descartar" datos basado en propiedades del grupo.
* Por ejemplo, podríamos querer mantener todos los grupos en los que la desviación estándar sea mayor que algún valor de corte:

In [25]:
def filter_func(x, lim):
    return x["PERNOCTACIONES"].std() > lim

In [26]:
filter_func(turistas, 20)

False

In [27]:
turistas.groupby('ARGENTINA').filter(filter_func, lim=20)["ARGENTINA"].unique()

array(['SALTA', 'CHACO', 'SAN JUAN', 'TUCUMAN', 'JUJUY',
       'TIERRA DEL FUEGO'], dtype=object)

* La función de filtro retorna un booleano especificando si el grupo pasa o no el filtro. 

#### Transformation

* Mientras que aggregation devuelve una versión reducida de los datos, transformation retorna alguna versión transformada de los datos para, luego, hacer el combine.
* El output de una transformation es del mismo `shape` que el input.

In [28]:
def center_mean(x):
    return(x - x.mean())

print(turistas[["ARGENTINA","PASAJEROS"]].groupby('ARGENTINA').transform(center_mean))

        PASAJEROS
0       -0.073941
1       -0.073941
2       -0.073941
3        2.876274
4       -0.119264
5       -0.073941
6       -0.073941
7        3.489632
8       -0.073941
9       -0.073941
10      -1.073941
11       1.926059
12      -0.073941
13      -0.021074
14       2.880736
15      -0.119264
16       1.926059
17       0.876274
18      -0.073941
19       0.926059
20       0.489632
21      -0.510368
22      -0.073941
23      -0.073941
24       0.068966
25       2.489632
26      -0.073941
27      -0.510368
28      -0.350515
29      -0.073941
...           ...
106912  -1.021074
106913  -0.104964
106914  -0.021074
106915  -0.119264
106916  -0.119264
106917  -0.021074
106918  -0.104964
106919  -0.119264
106920  -1.119264
106921  -0.021074
106922  -0.119264
106923  -0.119264
106924  -0.510368
106925  -1.104964
106926  -1.104964
106927  -1.073941
106928  -1.073941
106929  -1.073941
106930  -1.073941
106931  -1.073941
106932   1.926059
106933  -1.119264
106934  -0.104964
106935  -0

* ¿Qué hace el siguiente bloque de código?

#### El método `apply()`

* El método `apply()` permite aplicar alguna función dada a los resultados del group.
* La función debería tomar como input ``DataFrame`` y devolver un objeto de Pandas (``DataFrame``, ``Series``) o un escalar. 
* La operación combine se adaptará al tipo de salida devuelta.

In [29]:
# El resultado es una columna PASAJEROS normalizada por la participación 
#del grupo en el total de pasajeros de la provincia:

def norm_by_data2(x):
    # x is a DataFrame of group values
    x['PASAJEROS'] /= x['PERNOCTACIONES'].sum()
    return x

turistas[["ARGENTINA","PASAJEROS","PERNOCTACIONES"]].groupby('ARGENTINA')\
                                           .apply(norm_by_data2).sample(15)


Unnamed: 0,ARGENTINA,PASAJEROS,PERNOCTACIONES
17554,TUCUMAN,0.000195,7.0
39163,CIUDAD DE BUENOS AIRES,7e-06,6.940305
19964,,4e-06,6.940305
57985,SANTIAGO DEL ESTERO,0.004444,6.0
62110,,6e-06,180.0
55819,CORDOBA,5e-05,0.0
49140,,4e-06,3.0
45117,LA RIOJA,0.003817,6.940305
62084,,4e-06,6.0
52342,,2e-06,4.0


* ¿Qué operación produce el bloque de código anterior?

### Especificando la clave del "split"

* En el ejemplo anterior se hacía el split del ``DataFrame`` sobre una sola columna.
* Hay otras opciones...

#### Una lista, array, series, o index que contiene las claves del grouping 

In [30]:
L = ["CAT","ARGENTINA"]
turistas.groupby(L).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,PASAJEROS,PERNOCTACIONES,ACCESIBILIDAD,AGENCIAS_COMPAÑIAS_AEREAS,AGENDA_CULTURAL,ALOJAMIENTO,ALREDEDORES_BA,ARTE_Y_ARQUITECTURA,ATRACTIVOS_TURISTICOS,...,SALUD,TANGO,VISITAS_GUIADAS,ESTUDIANTE_EXTRANJERO,CONSULTA_DE_PASAJERO_EN_TRANSITO,SUBE,APPS,SURF_URBANO,USO_DE_INSTALACIONES,CANT_DE_MOTIVOS
CAT,ARGENTINA,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
AEROPARQUE,,80696414,2509,13140.224873,2,14,43,16,7,15,85,...,1,87,13,0,33,141,1,3,22,2748
AEROPARQUE,BUENOS AIRES,7941050,224,487.746410,0,2,8,0,1,2,6,...,0,8,0,0,1,6,0,0,3,207
AEROPARQUE,CATAMARCA,1244500,40,108.940305,0,0,0,0,0,0,0,...,0,2,1,0,1,0,0,0,1,28
AEROPARQUE,CHACO,983903,34,107.880611,0,0,1,0,0,1,1,...,0,2,0,0,1,3,0,0,0,36
AEROPARQUE,CHUBUT,1993985,49,236.820916,0,0,0,0,1,1,2,...,0,4,0,0,1,1,0,0,0,59
AEROPARQUE,CIUDAD DE BUENOS AIRES,85900646,1958,9417.994234,1,6,31,3,1,0,7,...,0,45,6,0,3,24,0,18,28,1659
AEROPARQUE,CORDOBA,10078375,329,720.865800,0,0,7,2,0,1,3,...,0,11,2,0,4,13,0,1,4,311
AEROPARQUE,CORRIENTES,1354056,35,126.820916,0,0,1,0,0,0,0,...,0,2,0,0,0,0,0,0,1,34
AEROPARQUE,ENTRE RIOS,601956,14,66.940305,0,0,3,0,0,0,0,...,0,1,0,0,0,0,0,0,0,21
AEROPARQUE,FORMOSA,608369,12,42.000000,0,0,0,0,0,0,0,...,0,1,0,0,0,1,0,0,0,14


In [31]:
turistas.groupby("ARGENTINA").sum().head()


Unnamed: 0_level_0,ID,PASAJEROS,PERNOCTACIONES,ACCESIBILIDAD,AGENCIAS_COMPAÑIAS_AEREAS,AGENDA_CULTURAL,ALOJAMIENTO,ALREDEDORES_BA,ARTE_Y_ARQUITECTURA,ATRACTIVOS_TURISTICOS,...,SALUD,TANGO,VISITAS_GUIADAS,ESTUDIANTE_EXTRANJERO,CONSULTA_DE_PASAJERO_EN_TRANSITO,SUBE,APPS,SURF_URBANO,USO_DE_INSTALACIONES,CANT_DE_MOTIVOS
ARGENTINA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
,3611155388,140130,503611.505144,68,655,1440,1119,1642,1128,7340,...,85,1986,1188,25,95,2212,34,80,366,134473
BUENOS AIRES,241442709,9111,18782.78372,1,28,178,63,66,48,328,...,20,112,155,0,11,186,0,3,24,7624
CATAMARCA,10091162,287,906.970379,0,2,5,5,2,0,9,...,1,8,4,0,1,10,0,0,1,295
CHACO,18178772,670,3033.910684,0,1,21,12,9,3,19,...,4,19,3,0,2,25,0,1,3,690
CHUBUT,16568384,604,2083.61221,0,2,17,6,13,6,32,...,0,12,3,0,1,9,0,2,0,608


In [32]:
# Es totalmente equivaliente a
turistas.groupby(turistas["ARGENTINA"]).sum().head()


Unnamed: 0_level_0,ID,PASAJEROS,PERNOCTACIONES,ACCESIBILIDAD,AGENCIAS_COMPAÑIAS_AEREAS,AGENDA_CULTURAL,ALOJAMIENTO,ALREDEDORES_BA,ARTE_Y_ARQUITECTURA,ATRACTIVOS_TURISTICOS,...,SALUD,TANGO,VISITAS_GUIADAS,ESTUDIANTE_EXTRANJERO,CONSULTA_DE_PASAJERO_EN_TRANSITO,SUBE,APPS,SURF_URBANO,USO_DE_INSTALACIONES,CANT_DE_MOTIVOS
ARGENTINA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
,3611155388,140130,503611.505144,68,655,1440,1119,1642,1128,7340,...,85,1986,1188,25,95,2212,34,80,366,134473
BUENOS AIRES,241442709,9111,18782.78372,1,28,178,63,66,48,328,...,20,112,155,0,11,186,0,3,24,7624
CATAMARCA,10091162,287,906.970379,0,2,5,5,2,0,9,...,1,8,4,0,1,10,0,0,1,295
CHACO,18178772,670,3033.910684,0,1,21,12,9,3,19,...,4,19,3,0,2,25,0,1,3,690
CHUBUT,16568384,604,2083.61221,0,2,17,6,13,6,32,...,0,12,3,0,1,9,0,2,0,608


#### Un dict o serie mapeando index a grupos

In [33]:
turistas2 = turistas.set_index('ARGENTINA')
mapping = {'CHACO': 'C', 'CHUBUT': 'D', 'CATAMARCA': 'E'}
turistas2.groupby(mapping).sum()

Unnamed: 0,ID,PASAJEROS,PERNOCTACIONES,ACCESIBILIDAD,AGENCIAS_COMPAÑIAS_AEREAS,AGENDA_CULTURAL,ALOJAMIENTO,ALREDEDORES_BA,ARTE_Y_ARQUITECTURA,ATRACTIVOS_TURISTICOS,...,SALUD,TANGO,VISITAS_GUIADAS,ESTUDIANTE_EXTRANJERO,CONSULTA_DE_PASAJERO_EN_TRANSITO,SUBE,APPS,SURF_URBANO,USO_DE_INSTALACIONES,CANT_DE_MOTIVOS
C,18178772,670,3033.910684,0,1,21,12,9,3,19,...,4,19,3,0,2,25,0,1,3,690
D,16568384,604,2083.61221,0,2,17,6,13,6,32,...,0,12,3,0,1,9,0,2,0,608
E,10091162,287,906.970379,0,2,5,5,2,0,9,...,1,8,4,0,1,10,0,0,1,295


### Ejemplo de aplicación

* Imaginemos que nos consultan cuáles son los lugares de CABA más visitados por los turistas argentinos, según su procedencia. Para ello suponemos que el CAT al que van los turistas indica que fueron a visitar ese lugar. 
* Entonces primero filtramos los turistas extranjeros, agrupamos por provincia, llenamos los Na con 0 y dividimos todo por la cantidad total de turistas argentinos. De esta manera, lo representamos como proporción del total

In [34]:
turistas.loc[turistas.ARGENTINA != " ",].groupby(['ARGENTINA', 
                      'CAT'])['PASAJEROS'].sum().unstack(fill_value=0)/sum(turistas.loc[turistas.ARGENTINA != " ",
                                                                                            "PASAJEROS"])*100

CAT,AEROPARQUE,CAMINITO,FLORIDA,HUB,PLANETARIO,PLAZA SAN MARTIN,PUERTO MADERO,RECOLETA,RETIRO
ARGENTINA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
BUENOS AIRES,0.321539,1.329218,3.821144,0.173688,1.165578,2.091438,1.225867,0.898586,2.051245
CATAMARCA,0.057418,0.001435,0.126319,0.0,0.01579,0.048805,0.01579,0.024402,0.122012
CHACO,0.048805,0.060289,0.223929,0.0,0.03158,0.139238,0.077514,0.05024,0.330151
CHUBUT,0.070337,0.041628,0.268427,0.002871,0.104787,0.17943,0.045934,0.045934,0.107658
CIUDAD DE BUENOS AIRES,2.810594,2.812029,14.421876,0.228235,4.576186,7.40544,3.765162,6.568578,2.160339
CORDOBA,0.47226,0.849781,3.747937,0.044499,0.782315,2.662743,1.024905,1.174191,2.301012
CORRIENTES,0.05024,0.053111,0.401923,0.005742,0.040192,0.248331,0.067466,0.044499,0.40623
ENTRE RIOS,0.020096,0.083256,0.380392,0.002871,0.064595,0.304314,0.156463,0.070337,0.513888
FORMOSA,0.017225,0.010048,0.080385,0.0,0.030144,0.058853,0.022967,0.037321,0.14785
JUJUY,0.060289,0.063159,0.225364,0.0,0.022967,0.104787,0.048805,0.053111,0.140673
