![TheBridge_Pandas.png](attachment:TheBridge_Pandas.png)

##  Groupby

Como introducción al groupby (sí, eso "agrupar por") vamos a plantear unas cuestiones a nuestros datos de viajes aéreos que ya planteamos en sesiones anteriores. Recordaremos como las resolvimos y eso nos dará pie a ver una forma más eficiente de hacerlo a través de las agrupaciones con groupby y de ahí completaremos con más detalles y posibilidades adicionales.


Por tanto, como en otras sesiones, comencemos creando nuestro `DataFrame` a partir de los datos de vuelos:

In [1]:
import numpy as  np
import pandas as pd

df_aviones = pd.read_csv("./data/dataset_inicial_aviones.csv", index_col = "Id_vuelo")


### ¿Para qué groupby?

En sesiones anteriores le "preguntamos" a nuestro `DataFrame`, `df_aviones`, por la media de consumo de los aviones por compañía, o algo parecido... y lo hacíamo de esta forma, válida, pero farragosa:

In [4]:
for compania in df_aviones["Aircompany"].unique():
    es_compania = df_aviones["Aircompany"] == compania
    print(f"Para la compañía {compania}:")
    for avion in df_aviones["avion"].unique():
        es_avion = df_aviones["avion"] == avion
        consumo = df_aviones.loc[es_compania & es_avion,"consumo_kg"].mean()
        print(f"Tipo <{avion}> consumo medio por vuelo <{consumo:.2f}>")

Para la compañía Airnar:
Tipo <Boeing 737> consumo medio por vuelo <25213.52>
Tipo <Airbus A380> consumo medio por vuelo <101402.62>
Tipo <Boeing 747> consumo medio por vuelo <87208.77>
Tipo <Airbus A320> consumo medio por vuelo <15233.35>
Para la compañía FlyQ:
Tipo <Boeing 737> consumo medio por vuelo <20474.09>
Tipo <Airbus A380> consumo medio por vuelo <116860.27>
Tipo <Boeing 747> consumo medio por vuelo <86157.20>
Tipo <Airbus A320> consumo medio por vuelo <12255.75>
Para la compañía TabarAir:
Tipo <Boeing 737> consumo medio por vuelo <12305.06>
Tipo <Airbus A380> consumo medio por vuelo <62575.39>
Tipo <Boeing 747> consumo medio por vuelo <58840.01>
Tipo <Airbus A320> consumo medio por vuelo <15545.64>
Para la compañía MoldaviAir:
Tipo <Boeing 737> consumo medio por vuelo <30233.62>
Tipo <Airbus A380> consumo medio por vuelo <149316.55>
Tipo <Boeing 747> consumo medio por vuelo <133625.46>
Tipo <Airbus A320> consumo medio por vuelo <8422.85>
Para la compañía PamPangea:
Tipo <Boe

Esta forma aunque eficaz en términos humanos, es decir una persona tiene la info que quería, no es muy buena en términos de programacion por dos motivos:
1. El código es farragoso y aún haciéndolo una función que tuviera las columnas como parámetro sería complejo mantenerlo.
2. La salida no es muy manejable posteriormente, aunque es verdad que podríamos crearnos una estructura de salida, complicando aún más el código.

Es para este tipo de situaciones para lo que aparece el método groupby, pero ojo no solo para estas como iremos viendo en esta y las siguientes sesiones.

In [5]:
df_aviones.groupby(["Aircompany","avion"])["consumo_kg"].mean()

Aircompany  avion      
Airnar      Airbus A320     15233.354249
            Airbus A380    101402.622197
            Boeing 737      25213.516883
            Boeing 747      87208.773559
FlyQ        Airbus A320     12255.748389
            Airbus A380    116860.268168
            Boeing 737      20474.087328
            Boeing 747      86157.201917
MoldaviAir  Airbus A320      8422.846644
            Airbus A380    149316.553108
            Boeing 737      30233.624810
            Boeing 747     133625.459193
PamPangea   Airbus A320      7689.835407
            Airbus A380    135216.291382
            Boeing 737      28712.313147
            Boeing 747     127566.722008
TabarAir    Airbus A320     15545.639162
            Airbus A380     62575.392039
            Boeing 737      12305.056732
            Boeing 747      58840.011691
Name: consumo_kg, dtype: float64

Compara los dos "trozos" de código... Sin duda es mejor el segundo ya sólo en tiempo de escritura... Pero además la salida del groupby la podemos almacenar directamente en una variable

In [7]:
agrupacion=df_aviones.groupby(["Aircompany","avion"])["consumo_kg"].mean()
print(type(agrupacion))

<class 'pandas.core.series.Series'>


Nos ha devuelto un objeto `Series` de  Pandas que podemos manipular como cualquier otro `Series`:

In [8]:
agrupacion.value_counts()

consumo_kg
15233.354249     1
101402.622197    1
12305.056732     1
62575.392039     1
15545.639162     1
127566.722008    1
28712.313147     1
135216.291382    1
7689.835407      1
133625.459193    1
30233.624810     1
149316.553108    1
8422.846644      1
86157.201917     1
20474.087328     1
116860.268168    1
12255.748389     1
87208.773559     1
25213.516883     1
58840.011691     1
Name: count, dtype: int64

In [9]:
agrupacion.index

MultiIndex([(    'Airnar', 'Airbus A320'),
            (    'Airnar', 'Airbus A380'),
            (    'Airnar',  'Boeing 737'),
            (    'Airnar',  'Boeing 747'),
            (      'FlyQ', 'Airbus A320'),
            (      'FlyQ', 'Airbus A380'),
            (      'FlyQ',  'Boeing 737'),
            (      'FlyQ',  'Boeing 747'),
            ('MoldaviAir', 'Airbus A320'),
            ('MoldaviAir', 'Airbus A380'),
            ('MoldaviAir',  'Boeing 737'),
            ('MoldaviAir',  'Boeing 747'),
            ( 'PamPangea', 'Airbus A320'),
            ( 'PamPangea', 'Airbus A380'),
            ( 'PamPangea',  'Boeing 737'),
            ( 'PamPangea',  'Boeing 747'),
            (  'TabarAir', 'Airbus A320'),
            (  'TabarAir', 'Airbus A380'),
            (  'TabarAir',  'Boeing 737'),
            (  'TabarAir',  'Boeing 747')],
           names=['Aircompany', 'avion'])

El índice es un indice multidimensional (cada valor es una tupla) en los que no vamos a profundizar, pero que se puede operar como cualquier otro indice de una serie:


In [11]:
agrupacion[("Airnar","Airbus A320")]

15233.354248972972

### Groupby con cierto detalle

El método groupby de un `DataFrame` (también lo hay para `Series` pero eso puedes consultarlo [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.groupby.html)) tiene varios argumentos interesantes, el primero ya lo hemos visto la lista de columnas por las que queremos agrupar (puede ser sólo una) y otro es el argumento `as_index` que veremos luego. Antes es interesante destacar que groupby es un método "vago" [si como Jose Mota, si hay que ir se va pero ir pa ná]. Veámoslo, ejecutando solo el groupby:

In [12]:
df_aviones.groupby(["Aircompany","avion"])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000026A27D27990>

Nos ha devuelto un objeto groupby, eso y nada de primeras es lo mismo. Para obtener algo hay que decir qué tiene que hacer con las columnas restantes:

In [13]:
df_aviones.groupby(["Aircompany","avion"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Origen,Destino,Distancia,consumo_kg,duracion
Aircompany,avion,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Airnar,Airbus A320,37,37,37,37,37
Airnar,Airbus A380,64,64,64,64,64
Airnar,Boeing 737,49,49,49,49,49
Airnar,Boeing 747,68,68,68,68,68
FlyQ,Airbus A320,34,34,34,34,34
FlyQ,Airbus A380,61,61,61,61,61
FlyQ,Boeing 737,54,54,54,54,54
FlyQ,Boeing 747,67,67,67,67,67
MoldaviAir,Airbus A320,35,35,35,35,35
MoldaviAir,Airbus A380,74,74,74,74,74


In [14]:
df_aviones.groupby(["avion","Aircompany"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Origen,Destino,Distancia,consumo_kg,duracion
avion,Aircompany,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Airbus A320,Airnar,37,37,37,37,37
Airbus A320,FlyQ,34,34,34,34,34
Airbus A320,MoldaviAir,35,35,35,35,35
Airbus A320,PamPangea,31,31,31,31,31
Airbus A320,TabarAir,61,61,61,61,61
Airbus A380,Airnar,64,64,64,64,64
Airbus A380,FlyQ,61,61,61,61,61
Airbus A380,MoldaviAir,74,74,74,74,74
Airbus A380,PamPangea,73,73,73,73,73
Airbus A380,TabarAir,71,71,71,71,71


En este caso, no como en el primer que previamente a la función de "agregacion" (mean en ese caso) dijimos que sólo queríamos operar sobre la columna "consumo_kg", nos devuelve un `DataFrame`. Comprobémoslo: 

In [15]:
type(df_aviones.groupby(["avion","Aircompany"]).count())

pandas.core.frame.DataFrame

Como ya has visto podemos hacer el agrupado y luego sólo coger varias columnas y actuar sobre ellas, con diferentes funciones... Calcula ahora por Compañía y Destino el número de vuelos, venga...:

In [16]:
df_aviones.groupby(["Aircompany","Destino"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Origen,Distancia,avion,consumo_kg,duracion
Aircompany,Destino,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Airnar,Bali,37,37,37,37,37
Airnar,Cincinnati,40,40,40,40,40
Airnar,Cádiz,36,36,36,36,36
Airnar,Ginebra,35,35,35,35,35
Airnar,Los Angeles,31,31,31,31,31
Airnar,París,39,39,39,39,39
FlyQ,Bali,36,36,36,36,36
FlyQ,Barcelona,33,33,33,33,33
FlyQ,Cincinnati,21,21,21,21,21
FlyQ,Ginebra,33,33,33,33,33


Pero puede que queramos ver por ejemplo la duración media del vuelo y el consumo medio realizado por Compañía, Origen, Destino:

In [18]:
df_aviones.groupby(["Aircompany","Origen","Destino"]).mean()

TypeError: agg function failed [how->mean,dtype->object]

Nos da error, porque si la función de agregación no se puede aplicar a alguna de las columnas que no hacen agrupación y no se han filtrado, en este caso "avion" que es un str no admite media, da un error (contar filas no da error :-)

Tendríamos que filtar previamente como hemos hecho con "consumo_kg", y quedarnos con las columnas que queremos o por lo menos con aquellas para las que la función final que aplicamos (mean, en este caso) sea válida

In [22]:
df_medias=df_aviones.groupby(["Aircompany","Origen","Destino"])[["consumo_kg","duracion"]].mean()

In [23]:
df_medias

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,consumo_kg,duracion
Aircompany,Origen,Destino,Unnamed: 3_level_1,Unnamed: 4_level_1
Airnar,Bali,Cincinnati,112339.922240,1270.000000
Airnar,Bali,Cádiz,106410.468366,1074.750000
Airnar,Bali,Ginebra,111117.939111,933.500000
Airnar,Bali,Los Angeles,153932.767333,876.000000
Airnar,Bali,París,118795.798064,860.200000
...,...,...,...,...
TabarAir,Roma,Cincinnati,50946.369760,565.111111
TabarAir,Roma,Ginebra,4974.192300,68.750000
TabarAir,Roma,Londres,10142.387090,120.500000
TabarAir,Roma,Los Angeles,51744.312442,776.714286


Pero son muchos resultados, ¿como filtro? Pues aunque no hablermos mucho más de multindice, miremos varios ejemplos:

In [26]:
# Resultados para la compañía Airnar
df_medias.loc["Airnar"]

# Resultados para todos los vuelos París-Cádiz
df_medias.loc[:,"París","Cádiz"]

# Resultados para los vuelos a Ginebra y Nueva York de FlyQ
df_medias.loc["FlyQ",:,["Ginebra","Nueva York"]]



Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,consumo_kg,duracion
Aircompany,Origen,Destino,Unnamed: 3_level_1,Unnamed: 4_level_1
FlyQ,Bali,Ginebra,86324.406749,992.5
FlyQ,Bali,Nueva York,205535.498133,1305.0
FlyQ,Barcelona,Ginebra,3137.607,67.0
FlyQ,Barcelona,Nueva York,50478.315865,466.090909
FlyQ,Cincinnati,Ginebra,26536.620921,569.0
FlyQ,Cincinnati,Nueva York,7525.07864,83.3
FlyQ,Ginebra,Nueva York,52479.317869,478.333333
FlyQ,Nueva York,Ginebra,65028.9504,442.666667
FlyQ,Roma,Ginebra,3781.019467,68.666667
FlyQ,Roma,Nueva York,45099.22846,547.142857


Nosotros, en general, si queremos conservar la salida de un groupby para seguir procesándola, emplearemos el argumento `as_index` con valor "False"

In [27]:
resultado_no_index = df_aviones.groupby(["Aircompany","Origen","Destino"], as_index = False)[["consumo_kg","duracion"]].mean()

In [28]:
resultado_no_index

Unnamed: 0,Aircompany,Origen,Destino,consumo_kg,duracion
0,Airnar,Bali,Cincinnati,112339.922240,1270.000000
1,Airnar,Bali,Cádiz,106410.468366,1074.750000
2,Airnar,Bali,Ginebra,111117.939111,933.500000
3,Airnar,Bali,Los Angeles,153932.767333,876.000000
4,Airnar,Bali,París,118795.798064,860.200000
...,...,...,...,...,...
145,TabarAir,Roma,Cincinnati,50946.369760,565.111111
146,TabarAir,Roma,Ginebra,4974.192300,68.750000
147,TabarAir,Roma,Londres,10142.387090,120.500000
148,TabarAir,Roma,Los Angeles,51744.312442,776.714286


Porque de esta forma seguiremos teniendo toda la información en columnas, eso sí como se han agrupado observa que los índices originales (los identificadores del vuelo) pierden sentido y se pierden...