# Crear DataFrames agrupados
`pandas` tiene una clase de objetos llamados `GroupedDataFrame` que permite agrupar las filas (o columnas) de un DataFrame.

- Un ejemplo podría ser un conjunto de datos asociados a individuos para el que que queramos distinguir entre hombres y mujeres a la hora de calcular indicadores. 
- Otro caso podría ser el de mediciones asociadas a instantes de tiempo, y queremos calcular resúmenes para cada hora del día.

Para crear dataframes agrupados, usaremos el método `groupby`. (ver [User guide, Group by: split-apply-combine](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html))


## Consideremos el siguiente DataFrame:



In [None]:
df = pd.DataFrame(
    {
     "X": ['a', 'a', 'a', 'a', 'b', 'b', 'c', 'c'],
     "Y": np.arange(8),
     "Z": np.arange(8,16)
    }
)
df

Agrupamos según los valores de la columna X

Podemos iterar un `GroupedDataFrame` para recorrer los grupos:

Podemos aplicarle métodos preparados para `GroupedDataFrame` como `mean`, `sum` o `describe` 

Nos devuelve el valor de la media por grupos de las dos columnas Y y Z.

## Podemos especificar más de una columna para crear los grupos.

Para ilustrarlo, cargamos el DataFrame de `flights` que contiene todos los vuelos que salieron de los tres aeropuertos de NYC en 2013.

Agrupamos los vuelos para hacer recuentos desglosados por mes y por aeropuerto de origen

Aplicamos el método `size` para hacer el recuento de filas (vuelos) por grupo:

In [None]:
agrupados.size()

## Podemos crear grupos al especificar una función que se aplica a los valores del index

Para ilustrarlo, cargamos el fichero `mompean`


Queremos crear grupos que correspondan a las distintas horas del día, para ver si hay diferencias en el patrón horario de contaminación.

Para ello, pasamos a `groupby` una función que se aplique a las etiquetas de las filas (index) y que extraiga la hora de un objeto de tipo `dtime`

Hemos usado una función anónima. Aplicamos el método `mean`

## Podemos aplicar más de una función en `groupby`

Pasamos una lista de funciones

Calculamos la media desglosada por grupo:

# Realizar operaciones sobre `GroupedDataFrame`s

Podemos realizar tres tipos de operaciones que se traducen en tres verbos

- `aggregate`: se trata de resumir cada grupo calculando uno o varios indicadores, por ejemplo su media o su media y desviación típica
- `transform`: se trata de calcular para cada grupo una o varias columnas con el mismo `index` que el grupo, por lo tanto con el mismo número de filas y las mismas etiquetas. Por ejemplo puedo, dentro de cada grupo, normalizar los valores respecto a la media y la desviación típica del grupo.
- `filter`: se trata de seleccionar grupos  que cumplen un determinado criterio

Consideramos el DataFrame:

In [None]:
df = pd.DataFrame(
    {
        "X": ['a', 'a', 'a', 'a', 'b', 'b', 'c', 'c'], 
        "Y": np.arange(8),
        "Z": np.arange(8,16)
    }
)
df

Agrupamos según los valores de `X` y aplicamos el método `agg`, pasándole la función para calcular el indicador.

Ya vimos que se puede obtener el mismo resultado sin usar `agg`

Usar `agg` permite, por una parte, aplicar más de una función

Por otra parte, permite usar nuestras propias funciones.

Para ilustrarlo, modificamos `df` para introducir datos faltantes

In [None]:
df.loc[[0, 2, 5], 'Y'] = np.NaN
df.loc[6, 'Z'] = np.NaN
df

Calculamos el número de datos faltantes por columna, desglosándolo por grupos

Cargamos el conjunto de datos de vuelos que salieron en 2013 de uno de los tres aeropuertos de NYC

Queremos obtener el número de vuelos cancelados por hora (tienen `NaN` en la columna `dep_time`)

Así obtenemos el número de valores faltantes para todas las columnas. Como solamente nos interesan las de `dep_time`, modificamos nuestra petición

## Para aplicar funciones diferentes a diferentes columnas:
Hasta el momento, hemos obtenido los mismos indicadores para las diferentes columnas. Es posible especificar funciones diferentes para distintas columnas, usando un dictionario.