## Ejemplo 4: Agrupando datos con `groupby`

### 1. Objetivos:
    - Aprender a usar `group-by` para segmentar nuestros conjuntos de datos y aplicar funciones agregadoras a cada segmento.
 
---
    
### 2. Desarrollo:

#### a) Segmentando datos con `groupby`

En nuestro Reto pasado construimos un nuevo conjunto de datos agregando la información de las tablas `occupations` y `age_ranges` a la tabla `users`, pero por si aún no lo has hecho podemos usar el archivo `users-full.csv` en la carpeta Datasets:

In [None]:
import pandas as pd

In [None]:
users = ...

users.head()

Vamos a ver qué pasa si agrupamos nuestro conjunto usando la columna `gender` y la función `groupby()`:

`dataframe.groupby(-columna-)`

In [None]:
...

Cuando se hace una agrupación y tener un resultado más tangible tenemos que aplicar funciones agregadoras a nuestro objeto `groupby`, por ejemplo podemos usar:

`dataframe.groupby(-columna-).size()`

In [None]:
...

`size` nos hace un conteo de cuántas muestras hay en cada grupo y regresa el total. Ahora podemos ver entonces que hay 1709 mujeres y 4331 hombres en nuestro dataset.

También podemos pedir columnas específicas de nuestros grupos y aplicar agregaciones a cada columna de la forma:

`dataframe.groupby(-columna-)[-columna segunda clasificación-].value_counts()`

entonces ahora veamos por género la cantidad de personas por categoría de ocupaciones:

In [None]:
...

Podemos usar dos o más columnas para agrupar también. Lo que sucede es que el dataset se agrupa usando la primer columna, y luego, dentro de cada grupo se hace una segunda agrupación usando la segunda columna, por ejemplo:

`dataframe.groupby([-lista de columnas])[-columna-].value_counts()`

por ejemplo por `gender` y `age_range`:

In [None]:
users.groupby(...)

Y que pasa si queremos conocer la cantidad de usuarios por cada rango de edad para cada género podemos usar la forma:

`df.groupby(-lista de columnas-).size()`

In [None]:
...

Aquí hemos segmentado nuestro dataset en dos niveles. En el primer nivel, podemos obtener datasets independientes para cada género, primero guardemos el resultado anterior en otra variable:

In [None]:
users_counts = 

users_counts

Ahora consultamos el conteo sólo para el género femenino con `df.loc["F"]`, ya que así accedemos al primer nivel:

In [None]:
...

En un segundo nivel, podemos obtener datasets por cada rango de edades en cada género, por ejemplo cuantos usuarios hay con género femenino y en el rango de 18 a 24 usando `df.loc[-indice 1er nivel-, -índice 2o nivel-]`

In [None]:
...

¡Genial!

Ahora, no todas las funciones están disponibles para ser aplicadas a objetos `groupby`, hay algunas funciones que no podemos utilizar directamente y que para poder aplicarlas necesitamos usar el método `agg` (aggregations). `agg` recibe una función o una lista de funciones y se las aplica a las columnas solicitadas de cada grupo.

Por ejemplo, podemos encontrar la "moda" (la categoría que más veces aparece en una columna específica) usando la forma:

`df.groupby(-columna-)[-columna-].agg( pd.Series.mode )`

en este caso queremos encontrar la ocupación que más realizan los usuarios por género:

In [None]:
...

Podemos aplicar la función a dos columnas al mismo tiempo usando la forma:

`df.groupby(-columna-)[-lista de columnas-].agg( pd.Series.mode )`

en este caso queremos encontrar la ocupación que más realizan los usuarios y el rángo de edad donde hay más usuarios agrupado por género:

In [None]:
...

Y también podemos aplicar varias funciones al mismo tiempo pasándole a `agg` una lista de funciones. En este caso vamos a usar algunos análisis estadísticos a la columna `age_id`. En realidad estos análisis no van a ser precisos porque esta columna contiene ids que representan rangos de edades, no edades como tal. Pero considéralo un simple ejemplo para ver cómo funcionan las herramientas calculando la media (mean), la mediana (median) y la desviación estándar (std) en la forma:

`df.groupby(-columna-)[-columna-].agg( -lista de operaciones- )`

In [None]:
users.groupby('gender')['age_id'].agg(['mean', 'median', 'std'])

Ahora si, los retos son todos tuyos!