## Ejemplo 4: Agrupando datos con `groupby`

### 1. Objetivos:
    - Aprender a usar `group-by` para segmentar nuestros conjuntos de datos y aplicar funciones agregadoras a cada segmento.
 
---
    
### 2. Desarrollo:

#### a) Segmentando datos con `groupby`

En nuestro Reto pasado construimos un nuevo conjunto de datos agregando la información de las tablas `occupations` y `age_ranges` a la tabla `users`. Vamos a leer este dataset primero:

In [1]:
import pandas as pd

In [2]:
users = pd.read_csv(
    '../Datasets/users-full.csv', index_col=0)
users.head(3)

Unnamed: 0_level_0,gender,age_id,age_range,occupation_id,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,F,1,Under 18,10,K-12 student,48067
2,M,56,56+,16,self-employed,70072
3,M,25,25-34,15,scientist,55117


Vamos a ver qué pasa si agrupamos nuestro conjunto usando la columna `gender` y la función `groupby()`:

`dataframe.groupby(-columna-)`

In [3]:
users.groupby("gender")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f240c428350>

Para ver algún resultado más legible tenemos que aplicar funciones agregadoras a nuestro objeto `groupby`, por ejemplo podemos usar:

`dataframe.groupby(-columna-).size()`

In [4]:
users.groupby("gender").size()

gender
F    1709
M    4331
dtype: int64

`size` nos hace un conteo de cuántas muestras hay en cada grupo y regresa el total. Ahora podemos ver entonces que hay 1709 mujeres y 4331 hombres en nuestro dataset.

También podemos pedir columnas específicas de nuestros grupos y aplicar agregaciones a cada columna de la forma:

`dataframe.groupby(-columna-)[-columna segunda clasificación-].value_counts()`

In [6]:
users.groupby("gender")["age_range"].value_counts()

gender  age_range
F       25-34         558
        35-44         338
        18-24         298
        45-49         189
        50-55         146
        56+           102
        Under 18       78
M       25-34        1538
        35-44         855
        18-24         805
        45-49         361
        50-55         350
        56+           278
        Under 18      144
Name: age_range, dtype: int64

Podemos usar dos o más columnas para agrupar también. Lo que sucede es que el dataset se agrupa usando la primer columna, y luego, dentro de cada grupo se hace una segunda agrupación usando la segunda columna, por ejemplo:

`dataframe.groupby([-lista de columnas])[-columna-].value_counts()`

por ejemplo por `gender` y `age_range`:

In [13]:
# agrupamos por más de una columna
users.groupby(["gender", "age_range", "occupation"])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f240c326810>

Y que pasa si queremos conocer la cantidad de usuarios por cada rango de edad para cada género:

In [14]:
users.groupby(
    ["gender", "age_range", "occupation"]).size()

gender  age_range  occupation          
F       18-24      K-12 student              3
                   academic/educator        18
                   artist                    9
                   clerical/admin            9
                   college/grad student    163
                                          ... 
M       Under 18   programmer                1
                   retired                   1
                   sales/marketing           2
                   technician/engineer       2
                   unemployed               10
Length: 241, dtype: int64

Aquí hemos segmentado nuestro dataset en dos niveles. En el primer nivel, podemos obtener datasets independientes para cada género:

In [15]:
# guardamos nuestros resultados en otra variable
users_counts = users.groupby(["gender", "age_range", "occupation"]).size()
users_counts

gender  age_range  occupation          
F       18-24      K-12 student              3
                   academic/educator        18
                   artist                    9
                   clerical/admin            9
                   college/grad student    163
                                          ... 
M       Under 18   programmer                1
                   retired                   1
                   sales/marketing           2
                   technician/engineer       2
                   unemployed               10
Length: 241, dtype: int64

In [16]:
# consultamos sólo para el genero Fem usando .loc["F"]
users_counts.loc["F"]

age_range  occupation            
18-24      K-12 student                3
           academic/educator          18
           artist                      9
           clerical/admin              9
           college/grad student      163
                                    ... 
Under 18   academic/educator           1
           artist                      2
           executive/managerial        1
           other or not specified      9
           unemployed                  2
Length: 110, dtype: int64

En un segundo nivel, podemos obtener datasets por cada rango de edades en cada género:

In [17]:
# consultamos un segundo nivel usando .loc["F", "18-24"]
users_counts.loc["F", "18-24"]

occupation
K-12 student                3
academic/educator          18
artist                      9
clerical/admin              9
college/grad student      163
customer service            5
doctor/health care          3
executive/managerial        3
homemaker                   5
lawyer                      1
other or not specified     32
programmer                  3
sales/marketing            15
scientist                   1
self-employed               2
technician/engineer         6
unemployed                  6
writer                     14
dtype: int64

¡Genial!

In [18]:
users_counts.to_csv("users_counts.csv")