## Ejemplo 4: Agrupando datos con `groupby`

### 1. Objetivos:
    - Aprender a usar `group-by` para segmentar nuestros conjuntos de datos y aplicar funciones agregadoras a cada segmento.
 
---
    
### 2. Desarrollo:

#### a) Segmentando datos con `groupby`

En nuestro Reto pasado construimos un nuevo conjunto de datos agregando la información de las tablas `occupations` y `age_ranges` a la tabla `users`. Vamos a leer este dataset primero:

In [1]:
import pandas as pd

In [4]:
users = pd.read_csv(
    '../../Datasets/MovieLens/users-full.csv', index_col=0)
users.head(3)

Unnamed: 0_level_0,gender,age_id,age_range,occupation_id,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,F,1,Under 18,10,K-12 student,48067
2,M,56,56+,16,self-employed,70072
3,M,25,25-34,15,scientist,55117


Vamos a ver qué pasa si agrupamos nuestro conjunto usando la columna `gender`:

In [5]:
# tu código
users.groupby("gender")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f731f86cb50>

Para ver algún resultado más legible tenemos que aplicar funciones agregadoras a nuestro objeto `groupby`:

In [6]:
# contamos
users.groupby("gender").size()

gender
F    1709
M    4331
dtype: int64

`size` nos hace un conteo de cuántas muestras hay en cada grupo y regresa el total. Ahora podemos ver entonces que hay 1709 mujeres y 4331 hombres en nuestro dataset.

También podemos pedir columnas específicas de nuestros grupos y aplicar agregaciones a cada columna:

In [10]:
# contamos por otra columna
users.groupby("gender")["occupation"].value_counts()

gender  occupation            
F       college/grad student      234
        other or not specified    232
        academic/educator         209
        executive/managerial      139
        doctor/health care        102
        clerical/admin            100
        artist                     91
        homemaker                  89
        sales/marketing            79
        writer                     78
        K-12 student               66
        technician/engineer        52
        self-employed              51
        programmer                 50
        retired                    34
        customer service           31
        scientist                  28
        lawyer                     22
        unemployed                 15
        tradesman/craftsman         4
        farmer                      3
M       executive/managerial      540
        college/grad student      525
        other or not specified    479
        technician/engineer       450
        programmer 

Podemos usar dos o más columnas para agrupar también. Lo que sucede es que el dataset se agrupa usando la primer columna, y luego, dentro de cada grupo se hace una segunda agrupación usando la segunda columna:

In [14]:
# agrupamos por más de una columna
users.groupby(
    ["gender", "age_range"])["occupation"].value_counts()

gender  age_range  occupation            
F       18-24      college/grad student      163
                   other or not specified     32
                   academic/educator          18
                   sales/marketing            15
                   writer                     14
                                            ... 
M       Under 18   executive/managerial        1
                   farmer                      1
                   lawyer                      1
                   programmer                  1
                   retired                     1
Name: occupation, Length: 241, dtype: int64

In [15]:
users.groupby(
    ["gender", "age_range"]).size()

gender  age_range
F       18-24         298
        25-34         558
        35-44         338
        45-49         189
        50-55         146
        56+           102
        Under 18       78
M       18-24         805
        25-34        1538
        35-44         855
        45-49         361
        50-55         350
        56+           278
        Under 18      144
dtype: int64

Aquí hemos segmentado nuestro dataset en dos niveles. En el primer nivel, podemos obtener datasets independientes para cada género:

In [16]:
# guardamos nuestros resultados en otra variable
users_counts = users.groupby(
    ["gender", "age_range"])["occupation"].value_counts()
users_counts

gender  age_range  occupation            
F       18-24      college/grad student      163
                   other or not specified     32
                   academic/educator          18
                   sales/marketing            15
                   writer                     14
                                            ... 
M       Under 18   executive/managerial        1
                   farmer                      1
                   lawyer                      1
                   programmer                  1
                   retired                     1
Name: occupation, Length: 241, dtype: int64

In [17]:
# consultamos sólo para el genero Fem!
users_counts.loc["F"]

age_range  occupation            
18-24      college/grad student      163
           other or not specified     32
           academic/educator          18
           sales/marketing            15
           writer                     14
                                    ... 
Under 18   other or not specified      9
           artist                      2
           unemployed                  2
           academic/educator           1
           executive/managerial        1
Name: occupation, Length: 110, dtype: int64

En un segundo nivel, podemos obtener datasets por cada rango de edades en cada género:

In [18]:
# consultamos un segundo nivel
users_counts.loc["F", "18-24"]

occupation
college/grad student      163
other or not specified     32
academic/educator          18
sales/marketing            15
writer                     14
artist                      9
clerical/admin              9
technician/engineer         6
unemployed                  6
customer service            5
homemaker                   5
K-12 student                3
doctor/health care          3
executive/managerial        3
programmer                  3
self-employed               2
lawyer                      1
scientist                   1
Name: occupation, dtype: int64

¡Genial!

In [21]:
l = [1,2,3,4,5]
m = ["a","b","c","d","e"]
tabla = list(zip(l,m))
for fila in tabla:
    print(fila)

(1, 'a')
(2, 'b')
(3, 'c')
(4, 'd')
(5, 'e')
