# Agregación de datos por categoría

Agregar datos significa combinar los datos con alggún criterio, el más típico es con una variable categórica, para agrupar todos los datos con una misma categoría.  (Cluster ¿?)

In [2]:
import numpy as np
import pandas as pd

In [3]:
gender = ["Male", "Female"]
income = ["Poor", "Middle Class", "Rich"]

In [5]:
#Creamos datos aleatorios para género y para ingresos
tamaño_data = 500  

gender_data = []
income_data = []

for i in range(0,tamaño_data):
    gender_data.append(np.random.choice(gender))
    income_data.append(np.random.choice(income))

In [8]:
gender_data[1:10]

['Female', 'Male', 'Female', 'Male', 'Male', 'Male', 'Male', 'Male', 'Female']

In [9]:
income_data[1:10]

['Rich',
 'Poor',
 'Rich',
 'Middle Class',
 'Middle Class',
 'Middle Class',
 'Middle Class',
 'Poor',
 'Poor']

In [10]:
# Ya podemos crear datos ya numéricos para altura, pesos, edad y valor ingresos. 
# Z -> N(0, 1)   pero podemos cambiar, recuerda  N(m, sd) = m + s * Z  (Distribucipon NORMAL con media m y SD sd)

height = 160 + 30 * np.random.randn(tamaño_data)
weight = 65 + 25 * np.random.randn(tamaño_data)
age = 30 + 12 * np.random.randn(tamaño_data)
income = 18000 + 3500 * np.random.randn(tamaño_data)

In [12]:
data = pd.DataFrame(
    {
        "Gender":gender_data, 
        "Economic Status": income_data, 
        "Height": height, 
        "Weight": weight, 
        "Age": age, 
        "Incom": income
    }
)

In [14]:
data.head()  # Ya podemos ver el dummy dataset creado!

Unnamed: 0,Gender,Economic Status,Height,Weight,Age,Incom
0,Female,Middle Class,148.636197,28.335887,32.162108,16870.874759
1,Female,Rich,154.342966,80.050752,29.16851,11961.408017
2,Male,Poor,123.042122,87.956318,40.485877,17905.822771
3,Female,Rich,127.811926,75.077262,18.554687,10427.692374
4,Male,Middle Class,201.389432,20.238025,40.621374,24649.056464


## Agrupación de datos
Simplemente usamos <b>groupby</b>. Tener cuidado que esto lo que genera es un dato de tipo <b>DataFrameGroupBy</b> que tendrá dos atribos:
* El nombre 
* El index de cada valor 

In [15]:
grouped_gender = data.groupby("Gender")

In [20]:
# acá podemos ver el los grupos y los index.
grouped_gender.groups  

{'Female': Int64Index([  0,   1,   3,   9,  10,  11,  13,  15,  18,  21,
             ...
             486, 488, 490, 491, 492, 494, 495, 496, 497, 498],
            dtype='int64', length=256),
 'Male': Int64Index([  2,   4,   5,   6,   7,   8,  12,  14,  16,  17,
             ...
             473, 474, 475, 476, 480, 485, 487, 489, 493, 499],
            dtype='int64', length=244)}

In [21]:
#acá podemos ver los datos por cada uno de las agrupaciones complet
for names, groups in grouped_gender:  
    print(names)
    print(groups)

Female
     Gender Economic Status      Height      Weight        Age         Incom
0    Female    Middle Class  148.636197   28.335887  32.162108  16870.874759
1    Female            Rich  154.342966   80.050752  29.168510  11961.408017
3    Female            Rich  127.811926   75.077262  18.554687  10427.692374
9    Female            Poor  157.934029   64.578637  26.325178  17714.826252
10   Female            Rich  138.854331   90.717373  18.191405  15474.586766
11   Female    Middle Class  147.837680   84.035027  -4.790399  25730.021107
13   Female            Poor  236.675328   79.085740  28.321716  13163.808351
15   Female    Middle Class  177.884452   71.409135  17.787832  18421.885086
18   Female    Middle Class  200.038527   81.447138  39.600531  19309.063186
21   Female            Poor  134.472338   63.776038  62.944965  18981.045587
23   Female            Rich  134.162047   52.723210  27.856646  17652.917758
24   Female            Poor  167.052291   38.549702  27.561030  13117

In [22]:
# Si sólo quiero UNO de los grupos, lo podemos obtener de la siguiente manera, dándo el nombre del grupo que queremos: 
grouped_gender.get_group("Female")

Unnamed: 0,Gender,Economic Status,Height,Weight,Age,Incom
0,Female,Middle Class,148.636197,28.335887,32.162108,16870.874759
1,Female,Rich,154.342966,80.050752,29.168510,11961.408017
3,Female,Rich,127.811926,75.077262,18.554687,10427.692374
9,Female,Poor,157.934029,64.578637,26.325178,17714.826252
10,Female,Rich,138.854331,90.717373,18.191405,15474.586766
11,Female,Middle Class,147.837680,84.035027,-4.790399,25730.021107
13,Female,Poor,236.675328,79.085740,28.321716,13163.808351
15,Female,Middle Class,177.884452,71.409135,17.787832,18421.885086
18,Female,Middle Class,200.038527,81.447138,39.600531,19309.063186
21,Female,Poor,134.472338,63.776038,62.944965,18981.045587


Se pueden hacer agrupaciones por más de una categoría. Se debe tener en cuenta que el número de agrupaciones resultantes es el número de valores que tenga cada categoría multiplicadas entre sí. Por ejemplo, si agrupamos por "Gender" y " Economic Status": 

* Gender tiene 2 categorías
* Economic Status tiene 3 categorías

El resultado de la agrupación serán: 

* 2 x 3 = 6.   6 Grupos. 

In [23]:
#Acá el ejemplo en código de lo anterior: 
double_grouped = data.groupby(["Gender", "Economic Status"])

In [25]:
#Verificamos el tamaño y en efecto es el producto del tamaño de cada categoría
len(double_grouped)

6

In [26]:
# para poder verlos lo podemos ver igual que antes: 
for names, groups in double_grouped:  
    print(names)
    print(groups)

('Female', 'Middle Class')
     Gender Economic Status      Height      Weight        Age         Incom
0    Female    Middle Class  148.636197   28.335887  32.162108  16870.874759
11   Female    Middle Class  147.837680   84.035027  -4.790399  25730.021107
15   Female    Middle Class  177.884452   71.409135  17.787832  18421.885086
18   Female    Middle Class  200.038527   81.447138  39.600531  19309.063186
28   Female    Middle Class  220.575983   21.344947  16.700229  18360.015618
32   Female    Middle Class  175.657737   30.435681  40.363559  12560.773085
40   Female    Middle Class  131.459971   17.240251  42.670823  24100.335183
41   Female    Middle Class  157.654072   51.221900  43.300763  17329.311132
48   Female    Middle Class  143.304268  100.312165  25.278126  19030.487654
50   Female    Middle Class  160.202332   33.766923  15.940909  18172.856049
53   Female    Middle Class  137.931030   74.299772  34.166007  18558.388633
68   Female    Middle Class  195.355170  102.4987

[86 rows x 6 columns]
('Male', 'Rich')
    Gender Economic Status      Height      Weight        Age         Incom
33    Male            Rich  169.516367   39.461957  21.593863  17877.810900
35    Male            Rich  228.503119   72.567272  29.668512  15891.091963
37    Male            Rich  137.322370   98.033586  20.603076  23117.881562
38    Male            Rich  178.182386   80.365767  34.225327  18926.067127
46    Male            Rich  145.201613  121.267118  26.596307  18253.561444
51    Male            Rich  161.159876   96.873207   3.233316  14216.801829
52    Male            Rich  173.203535   73.433107  21.264613  21668.173009
66    Male            Rich  151.825709   73.328143  16.685593  21278.748756
72    Male            Rich  159.708155   37.019641  14.208269  20692.923380
75    Male            Rich  118.280471  108.135530  27.397651  16608.599221
76    Male            Rich  153.842618   59.694219  35.953753  13811.461872
86    Male            Rich  174.267792   43.24095