# Agrupando

Podemos agrupar información de nuestras estructuras de datos de forma muy sencilla mediante el método `groupby`. Normalmente se sigue una estrategia de separar-aplicar-combinar (*split-apply-combine*). Lo que se hace es separar los datos iniciales en grupos de interés, sobre cada grupo se aplica cierta funcionalidad y el resultado se combina en una nueva estructura de datos.

In [None]:
import pandas as pd

In [None]:
# swim100m.csv Source: ‘Statistical Modeling: A Fresh Approach’

data = spark.read.csv('/data/sandboxes/fcol/data/data/swim100m.csv',sep=",",inferSchema=True,header=True).toPandas()
data.head()

In [3]:
# Agrupamos por sexo

grouped_sex = data.groupby(by='sex')
grouped_sex

<pandas.core.groupby.DataFrameGroupBy object at 0x7fe0b09da470>

In [4]:
# El número de agrupaciones por sexo (len(grouped_sex)) es igual al número de elementos únicos de esa categoria

data['sex'].nunique() == len(grouped_sex)

True

In [5]:
# Números de elementos de cada grupo

grouped_sex.size()

sex
F    31
M    31
dtype: int64

In [6]:
# Devuelve el primer elemento de cada grupo

grouped_sex.first()

Unnamed: 0_level_0,year,time
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
F,1908,95.0
M,1905,65.8


In [7]:
# Devuelve un diccionario con los grupos creados y las etiquetas (registros) que pertecen a cada grupo.

grouped_sex.groups

{'F': Int64Index([31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47,
             48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61],
            dtype='int64'),
 'M': Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
             17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
            dtype='int64')}

In [8]:
# Mediante get_group podemos seleccionar uno de los grupos y devolvernos su información como un dataframe

grouped_sex.get_group('M').head()

Unnamed: 0,time,year
0,65.8,1905
1,65.6,1908
2,62.8,1910
3,61.6,1912
4,61.4,1918


Una vez realizada la agrupación que nos interesa podemos aplicar una transformación sobre alguna de las variables restantes.

In [9]:
# En este caso calculamos la media del año por sexo

a = data.groupby('sex')['year'].mean()
print(a)

sex
F    1950.677419
M    1953.612903
Name: year, dtype: float64


Se puede iterar sobre el resultado obtenido con `groupby` (devuelve una tupla). El primer item es el valor de las columnas y el segundo es el `DataFrame` filtrado:

In [10]:
for k, v in data.groupby('sex'):
    print(k, ':', v.mean(), '\n')

F : year    1950.677419
time      65.192258
dtype: float64 

M : year    1953.612903
time      54.656129
dtype: float64 



También se pueden agrupar los datos respecto a más de una columna. El resultado son tuplas anidadas, por ejemplo:

In [11]:
auto = pd.read_csv('../../data/Auto.csv')
auto.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [12]:
auto.groupby(['horsepower', 'cylinders']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,year,origin
horsepower,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
100,3,23.700000,70.000000,2420.000000,12.500000,80.000000,3.000000
100,4,32.900000,119.000000,2615.000000,14.800000,81.000000,3.000000
100,6,18.433333,236.133333,3228.066667,16.133333,73.800000,1.000000
102,4,20.000000,130.000000,3150.000000,15.700000,76.000000,2.000000
103,5,20.300000,131.000000,2830.000000,15.900000,78.000000,2.000000
105,4,25.550000,156.000000,2772.500000,15.550000,79.000000,1.000000
105,6,18.700000,235.333333,3469.111111,16.600000,75.222222,1.000000
105,8,26.600000,350.000000,3725.000000,19.000000,81.000000,1.000000
107,6,21.000000,155.000000,2472.000000,14.000000,73.000000,1.000000
108,6,19.000000,156.000000,2930.000000,15.500000,76.000000,3.000000


Otra opción para trabajar con datos agrupados en `Pandas` es utilizar la función agg(), que nos permite aplicar varias funciones sobre una agrupación.

In [3]:
fortune = spark.read.csv('/data/sandboxes/fcol/data/data/fortune1000.csv',sep=",",inferSchema=True,header=True, ).toPandas()


In [4]:
fortune = fortune.set_index('Rank')
fortune.head()

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Walmart,Retailing,General Merchandisers,"Bentonville, AR",482130,14694,2300000
2,Exxon Mobil,Energy,Petroleum Refining,"Irving, TX",246204,16150,75600
3,Apple,Technology,"Computers, Office Equipment","Cupertino, CA",233715,53394,110000
4,Berkshire Hathaway,Financials,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000
5,McKesson,Health Care,Wholesalers: Health Care,"San Francisco, CA",181241,1476,70400


In [5]:
# Agrupamos por sector y realizamos operaciones sobre cada grupo y varios campos.

sectors = fortune.groupby(by='Sector')
sectors.agg({'Revenue':['sum','mean'], 'Profits':'sum','Employees':'mean'}) 

Unnamed: 0_level_0,Revenue,Revenue,Employees,Profits
Unnamed: 0_level_1,sum,mean,mean,sum
Sector,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Aerospace & Defense,357940,17897.0,48402.85,28742
Apparel,95968,6397.866667,23093.133333,8236
Business Services,272195,5337.156863,26687.254902,28227
Chemicals,243897,8129.9,15455.033333,22628
Energy,1517809,12441.057377,9745.303279,-73447
Engineering & Construction,153983,5922.423077,15642.615385,5304
Financials,2217159,15950.784173,24172.28777,260209
Food and Drug Stores,483769,32251.266667,93026.533333,16759
"Food, Beverages & Tobacco",555967,12929.465116,28177.488372,51417
Health Care,1614707,21529.426667,35710.52,106114


Otra forma de agrupar la información de un dataframe es a través de anidar índices, dando lugar a una **multiIndex dataframe**

In [7]:
bigmac = spark.read.csv('/data/sandboxes/fcol/data/data/bigmac.csv',sep=",",inferSchema=True,header=True, ).toPandas()
bigmac.head(3)

Unnamed: 0,Date,Country,Price in US Dollars
0,1/2016,Argentina,2.39
1,1/2016,Australia,3.74
2,1/2016,Brazil,3.35


In [8]:
bigmac.set_index(keys = ['Date','Country'], inplace=True) # Crea un DF multiindex
bigmac.sort_index(inplace= True)
bigmac

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
1/2010,Argentina,1.84
1/2010,Australia,3.98
1/2010,Brazil,4.76
1/2010,Britain,3.67
1/2010,Canada,3.97
1/2010,Chile,3.18
1/2010,China,1.83
1/2010,Colombia,3.91
1/2010,Costa Rica,3.52
1/2010,Czech Republic,3.71


In [11]:
# El acceso a los datos se realiza pasando la tupla de valores correspondiente al índice

bigmac.loc[('1/2010','Argentina'),'Price in US Dollars']

1.84

# Ejercicios

## Ejercicio 1 

Dado el fichero de datos ../../data/u.user

- a. Cargue el fichero en un dataframe (indexe por 'user_id') y estudie las estructura de los datos.
- b. ¿Cúal es la edad media por profesión?.
- c. Para cada profesión, ¿cúal es la edad mínima y máxima?.
- d. Para cada combinación de profesión y género, calcule la edad media.
- e. Para cada profesión, calcule el porcentaje de mujeres y hombres

##### Solución Ejercicio 1

Cargue el fichero en un dataframe (indexe por 'user_id') y estudie las estructura de los datos.

In [19]:
# Aqui su respuesta

¿Cúal es la edad media por profesión?

In [20]:
# Aqui su respuesta

Para cada profesión, ¿cúal es la edad mínima y máxima?

In [21]:
# Aqui su respuesta

Para cada combinación de profesión y género, calcule la edad media

In [22]:
# Aqui su respuesta

Para cada profesión, calcule el porcentaje de mujeres y hombres.

In [23]:
# Aqui su respuesta

## Ejercicio 2 

Dados los siguientes datos:

raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 
        'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'], 
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'], 
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}

- a. Cree un dataframe con nombre 'regiment'. No olvide asignar el nombre correspondiente a cada columna.
- b. Muestre un resumen estadístico para cada compañia
- c. Muestre la media de preTestScores agrupado por regiment y company
- d. ¿Cúal es el número de observaciones por regiment y company?
- e. Agrupe sobre regiment, itere sobre los grupos creados e imprima la información de cada uno.


Cree un dataframe con nombre 'regiment'. No olvide asignar el nombre correspondiente a cada columna.

In [24]:
# Aqui su respuesta

In [25]:
# Aqui su respuesta

Muestre un resumen estadístico para cada compañia

In [26]:
# Aqui su respuesta

Muestre la media de preTestScores agrupado por regiment y company

In [27]:
# Aqui su respuesta

¿Cúal es el número de observaciones por regiment y company?

In [29]:
# Aqui su respuesta

Agrupe sobre regiment, itere sobre los grupos creados e imprima la información de cada uno.

In [30]:
# Aqui su respuesta