# Agregación y resumen de datos

## Objetivos

Aprenderemos a agrupar datos y a aplicar funciones para sacar info de ellos.

## Introducción

La agregación y el resumen son herramientas esenciales en el análisis de datos. Nos permiten realizar cálculos en nuestros datos o ver estadísticas descriptivas para subconjuntos de los datos. Estos cálculos pueden ayudarnos a hacer una inferencia significativa con respecto a nuestros datos.

Vamos a utilizar el data set de 'vehicles.csv'

## Agrupación de datos

Pandas tiene una función que nos permite agrupar los datos: la función groupby.

La aplicación de la función groupby a un DataFrame devolverá un objeto DataFrameGroupBy. Tenemos que especificar las columnas que pretendemos agrupar.

In [1]:
import numpy as np
import pandas as pd

vehicles = pd.read_csv('Data/vehicles.csv')
vehicles.groupby(['Transmission'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000229D1275F98>

Este object no tiene valor hasta que no se le aplica una función.

## Agregación

Podemos aplicar diferentes funciones de agregación a nuestros datos agrupados. Podemos usar algunas funciones estándar o definir nuestras propias funciones y luego aplicarlas a los datos agregados usando la función agg().

Algunas funciones de agregación estándar son:
media, suma, cuenta, mediana, min, max, std.

También podemos usar la función agg() para aplicar múltiples agregaciones a la vez a todas las columnas especificadas.

Después de agregar, podemos solicitar que solo se aplique la agregación a las columnas que elegimos.

In [3]:
vehicles

Unnamed: 0,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950
1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.437500,2100
3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.437500,2550
5,Acura,2.2CL/3.0CL,1997,2.2,4.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,14.982273,20,26,22,403.954545,1500
6,Acura,2.2CL/3.0CL,1997,2.2,4.0,Manual 5-spd,Front-Wheel Drive,Subcompact Cars,Regular,13.733750,22,28,24,370.291667,1400
7,Acura,2.2CL/3.0CL,1997,3.0,6.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,16.480500,18,26,20,444.350000,1650
8,Acura,2.3CL/3.0CL,1998,2.3,4.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,14.982273,19,27,22,403.954545,1500
9,Acura,2.3CL/3.0CL,1998,2.3,4.0,Manual 5-spd,Front-Wheel Drive,Subcompact Cars,Regular,13.733750,21,29,24,370.291667,1400


In [3]:
#Here we aggregate 3 different columns and compute their mean based on the different transmission values
s = vehicles.groupby('Transmission')['Highway MPG', 'City MPG', 'Combined MPG'].mean()
print(type(s))
s

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0_level_0,Highway MPG,City MPG,Combined MPG
Transmission,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Auto (AV),40.0,35.0,37.0
Auto (AV-S6),25.0,22.0,23.0
Auto (AV-S8),22.0,20.0,21.0
Auto(A1),37.0,41.0,39.0
Auto(AM-S6),32.978261,24.315217,27.554348
Auto(AM-S7),25.300781,17.746094,20.425781
Auto(AM-S8),32.0,23.666667,26.666667
Auto(AM-S9),22.0,21.0,21.0
Auto(AM5),39.0,33.666667,36.0
Auto(AM6),31.345455,23.909091,26.736364


In [4]:
u = vehicles.groupby(['Transmission'])['Highway MPG', 'City MPG', 'Combined MPG'].mean()
type(u)

pandas.core.frame.DataFrame

In [5]:
#In this example we aggregate based on two columns and compute the median CO2 Emission
#for all combinations of fuel type and cylinders
vehicles.groupby(['Fuel Type', 'Cylinders'])['CO2 Emission Grams/Mile'].median()

Fuel Type                    Cylinders
CNG                          4.0          253.197321
                             6.0          417.030882
                             8.0          568.070913
Diesel                       4.0          308.484848
                             5.0          391.538462
                             6.0          439.000000
                             8.0          598.823529
                             10.0         598.823529
Gasoline or E85              4.0          355.480000
                             6.0          444.350000
                             8.0          592.466667
Gasoline or natural gas      4.0          386.391304
                             6.0          437.000000
                             8.0          740.583333
Gasoline or propane          8.0          666.525000
Midgrade                     6.0          416.000000
                             8.0          527.000000
Premium                      2.0          493.722222
       

In [6]:
#Here we produce the mean, median and standard deviation for combined MPG grouped by fuel type
vehicles.groupby(['Fuel Type'])['Combined MPG'].agg(['mean', 'median', 'std'])

Unnamed: 0_level_0,mean,median,std
Fuel Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CNG,18.133333,14.5,7.436663
Diesel,23.488474,21.0,7.054702
Gasoline or E85,17.572385,17.0,3.822538
Gasoline or natural gas,15.35,12.0,5.343712
Gasoline or propane,13.5,13.5,1.603567
Midgrade,17.378378,17.0,1.848381
Premium,19.343816,19.0,4.097972
Premium Gas or Electricity,31.647059,33.0,7.158397
Premium and Electricity,26.3,25.5,5.141165
Premium or E85,20.090909,20.0,3.676502


## Funciones de agregación personalizadas

No tenemos que estar limitados por el rango de funciones de agregación estándar. Si surge la necesidad, podemos escribir nuestra propia función de agregación.

Por ejemplo, en nuestro conjunto de datos de vehicles, podríamos querer averiguar para cada nivel de transmisión, cuál es la clase de vehículo más común. En otras palabras, nos gustaría encontrar la moda.

Podemos escribir nuestra propia implementación de la función de modo, pero sería más eficiente usar la implementación escalonada de esta función. Scipy es un paquete de Python para computación científica.

Primero definamos nuestra función personalizada usando la función de moda de scipy. Creamos una función personalizada ya que la función de modo devuelve una tupla con la moda y la frecuencia de la moda. Solo nos interesa la primera parte de la tupla.

In [4]:
from scipy import stats

def agg_mode(x):
    return(stats.mode(x)[0])

Ahora utilizamos la función personalizada  como parámetro de agg().

In [5]:
vehicles.groupby("Transmission")["Vehicle Class"].agg(agg_mode)



Transmission
Auto (AV)                                                 Compact Cars
Auto (AV-S6)                                              Compact Cars
Auto (AV-S8)                                              Midsize Cars
Auto(A1)                                               Subcompact Cars
Auto(AM-S6)                                               Compact Cars
Auto(AM-S7)                                           Minicompact Cars
Auto(AM-S8)                                               Compact Cars
Auto(AM-S9)                                                Two Seaters
Auto(AM5)                                                  Two Seaters
Auto(AM6)                                                 Compact Cars
Auto(AM7)                                                  Two Seaters
Auto(AM8)                           Standard Sport Utility Vehicle 4WD
Auto(AV-S6)                                               Midsize Cars
Auto(AV-S7)                                               Midsiz

In [10]:
vehicles.groupby(['Transmission'])['Vehicle Class'].apply(lambda x : x.mode()[0])

Transmission
Auto (AV)                                                 Compact Cars
Auto (AV-S6)                                              Compact Cars
Auto (AV-S8)                                              Midsize Cars
Auto(A1)                                               Subcompact Cars
Auto(AM-S6)                                               Compact Cars
Auto(AM-S7)                                           Minicompact Cars
Auto(AM-S8)                                               Compact Cars
Auto(AM-S9)                                                Two Seaters
Auto(AM5)                                                  Two Seaters
Auto(AM6)                                                 Compact Cars
Auto(AM7)                                                  Two Seaters
Auto(AM8)                           Standard Sport Utility Vehicle 4WD
Auto(AV-S6)                                               Midsize Cars
Auto(AV-S7)                                               Midsiz

In [12]:
vehicles.groupby(['Fuel Type'])['Combined MPG'].agg(['mean', 'median', 'std', agg_mode])

Unnamed: 0_level_0,mean,median,std,agg_mode
Fuel Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CNG,18.133333,14.5,7.436663,12
Diesel,23.488474,21.0,7.054702,17
Gasoline or E85,17.572385,17.0,3.822538,14
Gasoline or natural gas,15.35,12.0,5.343712,12
Gasoline or propane,13.5,13.5,1.603567,12
Midgrade,17.378378,17.0,1.848381,17
Premium,19.343816,19.0,4.097972,19
Premium Gas or Electricity,31.647059,33.0,7.158397,37
Premium and Electricity,26.3,25.5,5.141165,25
Premium or E85,20.090909,20.0,3.676502,23


In [9]:
vehicles.Make.mode()

0    Chevrolet
dtype: object

In [7]:
vehicles.mode()

Unnamed: 0,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
0,Chevrolet,F150 Pickup 2WD,1985,2.0,4.0,Automatic 4-spd,Front-Wheel Drive,Compact Cars,Regular,18.311667,15,24,18,493.722222,1850
