Tablas dinámicas

A estas alturas, esperamos haberte convencido de que groupby() es una herramienta excelente para agrupar datos y realizar análisis más complejos. Aunque siempre puedes usar groupby() para calcular las propiedades agregadas de tus datos, pandas también ofrece tablas dinámicas como método alternativo para agrupar y analizar datos.

Las tablas dinámicas son una gran herramienta para sintetizar conjuntos de datos y explorar sus diferentes dimensiones. Son muy populares en las aplicaciones de hojas de cálculo como Excel, pero es aún más impresionante crearlas mediante programación con pandas.

Echemos otro vistazo a los datos de ventas de videojuegos a continuación:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
print(df.head())

"""                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN"""

Supongamos que queremos determinar el total de ventas en Europa de cada género en cada plataforma. Las tablas dinámicas ofrecen un método rápido y cómodo para conseguirlo. Primero, vamos a examinar el código y luego a comentarlo. Para simplificar las cosas, eliminaremos las filas con valores ausentes.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

pivot_data = df.pivot_table(index='genre',
                            columns='platform',
                            values='eu_sales',
                            aggfunc='sum'
                           )
print(pivot_data)
print()
print(type(pivot_data))


"""platform       3DS    DC     DS    GBA    GC     PC     PS    PS2    PS3  \
genre                                                                      
Acción        8.41   NaN  11.25   5.95  6.11  15.32  21.15  63.97  94.17   
Aventura      0.46  0.24   1.17   1.07  1.01   1.58   0.32   3.27   6.34   
Lucha         0.84  0.00   0.28   0.85  2.73   0.11   5.63  15.46  13.69   
Misc          1.21   NaN  25.10   2.19  1.90   1.19   1.69   9.73   7.62   
Plataforma    8.41  0.00  13.00  10.62  5.19   0.33   6.09  17.11   7.26   
Rompecabezas  1.02   NaN  15.72   1.34  0.74   0.13   0.10   1.11   0.04   
Carreras      4.45  0.00   8.43   3.43  2.13   2.59  13.03  36.59  28.09   
De rol        3.10  0.00   6.00   3.96  2.36  24.32   8.70  16.33  16.81   
Shooter       0.27  0.00   0.43   0.38  2.79  18.28   2.31  31.38  65.43   
Simulación    4.40  0.00  12.21   0.56  1.74  22.35   0.44  10.08   2.71   
Deporte       0.56  0.05   0.94   1.52  3.75   6.47   5.66  47.85  30.62   
Estrategia    0.20   NaN   1.29   0.73  0.48  14.81   0.10   2.26   1.04   

platform        PS4    PSP   PSV    Wii  WiiU   X360     XB   XOne  
genre                                                               
Acción        35.66  13.08  2.79  21.87  4.81  64.30   9.82  10.11  
Aventura       1.55   0.85  0.56   2.43  0.05   3.50   0.46   0.76  
Lucha          2.40   2.10  0.44   4.86  0.34   8.17   2.13   0.48  
Misc           1.15   0.83  0.31  47.91  3.39  15.13   0.80   0.99  
Plataforma     2.84   3.02  1.22  21.13  6.27   3.58   2.21   0.28  
Rompecabezas   0.02   0.76  0.03   2.61  0.38   0.02   0.02    NaN  
Carreras       5.49   9.30  0.44  17.47  2.15  21.14   6.45   4.11  
De rol         8.01   3.47  1.06   1.88  0.42  17.32   2.83   2.75  
Shooter       28.83   5.12  1.49   4.49  1.57  70.02  14.56  14.03  
Simulación     0.47   1.79   NaN   6.21  0.04   3.56   1.31   0.01  
Deporte       25.81   7.46  0.43  73.08  0.68  25.74   9.23   8.65  
Estrategia     0.21   1.35   NaN   0.20  0.32   2.04   0.42   0.06  

<class 'pandas.core.frame.DataFrame'>"""

Creamos una tabla dinámica utilizando el método pivot_table(), que tiene un nombre muy apropiado. Los parámetros que utilizamos fueron:

- index=: la columna cuyos valores se convierten en índices en la tabla dinámica;
- columns=: la columna cuyos valores se convierten en columnas en la tabla dinámica;
- values=: la columna cuyos valores queremos agregar en la tabla dinámica;
- aggfunc=: la función de agregación que queremos aplicar a los valores en cada grupo de filas y columnas.

Cada celda de la tabla dinámica de arriba contiene las ventas totales en Europa para cada combinación particular de género/plataforma. También imprimimos el tipo de datos de la tabla dinámica para mostrar que es un DataFrame de pandas, que ya conocemos muy bien.

El uso de una tabla dinámica aquí es conveniente porque nos permite fácilmente excluir todas las columnas de df que no nos interesan para nuestro análisis. Además, puede ser más fácil de leer que el resultado equivalente de groupby(), como puedes ver a continuación.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

groupby_data = df.groupby(['genre', 'platform'])['eu_sales'].mean()
print(groupby_data)
print()
print(type(groupby_data))

"""genre         platform
Acción        3DS         0.152909
              DS          0.150000
              GBA         0.116667
              GC          0.088551
              PC          0.115188
              PS          0.783333
              PS2         0.263251
              PS3         0.409435
              PS4         0.424524
              PSP         0.176757
              PSV         0.075405
              Wii         0.179262
              WiiU        0.123333
              X360        0.274786
              XB          0.082521
              XOne        0.198235
Aventura      3DS         0.051111
              DC          0.120000
              DS          0.037742
              GBA         0.118889
              GC          0.077692
              PC          0.043889
              PS          0.064000
              PS2         0.081750
              PS3         0.317000
              PS4         0.110714
              PSP         0.065385
              PSV         0.056000
              Wii         0.110455
              WiiU        0.050000
              X360        0.233333
              XB          0.025556
              XOne        0.152000
Lucha         3DS         0.120000
              DC          0.000000
              DS          0.020000
              GBA         0.065385
              GC          0.113750
              PC          0.036667
              PS          0.375333
              PS2         0.211781
              PS3         0.240175
              PS4         0.218182
              PSP         0.070000
              PSV         0.048889
              Wii         0.186923
              WiiU        0.113333
              X360        0.145893
              XB          0.068710
              XOne        0.096000
Misc          3DS         0.121000
              DS          0.660526
              GBA         0.182500
              GC          0.118750
              PC          0.396667
              PS          0.422500
              PS2         0.180185
              PS3         0.185854
              PS4         0.143750
              PSP         0.039524
              PSV         0.038750
              Wii         0.684429
              WiiU        0.282500
              X360        0.244032
              XB          0.053333
              XOne        0.082500
Plataforma    3DS         0.467222
              DC          0.000000
              DS          0.371429
              GBA         0.221250
              GC          0.117955
              PC          0.033000
              PS          0.380625
              PS2         0.244429
              PS3         0.330000
              PS4         0.258182
              PSP         0.151000
              PSV         0.203333
              Wii         0.586944
              WiiU        0.418000
              X360        0.170476
              XB          0.085000
              XOne        0.070000
Rompecabezas  3DS         0.127500
              DS          0.302308
              GBA         0.223333
              GC          0.123333
              PC          0.032500
              PS          0.050000
              PS2         0.185000
              PS3         0.040000
              PS4         0.020000
              PSP         0.069091
              PSV         0.030000
              Wii         0.186429
              WiiU        0.126667
              X360        0.010000
              XB          0.020000
Carreras      3DS         0.890000
              DC          0.000000
              DS          0.468333
              GBA         0.163333
              GC          0.068710
              PC          0.057556
              PS          0.685789
              PS2         0.279313
              PS3         0.445873
              PS4         0.366000
              PSP         0.238462
              PSV         0.088000
              Wii         0.582333
              WiiU        2.150000
              X360        0.297746
              XB          0.084868
              XOne        0.293571
De rol        3DS         0.119231
              DC          0.000000
              DS          0.067416
              GBA         0.127742
              GC          0.107273
              PC          0.293012
              PS          0.310714
              PS2         0.139573
              PS3         0.215513
              PS4         0.333750
              PSP         0.049571
              PSV         0.034194
              Wii         0.072308
              WiiU        0.210000
              X360        0.298621
              XB          0.166471
              XOne        0.305556
Shooter       3DS         0.135000
              DC          0.000000
              DS          0.015926
              GBA         0.029231
              GC          0.069750
              PC          0.140615
              PS          0.192500
              PS2         0.247087
              PS3         0.540744
              PS4         0.847941
              PSP         0.170667
              PSV         0.298000
              Wii         0.154828
              WiiU        0.314000
              X360        0.454675
              XB          0.136075
              XOne        0.452581
Simulación    3DS         0.488889
              DC          0.000000
              DS          0.330000
              GBA         0.070000
              GC          0.174000
              PC          0.272561
              PS          0.088000
              PS2         0.224000
              PS3         0.150556
              PS4         0.235000
              PSP         0.223750
              Wii         0.238846
              WiiU        0.040000
              X360        0.127143
              XB          0.062381
              XOne        0.010000
Deporte       3DS         0.140000
              DC          0.050000
              DS          0.042727
              GBA         0.080000
              GC          0.056818
              PC          0.202187
              PS          0.353750
              PS2         0.244133
              PS3         0.266261
              PS4         0.629512
              PSP         0.124333
              PSV         0.071667
              Wii         1.001096
              WiiU        0.113333
              X360        0.183857
              XB          0.076281
              XOne        0.279032
Estrategia    3DS         0.066667
              DS          0.047778
              GBA         0.121667
              GC          0.068571
              PC          0.118480
              PS          0.025000
              PS2         0.059474
              PS3         0.130000
              PS4         0.052500
              PSP         0.096429
              Wii         0.033333
              WiiU        0.320000
              X360        0.107368
              XB          0.032308
              XOne        0.030000
Name: eu_sales, dtype: float64

<class 'pandas.core.series.Series'>"""

Un formato muy diferente, ¿verdad? Observa también que el resultado de groupby() devuelve un objeto Series, mientras que pivot_table() devuelve un DataFrame. Ya sea que elijas usar groupby() o pivot_table() depende de tus preferencias personales y, con el tiempo, desarrollarás la intuición sobre qué herramienta es la más conveniente para la tarea en cuestión.

EJERCICIO

Hemos filtrado el conjunto de datos de videojuegos para que solo contenga juegos que se lanzaron en el 2000 o después. Crea una tabla dinámica a partir del conjunto de datos filtrados que contenga el valor promedio para las ventas en Japón para cada combinación de género y año de lanzamiento.

- Los géneros servirán de índice.
- Las columnas de la tabla dinámica serán los años de lanzamiento.
- Utiliza la columna correspondiente como valores a ser agregados.
- Utiliza la función de agregación apropiada.

Asigna el resultado a una variable llamada df_pivot y luego muéstralo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df = df[df['year_of_release'] >= 2000]

#call pivot_table method and assign values
df_pivot = df.pivot_table(index='genre',
                         columns='year_of_release',
                         values='jp_sales',
                         aggfunc='mean') # escribe tu código aquí

print(df_pivot)

"""year_of_release    2000.0    2001.0    2002.0    2003.0    2004.0    2005.0    2006.0    2007.0    2008.0    2009.0    2010.0    2011.0    2012.0    2013.0    2014.0    2015.0    2016.0  2017.0  2020.0
genre                                                                                                                                                                                                    
Action           0.085000  0.089403  0.040800  0.029097  0.038560  0.032917  0.031413  0.029190  0.027149  0.043971  0.037965  0.045462  0.046453  0.074218  0.034734  0.063162  0.039719   0.010     NaN
Adventure        0.069375  0.050952  0.076905  0.035833  0.032368  0.017619  0.036901  0.042771  0.026145  0.023929  0.023529  0.035463  0.042456  0.037000  0.018400  0.019259  0.021071     NaN     NaN
Fighting         0.105172  0.151667  0.058148  0.067045  0.034359  0.071395  0.051273  0.054600  0.109643  0.056981  0.038000  0.058800  0.061724  0.064000  0.210000  0.037619  0.046875     NaN     NaN
Misc             0.138500  0.048462  0.064444  0.067547  0.028588  0.069217  0.145741  0.075894  0.034151  0.028155  0.033284  0.025902  0.098919  0.085476  0.057619  0.055128  0.032500     NaN     NaN
Platform         0.106667  0.082326  0.058701  0.025517  0.092576  0.013494  0.170556  0.070952  0.038065  0.166897  0.118710  0.094595  0.349091  0.058333  0.127000  0.100769  0.007333     NaN     NaN
Puzzle           0.081667  0.046667  0.008500  0.142500  0.102000  0.188182  0.079070  0.046364  0.014375  0.020886  0.011395  0.017907  0.087273  0.083333  0.058571  0.086667  0.000000     NaN     NaN
Racing           0.026744  0.056338  0.001942  0.025963  0.028028  0.057500  0.011600  0.011190  0.051341  0.005952  0.018246  0.048308  0.006667  0.033750  0.054444  0.015556  0.000417     NaN     NaN
Role-Playing     0.544828  0.232927  0.248000  0.200625  0.224833  0.129859  0.180273  0.120680  0.156339  0.165728  0.229806  0.151895  0.184615  0.280000  0.199438  0.087179  0.122407   0.025     NaN
Shooter          0.010000  0.014722  0.012911  0.002877  0.007386  0.013750  0.027391  0.018000  0.009277  0.012444  0.026173  0.028617  0.054583  0.029492  0.022979  0.080294  0.022553     NaN     NaN
Simulation       0.084667  0.134643  0.039474  0.041714  0.021481  0.237368  0.041754  0.033556  0.030756  0.007724  0.020494  0.021964  0.327222  0.122778  0.034545  0.106667  0.018333     NaN     0.0
Sports           0.078519  0.040625  0.024947  0.032000  0.041698  0.029256  0.062971  0.057771  0.026850  0.053607  0.023763  0.025455  0.048148  0.040566  0.029815  0.012373  0.019167     NaN     NaN
Strategy         0.222353  0.141000  0.109091  0.042162  0.063750  0.047586  0.012143  0.042836  0.034600  0.028438  0.038113  0.041304  0.074000  0.043158  0.070000  0.010000  0.017692     NaN     NaN"""
