Introducción
¡Te damos la bienvenida al capítulo sobre transformaciones de datos!

En este capítulo, estudiarás más a fondo la agrupación y combinación de datos procedentes de distintas fuentes. 

Concretamente, aprenderás:

Cómo funciona la función groupby().

Una nueva forma de agrupar datos mediante tablas dinámicas.
A combinar datos de diferentes DataFrames mediante la concatenación y la fusión.
Seguiremos usando el conjunto de datos de ventas de videojuegos para ayudarte a aprender estas importantes técnicas de análisis de datos.

Completar este capítulo te tomará entre 2 y 2.5 horas. ¡Vámonos!

Procesamiento de datos agrupados con agg()

A estas alturas, ya te debería ser familiar el método groupby() de pandas. Este método nos permite modificar el formato de un conjunto de datos agrupando filas en función de los valores de una o varias columnas. En esta lección, revisaremos groupby() y brindaremos información más detallada sobre cómo funciona.

Echemos otro vistazo al conjunto de datos de ventas de videojuegos, usando dropna() para excluir los valores ausentes una vez más:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

print(df.head())

"""                    name platform  year_of_release     genre publisher  \
0             Wii Sports      Wii           2006.0    Sports  Nintendo   
2         Mario Kart Wii      Wii           2008.0    Racing  Nintendo   
3      Wii Sports Resort      Wii           2009.0    Sports  Nintendo   
6  New Super Mario Bros.       DS           2006.0  Platform  Nintendo   
7               Wii Play      Wii           2006.0      Misc  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
6  Nintendo     11.28      9.14      6.50          89.0         8.5  
7  Nintendo     13.96      9.18      2.93          58.0         6.6"""

Digamos que necesitamos la puntuación promedio de la crítica para cada género:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

mean_score = df.groupby('genre')['critic_score'].mean()
print(mean_score)

"""genre
Acción          67.852100
Aventura        66.422053
Lucha           69.693931
Misc            67.414508
Plataforma      70.000000
Rompecabezas    70.694915
Carreras        69.621160
De rol          72.823776
Shooter         70.968894
Simulación      69.983444
Deporte         74.110643
Estrategia      72.949458
Name: critic_score, dtype: float64"""

El índice del objeto Series mean_score es la “clave groupby()”, en este caso, los valores unívocos de la columna 'genre'. Hacer una operación groupby() cambia el índice de fila de los datos a las claves por las que estamos agrupando.

Para agrupar por varias columnas, pasamos una lista al método groupby():

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

grp = df.groupby(['platform', 'genre'])
print(grp['critic_score'].mean())

"""
Platform  genre
       
3DS       Acción          63.727273
          Aventura        68.333333
          Lucha           68.857143
          Misc            69.100000
          Plataforma      72.444444
                            ...    
XOne      De rol          80.777778
          Shooter         77.903226
          Simulación      53.000000
          Deporte         71.935484
          Estrategia      70.000000
Name: critic_score, Length: 197, dtype: float64"""

Ahora tenemos la puntuación promedio de la crítica para cada género en cada plataforma. Como agrupamos por dos columnas, nuestro resultado es un objeto Series de múltiples índices con dos valores de índice para cada puntuación promedio, en este caso, 'platform' y 'genre'.

Aquí la variable grp es un objeto que contiene el DataFrame agrupado antes de que procesemos cada grupo con el método mean(). Se denomina objeto "en espera". Si intentamos imprimir el objeto grp, se mostrará una representación del objeto en forma de texto.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

grp = df.groupby(['platform', 'genre'])
print(grp)

#<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022EA82A75B0>


Cuando imprimimos df.groupby('column_name'), no vemos la impresión de una tabla como ocurriría si imprimiéramos df. En cambio, vemos el tipo de datos del objeto agrupado (DataFrameGroupBy) y una cadena (0x0000022EA82A75B0) que representa la ubicación en la memoria de la computadora donde se almacena el objeto. No se mostrará ningún resultado hasta que procesemos los grupos.

Dividir-aplicar-combinar

El objeto DataFrameGroubBy forma parte de un framework de procesamiento de datos llamado dividir-aplicar-combinar:

- dividir los datos en grupos;
- aplicar una función de agregación estadística a cada grupo;
- combinar los resultados para cada grupo.

En el código a continuación, podemos ilustrar cada uno de los tres componentes de dividir-aplicar-combinar:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

grp = df.groupby(['platform', 'genre'])
mean_scores = grp['critic_score'].mean()
print(mean_scores)

"""Platform  genre       
3DS       Acción          63.727273
          Aventura        68.333333
          Lucha           68.857143
          Misc            69.100000
          Plataforma      72.444444
                            ...    
XOne      De rol          80.777778
          Shooter         77.903226
          Simulación      53.000000
          Deporte         71.935484
          Estrategia      70.000000
Name: critic_score, Length: 197, dtype: float64"""

Dividimos los datos en grupos con df.groupby(['platform', 'genre']), aplicamos el método mean() y combinamos el resultado en un objeto Series grp['critic_score'].mean().

Por supuesto, podemos omitir la creación de los objetos grp y mean_scores y hacer que pandas realice los tres pasos con una sola línea de código:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

print(df.groupby(['platform', 'genre'])['critic_score'].mean())

"""
Platform  genre       
3DS       Acción          63.727273
          Aventura        68.333333
          Lucha           68.857143
          Misc            69.100000
          Plataforma      72.444444
                            ...    
XOne      De rol          80.777778
          Shooter         77.903226
          Simulación      53.000000
          Deporte         71.935484
          Estrategia      70.000000
Name: critic_score, Length: 197, dtype: float64"""

El método agg()

Hasta ahora, solo hemos aplicado una única función a nuestros grupos. Pero, ¿qué pasa si queremos calcular diferentes estadísticas de resumen para diferentes columnas? Por ejemplo, tanto la puntuación promedio de los críticos como el total de ventas en Japón para cada grupo. Podemos conseguirlo utilizando el método agg(), que es la abreviatura de "aggregate" (agregar).

El método agg() usa un diccionario como entrada donde las claves son los nombres de columnas y los valores correspondientes son las funciones de agregación que quieres aplicarles:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

agg_dict = {'critic_score': 'mean', 'jp_sales': 'sum'}

grp = df.groupby(['platform', 'genre'])
print(grp.agg(agg_dict))

"""                       critic_score  jp_sales
Platform  genre                               
3DS       Acción       63.727273      6.60
          Aventura     68.333333      0.66
          Lucha        68.857143      0.46
          Misc         69.100000      1.22
          Plataforma   72.444444      5.94
...                           ...       ...
XOne      De rol       80.777778      0.01
          Shooter      77.903226      0.13
          Simulación   53.000000      0.00
          Deporte      71.935484      0.02
          Estrategia   70.000000      0.00

[197 rows x 2 columns]"""

¿No es increíble? ¡Incluso puedes aplicar tus propias funciones personalizadas con agg() de esta manera! Echa un vistazo:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

def double_it(sales):
    sales = sales.sum() * 2 # multiplica la suma anterior por 2
    return sales

agg_dict = {'jp_sales': double_it}

grp = df.groupby(['platform', 'genre'])
print(grp.agg(agg_dict))

"""                       jp_sales
platform genre
3DS      Acción           13.20
         Aventura         1.32
         Lucha            0.92
         Misc             2.44
         Plataforma       11.88
...                        ... 
XOne     De rol           0.02
         Shooter          0.26
         Simulación       0.00
         Deporte          0.04
         Estrategia       0.00

[197 rows x 1 columns]"""

Resumen

Vamos a recordar todo lo que hemos estudiado en esta lección:

- Método groupby(): método utilizado para agrupar datos por una o varias columnas en un DataFrame.
- grp = df.groupby(['platform', 'genre']) agrupará por dos columnas al mismo tiempo.
- Método agg(): método utilizado para calcular estadísticas agregadas para cada grupo en un DataFrame agrupado. Pásale un diccionario con ítems de 'column':'function'.
- Framework dividir-aplicar-combinar: framework de tratamiento de datos que describe el proceso de dividir un conjunto de datos en grupos, aplicar una función a cada grupo y, a continuación, combinar los resultados en una única estructura de datos.
- Método mean(): método utilizado para calcular la media de un conjunto de valores.
- Método sum(): método utilizado para calcular la suma de un conjunto de valores.
- Método dropna(): método utilizado para eliminar valores ausentes (NaN) de un DataFrame.
- Objeto DataFrameGroupBy: objeto que contiene el DataFrame agrupado antes de que este sea procesado con una función de agregación.

¡Es hora de que analicemos en detalle las ventas de videojuegos de cada género!

El precódigo crea una columna 'total_sales' como ya has hecho antes. Utilizarás estas columnas, así que apunta sus nombres.

A continuación, el precódigo agrupa el DataFrame df por la columna 'genre' y asigna el objeto agrupado resultante a la variable grp.

Y ahora vas a hacer lo siguiente:

Crear un diccionario para calcular para cada género:
- Suma del total de ventas.
- Ventas promedio NA (Norteamérica).
- Ventas promedio EU (Europa).
- Ventas promedio JP (Japón).

Asignar el diccionario a una variable llamada agg_dict con las tuplas descritas anteriormente.
Asignar el resultado de agg() a una variable llamada genre.
Imprimir genre.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']

grp = df.groupby('genre')

agg_dict = {
    'total_sales': 'sum',
    'na_sales': 'mean',
    'eu_sales': 'mean',
    'jp_sales': 'mean'
} # escribe aquí tu diccionario con cuatro tuplas, una por cada variable

genre = grp.agg(agg_dict) # utiliza aquí la función agg

print(genre) # muestra aquí los resultados

"""total_sales  na_sales  eu_sales  jp_sales
genre"""