# **Transformación de datos**

## Procesamiento de datos agrupados con agg()

Utilizaremos la misma BD de Videojuegos


```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

print(df.head())

#Resultado =================================
                    name platform  year_of_release     genre publisher  \
0             Wii Sports      Wii           2006.0    Sports  Nintendo   
2         Mario Kart Wii      Wii           2008.0    Racing  Nintendo   
3      Wii Sports Resort      Wii           2009.0    Sports  Nintendo   
6  New Super Mario Bros.       DS           2006.0  Platform  Nintendo   
7               Wii Play      Wii           2006.0      Misc  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
6  Nintendo     11.28      9.14      6.50          89.0         8.5  
7  Nintendo     13.96      9.18      2.93          58.0         6.6
```


Digamos que necesitamos la puntuación promedio de la crítica para cada género:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

mean_score = df.groupby('genre')['critic_score'].mean()
print(mean_score)

#Resultado ============================

genre
Acción          67.852100
Aventura        66.422053
Lucha           69.693931
Misc            67.414508
Plataforma      70.000000
Rompecabezas    70.694915
Carreras        69.621160
De rol          72.823776
Shooter         70.968894
Simulación      69.983444
Deporte         74.110643
Estrategia      72.949458
Name: critic_score, dtype: float64
```

El índice del objeto Series mean_score es la “clave groupby()”, en este caso, los valores unívocos de la columna 'genre'. Hacer una operación groupby() cambia el índice de fila de los datos a las claves por las que estamos agrupando.

Para agrupar por varias columnas, pasamos una lista al método groupby():
```python

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

grp = df.groupby(['platform', 'genre'])
print(grp['critic_score'].mean())

#Resultado ================================

Platform  genre       
3DS       Acción          63.727273
          Aventura        68.333333
          Lucha           68.857143
          Misc            69.100000
          Plataforma      72.444444
                            ...    
XOne      De rol          80.777778
          Shooter         77.903226
          Simulación      53.000000
          Deporte         71.935484
          Estrategia      70.000000
Name: critic_score, Length: 197, dtype: float64
```

Ahora tenemos la puntuación promedio de la crítica para cada género en cada plataforma. Como agrupamos por dos columnas, nuestro resultado es un objeto Series de múltiples

## **Dividir aplicar combinar**

El objeto DataFrameGroubBy forma parte de un framework de procesamiento de datos llamado dividir-aplicar-combinar:

- dividir los datos en grupos;
- aplicar una función de agregación estadística a cada grupo;
- combinar los resultados para cada grupo.

En el código a continuación, podemos ilustrar cada uno de los tres componentes de dividir-aplicar-combinar:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

grp = df.groupby(['platform', 'genre'])
mean_scores = grp['critic_score'].mean()
print(mean_scores)

#Resultado ==================================

Platform  genre       
3DS       Acción          63.727273
          Aventura        68.333333
          Lucha           68.857143
          Misc            69.100000
          Plataforma      72.444444
                            ...    
XOne      De rol          80.777778
          Shooter         77.903226
          Simulación      53.000000
          Deporte         71.935484
          Estrategia      70.000000
Name: critic_score, Length: 197, dtype: float64
```


# **El método agg()**

El método agg() (AGGREGATE)usa un diccionario como entrada donde las claves son los nombres de columnas y los valores correspondientes son las funciones de agregación que quieres aplicarles:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

agg_dict = {'critic_score': 'mean', 'jp_sales': 'sum'}

grp = df.groupby(['platform', 'genre'])
print(grp.agg(agg_dict))

#Resultado ============================

                       critic_score  jp_sales
Platform  genre                               
3DS       Acción       63.727273      6.60
          Aventura     68.333333      0.66
          Lucha        68.857143      0.46
          Misc         69.100000      1.22
          Plataforma   72.444444      5.94
...                           ...       ...
XOne      De rol       80.777778      0.01
          Shooter      77.903226      0.13
          Simulación   53.000000      0.00
          Deporte      71.935484      0.02
          Estrategia   70.000000      0.00

[197 rows x 2 columns]
```



# **En Resumen**

- Método groupby(): método utilizado para agrupar datos por una o varias columnas en un DataFrame.
- grp = df.groupby(['platform', 'genre']) agrupará por dos columnas al mismo tiempo.
- Método agg(): método utilizado para calcular estadísticas agregadas para cada grupo en un DataFrame agrupado. Pásale un diccionario con ítems de 'column':'function'.
- Framework dividir-aplicar-combinar: framework de tratamiento de datos que describe el proceso de dividir un conjunto de datos en grupos, aplicar una función a cada grupo y, a continuación, combinar los resultados en una única estructura de datos.
- Método mean(): método utilizado para calcular la media de un conjunto de valores.
- Método sum(): método utilizado para calcular la suma de un conjunto de valores.
- Método dropna(): método utilizado para eliminar valores ausentes (NaN) de un DataFrame.
- Objeto DataFrameGroupBy: objeto que contiene el DataFrame agrupado antes de que este sea procesado con una función de agregación.