# **Transformación de datos**

## Procesamiento de datos agrupados con agg()

Utilizaremos la misma BD de Videojuegos


```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

print(df.head())

#Resultado =================================
                    name platform  year_of_release     genre publisher  \
0             Wii Sports      Wii           2006.0    Sports  Nintendo   
2         Mario Kart Wii      Wii           2008.0    Racing  Nintendo   
3      Wii Sports Resort      Wii           2009.0    Sports  Nintendo   
6  New Super Mario Bros.       DS           2006.0  Platform  Nintendo   
7               Wii Play      Wii           2006.0      Misc  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
6  Nintendo     11.28      9.14      6.50          89.0         8.5  
7  Nintendo     13.96      9.18      2.93          58.0         6.6
```


Digamos que necesitamos la puntuación promedio de la crítica para cada género:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

mean_score = df.groupby('genre')['critic_score'].mean()
print(mean_score)

#Resultado ============================

genre
Acción          67.852100
Aventura        66.422053
Lucha           69.693931
Misc            67.414508
Plataforma      70.000000
Rompecabezas    70.694915
Carreras        69.621160
De rol          72.823776
Shooter         70.968894
Simulación      69.983444
Deporte         74.110643
Estrategia      72.949458
Name: critic_score, dtype: float64
```

El índice del objeto Series mean_score es la “clave groupby()”, en este caso, los valores unívocos de la columna 'genre'. Hacer una operación groupby() cambia el índice de fila de los datos a las claves por las que estamos agrupando.

Para agrupar por varias columnas, pasamos una lista al método groupby():
```python

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

grp = df.groupby(['platform', 'genre'])
print(grp['critic_score'].mean())

#Resultado ================================

Platform  genre       
3DS       Acción          63.727273
          Aventura        68.333333
          Lucha           68.857143
          Misc            69.100000
          Plataforma      72.444444
                            ...    
XOne      De rol          80.777778
          Shooter         77.903226
          Simulación      53.000000
          Deporte         71.935484
          Estrategia      70.000000
Name: critic_score, Length: 197, dtype: float64
```

Ahora tenemos la puntuación promedio de la crítica para cada género en cada plataforma. Como agrupamos por dos columnas, nuestro resultado es un objeto Series de múltiples

## **Dividir aplicar combinar**

El objeto DataFrameGroubBy forma parte de un framework de procesamiento de datos llamado dividir-aplicar-combinar:

- dividir los datos en grupos;
- aplicar una función de agregación estadística a cada grupo;
- combinar los resultados para cada grupo.

En el código a continuación, podemos ilustrar cada uno de los tres componentes de dividir-aplicar-combinar:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

grp = df.groupby(['platform', 'genre'])
mean_scores = grp['critic_score'].mean()
print(mean_scores)

#Resultado ==================================

Platform  genre       
3DS       Acción          63.727273
          Aventura        68.333333
          Lucha           68.857143
          Misc            69.100000
          Plataforma      72.444444
                            ...    
XOne      De rol          80.777778
          Shooter         77.903226
          Simulación      53.000000
          Deporte         71.935484
          Estrategia      70.000000
Name: critic_score, Length: 197, dtype: float64
```


# **El método agg()**

El método agg() (AGGREGATE)usa un diccionario como entrada donde las claves son los nombres de columnas y los valores correspondientes son las funciones de agregación que quieres aplicarles:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

agg_dict = {'critic_score': 'mean', 'jp_sales': 'sum'}

grp = df.groupby(['platform', 'genre'])
print(grp.agg(agg_dict))

#Resultado ============================

                       critic_score  jp_sales
Platform  genre                               
3DS       Acción       63.727273      6.60
          Aventura     68.333333      0.66
          Lucha        68.857143      0.46
          Misc         69.100000      1.22
          Plataforma   72.444444      5.94
...                           ...       ...
XOne      De rol       80.777778      0.01
          Shooter      77.903226      0.13
          Simulación   53.000000      0.00
          Deporte      71.935484      0.02
          Estrategia   70.000000      0.00

[197 rows x 2 columns]
```



# **En Resumen**

- Método groupby(): método utilizado para agrupar datos por una o varias columnas en un DataFrame.
- grp = df.groupby(['platform', 'genre']) agrupará por dos columnas al mismo tiempo.
- Método agg(): método utilizado para calcular estadísticas agregadas para cada grupo en un DataFrame agrupado. Pásale un diccionario con ítems de 'column':'function'.
- Framework dividir-aplicar-combinar: framework de tratamiento de datos que describe el proceso de dividir un conjunto de datos en grupos, aplicar una función a cada grupo y, a continuación, combinar los resultados en una única estructura de datos.
- Método mean(): método utilizado para calcular la media de un conjunto de valores.
- Método sum(): método utilizado para calcular la suma de un conjunto de valores.
- Método dropna(): método utilizado para eliminar valores ausentes (NaN) de un DataFrame.
- Objeto DataFrameGroupBy: objeto que contiene el DataFrame agrupado antes de que este sea procesado con una función de agregación.

**Procesamiento de datos agrupados con agg()**

¡Es hora de que analicemos en detalle las ventas de videojuegos de cada género!

El precódigo crea una columna 'total_sales' como ya has hecho antes. Utilizarás estas columnas, así que apunta sus nombres.

A continuación, el precódigo agrupa el DataFrame df por la columna 'genre' y asigna el objeto agrupado resultante a la variable grp.

Y ahora vas a hacer lo siguiente:

- Crear un diccionario para calcular para cada género:
- Suma del total de ventas.
- Ventas promedio NA (Norteamérica).
- Ventas promedio EU (Europa).
- Ventas promedio JP (Japón).
- Asignar el diccionario a una variable llamada agg_dict con las tuplas descritas anteriormente.
- Asignar el resultado de agg() a una variable llamada genre.
- Imprimir genre.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']

grp = df.groupby('genre')

agg_dict = {'total_sales': 'sum', 'na_sales' : 'mean', 'eu_sales': 'mean' , 'jp_sales' : 'mean' }

genre = grp.agg(agg_dict)

print(genre)

#Resultados =======================================

              total_sales  na_sales  eu_sales  jp_sales
genre
Action            1559.58  0.260834  0.154045  0.047905
Adventure          221.10  0.080783  0.048764  0.040138
Fighting           411.17  0.263086  0.118174  0.103039
Misc               728.12  0.232726  0.121566  0.061777
Platform           776.68  0.501689  0.225619  0.147331
Puzzle             230.19  0.211845  0.086224  0.098810
Racing             652.57  0.287710  0.189359  0.045404
Role-Playing       874.98  0.220540  0.125807  0.236973
Shooter            948.34  0.447649  0.239864  0.029297
Simulation         359.51  0.208455  0.129886  0.072998
Sports            1196.76  0.291495  0.160473  0.057726
Strategy           163.38  0.100366  0.066135  0.072709
```

# **Tablas dinámicas**

Las tablas dinámicas son una gran herramienta para sintetizar conjuntos de datos y explorar sus diferentes dimensiones. Son muy populares en las aplicaciones de hojas de cálculo como Excel, pero es aún más impresionante crearlas mediante programación con pandas.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
print(df.head())

#REsultado =====================================

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN
```

Supongamos que queremos determinar el total de ventas en Europa de cada género en cada plataforma. Las tablas dinámicas ofrecen un método rápido y cómodo para conseguirlo. Primero, vamos a examinar el código y luego a comentarlo. Para simplificar las cosas, eliminaremos las filas con valores ausentes.
```python

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df.dropna(inplace=True)

pivot_data = df.pivot_table(index='genre',
                            columns='platform',
                            values='eu_sales',
                            aggfunc='sum'
                           )
print(pivot_data)
print()
print(type(pivot_data))

# Resultado ======================================

platform       3DS    DC     DS    GBA    GC     PC     PS    PS2    PS3  \
genre                                                                      
Acción        8.41   NaN  11.25   5.95  6.11  15.32  21.15  63.97  94.17   
Aventura      0.46  0.24   1.17   1.07  1.01   1.58   0.32   3.27   6.34   
Lucha         0.84  0.00   0.28   0.85  2.73   0.11   5.63  15.46  13.69   
Misc          1.21   NaN  25.10   2.19  1.90   1.19   1.69   9.73   7.62   
Plataforma    8.41  0.00  13.00  10.62  5.19   0.33   6.09  17.11   7.26   
Rompecabezas  1.02   NaN  15.72   1.34  0.74   0.13   0.10   1.11   0.04   
Carreras      4.45  0.00   8.43   3.43  2.13   2.59  13.03  36.59  28.09   
De rol        3.10  0.00   6.00   3.96  2.36  24.32   8.70  16.33  16.81   
Shooter       0.27  0.00   0.43   0.38  2.79  18.28   2.31  31.38  65.43   
Simulación    4.40  0.00  12.21   0.56  1.74  22.35   0.44  10.08   2.71   
Deporte       0.56  0.05   0.94   1.52  3.75   6.47   5.66  47.85  30.62   
Estrategia    0.20   NaN   1.29   0.73  0.48  14.81   0.10   2.26   1.04   

platform        PS4    PSP   PSV    Wii  WiiU   X360     XB   XOne  
genre                                                               
Acción        35.66  13.08  2.79  21.87  4.81  64.30   9.82  10.11  
Aventura       1.55   0.85  0.56   2.43  0.05   3.50   0.46   0.76  
Lucha          2.40   2.10  0.44   4.86  0.34   8.17   2.13   0.48  
Misc           1.15   0.83  0.31  47.91  3.39  15.13   0.80   0.99  
Plataforma     2.84   3.02  1.22  21.13  6.27   3.58   2.21   0.28  
Rompecabezas   0.02   0.76  0.03   2.61  0.38   0.02   0.02    NaN  
Carreras       5.49   9.30  0.44  17.47  2.15  21.14   6.45   4.11  
De rol         8.01   3.47  1.06   1.88  0.42  17.32   2.83   2.75  
Shooter       28.83   5.12  1.49   4.49  1.57  70.02  14.56  14.03  
Simulación     0.47   1.79   NaN   6.21  0.04   3.56   1.31   0.01  
Deporte       25.81   7.46  0.43  73.08  0.68  25.74   9.23   8.65  
Estrategia     0.21   1.35   NaN   0.20  0.32   2.04   0.42   0.06  

<class 'pandas.core.frame.DataFrame'>
```

Creamos una tabla dinámica utilizando el método pivot_table(), que tiene un nombre muy apropiado. Los parámetros que utilizamos fueron:

- index=: la columna cuyos valores se convierten en índices en la tabla dinámica;
- columns=: la columna cuyos valores se convierten en columnas en la tabla dinámica;
- values=: la columna cuyos valores queremos agregar en la tabla dinámica;
- aggfunc=: la función de agregación que queremos aplicar a los valores en cada grupo de filas y columnas.

**Tablas dinámicas**

Hemos filtrado el conjunto de datos de videojuegos para que solo contenga juegos que se lanzaron en el 2000 o después. Crea una tabla dinámica a partir del conjunto de datos filtrados que contenga el valor promedio para las ventas en Japón para cada combinación de género y año de lanzamiento.

- Los géneros servirán de índice.
- - Las columnas de la tabla dinámica serán los años de lanzamiento.
- - Utiliza la columna correspondiente como valores a ser agregados.
- - Utiliza la función de agregación apropiada.

Asigna el resultado a una variable llamada df_pivot y luego muéstralo.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df = df[df['year_of_release'] >= 2000]

df_pivot = df.pivot_table (index = 'genre',
                           columns = 'year_of_release',
                           values = 'jp_sales',
                           aggfunc='mean'
                          )

print(df_pivot)

#resultado ==============================================

year_of_release    2000.0    2001.0    2002.0    2003.0    2004.0    2005.0    2006.0    2007.0    2008.0    2009.0    2010.0    2011.0    2012.0    2013.0    2014.0    2015.0    2016.0  2017.0  2020.0
genre                                                                                                                                                                                                    
Action           0.085000  0.089403  0.040800  0.029097  0.038560  0.032917  0.031413  0.029190  0.027149  0.043971  0.037965  0.045462  0.046453  0.074218  0.034734  0.063162  0.039719   0.010     NaN
Adventure        0.069375  0.050952  0.076905  0.035833  0.032368  0.017619  0.036901  0.042771  0.026145  0.023929  0.023529  0.035463  0.042456  0.037000  0.018400  0.019259  0.021071     NaN     NaN
Fighting         0.105172  0.151667  0.058148  0.067045  0.034359  0.071395  0.051273  0.054600  0.109643  0.056981  0.038000  0.058800  0.061724  0.064000  0.210000  0.037619  0.046875     NaN     NaN
Misc             0.138500  0.048462  0.064444  0.067547  0.028588  0.069217  0.145741  0.075894  0.034151  0.028155  0.033284  0.025902  0.098919  0.085476  0.057619  0.055128  0.032500     NaN     NaN
Platform         0.106667  0.082326  0.058701  0.025517  0.092576  0.013494  0.170556  0.070952  0.038065  0.166897  0.118710  0.094595  0.349091  0.058333  0.127000  0.100769  0.007333     NaN     NaN
Puzzle           0.081667  0.046667  0.008500  0.142500  0.102000  0.188182  0.079070  0.046364  0.014375  0.020886  0.011395  0.017907  0.087273  0.083333  0.058571  0.086667  0.000000     NaN     NaN
Racing           0.026744  0.056338  0.001942  0.025963  0.028028  0.057500  0.011600  0.011190  0.051341  0.005952  0.018246  0.048308  0.006667  0.033750  0.054444  0.015556  0.000417     NaN     NaN
Role-Playing     0.544828  0.232927  0.248000  0.200625  0.224833  0.129859  0.180273  0.120680  0.156339  0.165728  0.229806  0.151895  0.184615  0.280000  0.199438  0.087179  0.122407   0.025     NaN
Shooter          0.010000  0.014722  0.012911  0.002877  0.007386  0.013750  0.027391  0.018000  0.009277  0.012444  0.026173  0.028617  0.054583  0.029492  0.022979  0.080294  0.022553     NaN     NaN
Simulation       0.084667  0.134643  0.039474  0.041714  0.021481  0.237368  0.041754  0.033556  0.030756  0.007724  0.020494  0.021964  0.327222  0.122778  0.034545  0.106667  0.018333     NaN     0.0
Sports           0.078519  0.040625  0.024947  0.032000  0.041698  0.029256  0.062971  0.057771  0.026850  0.053607  0.023763  0.025455  0.048148  0.040566  0.029815  0.012373  0.019167     NaN     NaN
Strategy         0.222353  0.141000  0.109091  0.042162  0.063750  0.047586  0.012143  0.042836  0.034600  0.028438  0.038113  0.041304  0.074000  0.043158  0.070000  0.010000  0.017692     NaN     NaN
```

# ==================================

# COMBINAR DATAFRAMES CON CONCAT()

RECORDAR LA ESTRUCTURA PARA LUEGO TRABAJARLA:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
print(df.head())

#Resultado =====================================

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN
```


Queremos conocer algunas estadísticas generales de las distribuidoras de juegos, en particular:
- su puntuación promedio de la crítica;
- sus ventas totales.

Como ya hemos visto, podemos hacerlo usando groupby(). Primero, obtengamos la puntuación de reseña promedio para cada distribuidora:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

mean_score = df.groupby('publisher')['critic_score'].mean()
print(mean_score)

#Resultado ================================

publisher
10TACLE Studios                 42.000000
1C Company                      73.000000
20th Century Fox Video Games          NaN
2D Boy                          90.000000
3DO                             57.470588
                                  ...    
id Software                     85.000000
imageepoch Inc.                       NaN
inXile Entertainment            81.000000
mixi, Inc                             NaN
responDESIGN                          NaN
Name: critic_score, Length: 581, dtype: float64
```

Obtengamos también el número de ventas. La forma más sencilla de hacerlo es con un segundo groupby():.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']
num_sales = df.groupby('publisher')['total_sales'].sum()
print(num_sales)

#Resultado ==============================

publisher
10TACLE Studios                 0.11
1C Company                      0.08
20th Century Fox Video Games    1.92
2D Boy                          0.03
3DO                             9.52
                                ... 
id Software                     0.02
imageepoch Inc.                 0.04
inXile Entertainment            0.09
mixi, Inc                       0.87
responDESIGN                    0.13
Name: total_sales, Length: 581, dtype: float64
```



Observa que el índice de ambos resultados es la columna 'publisher' porque agrupamos por 'publisher' en ambos casos. Como ambos resultados comparten el mismo índice, podemos unir fácilmente los resultados en un DataFrame usando la función concat() de pandas:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

mean_score = df.groupby('publisher')['critic_score'].mean()

df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']
num_sales = df.groupby('publisher')['total_sales'].sum()

df_concat = pd.concat([mean_score, num_sales], axis='columns')
print(df_concat)

#Resultado ===================================

                              critic_score  total_sales
publisher                                              
10TACLE Studios                  42.000000         0.11
1C Company                       73.000000         0.08
20th Century Fox Video Games           NaN         1.92
2D Boy                           90.000000         0.03
3DO                              57.470588         9.52
...                                    ...          ...
id Software                      85.000000         0.02
imageepoch Inc.                        NaN         0.04
inXile Entertainment             81.000000         0.09
mixi, Inc                              NaN         0.87
responDESIGN                           NaN         0.13

[581 rows x 2 columns]
```


En general, concat() espera una lista de objetos de tipo Series y/o DataFrame. Para obtener nuestro resultado, pasamos una lista de variables de Series a concat() y configuramos axis='columns' para asegurarnos de que se combinaran como columnas.


Cambiemos el nombre de 'critic_score', ya que ahora representa un promedio:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

mean_score = df.groupby('publisher')['critic_score'].mean()

df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']
num_sales = df.groupby('publisher')['total_sales'].sum()

df_concat = pd.concat([mean_score, num_sales], axis='columns')
df_concat.columns = ['avg_critic_score', 'total_sales']
print(df_concat)

#Resaultado ==========================

                              avg_critic_score  total_sales
publisher                                                  
10TACLE Studios                      42.000000         0.11
1C Company                           73.000000         0.08
20th Century Fox Video Games               NaN         1.92
2D Boy                               90.000000         0.03
3DO                                  57.470588         9.52
...                                        ...          ...
id Software                          85.000000         0.02
imageepoch Inc.                            NaN         0.04
inXile Entertainment                 81.000000         0.09
mixi, Inc                                  NaN         0.87
responDESIGN                               NaN         0.13

[581 rows x 2 columns]
```



Para concatenar filas de DataFrames separados, podemos usar concat() y configurar axis='index' (u omitir este parámetro, ya que axis='index' es el argumento predeterminado). Alternativamente, podemos utilizar números enteros para el argumento index=, donde index=0 concatenará filas y index=1 concatenará columnas.

Aquí hay un ejemplo en el que filtramos los datos en dos DataFrames separados según el género y luego los recombinamos en un solo DataFrame:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

rpgs = df[df['genre'] == 'Role-Playing']
platformers = df[df['genre'] == 'Platform']

df_concat = pd.concat([rpgs, platformers])
print(df_concat[['name', 'genre']])

#Resultado ===========================

                                                   name         genre
4                              Pokemon Red/Pokemon Blue  Role-Playing
12                          Pokemon Gold/Pokemon Silver  Role-Playing
20                        Pokemon Diamond/Pokemon Pearl  Role-Playing
25                        Pokemon Ruby/Pokemon Sapphire  Role-Playing
27                          Pokemon Black/Pokemon White  Role-Playing
...                                                 ...           ...
16356                                    Strider (2014)      Platform
16358                                Goku Makaimura Kai      Platform
16603  The Land Before Time: Into the Mysterious Beyond      Platform
16710                Woody Woodpecker in Crazy Castle 5      Platform
16715                                  Spirits & Spells      Platform
```

# **Ejercicios**

**Ejercicio 1**

Leímos los datos, creamos una columna 'total_sales' y calculamos las ventas totales para cada plataforma en la variable total_sales.

Tienes que calcular el número total de distribuidoras que crearon un juego en cada plataforma, utilizando nunique(). Asigna el resultado a una variable llamada num_pubs y luego muéstralo.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']

total_sales = df.groupby('platform')['total_sales'].sum()

num_pubs = df.groupby('platform')['publisher'].nunique()

print(num_pubs)

#Resultado =========================================

platform
2600     26
3DO       3
3DS      82
DC       15
DS      175
GB       17
GBA      87
GC       52
GEN       7
GG        1
N64      54
NES      12
NG        3
PC      133
PCFX      1
PS      151
PS2     172
PS3     103
PS4      75
PSP     127
PSV      66
SAT      44
SCD       1
SNES     50
TG16      2
WS        2
Wii     113
WiiU     23
X360    102
XB       73
XOne     46
Name: publisher, dtype: int64
```


**Ejercicio 2**

Combina total_sales y num_pubs por columnas en un DataFrame llamado platforms usando concat(). Cambia los nombres de las columnas en platforms a 'total_sales' y 'num_publishers', respectivamente, luego imprime platforms.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']

total_sales = df.groupby('platform')['total_sales'].sum()
num_pubs = df.groupby('platform')['publisher'].nunique()

platforms = pd.concat([total_sales , num_pubs], axis = 'columns')
platforms.columns = ['total_sales','num_publishers']

print(platforms)

#Resultado ===================================

          total_sales  num_publishers
platform
2600            96.07              26
3DO              0.10               3
3DS            245.64              82
DC              15.68              15
DS             747.13             175
GB             247.26              17
GBA            310.12              87
GC             193.75              52
GEN             27.46               7
GG               0.04               1
N64            214.30              54
NES            245.74              12
NG               1.44               3
PC             237.14             133
PCFX             0.03               1
PS             689.95             151
PS2           1062.33             172
PS3            803.97             103
PS4            265.83              75
PSP            252.63             127
PSV             47.63              66
SAT             33.52              44
SCD              1.81               1
SNES           196.82              50
TG16             0.16               2
WS               1.42               2
Wii            828.44             113
WiiU            76.24              23
X360           885.66             102
XB             249.02              73
XOne           145.05              46
```






# ==========================

# Combinar DataFrames con merge()

En esta lección, aprenderás a combinar DataFrames utilizando el método merge() de forma que afecte a la cantidad de datos con los que estás trabajando.

```python
import pandas as pd

first_pupil_df = pd.DataFrame(
    {
        'author': ['Alcott', 'Fitzgerald', 'Steinbeck', 'Twain', 'Hemingway'],
        'title': ['Little Women',
                  'The Great Gatsby',
                  'Of Mice and Men',
                  'The Adventures of Tom Sawyer',
                  'The Old Man and the Sea'
                 ],
    }
)
second_pupil_df = pd.DataFrame(
    {
        'author': ['Steinbeck', 'Twain', 'Hemingway', 'Salinger', 'Hawthorne'],
        'title': ['East of Eden',
                  'The Adventures of Huckleberry Finn',
                  'For Whom the Bell Tolls',
                  'The Catcher in the Rye',
                  'The Scarlett Letter'
                 ],
    }
)

print(first_pupil_df)
print()
print(second_pupil_df)

#Resultado =============================

       author                         title
0      Alcott                  Little Women
1  Fitzgerald              The Great Gatsby
2   Steinbeck               Of Mice and Men
3       Twain  The Adventures of Tom Sawyer
4   Hemingway       The Old Man and the Sea

      author                               title
0  Steinbeck                        East of Eden
1      Twain  The Adventures of Huckleberry Finn
2  Hemingway             For Whom the Bell Tolls
3   Salinger              The Catcher in the Rye
4  Hawthorne                 The Scarlett Letter
```

## Union interna

Usemos el método merge() para combinar entradas que tienen los mismos autores. El nombre de la columna en la que se realizará la fusión se pasa al parámetro on=, en este caso, 'author':

```python
both_pupils = first_pupil_df.merge(second_pupil_df, on='author')
print(both_pupils) 

# Resultados ============================

      author                       title_x                             title_y
0  Steinbeck               Of Mice and Men                        East of Eden
1      Twain  The Adventures of Tom Sawyer  The Adventures of Huckleberry Finn
2  Hemingway       The Old Man and the Sea             For Whom the Bell Tolls
```

El resultado contiene solo aquellos autores que están presentes en ambos DataFrames originales.