In [4]:
import pandas as pd

# Melt

In [5]:

data = pd.DataFrame({'Id': [1, 2, 3],
                     'Nombre': ['Juan', 'Ana', 'Pedro'],
                     'Edad_2010': [25, 28, 33],
                     'Edad_2020': [35, 38, 43]})

data

Unnamed: 0,Id,Nombre,Edad_2010,Edad_2020
0,1,Juan,25,35
1,2,Ana,28,38
2,3,Pedro,33,43


Supongamos que queremos "derretir" `melt` las columnas "Edad_2010" y "Edad_2020" en una sola columna llamada "Edad", y que la columna "Nombre" se convierta en el índice. Podemos hacer lo siguiente.

In [6]:
melted = pd.melt(data, id_vars=['Nombre'], value_vars=['Edad_2010', 'Edad_2020'],
                 var_name='Año', value_name='Edad')
melted

Unnamed: 0,Nombre,Año,Edad
0,Juan,Edad_2010,25
1,Ana,Edad_2010,28
2,Pedro,Edad_2010,33
3,Juan,Edad_2020,35
4,Ana,Edad_2020,38
5,Pedro,Edad_2020,43


In [7]:
melted.set_index('Nombre', inplace=True)
melted

Unnamed: 0_level_0,Año,Edad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Juan,Edad_2010,25
Ana,Edad_2010,28
Pedro,Edad_2010,33
Juan,Edad_2020,35
Ana,Edad_2020,38
Pedro,Edad_2020,43


## Ejemplo real

Imaginemos que tenemos un conjunto de datos que contiene información sobre las ventas de diferentes productos en diferentes regiones del mundo, y que los datos se presentan en un formato amplio(`wide` format). La idea es pasarlo a formato largo `long`.


In [8]:
data = {
    'Product': ['A', 'B', 'C'],
    'North America 2020': [100, 200, 50],
    'North America 2021': [120, 180, 70],
    'Europe 2020': [80, 150, 100],
    'Europe 2021': [90, 170, 120],
    'Asia 2020': [200, 80, 110],
    'Asia 2021': [210, 90, 130]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Product,North America 2020,North America 2021,Europe 2020,Europe 2021,Asia 2020,Asia 2021
0,A,100,120,80,90,200,210
1,B,200,180,150,170,80,90
2,C,50,70,100,120,110,130


In [9]:
df_melted = df.melt(id_vars='Product',
                    var_name='Region_Year', value_name='Sales')
df_melted

Unnamed: 0,Product,Region_Year,Sales
0,A,North America 2020,100
1,B,North America 2020,200
2,C,North America 2020,50
3,A,North America 2021,120
4,B,North America 2021,180
5,C,North America 2021,70
6,A,Europe 2020,80
7,B,Europe 2020,150
8,C,Europe 2020,100
9,A,Europe 2021,90


# Pivot

¡Claro que sí! La función pivot es una herramienta útil para transformar una tabla larga en una tabla ancha. Permite agregar una columna de valores y reorganizar el DataFrame para que los valores en otra columna se conviertan en columnas.

Supongamos que tenemos un DataFrame que muestra la cantidad de ventas diarias de dos productos, A y B, en diferentes ciudades:

In [10]:
data = {'fecha': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04'],
        'ciudad': ['Ciudad 1', 'Ciudad 1', 'Ciudad 1', 'Ciudad 1', 'Ciudad 2', 'Ciudad 2', 'Ciudad 2', 'Ciudad 2'],
        'producto': ['A', 'A', 'B', 'B', 'B', 'B', 'A', 'A'],
        'ventas': [100, 120, 80, 90, 50, 60, 70, 80]}

df = pd.DataFrame(data)
df

Unnamed: 0,fecha,ciudad,producto,ventas
0,2022-01-01,Ciudad 1,A,100
1,2022-01-02,Ciudad 1,A,120
2,2022-01-03,Ciudad 1,B,80
3,2022-01-04,Ciudad 1,B,90
4,2022-01-01,Ciudad 2,B,50
5,2022-01-02,Ciudad 2,B,60
6,2022-01-03,Ciudad 2,A,70
7,2022-01-04,Ciudad 2,A,80


In [11]:
pivoted = df.pivot(index='fecha', columns='producto', values='ventas')
pivoted

producto,A,B
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-01,100,50
2022-01-02,120,60
2022-01-03,70,80
2022-01-04,80,90


En este caso, la columna "ciudad" ha sido eliminada, ya que no se especificó en la función pivot. Podemos ver que la tabla resultante es una tabla ancha con fechas en el índice y las columnas "A" y "B" que representan los productos. Los valores en la tabla son las ventas diarias correspondientes para cada producto en cada fecha.

Además, es posible agregar múltiples columnas de valores utilizando la función `pivot_table`. Supongamos que ahora queremos agregar la información de la ciudad también en la tabla. Podemos utilizar la función pivot_table de la siguiente manera:

In [13]:
pivoted_table = pd.pivot_table(df, values='ventas', index=[
                               'producto', 'ciudad'], columns=['fecha'])
pivoted_table

Unnamed: 0_level_0,fecha,2022-01-01,2022-01-02,2022-01-03,2022-01-04
producto,ciudad,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Ciudad 1,100.0,120.0,,
A,Ciudad 2,,,70.0,80.0
B,Ciudad 1,,,80.0,90.0
B,Ciudad 2,50.0,60.0,,


In [13]:
pivoted_table.index

Index(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04'], dtype='object', name='fecha')

In [14]:
pivoted_table.columns

MultiIndex([('A', 'Ciudad 1'),
            ('B', 'Ciudad 2')],
           names=['producto', 'ciudad'])

In [19]:
pivoted2 = df.pivot(index='fecha', columns=[
                    'producto', 'ciudad'], values='ventas')
pivoted2


producto,A,B,B,A
ciudad,Ciudad 1,Ciudad 1,Ciudad 2,Ciudad 2
fecha,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2022-01-01,100.0,,50.0,
2022-01-02,120.0,,60.0,
2022-01-03,,80.0,,70.0
2022-01-04,,90.0,,80.0
