In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Transposición 

Una forma habitual de almacenar varias series temporales en bases de datos y archivos CSV es el llamado formato largo o apilado. En este formato, los valores individuales se representan con una sola fila de una tabla en lugar de utilizar varios valores por fila.

In [2]:
data = pd.read_csv('https://raw.githubusercontent.com/jamc88/TSMCI-Analisis-de-datos-con-Python/main/Datos/formato_l.csv')

In [3]:
data

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
0,1959,1,2710.349,1707.4,286.898,470.045,1886.9,28.980,139.7,2.82,5.8,177.146,0.00,0.00
1,1959,2,2778.801,1733.7,310.859,481.301,1919.7,29.150,141.7,3.08,5.1,177.830,2.34,0.74
2,1959,3,2775.488,1751.8,289.226,491.260,1916.4,29.350,140.5,3.82,5.3,178.657,2.74,1.09
3,1959,4,2785.204,1753.7,299.356,484.052,1931.3,29.370,140.0,4.33,5.6,179.386,0.27,4.06
4,1960,1,2847.699,1770.5,331.722,462.199,1955.5,29.540,139.6,3.50,5.2,180.007,2.31,1.19
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
198,2008,3,13324.600,9267.7,1990.693,991.551,9838.3,216.889,1474.7,1.17,6.0,305.270,-3.16,4.33
199,2008,4,13141.920,9195.3,1857.661,1007.273,9920.4,212.174,1576.5,0.12,6.9,305.952,-8.79,8.91
200,2009,1,12925.410,9209.2,1558.494,996.287,9926.4,212.671,1592.8,0.22,8.1,306.547,0.94,-0.71
201,2009,2,12901.504,9189.0,1456.678,1023.528,10077.5,214.469,1653.6,0.18,9.2,307.226,3.37,-3.19


In [4]:
data = data.loc[:, ['year', 'quarter', 'realgdp', 'infl', 'unemp']]

In [5]:
data

Unnamed: 0,year,quarter,realgdp,infl,unemp
0,1959,1,2710.349,0.00,5.8
1,1959,2,2778.801,2.34,5.1
2,1959,3,2775.488,2.74,5.3
3,1959,4,2785.204,0.27,5.6
4,1960,1,2847.699,2.31,5.2
...,...,...,...,...,...
198,2008,3,13324.600,-3.16,6.0
199,2008,4,13141.920,-8.79,6.9
200,2009,1,12925.410,0.94,8.1
201,2009,2,12901.504,3.37,9.2


**pandas.PeriodIndex** representa intervalos de tiempo en lugar de puntos en el tiempo y lo utilizamos para combinar las columnas year y quarter y fijar así el índice para que esté formado por valores datetime al final de cada trimestre:

In [6]:
periods = pd.PeriodIndex(year=data.pop('year'),
                         quarter=data.pop('quarter'),
                         name='date')

se usa el método **pop** en el dataframe, que devuelve una
columna mientras la borra del dataframe al mismo tiempo.

In [7]:
periods

PeriodIndex(['1959Q1', '1959Q2', '1959Q3', '1959Q4', '1960Q1', '1960Q2',
             '1960Q3', '1960Q4', '1961Q1', '1961Q2',
             ...
             '2007Q2', '2007Q3', '2007Q4', '2008Q1', '2008Q2', '2008Q3',
             '2008Q4', '2009Q1', '2009Q2', '2009Q3'],
            dtype='period[Q-DEC]', name='date', length=203)

In [8]:
data.index = periods.to_timestamp('D')

In [9]:
data

Unnamed: 0_level_0,realgdp,infl,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-01-01,2710.349,0.00,5.8
1959-04-01,2778.801,2.34,5.1
1959-07-01,2775.488,2.74,5.3
1959-10-01,2785.204,0.27,5.6
1960-01-01,2847.699,2.31,5.2
...,...,...,...
2008-07-01,13324.600,-3.16,6.0
2008-10-01,13141.920,-8.79,6.9
2009-01-01,12925.410,0.94,8.1
2009-04-01,12901.504,3.37,9.2


Después, se selecciona un subconjunto de columnas y se le da al índice de las columnas el nombre 'item':

In [10]:
data = data.reindex(columns=['realgdp', 'infl','unemp'])

In [11]:
data.columns.name = 'item'

In [12]:
data

item,realgdp,infl,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-01-01,2710.349,0.00,5.8
1959-04-01,2778.801,2.34,5.1
1959-07-01,2775.488,2.74,5.3
1959-10-01,2785.204,0.27,5.6
1960-01-01,2847.699,2.31,5.2
...,...,...,...
2008-07-01,13324.600,-3.16,6.0
2008-10-01,13141.920,-8.79,6.9
2009-01-01,12925.410,0.94,8.1
2009-04-01,12901.504,3.37,9.2


se remodela con stack, convierto los nuevos niveles de índice en columnas con reset_index, se le dá finalmente a la columna que contiene los valores de datos el nombre “value”:

In [14]:
long_data = (data.stack()
             .reset_index()
             .rename(columns={0: 'value'}))

In [15]:
long_data

Unnamed: 0,date,item,value
0,1959-01-01,realgdp,2710.349
1,1959-01-01,infl,0.000
2,1959-01-01,unemp,5.800
3,1959-04-01,realgdp,2778.801
4,1959-04-01,infl,2.340
...,...,...,...
604,2009-04-01,infl,3.370
605,2009-04-01,unemp,9.200
606,2009-07-01,realgdp,12990.341
607,2009-07-01,infl,3.560


En este formato denominado *largo* para varias series temporales, cada fila de la tabla representa una sola observación.


Con frecuencia, los datos se almacenan de esta forma en bases de datos SQL relacionales, porque un esquema fijo (nombres de columna y tipos de datos) permite que el número de valores distintos de la columna item
cambie a medida que se añaden datos a la tabla.

En algunos casos es preferible tener un dataframe que contenga una columna por valor item diferente indexada por marcas de tiempo en la columna date. El método pivot del objeto DataFrame realiza exactamente esta transformación:


In [16]:
pivoted = long_data.pivot(index='date', 
                          columns='item', 
                          values='value')

In [17]:
pivoted

item,infl,realgdp,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-01-01,0.00,2710.349,5.8
1959-04-01,2.34,2778.801,5.1
1959-07-01,2.74,2775.488,5.3
1959-10-01,0.27,2785.204,5.6
1960-01-01,2.31,2847.699,5.2
...,...,...,...
2008-07-01,-3.16,13324.600,6.0
2008-10-01,-8.79,13141.920,6.9
2009-01-01,0.94,12925.410,8.1
2009-04-01,3.37,12901.504,9.2


Los primeros dos valores pasados son las columnas que se van a utilizar respectivamente,como el índice de fila y columna y después finalmente una columna de valor opcional para rellenar el dataframe.

Supongamos que tenemos dos columnas de valor que queremos remodelar al mismo tiempo:


In [18]:
long_data['value2'] = np.random.standard_normal(len(long_data))

In [19]:
long_data.head(10)

Unnamed: 0_level_0,date,item,value,value2
typing.Literal[<no_default>],Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1959-01-01,realgdp,2710.349,0.477425
1,1959-01-01,infl,0.0,1.493142
2,1959-01-01,unemp,5.8,-0.314856
3,1959-04-01,realgdp,2778.801,-0.779307
4,1959-04-01,infl,2.34,1.035461
5,1959-04-01,unemp,5.1,-0.305989
6,1959-07-01,realgdp,2775.488,1.894643
7,1959-07-01,infl,2.74,-0.095351
8,1959-07-01,unemp,5.3,0.306423
9,1959-10-01,realgdp,2785.204,-0.146855


obtenemos un dataframe con columnas jerárquicas:

In [20]:
pivoted = long_data.pivot(index='date', 
                          columns='item')

In [21]:
pivoted

Unnamed: 0_level_0,value,value,value,value2,value2,value2
item,infl,realgdp,unemp,infl,realgdp,unemp
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1959-01-01,0.00,2710.349,5.8,1.493142,0.477425,-0.314856
1959-04-01,2.34,2778.801,5.1,1.035461,-0.779307,-0.305989
1959-07-01,2.74,2775.488,5.3,-0.095351,1.894643,0.306423
1959-10-01,0.27,2785.204,5.6,1.066252,-0.146855,0.934942
1960-01-01,2.31,2847.699,5.2,-0.904746,0.630752,-0.332141
...,...,...,...,...,...,...
2008-07-01,-3.16,13324.600,6.0,-0.325024,-0.117802,0.552678
2008-10-01,-8.79,13141.920,6.9,-0.299994,1.606271,-1.008022
2009-01-01,0.94,12925.410,8.1,-0.127364,-0.256537,-0.883969
2009-04-01,3.37,12901.504,9.2,-0.316975,0.642805,-0.317167


In [22]:
pivoted['value']

item,infl,realgdp,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-01-01,0.00,2710.349,5.8
1959-04-01,2.34,2778.801,5.1
1959-07-01,2.74,2775.488,5.3
1959-10-01,0.27,2785.204,5.6
1960-01-01,2.31,2847.699,5.2
...,...,...,...
2008-07-01,-3.16,13324.600,6.0
2008-10-01,-8.79,13141.920,6.9
2009-01-01,0.94,12925.410,8.1
2009-04-01,3.37,12901.504,9.2


Una operación inversa a pivot para objetos DataFrame es
**pandas.melt**. En lugar de transformar una columna en muchas en un nuevo dataframe, combina varias columnas en una sola, produciendo un dataframe que es más largo que la entrada.

In [23]:
df = pd.DataFrame({'key': ['azul', 'rojo', 'verde'],
                   'A': [1, 2, 3],
                   'B': [4, 5, 6],
                   'C': [7, 8, 9]})

In [24]:
df

Unnamed: 0,key,A,B,C
0,azul,1,4,7
1,rojo,2,5,8
2,verde,3,6,9


La columna “key” puede ser un indicador de grupo, y las otras columnas son valores de datos. Cuando utilizamos pandas.melt, debemos indicar qué columnas (si hay alguna) son indicadores de grupo.

In [25]:
melted = pd.melt(df, id_vars='key')

In [26]:
melted

Unnamed: 0,key,variable,value
0,azul,A,1
1,rojo,A,2
2,verde,A,3
3,azul,B,4
4,rojo,B,5
5,verde,B,6
6,azul,C,7
7,rojo,C,8
8,verde,C,9


Utilizando pivot, podemos remodelar de nuevo a la disposición original:

In [27]:
reshaped = melted.pivot(index='key', columns='variable',
                        values='value')

In [28]:
reshaped

variable,A,B,C
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
azul,1,4,7
rojo,2,5,8
verde,3,6,9


Como el resultado de pivot crea un índice a partir de la columna utilizada como etiquetas de fila, utilizamos reset_index para volver a colocar los datos en una columna:

In [28]:
reshaped.reset_index()

variable,key,A,B,C
0,azul,1,4,7
1,rojo,2,5,8
2,verde,3,6,9


También se puede especificar un subconjunto de columnas que se utilizarán como columnas value:

In [29]:
pd.melt(df, id_vars='key', value_vars=['A', 'B'])

Unnamed: 0,key,variable,value
0,azul,A,1
1,rojo,A,2
2,verde,A,3
3,azul,B,4
4,rojo,B,5
5,verde,B,6


pandas.melt se puede utilizar también sin identificadores de grupo:

In [30]:
pd.melt(df, value_vars=['A', 'B'])

Unnamed: 0,variable,value
0,A,1
1,A,2
2,A,3
3,B,4
4,B,5
5,B,6


In [31]:
pd.melt(df, value_vars=['key', 'A', 'B'])

Unnamed: 0,variable,value
0,key,azul
1,key,rojo
2,key,verde
3,A,1
4,A,2
5,A,3
6,B,4
7,B,5
8,B,6
