## Melt (wide-to-long)

![](https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_melt.png)

Un "bon" dataframe (*tidy*) est, dans la majorité des cas, un dataframe où chaque ligne correspond à une observation, et où chaque colonne correspond à une mesure / une variable / un indicateur.

- `idc.melt(id_vars="indicateur", var_name="date")`
- `idc.set_index('indicateur').stack().unstack(0)`
- `idc.set_index('indicateur').T`

In [1]:
idc = pd.read_csv('indicateurs_week.csv')

In [2]:
idc

Unnamed: 0,indicateur,01/04,02/04,03/04,04/04,05/04
0,ca,600.0,400.0,900.0,800.0,850.0
1,visites,33.0,22.0,25.0,35.0,54.0
2,temperature,12.3,9.0,13.5,14.0,10.6


Typiquement là on pourrait préférer un dataset avec une ligne par *jour*, plutôt qu'avoir les jours en colonnes.

En gros dans ce cas on veut la transposée:

In [18]:
idc.set_index('indicateur').T

indicateur,ca,visites,temperature
01/04,600.0,33.0,12.3
02/04,400.0,22.0,9.0
03/04,900.0,25.0,13.5
04/04,800.0,35.0,14.0
05/04,850.0,54.0,10.6


`melt` est l'outil générique pour passer d'un format "wide" (= bcp de colonnes) à "long" (= bcp de lignes).

In [8]:
melted = idc.melt(id_vars='indicateur', var_name='date')
melted

Unnamed: 0,indicateur,date,value
0,ca,01/04,600.0
1,visites,01/04,33.0
2,temperature,01/04,12.3
3,ca,02/04,400.0
4,visites,02/04,22.0
5,temperature,02/04,9.0
6,ca,03/04,900.0
7,visites,03/04,25.0
8,temperature,03/04,13.5
9,ca,04/04,800.0


Ce format est presque "trop" long, on peut préférer avoir une colonne pour le CA, une pour les visites, une pour la température. On peut faire ça avec unstack:

In [9]:
melted.set_index(['date', 'indicateur']).unstack()

Unnamed: 0_level_0,value,value,value
indicateur,ca,temperature,visites
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
01/04,600.0,12.3,33.0
02/04,400.0,9.0,22.0
03/04,900.0,13.5,25.0
04/04,800.0,14.0,35.0
05/04,850.0,10.6,54.0


In [12]:
# Et sinon on peut faire tout ça juste avec stack et unstack:
idc.set_index('indicateur').stack().unstack(0)

indicateur,ca,visites,temperature
01/04,600.0,33.0,12.3
02/04,400.0,22.0,9.0
03/04,900.0,25.0,13.5
04/04,800.0,35.0,14.0
05/04,850.0,54.0,10.6


## Pivot (long-to-wide)

![](https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_pivot.png)

- pivot
- set_index(...).unstack()

In [13]:
temp = pd.read_csv('temp.csv')

In [14]:
temp

Unnamed: 0,date,variable,value
0,2019-04-01,tmin_london,5.0
1,2019-04-02,tmin_london,5.0
2,2019-04-03,tmin_london,7.0
3,2019-04-04,tmin_london,5.0
4,2019-04-05,tmin_london,5.0
...,...,...,...
63,2019-04-13,tmax_paris,10.0
64,2019-04-14,tmax_paris,14.0
65,2019-04-15,tmax_paris,9.0
66,2019-04-16,tmax_paris,10.0


In [15]:
temp.pivot('date', 'variable', 'value')

variable,tmax_london,tmax_paris,tmin_london,tmin_paris
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-04-01,,,5.0,6.0
2019-04-02,,,5.0,8.0
2019-04-03,8.0,13.0,7.0,6.0
2019-04-04,13.0,12.0,5.0,7.0
2019-04-05,12.0,14.0,5.0,7.0
2019-04-06,8.0,11.0,7.0,7.0
2019-04-07,9.0,12.0,7.0,7.0
2019-04-08,8.0,11.0,5.0,7.0
2019-04-09,8.0,12.0,5.0,9.0
2019-04-10,11.0,10.0,5.0,8.0


In [17]:
# Même chose avec unstack:
temp.set_index(['date', 'variable']).unstack()

Unnamed: 0_level_0,value,value,value,value
variable,tmax_london,tmax_paris,tmin_london,tmin_paris
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2019-04-01,,,5.0,6.0
2019-04-02,,,5.0,8.0
2019-04-03,8.0,13.0,7.0,6.0
2019-04-04,13.0,12.0,5.0,7.0
2019-04-05,12.0,14.0,5.0,7.0
2019-04-06,8.0,11.0,7.0,7.0
2019-04-07,9.0,12.0,7.0,7.0
2019-04-08,8.0,11.0,5.0,7.0
2019-04-09,8.0,12.0,5.0,9.0
2019-04-10,11.0,10.0,5.0,8.0


In [18]:
# Même chose avec pivot_table:
temp.pivot_table(values='value', index='date', columns='variable')

variable,tmax_london,tmax_paris,tmin_london,tmin_paris
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-04-01,,,5.0,6.0
2019-04-02,,,5.0,8.0
2019-04-03,8.0,13.0,7.0,6.0
2019-04-04,13.0,12.0,5.0,7.0
2019-04-05,12.0,14.0,5.0,7.0
2019-04-06,8.0,11.0,7.0,7.0
2019-04-07,9.0,12.0,7.0,7.0
2019-04-08,8.0,11.0,5.0,7.0
2019-04-09,8.0,12.0,5.0,9.0
2019-04-10,11.0,10.0,5.0,8.0


In [21]:
# pivot_table peut aussi aggréger dans le cas où je ne souhaite pas garder l'index date:
temp.pivot_table(values='value', index=None, columns='variable', aggfunc='mean')

variable,tmax_london,tmax_paris,tmin_london,tmin_paris
value,9.733333,11.2,5.733333,7.466667
