# Широкие и длинные данные

Существует два фундаментальных подхода к хранению табличных данных: [широкие и длинные данные](https://en.wikipedia.org/wiki/Wide_and_narrow_data).

Объяснить их отдичие проще на примере. На изображении вы можете видеть две таблицы, которые представляют одну и ту же информацию — только в двух разных форматах:

![wide_long_tables](images/wide_long_tables.png)

* В обеих таблицах указаны характеристики трех учеников (Боба, Алисы и Стива).

* В обоих типах у вас есть столбец с именем Person. Это также называется столбцом идентификатора, потому что он содержит значения, которые не повторяются.

* В широком формате другие столбцы представляют различные классы (Age, Weight).

* В длинном формате есть только два дополнительных столбца: один содержит ключи (здесь: Variable), другой содержит значения (здесь: Value).

Вы можете сразу понять, почему длинный формат имеет свое название — в нем значительно больше строк, чем в широком формате. Кроме того, идентификаторы (здесь: Person) повторяются, в то время как идентификаторы в широком формате отображаются только один раз.

## Почему существует необходимость в двух разных форматах?

Широкие данные легче понять людям. Это тот тип представления данных, который часто используется при хранении таблиц в Excel (сводные таблицы). 

Однако у такого представления данных есть свои недостатки. Самое главное, что данными легче манипулировать в длинном формате.

In [1]:
import pandas as pd

In [12]:
wide_temp = pd.read_csv('data/wide_temperature.csv')

In [21]:
wide_temp

Unnamed: 0,Month,Day,1944,1945,1946,1947,1948,1949,1950,1951,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,1,1,,-20.5,-31.0,-33.5,-37.0,-39.6,-21.4,-39.2,...,-27.6,-28.9,-31.3,-33.0,-30.9,-23.2,-37.7,-24.7,-19.4,-35.8
1,1,2,,-22.0,-31.2,-33.4,-32.2,-37.8,-23.0,-37.7,...,-28.4,-29.2,-35.8,-31.4,-28.1,-23.6,-36.6,-26.8,-20.3,-29.9
2,1,3,,-23.3,-34.0,-35.8,-26.8,-40.8,-26.1,-42.3,...,-31.5,-33.6,-39.5,-36.0,-22.1,-22.2,-36.5,-30.4,-23.7,-31.3
3,1,4,,-32.3,-41.1,-38.6,-32.2,-37.3,-21.8,-40.4,...,-36.8,-32.6,-31.7,-40.3,-33.6,-27.1,-37.6,-32.6,-26.5,-28.4
4,1,5,,-39.2,-33.4,-32.8,-35.0,-28.8,-27.2,-40.0,...,-36.8,-37.9,-33.5,-38.8,-29.3,-31.6,-35.1,-34.1,-32.2,-28.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
361,12,27,-22.1,-38.7,-43.5,-40.6,-43.9,-26.1,-25.0,-38.7,...,-37.5,-27.8,-37.9,-39.5,-41.2,-29.4,-28.9,-32.0,-26.9,
362,12,28,-25.0,-39.0,-41.0,-37.0,-41.4,-19.1,-31.7,-35.0,...,-39.5,-27.3,-29.9,-38.3,-38.4,-33.2,-30.1,-34.4,-29.8,
363,12,29,-19.9,-32.4,-44.6,-41.2,-35.2,-18.3,-36.2,-35.2,...,-31.8,-30.0,-30.2,-36.0,-35.9,-28.9,-31.2,-36.3,-38.2,
364,12,30,-27.5,-32.5,-44.0,-40.7,-36.9,-23.6,-38.9,-35.8,...,-28.1,-35.3,-25.7,-37.0,-34.0,-28.4,-31.5,-32.7,-38.3,


Препобразование широкой таблицы в длинную:

* id_vars — все столбцы которые следует игнорировать в процессе преобразования. Эти столбцы идентифицируют наблюдение

* var_name — новое имя, представляющее преобразуемые столбцы

* value_name — имя нового столбца, в котором будут храниться значения

In [15]:
long_temp = wide_temp.melt(
    id_vars=['Month', 'Day'],
    var_name='Year',
    value_name='Temperature'
)

Преобразование длинной таблицы в широкую:

* index — имя столбца идентификатора

* columns — имена столбцов, из которых будут извлечены новые имена столбцов

* values — имя столбца, которое используется для заполнения значений в новых столбцах

In [25]:
long_temp.pivot(
    index = ['Month', 'Day'],
    columns = 'Year',
    values = 'Temperature'
).reset_index()

Year,Month,Day,1944,1945,1946,1947,1948,1949,1950,1951,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,1,1,,-20.5,-31.0,-33.5,-37.0,-39.6,-21.4,-39.2,...,-27.6,-28.9,-31.3,-33.0,-30.9,-23.2,-37.7,-24.7,-19.4,-35.8
1,1,2,,-22.0,-31.2,-33.4,-32.2,-37.8,-23.0,-37.7,...,-28.4,-29.2,-35.8,-31.4,-28.1,-23.6,-36.6,-26.8,-20.3,-29.9
2,1,3,,-23.3,-34.0,-35.8,-26.8,-40.8,-26.1,-42.3,...,-31.5,-33.6,-39.5,-36.0,-22.1,-22.2,-36.5,-30.4,-23.7,-31.3
3,1,4,,-32.3,-41.1,-38.6,-32.2,-37.3,-21.8,-40.4,...,-36.8,-32.6,-31.7,-40.3,-33.6,-27.1,-37.6,-32.6,-26.5,-28.4
4,1,5,,-39.2,-33.4,-32.8,-35.0,-28.8,-27.2,-40.0,...,-36.8,-37.9,-33.5,-38.8,-29.3,-31.6,-35.1,-34.1,-32.2,-28.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
361,12,27,-22.1,-38.7,-43.5,-40.6,-43.9,-26.1,-25.0,-38.7,...,-37.5,-27.8,-37.9,-39.5,-41.2,-29.4,-28.9,-32.0,-26.9,
362,12,28,-25.0,-39.0,-41.0,-37.0,-41.4,-19.1,-31.7,-35.0,...,-39.5,-27.3,-29.9,-38.3,-38.4,-33.2,-30.1,-34.4,-29.8,
363,12,29,-19.9,-32.4,-44.6,-41.2,-35.2,-18.3,-36.2,-35.2,...,-31.8,-30.0,-30.2,-36.0,-35.9,-28.9,-31.2,-36.3,-38.2,
364,12,30,-27.5,-32.5,-44.0,-40.7,-36.9,-23.6,-38.9,-35.8,...,-28.1,-35.3,-25.7,-37.0,-34.0,-28.4,-31.5,-32.7,-38.3,
