In [1]:
import pandas as pd

tidyverseの哲学に従えば、

- 観測/個体 = 行
- 変数 = 列
- セルの値 = その観測での、その変数の値

ということになる。つまり、テーブルデータとは、**複数の変数からなる個体に関する情報を、複数の個体に亘って集めたもの**ということ。
なので、何を個体と見なし、何を変数とみなすかに意識的である必要がある。しかし、実際のところは、何が個体で何が変数なのかは、場合によって判断が別れ得るし、意味の側面だけではなく取り回しのしやすさから制約がかかる場合もあると思われる。

例えば、あるチェーン店について、$N$時台の売上、というデータを取ったとする。この場合、

- 個体 = 店
- 変数 = $N$時台の売上（$N$=0,1,2,..,23)

と考えるのが自然だが、クエリを書く上では、$N$の部分は列名ではなく値として扱えた方が楽になる。つまり、

```
店id,0時台の売上,1時台の売上,...,23時台の売上
```
というスキーマよりも、
```
店id,時間,売上
```
というスキーマの方がありがたい、気がする。

ともあれ、操作方法を学ぶ。

## wide → long

横持ちを縦持ちにしたい。これは、横に広がった値を縦に「積む」ので`stack`、と覚える。

In [7]:
from io import StringIO

In [22]:
csv = """
id,hour0,hour1,hour2
1,2,3,4
5,6,7,8
9,10,11,12
"""
df = pd.read_csv(StringIO(csv), index_col="id")

In [26]:
df.stack()

id       
1   hour0     2
    hour1     3
    hour2     4
5   hour0     6
    hour1     7
    hour2     8
9   hour0    10
    hour1    11
    hour2    12
dtype: int64

### 注意点

- 「個体」を識別する列は、インデックスにしておく必要がある
- 列名をあとからハンドリングするのは面倒かもしれない

上が注意点だが、逆に言うと、これだけ意識しておけば直観的に使える。気がする

## long → wide

縦持ちを横持ちにするのは、Excelで言う`pivot table`の機能なので、`pivot`と覚える。

In [32]:
csv2 = """
id,hour,sales
1,0,10
1,1,20
2,0,30
2,1,40
2,2,50
"""
df2 = pd.read_csv(StringIO(csv2))

In [33]:
df2.pivot(index="id", columns="hour", values="sales")

hour,0,1,2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,10.0,20.0,
2,30.0,40.0,50.0


インデックスにすべき値の入った列、列にすべき値の入った列、セルの値にすべき列を指定する、という動作は、Excelでpivotテーブルを作るときと同じなので、分かりやすい。