<a href="https://colab.research.google.com/github/komorimasashi/kakuritsu_toukei_1/blob/main/R06_Tidy_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **6. 整然データとその処理**

### **6.1 整然データとは**

#### **6.1.1 整然データ(tidy data）の定義**

近年，データを**tidy data（整然データ，雑然としたの反対語）**という形式で統一的に扱うと良いという考え方が広まりつつあります．整然データとはどのようなものでしょうか．簡単に言えば「一つの観測が一つの行に対応する」ようにデータを並べたものです．

整然データは、以下の三つの原則に基づいてデータを整理する方法を指します：
1. **各変数が1列を形成する。**
2. **各観測が1行を形成する。**
3. **各観測単位の型が1つのテーブルを形成する。**

この考えに則って，R界隈では整然データを扱うことに適したパッケージ`{tidyverse}`が広く使われるようになってきました．`{tidyverse}`には，data.frameからデータの抽出，ソートや要約などが簡単にできるパッケージである`{dplyr}`や，美しい描画を手軽に描画できる`{ggplot2}`などのパッケージが含まれています．`{ggplot2}`はこのような形式で記述されたデータを表示するようにできています．これらのパッケージは整然データの考え方に従って設計されています．

<figure><img src="https://lh3.googleusercontent.com/d/1o3B3yHpGzIYNvil3GgwxGblnOwpWnytO" alt="logo" width=600><figcaption>Tidyverseとその関連パッケージ（https://www.tidyverse.org/）</figcaption></figure>



#### **6.1.2 整然データ(tidy data）の例**

*   **人間にとってはわかりやすいが整然データではないデータ**
例えば下の表は人間にとってはとても見やすいですが，一つの行に複数の観測値が含まれているので，整然データではありません．実験参加者Aの2日目の観測値を見るためには，列と行のインデックスを見る必要があります．


<figure><img src="https://lh3.googleusercontent.com/d/1JPuMzU1mDnM_Pbiy0anRNLUrObEUWjbp" alt="logo" width=600><figcaption></figcaption></figure>


*   **整然データ**
一方，上を整然データに直したものが下の表になります．一つの観測値に一つの行が割り当てられているため，統計的な分析をする際にはこちらの方が楽になります．

<figure><img src="https://lh3.googleusercontent.com/d/1wO1097LDn-pyw3oQHeThJebn40AcH1Rl" alt="logo" width=250><figcaption></figcaption></figure>



#### **6.1.3 縦持ちデータ（Long Format）と横持ちデータ（Wide Format）**

一般的には**整然データは縦持ちデータ（Long Format），**と呼ばれます．そうでないデータは**横持ちデータ（Wide Format）**と呼ばれます．

<figure><img src="https://lh3.googleusercontent.com/d/1Q0f_-9aIx1fEf3A3I1ES6VUBlrKpGyiJ" alt="long-and-wide" width=400><figcaption>出典: https://github.com/gadenbuie/tidyexplain/</figcaption></figure>


ここではIris データセットをRで横持ちデータ（wide format）と縦持ちデータ（long format）の例を示します．Iris データセットは、花の種類（Species）ごとに花弁（petals）と萼片（sepals）の長さと幅を測定したデータを含んでいます。このデータセットは、典型的な横持ちデータの例です。各行が一つのアヤメの花を表し、以下のような列があります：

- **Species**: 花の種類を示すカテゴリカルな変数（例：setosa, versicolor, virginica）
- **Sepal.Length**: 萼片の長さ
- **Sepal.Width**: 萼片の幅
- **Petal.Length**: 花弁の長さ
- **Petal.Width**: 花弁の幅


In [None]:
# irisデータセットを読み込む
data(iris)

**横持ちデータ（Wide Format）の例**

横持ちデータとは一部のラベルが横に並んでいるようなデータ構造を指します．各行が全ての測定値を保持しているため、特定の花に関する情報にアクセスするのが簡単です．Irisデータセットは典型的な**横持ち（Wide）データ**です．分析の文脈では、横持ちデータを用いることで、特定の変数間の関連を簡単に調べることができます。例えば、Iris データセットでは、萼片の長さと花弁の長さの相関を調べたり、種別によるこれらの属性の違いを分析するのに適しています．

In [None]:
# 最初の数行を表示（典型的な横持ち（wide）データ
head(iris)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
6,5.4,3.9,1.7,0.4,setosa


**縦持ちデータ（Long Format），整然データ（tidy format）の例**

1つの観測値ごとに複数行を使用し、変数ごとに列が設定されているデータは，**整然（tidy）データ**，
や**縦持ち（Long）データ**と呼ばれます．narrow data, vertical dataなどとも呼ばれます．`tidyverse`に含まれる`tidyr`パッケージの`pivot_longer()`関数を使用すれば，横持ちデータを縦持ちデータに変換することができます．一つの観測が一つの行と対応していることがわかります．

In [None]:
library(tidyr)
# irisデータセットを縦持ち形式に変換
iris_long <- iris %>%
  pivot_longer(
    cols = -Species,  # Species列を除くすべての列を縦持ちに変換
    names_to = "measurement",  # 新しい列名（測定値の種類）
    values_to = "value"  # 測定値
  )

# 結果を表示（縦持ち（long, tidy）データ）
head(iris_long)

Species,measurement,value
<fct>,<chr>,<dbl>
setosa,Sepal.Length,5.1
setosa,Sepal.Width,3.5
setosa,Petal.Length,1.4
setosa,Petal.Width,0.2
setosa,Sepal.Length,4.9
setosa,Sepal.Width,3.0


### **6.2 整然データの利点**

当然のことですが，研究では**再生可能性**（同じデータを同じように処理すれば同じ結果が得られる）ことが重視されます．再生可能性を高める一つの方法が，整然データを使うことです．

1. **分析しやすい：** 整然データ形式は、多くのR関数や`tidyverse`のパッケージ、特に`dplyr`や`ggplot2`と互換性が高く、データの加工や分析が容易になります。データが一貫した形式であるため、関数を適用する際の予期せぬエラーや結果の不整合を避けることができます。
2. **可読性の向上：** 整然データは、人間にとっても読みやすい形式です。データの各列が何を表しているか、どのようにデータが構成されているかが一目でわかります。これにより、データの理解が深まり、データに関するコミュニケーションが容易になります。
3. **再利用性の向上：** 一度整然データ形式に変換しておけば、同じデータセットを用いた別の分析や可視化にも簡単に再利用することができます。データの前処理作業を繰り返す必要が減少し、効率的なデータ分析が可能になります。
4. **自動化とスケーラビリティ：** 整然データの形式は、データの自動処理や大規模なデータセットへの適用を容易にします。データの整形や分析のプロセスをスクリプト化しやすくなり、大量のデータや複数のデータセットに対して同じ操作を繰り返す場合に大きな効果を発揮します。
5. **データの統合と共有：** 異なるデータソースから収集されたデータを統合する際にも、整然データの原則が役立ちます。データの形式を統一することで、異なるデータセット間での比較や組み合わせが容易になり、データの共有や公開もスムーズに行えます。

整然データの形式でデータを扱うことは今後広まっていくでしょう（ただし現時点では，活発に開発が進んでいることから`{tidyverse}`関係の関数の仕様が頻繁に変わることがあるため，最新の情報を手に入れるようにしましょう）．

### **6.3 整然データを扱うためのライブラリ**

整然データを使うことで分析や視覚化が容易になります．**`tidyverse`**パッケージ群、特に**`dplyr`**や**`tidyr`**は、データをこの整然データ形式に変換し、分析しやすくするための強力なツールを提供します．

また，データを最初から「整然データ」として扱うことで，中間オブジェクトを挟まずともデータ整形から処理・可視化まで一連の流れをミス無く円滑に行いやすくなりますと言われています．またこのための仕組みとして`{tidyverse}`の一連のパッケージでは，**パイプ演算子（%>%）**というものが使われます．


**代表的なtidyverseパッケージ**
*   [ggplot2](https://ggplot2.tidyverse.org/): グラフィックスを作成するためのパッケージ
*   [dplyr](https://dplyr.tidyverse.org/): データ操作、抽出、加工のためのパッケージ
*   [tidyr:](https://tidyr.tidyverse.org/) “tidy data” を作成、操作するためのパッケージ
*   [readr](https://readr.tidyverse.org/): ファイルを柔軟に読み込むためのパッケージ
*   [purrr](https://purrr.tidyverse.org/): 関数型プログラミングを実現するためのパッケージ
*   [tibble](https://tibble.tidyverse.org/): データ構造tibbleを作成、操作するためのパッケージ
*   [stringr](https://stringr.tidyverse.org/): 文字列を容易に、柔軟に操作するためのパッケージ
*   [forcats](https://forcats.tidyverse.org/): factor型のデータを柔軟に操作するためのパッケージ
*   [magrittr](https://magrittr.tidyverse.org/): : パイプ (%>%) 演算子の機能を提供するパッケージ


### **6.4 `dplyr`を使ったデータ処理**

#### **6.4.1 `tidyverse`パッケージのロード**

tidyverseパッケージをロードします（未インストールの場合は、install.packages(“tidyverse”)でインストールしてください；結構大量にインストールされるので時間がかかります）。tidyverse パッケージをロードすると、同時に 上の8 つのパッケージがロードされます．

In [None]:
library(tidyverse)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.4.4     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


としてもよいですが，dplyrパッケージだけが使いたいときは下のようにしてもいいです．

In [None]:
library(dplyr)

#### **6.4.2 データの準備**

まずは、サンプルデータフレームを準備します．Base Rで使われるdata.frame型で作成してもよいですし，tidyverse内で使われるtibble型で作成してもいいです．ここではdata.frame型で解説を進めます．

In [None]:
# データの作成（data.frame版）
data <- data.frame(
  id = 1:50,
  name = c("佐藤", "鈴木", "高橋", "田中", "伊藤", "渡辺", "山本", "中村", "小林", "加藤",
           "吉田", "山田", "佐々木", "山口", "松本", "井上", "木村", "林", "斎藤", "清水",
           "山崎", "小森", "池田", "橋本", "阿部", "狩野", "山下", "小川", "中島", "石井",
           "前田", "藤田", "岡田", "後藤", "長谷川", "村上", "近藤", "石原", "坂本", "遠藤",
           "青野", "藤井", "西村", "福田", "太田", "三浦", "岡本", "松田", "中川", "中野"),
  score = c(40, 76, 45, 78, 57, 55, 44, 71, 41, 41, 79, 75, 78, 51, 58, 67, 40, 54,
           75, 52, 60, 51, 44, 46, 44, 43, 52, 76, 54, 55, 60, 75, 63, 55, 53, 61,
           45, 75, 40, 71, 45, 70, 40, 76, 74, 69, 43, 74, 53, 79)
)

head(data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,1,佐藤,40
2,2,鈴木,76
3,3,高橋,45
4,4,田中,78
5,5,伊藤,57
6,6,渡辺,55


In [None]:
# データの作成（tibble版）
data_tibble <- tibble(
  id = 1:50,
  name = c("佐藤", "鈴木", "高橋", "田中", "伊藤", "渡辺", "山本", "中村", "小林", "加藤",
           "吉田", "山田", "佐々木", "山口", "松本", "井上", "木村", "林", "斎藤", "清水",
           "山崎", "小森", "池田", "橋本", "阿部", "狩野", "山下", "小川", "中島", "石井",
           "前田", "藤田", "岡田", "後藤", "長谷川", "村上", "近藤", "石原", "坂本", "遠藤",
           "青野", "藤井", "西村", "福田", "太田", "三浦", "岡本", "松田", "中川", "中野"),
  score = c(20, 56, 25, 58, 37, 35, 24, 51, 21, 21, 59, 55, 58, 31, 38, 47, 20, 34,
          55, 32, 40, 31, 24, 26, 24, 23, 32, 56, 34, 35, 40, 55, 43, 35, 33,
          41, 25, 55, 20, 51, 25, 50, 20, 56, 54, 49, 23, 54, 33, 59)
)

head(data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,1,佐藤,40
2,2,鈴木,76
3,3,高橋,45
4,4,田中,78
5,5,伊藤,57
6,6,渡辺,55


#### **6.4.3 `dplyr`パッケージの関数の基本**

1. **選択 (select)**: データフレームから特定の列を選択します。


In [None]:
# id列を省く
selected_data <- select(data, name, score)
head(selected_data)

Unnamed: 0_level_0,name,score
Unnamed: 0_level_1,<chr>,<dbl>
1,佐藤,40
2,鈴木,76
3,高橋,45
4,田中,78
5,伊藤,57
6,渡辺,55


2. **絞り込み (filter)**: 条件に一致する行でデータフレームを絞り込みます。

In [None]:
# 合格者だけのデータを抜き出す
filtered_data <- filter(data, score >= 60)
head(filtered_data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,2,鈴木,76
2,4,田中,78
3,8,中村,71
4,11,吉田,79
5,12,山田,75
6,13,佐々木,78


3. **並べ替え (arrange)**: 指定した列に基づいて行を並べ替えます。

In [None]:
arranged_data <- arrange(data, desc(score))
head(arranged_data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,11,吉田,79
2,50,中野,79
3,4,田中,78
4,13,佐々木,78
5,2,鈴木,76
6,28,小川,76


4. **変換 (mutate)**: 既存の列を使って新しい列を作成します。

In [None]:
# 新しい列"passed"が作られ合格の場合TRUE，不合格の場合はFALSEが入ります
mutated_data <- mutate(data, passed = score >= 60)
head(mutated_data)

Unnamed: 0_level_0,id,name,score,passed
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<lgl>
1,1,佐藤,40,False
2,2,鈴木,76,True
3,3,高橋,45,False
4,4,田中,78,True
5,5,伊藤,57,False
6,6,渡辺,55,False


In [None]:
# 新しい列"status"が作られ合格の場合「合格」，不合格の場合は「ブッブー」が入ります
mutated_data <- mutate(data, status = ifelse(score >= 60, "合格", "ブッブー"))
head(mutated_data)

Unnamed: 0_level_0,id,name,score,status
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>
1,1,佐藤,40,ブッブー
2,2,鈴木,76,合格
3,3,高橋,45,ブッブー
4,4,田中,78,合格
5,5,伊藤,57,ブッブー
6,6,渡辺,55,ブッブー


5. **要約 (summarise)**: データの要約統計を計算します。

In [None]:
# ここではmean()を使って平均点を出しています
summarised_data <- summarise(data, average_score = mean(score))
print(summarised_data)

  average_score
1         58.46


6. **グループ化と要約 (group_by + summarise)**: グループ化したデータに対して要約統計を計算します（パイプ演算子`%>%`については下で説明します）

In [None]:
# この例では、先に`mutate`を使用して合格状況（status）で分類
data_with_status <- mutate(data, status = ifelse(score >= 60, "合格", "不合格"))

# data_with_statusをgroup_by(status)で合格状況ごとにグルーピングし，
# それぞれの平均値をsummarise()で求めている
grouped_summary <- data_with_status %>%
    group_by(status) %>%
    summarise(average_score = mean(score))

print(grouped_summary)

[90m# A tibble: 2 × 2[39m
  status average_score
  [3m[90m<chr>[39m[23m          [3m[90m<dbl>[39m[23m
[90m1[39m 不合格          47.9
[90m2[39m 合格            71.9


### **6.5 パイプ演算子の使い方**

#### **6.5.1 パイプ演算子とは**

`dplyr`と一緒によく使われる`%>%`は、パイプ演算子（pipe operator）と呼ばれ，Rの`magrittr`パッケージによって提供されています．`tidyverse`に含まれるため、`tidyverse`をロードすることで自動的に使えるようになります．パイプ演算子は、コードの可読性を向上させ，データ処理の工程を直感的につなげることができる強力なツールですので，バグを減らし再現性を高めることが期待できます．

パイプ演算子`%>%`は、左側の結果を右側の関数の最初の引数として渡します．これにより、ネストされた関数呼び出し（関数の中で関数を呼び出す）を避け，コードをより読みやすく直感的なものにすることができます．

```r
# ネストされた呼び出しの例（めっちゃ読みにくい）
関数C( 関数B( 関数A( データ ) ) )
```

```r
# パイプ演算子による処理（めっちゃ読みやすい）
データ %>% 関数A %>% 関数B %>% 関数C
```
`x %>% f`は、`f(x)`と同等の処理を行います．


#### **6.5.2  「`%>%`」と「`|>`」の2種類あるパイプ演算子**

`%>%` パイプ演算子は`tidyverse`パッケージによって提供される演算子でしたが，R（バージョン4.1.0以降）でも同様の機能を持つパイプ演算子`|>` が標準機能としてサポートされるようになりました．

`|>`を使った場合でも`%>%`を使った場合とほぼ同様の処理を行われます．今後は，`|>`が主流になるかもしれませんが，この資料では`%>%`で記述しています．ネイティブパイプに置き換えても同じ結果が出力されます．



#### **6.5.3 パイプ演算子の使用例**


In [None]:
# データの作成（data.frame版）
data <- data.frame(
  id = 1:50,
  name = c("佐藤", "鈴木", "高橋", "田中", "伊藤", "渡辺", "山本", "中村", "小林", "加藤",
           "吉田", "山田", "佐々木", "山口", "松本", "井上", "木村", "林", "斎藤", "清水",
           "山崎", "小森", "池田", "橋本", "阿部", "狩野", "山下", "小川", "中島", "石井",
           "前田", "藤田", "岡田", "後藤", "長谷川", "村上", "近藤", "石原", "坂本", "遠藤",
           "青野", "藤井", "西村", "福田", "太田", "三浦", "岡本", "松田", "中川", "中野"),
  score = c(40, 76, 45, 78, 57, 55, 44, 71, 41, 41, 79, 75, 78, 51, 58, 67, 40, 54,
           75, 52, 60, 51, 44, 46, 44, 43, 52, 76, 54, 55, 60, 75, 63, 55, 53, 61,
           45, 75, 40, 71, 45, 70, 40, 76, 74, 69, 43, 74, 53, 79)
)

head(data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,1,佐藤,40
2,2,鈴木,76
3,3,高橋,45
4,4,田中,78
5,5,伊藤,57
6,6,渡辺,55


**パイプ演算子なしで書かれたコード：**

In [None]:
arrange(filter(select(data, name, score), score >= 75), desc(score))

name,score
<chr>,<dbl>
吉田,79
中野,79
田中,78
佐々木,78
鈴木,76
小川,76
福田,76
山田,75
斎藤,75
藤田,75


このRコードは`data` データフレームから `name` と `score` の列を選択し、75点以上の得点を取得した学生のみを抽出して、得点が高い順（降順）に並べ替えた結果を返します．つまり，この処理は、成績表から合格基準を満たす学生を選び出し，その成績に基づいてランキングを作成していることになります．

1. **`select(data, name, score)`**: `data` データフレームから `name` と `score` の2つの列を選択します。これにより、処理の対象となるデータがこれら2列に限定されます。

2. **`filter(..., score >= 75)`**: `select` 関数によって抽出されたデータのうち、`score` が75以上の行のみを選択します。つまり、テストで75点以上を取得した学生のデータのみが次のステップに進みます。

3. **`arrange(..., desc(score))`**: 最後に、`filter` 関数によって得られたデータを `score` の値で降順に並べ替えます。つまり、最高得点を取得した学生から順にデータが並べられます。


**パイプ演算子を使用して書き直したコード：**


In [None]:
data %>%
  select(name, score) %>%
  filter(score >= 75) %>%
  arrange(desc(score))

name,score
<chr>,<dbl>
吉田,79
中野,79
田中,78
佐々木,78
鈴木,76
小川,76
福田,76
山田,75
斎藤,75
藤田,75


In [None]:
data |>
  select(name, score) |>
  filter(score >= 75) |>
  arrange(desc(score))

name,score
<chr>,<dbl>
吉田,79
中野,79
田中,78
佐々木,78
鈴木,76
小川,76
福田,76
山田,75
斎藤,75
藤田,75


このコードも上と同様の処理を行っていますが，パイプ演算子(`%>%`)を用いることで，複数の処理を直感的かつ読みやすい形で連鎖させています．各ステップの具体的な操作は以下の通りです：

1. `select(name, score)`: 最初に、`data`データフレームから`name`（名前）と`score`（得点）の2つの列を選択します。これにより、処理に必要な情報のみを含むデータフレームが作成されます。

2. `filter(score >= 75)`: 選択されたデータのうち、`score`が75点以上の行だけを抽出します。このフィルタリングにより、75点以上を取得した学生のデータのみが次のステップへと進みます。

3. `arrange(desc(score))`: 最終的に、フィルタリングされたデータを`score`列の値で降順に並べ替えます。これにより、最も高い得点を取得した学生から順にデータが並べられます。


パイプ演算子を使用することで、処理の各ステップを明確にし、コードの読みやすさを向上させています．パイプ演算子は特に`tidyverse`のパッケージと相性が良く，Rでのデータ分析作業で非常に良く使われますので覚えておいてください．

### **6.6 データの縦横変換**

#### **6.6.1 サンプルデータの準備**

まず仮想のサンプルデータセットを作成します．以下のデータセットでは，異なる年齢層の参加者がストレスと幸福感の主観評定のデータをまとめたものを考えています．


In [None]:
library(tidyr)

# 幸福感研究用サンプルデータフレームの作成
wellbeing_data <- tibble(
  participant_id = c(101, 102, 103, 101, 102, 103),
  age_group = c("Young", "Middle-aged", "Elderly", "Young", "Middle-aged", "Elderly"),
  year = c(2020, 2020, 2020, 2021, 2021, 2021),
  stress_level = c(40, 50, 30, 42, 48, 28),
  wellbeing_score = c(7, 6, 8, 7, 5, 9)
)

# 結果を表示
wellbeing_data

participant_id,age_group,year,stress_level,wellbeing_score
<dbl>,<chr>,<dbl>,<dbl>,<dbl>
101,Young,2020,40,7
102,Middle-aged,2020,50,6
103,Elderly,2020,30,8
101,Young,2021,42,7
102,Middle-aged,2021,48,5
103,Elderly,2021,28,9


このデータセットは次のように構成されています：
- `participant_id`: 各参加者のユニークな識別ID
- `age_group`: 参加者の年齢層（「Young」、「Middle-aged」、「Elderly」）
- `year`: 調査年
- `stress_level`: ストレスレベルの測定値（数値スコア）
- `wellbeing_score`: 幸福感のスコア（10点満点）

#### **6.6.2 縦長形式への変換 (`pivot_longer`)**






このデータに対して`pivot_longer()`関数を使用して、`stress_level`と`happiness_score`列を縦長の形式に変換します．その際に指標（`measure`）列と数値（`value`）列を新たに作成します．

In [None]:
# stress_levelとwellbeing_score列を縦長形式に変換
wellbeing_data_long <- wellbeing_data %>%
  pivot_longer(
    cols = c(stress_level, wellbeing_score),
    names_to = "measure",
    values_to = "value"
  )

# 結果を表示
wellbeing_data_long

participant_id,age_group,year,measure,value
<dbl>,<chr>,<dbl>,<chr>,<dbl>
101,Young,2020,stress_level,40
101,Young,2020,wellbeing_score,7
102,Middle-aged,2020,stress_level,50
102,Middle-aged,2020,wellbeing_score,6
103,Elderly,2020,stress_level,30
103,Elderly,2020,wellbeing_score,8
101,Young,2021,stress_level,42
101,Young,2021,wellbeing_score,7
102,Middle-aged,2021,stress_level,48
102,Middle-aged,2021,wellbeing_score,5


#### **6.6.3 縦長形式データの処理の例**

**特定の年齢層のデータをフィルタリング**

In [None]:
# 「Young」年齢層のデータのみ抽出
young_data <- wellbeing_data_long %>%
  filter(age_group == "Young")

# 結果を表示
young_data

participant_id,age_group,year,measure,value
<dbl>,<chr>,<dbl>,<chr>,<dbl>
101,Young,2020,stress_level,40
101,Young,2020,wellbeing_score,7
101,Young,2021,stress_level,42
101,Young,2021,wellbeing_score,7


**特定の測定値（例：ストレスレベル）の年別平均値の計算**

In [None]:
# ストレスレベルの年別平均値を計算
average_stress_by_year <- wellbeing_data_long %>%
  filter(measure == "stress_level") %>%
  group_by(year) %>%
  summarise(average_stress = mean(value))

# 結果を表示
average_stress_by_year

year,average_stress
<dbl>,<dbl>
2020,40.0
2021,39.33333


**幸福感のスコアが特定の閾値以上のデータの抽出と集約**

In [None]:
# 幸福感スコアが7以上のデータの集約
high_happiness <- wellbeing_data_long %>%
  filter(measure == "wellbeing_score", value >= 7) %>%
  group_by(year, age_group) %>%
  summarise(count = n(), average_happiness = mean(value), .groups = "drop")

# 結果を表示
high_happiness

year,age_group,count,average_happiness
<dbl>,<chr>,<int>,<dbl>
2020,Elderly,1,8
2020,Young,1,7
2021,Elderly,1,9
2021,Young,1,7


#### **6.6.4 横長形式への変換 (`pivot_wider`)**

縦長形式のデータを横長形式に戻す例です．

In [None]:
# 縦長形式から横長形式への変換
wellbeing_data_wide <- wellbeing_data_long %>%
  pivot_wider(
    names_from = measure,
    values_from = value
  )

# 変換後のデータを表示
wellbeing_data_wide


participant_id,age_group,year,stress_level,wellbeing_score
<dbl>,<chr>,<dbl>,<dbl>,<dbl>
101,Young,2020,40,7
102,Middle-aged,2020,50,6
103,Elderly,2020,30,8
101,Young,2021,42,7
102,Middle-aged,2021,48,5
103,Elderly,2021,28,9
