<a href="https://colab.research.google.com/github/komorimasashi/jinka-stat-a1/blob/main/R06_Tidy_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **6. 整然データとその処理**

### **6.1 整然データとは**

近年，データを**tidy data（整然データ，雑然としたの反対語）**という形式で統一的に扱うと良いという考え方が広まりつつあります．整然データとはどのようなものでしょうか．簡単に言えば「一つの観測が一つの行に対応する」ようにデータを並べたものです．

整然データは、以下の三つの原則に基づいてデータを整理する方法を指します：
1. **各変数が1列を形成する。**
2. **各観測が1行を形成する。**
3. **各観測単位の型が1つのテーブルを形成する。**

この考えに則って，R界隈では整然データを扱うことに適したパッケージ`{tidyverse}`が広く使われるようになってきました．`{tidyverse}`には，data.frameからデータの抽出，ソートや要約などが簡単にできるパッケージである`{dplyr}`や，美しい描画を手軽に描画できる`{ggplot2}`などのパッケージが含まれています．`{ggplot2}`はこのような形式で記述されたデータを表示するようにできています．これらのパッケージは整然データの考え方に従って設計されています．

<figure><img src="https://lh3.googleusercontent.com/d/1o3B3yHpGzIYNvil3GgwxGblnOwpWnytO" alt="logo" width=600><figcaption>Tidyverseとその関連パッケージ（https://www.tidyverse.org/）</figcaption></figure>



*   **人間にとってはわかりやすいが整然データではないデータ（18個の観測値がある）**
例えば下の表は人間にとってはとても見やすいですが，一つの行に複数の観測値が含まれているので，整然データではありません．実験参加者Aの2日目の観測値を見るためには，列と行のインデックスを見る必要があります．


<figure><img src="https://lh3.googleusercontent.com/d/1JPuMzU1mDnM_Pbiy0anRNLUrObEUWjbp" alt="logo" width=600><figcaption></figcaption></figure>


*   **整然データ**
一方，上を整然データに直したものが下の表になります．一つの観測値に一つの行が割り当てられているため，統計的な分析をする際にはこちらの方が楽になります．

<figure><img src="https://lh3.googleusercontent.com/d/1wO1097LDn-pyw3oQHeThJebn40AcH1Rl" alt="logo" width=250><figcaption></figcaption></figure>



### **6.2 整然データの利点**

当然のことですが，研究では**再生可能性**（同じデータを同じように処理すれば同じ結果が得られる）ことが重視されます．再生可能性を高める一つの方法が，整然データを使うことです．

1. **分析しやすい：** 整然データ形式は、多くのR関数や`tidyverse`のパッケージ、特に`dplyr`や`ggplot2`と互換性が高く、データの加工や分析が容易になります。データが一貫した形式であるため、関数を適用する際の予期せぬエラーや結果の不整合を避けることができます。
2. **可読性の向上：** 整然データは、人間にとっても読みやすい形式です。データの各列が何を表しているか、どのようにデータが構成されているかが一目でわかります。これにより、データの理解が深まり、データに関するコミュニケーションが容易になります。
3. **再利用性の向上：** 一度整然データ形式に変換しておけば、同じデータセットを用いた別の分析や可視化にも簡単に再利用することができます。データの前処理作業を繰り返す必要が減少し、効率的なデータ分析が可能になります。
4. **自動化とスケーラビリティ：** 整然データの形式は、データの自動処理や大規模なデータセットへの適用を容易にします。データの整形や分析のプロセスをスクリプト化しやすくなり、大量のデータや複数のデータセットに対して同じ操作を繰り返す場合に大きな効果を発揮します。
5. **データの統合と共有：** 異なるデータソースから収集されたデータを統合する際にも、整然データの原則が役立ちます。データの形式を統一することで、異なるデータセット間での比較や組み合わせが容易になり、データの共有や公開もスムーズに行えます。

整然データの形式でデータを扱うことは今後広まっていくでしょう（ただし現時点では，活発に開発が進んでいることから`{tidyverse}`関係の関数の仕様が頻繁に変わることがあるため，最新の情報を手に入れるようにしましょう）．

### **6.3 整然データを扱うためのライブラリ**

整然データを使うことで分析や視覚化が容易になります．**`tidyverse`**パッケージ群、特に**`dplyr`**や**`tidyr`**は、データをこの整然データ形式に変換し、分析しやすくするための強力なツールを提供します．

また，データを最初から「整然データ」として扱うことで，中間オブジェクトを挟まずともデータ整形から処理・可視化まで一連の流れをミス無く円滑に行いやすくなりますと言われています．またこのための仕組みとして`{tidyverse}`の一連のパッケージでは，**パイプ演算子（%>%）**というものが使われます．


**代表的なtidyverseパッケージ**
*   [ggplot2](https://ggplot2.tidyverse.org/): グラフィックスを作成するためのパッケージ
*   [dplyr](https://dplyr.tidyverse.org/): データ操作、抽出、加工のためのパッケージ
*   [tidyr:](https://tidyr.tidyverse.org/) “tidy data” を作成、操作するためのパッケージ
*   [readr](https://readr.tidyverse.org/): ファイルを柔軟に読み込むためのパッケージ
*   [purrr](https://purrr.tidyverse.org/): 関数型プログラミングを実現するためのパッケージ
*   [tibble](https://tibble.tidyverse.org/): データ構造tibbleを作成、操作するためのパッケージ
*   [stringr](https://stringr.tidyverse.org/): 文字列を容易に、柔軟に操作するためのパッケージ
*   [forcats](https://forcats.tidyverse.org/): factor型のデータを柔軟に操作するためのパッケージ
*   [magrittr](https://magrittr.tidyverse.org/): : パイプ (%>%) 演算子の機能を提供するパッケージ


### **6.4 `dplyr`を使ったデータ処理**

#### **6.4.1 tidyverseパッケージのロード**

tidyverseパッケージをロードします（未インストールの場合は、install.packages(“tidyverse”)でインストールしてください；結構大量にインストールされるので時間がかかります）。tidyverse パッケージをロードすると、同時に 上の8 つのパッケージがロードされます．

In [8]:
library(tidyverse)

としてもよいですが，dplyrパッケージだけが使いたいときは下のようにしてもいいです．

In [10]:
library(dplyr)

#### **6.4.2 データの準備**
まずは、サンプルデータフレームを準備します．Base Rで使われるdata.frame型で作成してもよいですし，tidyverse内で使われるtibble型で作成してもいいです．ここではdata.frame型で解説を進めます．

In [53]:
# データの作成（data.frame版）
data <- data.frame(
  id = 1:50,
  name = c("佐藤", "鈴木", "高橋", "田中", "伊藤", "渡辺", "山本", "中村", "小林", "加藤",
           "吉田", "山田", "佐々木", "山口", "松本", "井上", "木村", "林", "斎藤", "清水",
           "山崎", "小森", "池田", "橋本", "阿部", "狩野", "山下", "小川", "中島", "石井",
           "前田", "藤田", "岡田", "後藤", "長谷川", "村上", "近藤", "石原", "坂本", "遠藤",
           "青野", "藤井", "西村", "福田", "太田", "三浦", "岡本", "松田", "中川", "中野"),
  score = c(40, 76, 45, 78, 57, 55, 44, 71, 41, 41, 79, 75, 78, 51, 58, 67, 40, 54,
           75, 52, 60, 51, 44, 46, 44, 43, 52, 76, 54, 55, 60, 75, 63, 55, 53, 61,
           45, 75, 40, 71, 45, 70, 40, 76, 74, 69, 43, 74, 53, 79)
)

head(data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,1,佐藤,40
2,2,鈴木,76
3,3,高橋,45
4,4,田中,78
5,5,伊藤,57
6,6,渡辺,55


In [54]:
# データの作成（tibble版）
data_tibble <- tibble(
  id = 1:50,
  name = c("佐藤", "鈴木", "高橋", "田中", "伊藤", "渡辺", "山本", "中村", "小林", "加藤",
           "吉田", "山田", "佐々木", "山口", "松本", "井上", "木村", "林", "斎藤", "清水",
           "山崎", "小森", "池田", "橋本", "阿部", "狩野", "山下", "小川", "中島", "石井",
           "前田", "藤田", "岡田", "後藤", "長谷川", "村上", "近藤", "石原", "坂本", "遠藤",
           "青野", "藤井", "西村", "福田", "太田", "三浦", "岡本", "松田", "中川", "中野"),
  score = c(20, 56, 25, 58, 37, 35, 24, 51, 21, 21, 59, 55, 58, 31, 38, 47, 20, 34,
          55, 32, 40, 31, 24, 26, 24, 23, 32, 56, 34, 35, 40, 55, 43, 35, 33,
          41, 25, 55, 20, 51, 25, 50, 20, 56, 54, 49, 23, 54, 33, 59)
)

head(data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,1,佐藤,40
2,2,鈴木,76
3,3,高橋,45
4,4,田中,78
5,5,伊藤,57
6,6,渡辺,55


#### **6.4.3 `dplyr`パッケージの関数の基本**

1. **選択 (select)**: データフレームから特定の列を選択します。


In [61]:
# id列を省く
selected_data <- select(data, name, score)
head(selected_data)

Unnamed: 0_level_0,name,score
Unnamed: 0_level_1,<chr>,<dbl>
1,佐藤,40
2,鈴木,76
3,高橋,45
4,田中,78
5,伊藤,57
6,渡辺,55


2. **絞り込み (filter)**: 条件に一致する行でデータフレームを絞り込みます。

In [62]:
# 合格者だけのデータを抜き出す
filtered_data <- filter(data, score >= 60)
head(filtered_data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,2,鈴木,76
2,4,田中,78
3,8,中村,71
4,11,吉田,79
5,12,山田,75
6,13,佐々木,78


3. **並べ替え (arrange)**: 指定した列に基づいて行を並べ替えます。

In [63]:
arranged_data <- arrange(data, desc(score))
head(arranged_data)

Unnamed: 0_level_0,id,name,score
Unnamed: 0_level_1,<int>,<chr>,<dbl>
1,11,吉田,79
2,50,中野,79
3,4,田中,78
4,13,佐々木,78
5,2,鈴木,76
6,28,小川,76


4. **変換 (mutate)**: 既存の列を使って新しい列を作成します。

In [64]:
# 新しい列"passed"が作られ合格の場合TRUE，不合格の場合はFALSEが入ります
mutated_data <- mutate(data, passed = score >= 60)
head(mutated_data)

Unnamed: 0_level_0,id,name,score,passed
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<lgl>
1,1,佐藤,40,False
2,2,鈴木,76,True
3,3,高橋,45,False
4,4,田中,78,True
5,5,伊藤,57,False
6,6,渡辺,55,False


In [65]:
# 新しい列"status"が作られ合格の場合「合格」，不合格の場合は「ブッブー」が入ります
mutated_data <- mutate(data, status = ifelse(score >= 60, "合格", "ブッブー"))
head(mutated_data)

Unnamed: 0_level_0,id,name,score,status
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>
1,1,佐藤,40,ブッブー
2,2,鈴木,76,合格
3,3,高橋,45,ブッブー
4,4,田中,78,合格
5,5,伊藤,57,ブッブー
6,6,渡辺,55,ブッブー


5. **要約 (summarise)**: データの要約統計を計算します。

In [66]:
# ここではmean()を使って平均点を出しています
summarised_data <- summarise(data, average_score = mean(score))
print(summarised_data)

  average_score
1         58.46


6. **グループ化と要約 (group_by + summarise)**: グループ化したデータに対して要約統計を計算します（パイプ演算子`%>%`については下で説明します）

In [67]:
# この例では、先に`mutate`を使用して合格状況（status）で分類
data_with_status <- mutate(data, status = ifelse(score >= 60, "合格", "不合格"))

# data_with_statusをgroup_by(status)で合格状況ごとにグルーピングし，
# それぞれの平均値をsummarise()で求めている
grouped_summary <- data_with_status %>%
    group_by(status) %>%
    summarise(average_score = mean(score))

print(grouped_summary)

[90m# A tibble: 2 × 2[39m
  status average_score
  [3m[90m<chr>[39m[23m          [3m[90m<dbl>[39m[23m
[90m1[39m 不合格          47.9
[90m2[39m 合格            71.9


### **6.5 パイプ演算子の使い方**

#### **6.5.1 パイプ演算子とは**

`dplyr`と一緒によく使われる`%>%`は、パイプ演算子（pipe operator）と呼ばれ，Rの`magrittr`パッケージによって提供されています．`tidyverse`に含まれるため、`tidyverse`をロードすることで自動的に使えるようになります．パイプ演算子は、コードの可読性を向上させ，データ処理の工程を直感的につなげることができる強力なツールですので，バグを減らし再現性を高めることが期待できます．

パイプ演算子`%>%`は、左側の結果を右側の関数の最初の引数として渡します．これにより、ネストされた関数呼び出し（関数の中で関数を呼び出す）を避け，コードをより読みやすく直感的なものにすることができます．

```r
# ネストされた呼び出しの例
関数C( 関数B( 関数A( データ ) ) )
```

```r
# パイプ演算子による処理
データ %>% 関数A %>% 関数B %>% 関数C
```




#### **6.5.2 パイプ演算子の使用例**
**パイプ演算子なしで書かれたコード：**

In [75]:
arrange(filter(select(data, name, score), score >= 75), desc(score))

name,score
<chr>,<dbl>
吉田,79
中野,79
田中,78
佐々木,78
鈴木,76
小川,76
福田,76
山田,75
斎藤,75
藤田,75


このRコードは`data` データフレームから `name` と `score` の列を選択し、75点以上の得点を取得した学生のみを抽出して、得点が高い順（降順）に並べ替えた結果を返します．つまり，この処理は、成績表から合格基準を満たす学生を選び出し，その成績に基づいてランキングを作成していることになります．

1. **`select(data, name, score)`**: `data` データフレームから `name` と `score` の2つの列を選択します。これにより、処理の対象となるデータがこれら2列に限定されます。

2. **`filter(..., score >= 75)`**: `select` 関数によって抽出されたデータのうち、`score` が75以上の行のみを選択します。つまり、テストで75点以上を取得した学生のデータのみが次のステップに進みます。

3. **`arrange(..., desc(score))`**: 最後に、`filter` 関数によって得られたデータを `score` の値で降順に並べ替えます。つまり、最高得点を取得した学生から順にデータが並べられます。


**パイプ演算子を使用して書き直したコード：**


In [74]:
data %>%
  select(name, score) %>%
  filter(score >= 75) %>%
  arrange(desc(score))

name,score
<chr>,<dbl>
吉田,79
中野,79
田中,78
佐々木,78
鈴木,76
小川,76
福田,76
山田,75
斎藤,75
藤田,75


このコードも上と同様の処理を行っていますが，パイプ演算子(`%>%`)を用いることで，複数の処理を直感的かつ読みやすい形で連鎖させています．各ステップの具体的な操作は以下の通りです：

1. `select(name, score)`: 最初に、`data`データフレームから`name`（名前）と`score`（得点）の2つの列を選択します。これにより、処理に必要な情報のみを含むデータフレームが作成されます。

2. `filter(score >= 75)`: 選択されたデータのうち、`score`が75点以上の行だけを抽出します。このフィルタリングにより、75点以上を取得した学生のデータのみが次のステップへと進みます。

3. `arrange(desc(score))`: 最終的に、フィルタリングされたデータを`score`列の値で降順に並べ替えます。これにより、最も高い得点を取得した学生から順にデータが並べられます。


パイプ演算子を使用することで、処理の各ステップを明確にし、コードの読みやすさを向上させています．パイプ演算子は特に`tidyverse`のパッケージと相性が良く，Rでのデータ分析作業で非常に良く使われますので覚えておいてください．