<a href="https://colab.research.google.com/github/sugaya-findex/platform-ex/blob/main/R%E3%81%AB%E3%82%88%E3%82%8B%E7%B5%B1%E8%A8%88%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E5%85%A5%E9%96%80_02_R%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E5%9E%8B%E3%81%A8%E3%82%AF%E3%83%A9%E3%82%B9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# １．データ型の自動変換
ベクトルデータは関数`c()`を使って作成することができました。この関数使えば、数値と文字列が混在したベクトルを作ることもできます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
c(1, "hello", 3.14)
```

上記の出力結果を眺めてみると、数値データであるはずの`1`や`3.14`にクオーテーションが追加されていて、文字列データに置き変わっているように見受けられます。実はＲのデータには「データ型」という概念があり、型が混在しているデータの場合には、より汎用な型に自動変換されるように設計されています。数値データの型と文字列データの型を比較すると、Rでは文字列データの方がより汎用的なデータ型として定義されているため、数値データは文字列データに置換されてしまっているのです。

# ２．データ型とクラス
Rにおける代表的なデータ型を下表にまとめました。表の下にいくほど汎用性が高い大きなデータ型になっています。型が混在していた場合には、表の下の方の型に自動変換されます。実数型のデータ型には日付(`Date`)と因子(`factor`)というふたつの特別なクラスがありますが、これらはデータ解析時によく使うクラスなので、ここであわせて覚えておくようにしてください。

|データ型|クラス|説明|
|---|---|---|
|空(**`NULL`**)||空のデータ。反復処理時に、計算結果を格納するオブジェクトの初期値として利用されることが多い。|
|論理型(**`logical`**)||論理値（`TRUE` or `FALSE`）。`T` or `F`の省略記法が使える。|
|実数型(**`numeric`**)||実数の数値データ。属性を付与すると、特別なクラスのデータとして扱うことができる。|<!--||整数(**`integer`**)|整数|--->
||日付(**`Date`**)|日付のデータ。1970年1月1日が基準になっている。|
||因子(**`factor`**)|類別のデータ。順序因子と非順序因子がある。|
|複素数型(**`complex`**)||複素数の数値データ。`i`は虚数を表す。|
|文字列型(**`character`**)||文字のデータ。|

オブジェクトのデータ型は、関数`mode`で調べることができます。さまざまなデータ型のオブジェクトを作成し、その型を確認してみましょう。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
x1 = NULL              # 空
x2 = T                 # 論理型
x3 = 2                 # 実数型
x4 = 3+4i              # 複素数型
x5 = "hello"           # 文字列型
mode(x1)
mode(x2)
mode(x3)
mode(x4)
mode(x5)
```


データ型が混在したベクトルを作成し、型が自動変換されるようすを再度確認してみましょう。`NULL`は空のデータなので、実体があるデータと並ぶと表示されなくなってしまう点に注意してください。また、論理型データを実数型データとして扱う場合、`TRUE`は`1`、`FALSE`は`0`に変換される点にも注意してください。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
# 空 + 論理型
c(x1, x2)
mode(c(x1, x2))
# 論理型 + 実数型
c(x2, x3)
mode(c(x2, x3))
# 実数型 + 複素数型
c(x3, x4)
mode(c(x3, x4))
# 空 + 論理型 + 実数型 + 複素数型 + 文字列型
c(x1, x2, x3, x4, x5)
mode(c(x1, x2, x3, x4, x5))
```


## ２．１．日付データ
実数型の特別なクラスである`Date`クラスのデータ例を見てみましょう。日付クラスのデータは、内部的には1970年1月1日からの経過日を表した数値データです。つまり、1970年1月1日が`0`、1970年1月2日は`1`、といった数値のかたちでRの内部では存在しています。しかし、日付クラスのデータがR上で呼び出されると、数値が日付の形式に変換されて表示されます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
x6 = Sys.Date()                          # 現在の日付
x6
mode(x6)                                 # データ型の確認
class(x6)                                # クラスの確認
as.numeric(x6)                           # データの実体

# 実数データを日付データに変換
as.Date(0, origin="1970-01-01")
as.Date(1, origin="1970-01-01")
as.Date(-1, origin="1970-01-01")
```


## ２．２．因子データ
因子クラスのデータも実数型の特別なクラスです。内部的には`1,2,3...`という数値データになっていますが、数値に対応したラベルデータを属性として持っています。そのため、R上で呼び出されると、数値とラベルの対応関係に基づいて数値が自動変換され、ラベルの方が表示されます。

## ２．２．１．非順序因子
因子データのラベルのことを因子の水準と呼びます。水準に順序がある因子データのことを順序因子、順序がない因子データのことを非順序因子と呼びます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
letters
x7 = letters[1:5]               # 文字列ベクトルの作成
x7 = factor(x7)                 # 非順序因子データに変換
x7
mode(x7)                        # データ型の確認
class(x7)                       # クラスの確認
as.numeric(x7)                  # データの実体
attributes(x7)                  # 属性の表示
```


## ２．２．２．順序因子
順序因子は関数`ordered`を使って作成し、`levels`のオプションで水準の順序を指定します。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
x8 = c("M","L","S")                           # 文字列ベクトルの作成
x8 = ordered(x8, levels=c("S","M","L"))       # 順序因子データに変換
x8
mode(x8)                                      # データ型の確認
class(x8)                                     # クラスの確認
as.numeric(x8)                                # データの実体
levels(x8)                                    # 水準の表示
```
