# データフレーム入門

Yoshinobu Ishizaki
2020/03/20

Rではデータフレームというデータ形式でデータを扱うことが多いので、
データフレームの扱いに慣れるのが肝心。

ここでは、tipsというデータを利用して、データフレームの使い方を学習する。

In [10]:
# もし次のlibrary(reshape)がエラーになる時は、パッケージをインストールする。
# install.packages("reshape")

In [3]:
# tips data is in "reshape"
library(reshape)

In [5]:
library(tidyverse)

─ [1mAttaching packages[22m ──────────────────── tidyverse 1.3.0 ─

[32m✔[39m [34mggplot2[39m 3.3.0     [32m✔[39m [34mpurrr  [39m 0.3.3
[32m✔[39m [34mtibble [39m 2.1.3     [32m✔[39m [34mdplyr  [39m 0.8.5
[32m✔[39m [34mtidyr  [39m 1.0.2     [32m✔[39m [34mstringr[39m 1.4.0
[32m✔[39m [34mreadr  [39m 1.3.1     [32m✔[39m [34mforcats[39m 0.5.0

─ [1mConflicts[22m ───────────────────── tidyverse_conflicts() ─
[31m✖[39m [34mtidyr[39m::[32mexpand()[39m masks [34mreshape[39m::expand()
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[31m✖[39m [34mdplyr[39m::[32mrename()[39m masks [34mreshape[39m::rename()



In [6]:
options(repr.plot.width = 11, repr.plot.height = 11/16*9)

In [7]:
theme_set(theme_grey(base_size = 18))

## データの概観

`head`, `tail`でデータフレームの先頭、末尾部分を確認出来る。

In [4]:
head(tips)

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size
Unnamed: 0_level_1,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>,<int>
1,16.99,1.01,Female,No,Sun,Dinner,2
2,10.34,1.66,Male,No,Sun,Dinner,3
3,21.01,3.5,Male,No,Sun,Dinner,3
4,23.68,3.31,Male,No,Sun,Dinner,2
5,24.59,3.61,Female,No,Sun,Dinner,4
6,25.29,4.71,Male,No,Sun,Dinner,4


行指定してデータを表示する場合、

In [19]:
tips[100:110,]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size
Unnamed: 0_level_1,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>,<int>
100,12.46,1.5,Male,No,Fri,Dinner,2
101,11.35,2.5,Female,Yes,Fri,Dinner,2
102,15.38,3.0,Female,Yes,Fri,Dinner,2
103,44.3,2.5,Female,Yes,Sat,Dinner,3
104,22.42,3.48,Female,Yes,Sat,Dinner,2
105,20.92,4.08,Female,No,Sat,Dinner,2
106,15.36,1.64,Male,Yes,Sat,Dinner,2
107,20.49,4.06,Male,Yes,Sat,Dinner,2
108,25.21,4.29,Male,Yes,Sat,Dinner,2
109,18.24,3.76,Male,No,Sat,Dinner,2


`str`でデータフレームの概要を見ることが出来る。

In [8]:
str(tips)

'data.frame':	244 obs. of  7 variables:
 $ total_bill: num  17 10.3 21 23.7 24.6 ...
 $ tip       : num  1.01 1.66 3.5 3.31 3.61 4.71 2 3.12 1.96 3.23 ...
 $ sex       : Factor w/ 2 levels "Female","Male": 1 2 2 2 1 2 2 2 2 2 ...
 $ smoker    : Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
 $ day       : Factor w/ 4 levels "Fri","Sat","Sun",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ time      : Factor w/ 2 levels "Dinner","Lunch": 1 1 1 1 1 1 1 1 1 1 ...
 $ size      : int  2 3 3 2 4 4 2 4 2 2 ...


`summary`でも概要を知ることが出来る。

In [9]:
summary(tips)

   total_bill         tip             sex      smoker      day         time    
 Min.   : 3.07   Min.   : 1.000   Female: 87   No :151   Fri :19   Dinner:176  
 1st Qu.:13.35   1st Qu.: 2.000   Male  :157   Yes: 93   Sat :87   Lunch : 68  
 Median :17.80   Median : 2.900                          Sun :76               
 Mean   :19.79   Mean   : 2.998                          Thur:62               
 3rd Qu.:24.13   3rd Qu.: 3.562                                                
 Max.   :50.81   Max.   :10.000                                                
      size     
 Min.   :1.00  
 1st Qu.:2.00  
 Median :2.00  
 Mean   :2.57  
 3rd Qu.:3.00  
 Max.   :6.00  

In [11]:
?tips

0,1
Tips {reshape},R Documentation


## 層別

水準ごとに分けて集計をするのに、`group_by`を使う。

次のようにすると喫煙者と非喫煙者でチップが異なるかどうかを平均値で比較できる。

In [12]:
tips %>% group_by(smoker) %>% summarise(mean(tip))

smoker,mean(tip)
<fct>,<dbl>
No,2.991854
Yes,3.00871


チップには喫煙者かどうかで大きな差はないようだ。

`group_by`は複数水準で使える。

In [16]:
tips %>% group_by(smoker, sex) %>% summarise(mean(tip))

smoker,sex,mean(tip)
<fct>,<fct>,<dbl>
No,Female,2.773519
No,Male,3.113402
Yes,Female,2.931515
Yes,Male,3.051167


サンプル数の確認は`n()`

In [17]:
tips %>% group_by(smoker, sex) %>% summarise(n())

smoker,sex,n()
<fct>,<fct>,<int>
No,Female,54
No,Male,97
Yes,Female,33
Yes,Male,60


In [23]:
tips %>% group_by(size) %>% summarise(max(tip))

size,max(tip)
<int>,<dbl>
1,1.92
2,5.85
3,10.0
4,9.0
5,5.14
6,6.7


3,4人のグループが最もチップを弾みやすい。どういう心理によるものか？

## 列の編集