### **Google Colaboratoryに，サンプルデータ「bookprice.csv」を読み込んで分析を実行する方法を説明します。**
---



## 実行環境の起動
- 右上の「接続」と出ている箇所をクリックします。
- すでに接続している場合はチェックマークになっています。

## ファイルの準備
- 左側のメニューのフォルダボタンを押します。
- そこに「bookprice.csv」をドラッグします。

## ChatGPTとの会話と分析用のコード
- 以下は，ChatGPTと交わした会話です。
- 会話中のコードの左側の **[　]** にマウスをのせると再生ボタン(▶)に変わります。
- 再生ボタンを押すことで，コードを実行できます。

🤗hashimoto
```
統計言語Rを使ってデータを分析したいです。
質問に答えて適宜コードを教えてください。

分析するファイル名は「bookprice.csv」で，
このデータには本の書名や価格などの情報が含まれています。

データは800行あり，次の8列から構成されています。  
class(分類), price(価格), pages(ページ数), format_name(判型名称),
format_cm2(判型のセンチでのサイズ), color(カラー刷り情報),
author(単著かどうか), lang(言語)。
```
💻ChatGPT
```
はい。わかりました。
まずはR言語で「bookprice.csv」データを読み込むコードから始めましょう。
その後、データの基本的な構造を確認します。
```


In [None]:
# ライブラリの読み込み
library(tidyverse)

In [None]:
# データの読み込み
bookprice <- read_csv('/content/bookprice.csv')

# データの構造の確認
str(bookprice)

💻ChatGPT
```
これでデータがどのように構成されているか確認できます。
次にどのような分析をしたいか教えてください。
```
🤗hashimoto
```
price(価格)の概要を把握したいです。
具体的には，基本統計量を確認し，ヒストグラムで分布をみたいです。
```
💻ChatGPT
```
わかりました。まずはprice列の基本統計量を計算するコードです。
次に、価格の分布を表示するためのヒストグラムを描画します。
```

In [None]:
# priceの基本統計量
summary(bookprice$price)

# priceのヒストグラム
library(ggplot2)
ggplot(bookprice, aes(x=price)) +
  geom_histogram(binwidth = 50, fill="blue", color="black") +
  theme_minimal() +
  xlab("Price") +
  ylab("Frequency") +
  ggtitle("Distribution of Book Prices")

💻ChatGPT
```
ここで、binwidth = 50はヒストグラムの各ビン（棒）の幅を示しています。
データによってはこの値を調整する必要があるかもしれません。
```
🤗hashimoto
```
これはこれでいいのですが，
tidyverse由来でない標準パッケージでのヒストグラムの描き方を教えてもらえますか。
```
💻ChatGPT
```
了解しました。
Rの標準パッケージであるgraphicsを使用してヒストグラムを描画する方法をご紹介します。
tidyverseを使わない場合のコードは以下のようになります。
```

In [None]:
# priceのヒストグラム (標準パッケージ使用)
hist(bookprice$price, breaks = 50, col="blue",
xlab="Price", ylab="Frequency", main="Distribution of Book Prices")

💻ChatGPT
```
このコードでは、hist関数を使用しています。
breaks = 50はヒストグラムのビンの数を指定していますが、
これもデータによって適宜調整してください。
```
🤗hashimoto
```
ありがとうございます。
次に，class(分類)別のデータ数を知りたいです。
```
💻ChatGPT
```
了解しました。
class列の各カテゴリに属するデータ数を計算するためのコードは以下のようになります。
```

In [None]:
# class別のデータ数
table(bookprice$class)

💻ChatGPT
```
このtable関数は、指定した列の各ユニーク値に対するデータの数を計算します。
これにより、classごとのデータ数を確認できます。
```
🤗hashimoto
```
classとlangの掛け合わせでクロス集計表を作りたいです。
```
💻ChatGPT
```
了解しました。
classとlangの組み合わせによるクロス集計表を作成するコードは以下の通りです。
```




In [None]:
# classとlangのクロス集計表
cross_table <- table(bookprice$class, bookprice$lang)

# クロス集計表の表示
cross_table

💻ChatGPT
```
このコードでは、table関数を使用してclassとlangの組み合わせに基づくクロス集計表を作成しています。
結果は行と列がそれぞれclassとlangの値に対応した表として表示されます。
```
🤗hashimoto
```
ありがとうございます。
次にclassとpriceの関係を見ていきたいです。
まずは，class別にpriceの基本統計量を示し，さらに箱ひげ図を描きたいです。
```
💻ChatGPT
```
了解しました。
まずclass別にpriceの基本統計量を計算し、その後に箱ひげ図を描画します。
以下にRのコードを示します。
```

In [None]:
# class別のpriceの基本統計量
hoge <- aggregate(bookprice$price, by=list(bookprice$class), FUN=summary)
print(hoge)

# class別のpriceの箱ひげ図
boxplot(price ~ class, data = bookprice,
main="Boxplot of Prices by Class", xlab="Class", ylab="Price")

💻ChatGPT
```
このコードでは、まずaggregate関数を使用してclass別にpriceの基本統計量を計算しています。
次に、boxplot関数を使用してclassごとにpriceの分布を箱ひげ図で表示しています。
```
🤗hashimoto
```
続いて，どのclassでもpriceの平均が同じと言えるかを確認するために一元配置分散分析を行いたいです。
```
💻ChatGPT
```
了解しました。
一元配置分散分析（ANOVA）を実行して、異なるclass間でpriceの平均が統計的に有意に異なるかどうかを検証します。
以下にRのコードを示します。
```

In [None]:
# 一元配置分散分析
anova_result <- aov(price ~ class, data = bookprice)

# 分析結果の要約
summary(anova_result)

💻ChatGPT
```
このコードは、aov関数を使用してpriceに対するclassの影響を分析しています。
その後、summary関数を用いて分散分析の結果を要約し、表示しています。
この結果から、各class間でpriceの平均値が統計的に有意に異なるかどうかを確認できます。
```
🤗hashimoto
```
実行した結果，以下のようなsummaryが得られました。
これは差があるという意味でしょうか？
> summary(anova_result)
             　　Df    Sum Sq  Mean Sq F value   Pr(>F)    
class         4 8.339e+07 20848693   4.729 0.000893 ***
Residuals   795 3.505e+09  4409007
```
💻ChatGPT
```
はい、その結果は差があるという意味です。

一元配置分散分析(ANOVA)の結果におけるPr(>F)は、F統計量に基づいたP値を表しています。
このP値は、class間でpriceの平均値に統計的に有意な差が存在するかどうかを判断するために使われます。

提供された結果において、Pr(>F)の値は0.000893となっており、
これは0.05よりも小さいです（通常、統計的有意性のしきい値として0.05を用います）。
したがって、異なるclass間でpriceの平均には統計的に有意な差が存在する、
と結論づけることができます。

***は統計的に非常に有意であることを示しており、
これはclassによってpriceが異なる可能性が高いことを意味しています。
```
🤗hashimoto
```
一元配置分散分析の結果を見る際の注意点は何でしょうか？
```
💻ChatGPT
```
一元配置分散分析（ANOVA）の結果を解釈する際には、
以下の点に注意する必要があります。
```

1. 正規性の仮定:
ANOVAは、各群からのデータが正規分布しているという仮定に基づいています。
データがこの仮定を満たさない場合、分析結果は信頼できない可能性があります。
正規性を確認するために、シャピロ・ウィルク検定やQQプロットなどが利用できます。

2. 等分散性の仮定:
異なる群の分散が等しいこと（等分散性または同質性と呼ばれる）も仮定しています。
バートレット検定やレビーン検定などで等分散性を確認できます。
等分散性の仮定が破られた場合は、ウェルチのANOVAなどの別の手法を検討することが推奨されます。

3. 独立性の仮定:
各群のデータは互いに独立している必要があります。
データが独立していない場合（例えば、同じ個体からの繰り返し測定など）、
ANOVAの結果は無効になる可能性があります。

4. 群のサイズ:
群のサイズが非常に不均衡である場合、結果にバイアスが生じる可能性があります。
できるだけ各群のサイズを均等に保つことが理想的です。

5. 多重比較の問題:
ANOVAは群間に全体的な差が存在するかどうかを判断しますが、
どの群間に具体的な差が存在するかは明らかにしません。
ANOVAの後に有意な差が見られた場合は、
TukeyのHSDテストやボンフェローニ補正を含む多重比較検定を行う必要があります。

6. 外れ値の影響:
外れ値はANOVAの結果に大きな影響を与えることがあります。
データ分析前に外れ値を確認し、適切に処理することが重要です。

```
これらの注意点を確認し、適切な仮定が満たされていることを確認することが、
一元配置分散分析の結果を正しく解釈する上で重要です。
```
🤗hashimoto
```
ありがとうございます。
それでは，どの群間に差があるのかを確認するために多重比較を行いたいと思います。
どうすればいいでしょうか？
```
💻ChatGPT
```
異なる群間で差があるかどうかを確認するために、
Tukeyの正直有意差検定（Tukey's Honestly Significant Difference Test、略してTukeyのHSDテスト）を行うのが一般的です。

この検定は一元配置分散分析の後に行われる多重比較手法の一つで、
全てのペアの平均値の差を比較します。

RでTukeyのHSDテストを行うには、以下のコードを使用できます。
```

In [None]:
# TukeyのHSDテスト
tukey_result <- TukeyHSD(anova_result)
print(tukey_result)

💻ChatGPT
```
このコードでは、まずTukeyHSD関数を使用して、
anova_result（一元配置分散分析の結果）に基づいてTukeyのHSDテストを実施しています。
その後、print関数を使ってテストの結果を表示します。

TukeyのHSDテストの結果は、
群間の平均値の差、推定された差、95%信頼区間、およびp値を含む表で表示されます。
p値が0.05以下の場合、そのペアの平均値の差は統計的に有意と見なされます。
これにより、どの群間に有意な差が存在するかを判断できます。
```

🤗hashimoto
```
ボンフェローニで調整した多重比較を行いたい場合はどうすればいいでしょうか？
```
💻ChatGPT
```
ボンフェローニ法で調整した多重比較を行いたい場合、
Rではpairwise.t.test関数を使って実行できます。
この関数はペアワイズのt検定を行い、ボンフェローニ補正を含めることができます。
以下はそのためのコードです。
```

In [None]:
# ボンフェローニで調整した多重比較
bonferroni_result <-
  pairwise.t.test(bookprice$price, bookprice$class,
                  p.adjust.method = "bonferroni")

# 結果の表示
print(bonferroni_result)

💻ChatGPT
```
このコードでは、pairwise.t.test関数を使用してpriceに対するclassのペアワイズ比較を行っています。
p.adjust.methodパラメータに"bonferroni"を指定することで、ボンフェローニ法によるp値の調整が行われます。
この方法により、全ての可能なペアの組み合わせについて比較し、偽陽性率の増加を抑制します。
結果は、各群のペア間でのp値が表示され、これによりどの群間に有意な差が存在するかを判断できます。
```
🤗hashimoto
```
ありがとうございます。
それでは次に各変数と価格との関係をみたいです。
まずは量的な変数(pages, format_cm2)についてpriceとの相関係数を出したいです。
```

In [None]:
# 相関係数の確認
cor_pages_price <- cor(bookprice$pages, bookprice$price, use="complete.obs")
cor_format_cm2_price <- cor(bookprice$format_cm2, bookprice$price, use="complete.obs")

# 結果の表示
print(cor_pages_price)
print(cor_format_cm2_price)

🤗hashimoto
```
なるほど。
資料のページ数と判型は価格に影響していそうです。
もっというと，それらをかけ合わせた資料の容積が関係していそうです。

pagesとformat_cm2をかけ合わせて新しい変数を追加したいです。
また，これらの変数を使ってpriceを予測する重回帰分析を行いたいです。
```
💻ChatGPT
```
まず、pagesとformat_cm2を掛け合わせて新しい変数を作成しましょう。
次に、作成した新しい変数を含めた重回帰分析を行います。
以下にRのコードを示します。
```

In [None]:
# 新しい変数 volume を作成
bookprice$volume <- bookprice$pages * bookprice$format_cm2

# 重回帰分析
model <- lm(price ~ pages + format_cm2 + volume, data = bookprice)

# モデルの要約
summary(model)

💻ChatGPT
```
このコードでは、まず$記号を使用してbookpriceデータフレームにvolumeという新しい列を追加しています。
この列はpagesとformat_cm2の各行の値を掛け合わせたものです。
次に、lm関数を使用してpriceに対するpages、format_cm2、および新しく作成したvolumeの影響を評価する重回帰分析を実行しています。
最後に、summary関数を使ってモデルの要約を表示しています。
これにより、各説明変数の係数、統計的有意性、モデルの全体的な適合度などを確認できます。
```
🤗hashimoto
```
volumeを使った単回帰分析を行いたいです。
```
💻ChatGPT
```
了解しました。
volumeを使用した単回帰分析を行うためには、以下のコードを実行します。
```

In [None]:
# volumeを用いた単回帰分析
simple_model <- lm(price ~ volume, data = bookprice)

# モデルの要約
summary(simple_model)

💻ChatGPT
```
このコードでは、lm関数を使ってpriceに対するvolumeの単回帰モデルを作成しています。
そして、summary関数によって、モデルの詳細な要約を表示しています。
この要約には、係数の推定値、統計的有意性、モデルの適合度を示す決定係数などが含まれています。
```
🤗hashimoto
```
priceを，volumeに加えて，class，color，author，langを使った重回帰分析にかけたいです。
現在volume以外の変数はchrです。そのまま分析できますか？
```
💻ChatGPT
```
class、color、author、langのようなカテゴリカル変数は、そのままでは重回帰分析に使用できません。
これらをダミー変数（0か1の値を取る変数）に変換する必要があります。
Rでは、この変換はmodel.matrixや重回帰分析を実施するlm関数内で自動的に行われます。
以下に、これらの変数を含めた重回帰分析のためのコードを示します。
```

In [None]:
# volume, class, color, author, langを用いた重回帰分析
full_model <- lm(price ~ volume + class + color + author + lang, data = bookprice)

# モデルの要約
summary(full_model)

💻ChatGPT
```
このコードは、lm関数を使用してpriceに対するvolumeおよびカテゴリカル変数の影響を評価します。
Rでは、lm関数内でカテゴリカル変数が自動的にダミー変数に変換されます。
結果の出力では、各ダミー変数の係数も表示され、これにより各カテゴリカル変数のカテゴリごとの影響を評価できます。
```
🤗hashimoto
```
すばらしいですね。いかのような結果が得られました。
この重回帰分析の予測は統計的に有意でしょうか？
また，この分析ではpriceをどの程度予測できているのでしょうか？
```
```
Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.891e+03  1.327e+02  21.780   <2e-16 ***
volume        3.174e-02  6.356e-04  49.940   <2e-16 ***
classWB      -9.597e+01  7.959e+01  -1.206   0.2283    
classWD      -1.007e+02  8.637e+01  -1.166   0.2438    
classWG      -1.716e+02  8.526e+01  -2.012   0.0445 *  
classWO      -5.640e+01  8.679e+01  -0.650   0.5160    
colorLimCol  -1.117e+03  6.187e+01 -18.058   <2e-16 ***
colormono    -1.653e+03  5.183e+01 -31.894   <2e-16 ***
authorsingle -5.706e+02  6.558e+01  -8.701   <2e-16 ***
langjpn      -2.377e+03  7.228e+01 -32.883   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 646.4 on 790 degrees of freedom
Multiple R-squared:  0.908,	Adjusted R-squared:  0.907
F-statistic: 866.4 on 9 and 790 DF,  p-value: < 2.2e-16
```
💻ChatGPT
```
この重回帰分析の結果を見ると、
いくつかのポイントが統計的に有意なことがわかります。
```

1. 有意性:   
多くの変数（volume, classWG, colorLimCol, colormono, authorsingle, langjpn）が統計的に有意です。これは、これらの変数がpriceに対して有意な影響を持っていることを示しています。特にvolume, colorLimCol, colormono, authorsingle, langjpnのp値が非常に小さい（<2e-16）ことから、これらは特に強い影響を持っていると言えます。

2. モデルの適合度:   
重回帰分析のモデルの適合度を示すMultiple R-squaredは0.908です。これは、モデルがデータに非常によく適合していることを示しており、priceの変動の90.8%をモデルが説明していることを意味します。Adjusted R-squaredも0.907であり、説明変数の数を考慮してもモデルの適合度は高いままです。

3. 統計的有意性の検定:   
最後に、モデル全体のF統計量は866.4で、p-valueは<2.2e-16です。これは、モデル全体が統計的に有意であることを示しています。つまり、少なくとも一つの説明変数はpriceと統計的に有意な関連があるということです。

```
結論として、この分析ではpriceをかなり正確に予測できており、
モデルの予測は統計的に有意です。

ただし、classWB, classWD, classWOはp値が0.05以上であるため、
これらのカテゴリはpriceと統計的に有意な関係がないと考えられます。

ただし、これはこれらのカテゴリが重要でないという意味ではなく、
他の変数との関連性やデータセットの特性にも依存します。
```

🤗hashimoto
```
よく分かりました。あなたが優秀すぎて鼻血が出そうです。
ありがとうございます。もう人間いらなくないですか？
```
💻ChatGPT
```
我々は支援するためにここにいますが、
人間の直感、創造性、対人関係のスキルは非常に価値があり、AIでは代替できないものです。
お手伝いできて光栄です。
もし他に質問があれば、いつでもお尋ねください。
```