# 専修大学経済学部「統計学1」レジュメ

# Google Colabを使用してR言語でCSVデータを読み込む方法（tidyverse版）

## 1. Google Colabの開始方法
- **アクセスとログイン**
 - WebブラウザでGoogle Colab https://colab.research.google.com にアクセスし、Googleアカウントでログインします。

- **新規ノートブックの作成**
 - 画面左上の「ファイル」メニューを開き、「新しいノートブック」を選択して、新しいノートブックを開きます。

## 2. ランタイムのタイプの設定
- **ランタイムのタイプを変更**
 - ノートブック画面上部のメニューバーから「ランタイム」をクリックし、「ランタイムのタイプを変更」を選択します。
 - 「ランタイムのタイプを変更」ダイアログが表示され、ドロップダウンリストから「R」を選択します。

## 3. 必要なパッケージのインストール
- **tidyverseパッケージのインストール**
```R
install.packages("tidyverse")
```

 - `tidyverse`パッケージをインストールします。`tidyverse`はデータサイエンスにおいて広く利用される一連のパッケージを含んでおり、データの操作、可視化、処理が簡単になります。一度インストールを完了すれば、次回以降は再インストールの必要はありません。


## 4. CSVデータの読み込み
- **パッケージの読み込みとデータ読み込み**
  ```R
  library(tidyverse)
  url <- "ここにURLを挿入"
  data <- read_csv(url, header=TRUE)
  ```
  - `library`でインストールした`tidyverse`パッケージを読み込みます。これにより、`tidyverse`に含まれる関数やデータセットが利用可能になります。
  - 上記で指定したURLからCSV形式のデータを読み込み、`header=TRUE`により最初の行を列名として認識させ、その結果を`data`という名前のデータフレームに保存します。

## 5. データの確認
- **データの初期確認**
  ```R
  head(data)
  ```
  - `data`データフレームの最初の数行を表示します。これにより、データの構造や内容を確認することができます。

## 6. データの操作と分析
- **データの分析**
  ```R
  # データのサマリーを表示
  summary(data)
  # tidyverseの他の関数を使用して、さらに詳細なデータ加工や可視化を行います
  ```

## 7. 結論
- **tidyverseとGoogle Colabの組み合わせ**
  - `tidyverse`はデータサイエンス作業を効率的に行うための強力なツールキットです。Google Colabと組み合わせることで、インストール不要で直接ブラウザ上でR言語を使用し、データの読み込みから加工、分析まで一連のプロセスを習得することが可能です。


In [None]:
# R環境内に存在するすべてのオブジェクトを削除します。
# これにより、作業空間がクリアされ、新たな分析を始める際に他のオブジェクトによる干渉を避けることができます。
rm(list = ls())

In [None]:
# tidyverseパッケージのインストール
# 一度インストールした場合、その後はこのコマンドを繰り返し実行する必要はありません。
install.packages("tidyverse")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
# パッケージの読み込みとデータ読み込み
library(tidyverse)
url <- "https://raw.githubusercontent.com/JeC2017/public_data/main/childcare.csv"
childcare <- read.csv(url, header=TRUE)

# データの最初の数行を表示
head(childcare)

Unnamed: 0_level_0,pref,year,emp.rate,cap.rate,age,age.hus,emp.rate.hus,urate,nuc.rate,numhh,hh.type
Unnamed: 0_level_1,<chr>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<int>,<chr>
1,北海道,1990,0.2701991,0.1875791,31.64818,34.17721,0.9895076,0.03622666,0.8240965,250086,all
2,青森県,1990,0.4507844,0.3631905,31.40027,34.24343,0.9820385,0.0448693,0.5649628,68647,all
3,岩手県,1990,0.5267243,0.2618665,31.54298,34.25208,0.9900675,0.02627886,0.49661,63126,all
4,宮城県,1990,0.4206343,0.1327991,31.50385,34.19711,0.9902523,0.02730289,0.5790675,107307,all
5,秋田県,1990,0.5473229,0.2682563,31.46496,34.20592,0.9918102,0.02717173,0.4144711,51772,all
6,山形県,1990,0.677741,0.2228247,31.45862,34.23097,0.9949089,0.01745351,0.3202995,57159,all


実証例などで使用する Asai, Kambayashi, Yamaguchi（2015）データ：`childcare`

- Asai, Kambayashi, Yamaguchi（2015), “Childcare availability, household structure, and maternal employment,” *Journal of the Japanese and International Economies*.

**データの変数名定義**

`pref`: 都道府県 (prefecture)

`year`: 年 (year)

`emp.rate`: 母親就業率 (maternal employment rate)

`cap.rate`: 保育所定員率 (capacity/child-population)

`age`: 母親平均年齢 (mothers' average age)

`age.hus`: 父親平均年齢 (fathers' average age)

`emp.rate.hus`: 父親就業率 (paternal employment rate)

`urate`: 失業率 (local unemployment rate)

`nuc.rate`: 核家族世帯率 (fraction of nuclear households)

`numhh`: 世帯数 (number of households)

`hh.type`: 世帯の種類 type of household ("all" = all types, "nuc" = nuclear, "3ge" = 3-generation)

# Rプログラミングの学習方法
- ChatGPTを利用して反復質問を通じてコーディングを学習する
- 「Rによる統計入門」 (津田裕之 2020) サポートページ https://htsuda.net/stats