<a href="https://colab.research.google.com/github/komorimasashi/kakuritsu_toukei_1/blob/main/R03_Data_Setup.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **3. 作業ディレクトリの設定とデータの読み込み**

データ分析を行う際、まず最初に必要なステップはデータの読み込みです。R言語では、さまざまな形式のデータを扱うための便利な関数が用意されています。ここでは、テキストファイル（CSV）とExcelファイルの読み込み方法に加えて、作業ディレクトリの設定や読み込み時のオプションについても詳しく解説します。


### **3.1 作業ディレクトリの設定**

#### **3.1.1 作業ディレクトリ（working directory）とは？**

作業ディレクトリとは、コンピュータ上で現在作業している「場所」のことを指します。つまり，Rのソースファイルや入力データを置いておくためのフォルダです．作業ディレクトリを設定するというのは、R言語で作業を行う際に「今、ここが私の作業場所です」と宣言することです．Rでは、この「作業場所」に置かれたデータファイルを読み込んだり、新しいファイルを保存したりすることが多いです．

一つのフォルダー（ディレクトリ）の中にデータファイルやソースファイル，出力ファイルを纏めておくと便利です．例えば下の図のようなファイルを作業ディレクトリの中に入れておきます．


<figure><img src="https://lh3.googleusercontent.com/d/1VdTGaTv-mKqWaz6HvLXe220MpcXRGM4k" width=450><figcaption>フォルダの例</figcaption></figure>


#### **3.1.2 作業ディレクトリの設定方法**

1. **現在の作業ディレクトリを確認する：**
このコマンドを実行すると、Rが現在どのフォルダーを作業ディレクトリとしているのかを教えてくれます。



In [None]:
# get working directoryの意味です
getwd()

2. **新しい作業ディレクトリを設定する：**  `setwd()`コマンドを使用して、新しい作業ディレクトリへのパス（道しるべ）を指定します。ここでの「`path/to/your/directory`」は、新しく設定したい作業ディレクトリの場所を示します。Windowsではバックスラッシュ（\）を使用しますが、Rではスラッシュ（/）を使うか、バックスラッシュを2つ重ねて（\\）書きます．

存在しないディレクトリは設定できないので，あらかじめフォルダを用意しておく必要があります．

In [None]:
  # set working directoryの意味です
  # 下のソースコードはファイルパスが適切に設定されていないのでエラーを出力するはず
  setwd("path/to/your/directory")

ERROR: Error in setwd("path/to/your/directory"): cannot change working directory


3. **RStudio Projectで自動的に作業環境を設定する（中級者向け）：**

RStudio Projectsは，RStudioの機能の一つで、プロジェクト単位で作業を整理しやすくするためのツールです。プロジェクトを使用することで、作業ディレクトリの管理が簡単になり、複数のプロジェクト間での移動や、設定の切り替えをスムーズに行うことができます。
   - RStudioのメニューから「File」→「New Project...」を選択します。
   - プロジェクト名を入力し、プロジェクトの場所を指定します。この場所がプロジェクトの作業ディレクトリになります。
   - 「Create Project」をクリックします。
   - プロジェクトを作成すると、RStudioはそのプロジェクトのディレクトリを自動的に作業ディレクトリとして設定します。プロジェクト内でRスクリプトを開いたり、新しいRスクリプトを作成したりすると、そのスクリプトは自動的に現在のプロジェクトディレクトリに関連付けられます。


#### **3.1.3 注意点**
- ファイルやフォルダの名前には、**スペースや2バイト文字（日本語）を一切使わない**でください
- 初心者の「エラーです．どうすればいいですか？」の約半分（俺調べ）がパスの設定ミスです

### **3.2 テキストファイル（CSVファイル）の読み込み**

データのファイルを読み込む方法は色々ありますが，データが入力されたcsvファイルを読み込むことが最も一般的だと思います．csvとは“Comma Separated Value”つまり「カンマで区切られた値」の略で，図のようにカンマでデータが区切られたテキストファイルのことです．

まずはちゃんとしたCSVファイルを用意しましょう．

<figure><img src="https://lh3.googleusercontent.com/d/10nyA2bQn3uPqHQ92_YxFEBE-nnwvYGzm" width=450><figcaption>良い入力データの例</figcaption></figure>


テキストエディタで上のファイルを開くと下のように「，」と改行コードで区切られたデータが入っています．

<figure><img src="https://lh3.googleusercontent.com/d/1XM8WFChZ93DBL8BIt8hhysTXfU99b0Pv" width=450><figcaption>CSVファイル</figcaption></figure>

csvファイルは下のように`read.csv()`関数を使えば読み込むことができます．読み込まれたデータはdata.frame型の変数になります．

In [None]:
# CSVファイルの読み込み（デフォルトでは最初の行を変数名として扱う）
data_csv <- read.csv("file.csv")

# 最初の行からいきなりデータが入っている場合、変数名を自動生成させる
data_csv_no_header <- read.csv("file.csv", header = FALSE)

作業ディレクトリに「`path/to/your/directory`」を指定していて，その中の`data`フォルダにデータを入れている場合は，その作業ディレクトリから見たファイルの位置を**相対パス**で指定してください．

In [None]:
# 作業ディレクトリの指定
setwd("path/to/your/directory")

# CSVファイルの読み込み（デフォルトでは最初の行を変数名として扱う）
data_csv <- read.csv("data/file.csv")

# フルパスで指定するこrともできます
data_csv <- read.csv("path/to/your/directory/data/file.csv")

Web上に公開されているcsvファイルを直接読むこともできます．

In [None]:
# read.csv()関数を直接使用できます。
# CSVファイルのURL（大阪府警察犯罪オープンデータサイト）
# https://www.police.pref.osaka.lg.jp/seikatsu/9290.html

# 令和4年中ひったくり件数
url <- "https://www.police.pref.osaka.lg.jp/material/files/group/2/osaka_2022hittakuri.csv"

# CSVファイルを読み込み、データフレームに変換
# 'fileEncoding = "CP932"'を指定して日本語が含まれているファイルを読み込む
df <- read.csv(url, fileEncoding = "CP932")

# 読み込んだデータを確認
head(df)

Unnamed: 0_level_0,罪名,手口,管轄警察署.発生地.,管轄交番.駐在所.発生地.,市区町村コード.発生地.,都道府県.発生地.,市区町村.発生地.,町丁目.発生地.,発生年月日.始期.,発生時.始期.,発生場所,被害者の性別,被害者の年齢,現金被害の有無
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>
1,窃盗,ひったくり,西,堀江交番,271063,大阪府,大阪市西区,北堀江１丁目,2022-05-26,15,道路上,女性,20歳代,なし
2,窃盗,ひったくり,西,堀江交番,271063,大阪府,大阪市西区,北堀江１丁目,2022-08-05,22,道路上,女性,20歳代,あり
3,窃盗,ひったくり,西,堀江交番,271063,大阪府,大阪市西区,北堀江１丁目,2022-08-31,3,道路上,男性,40歳代,なし
4,窃盗,ひったくり,西,新町交番,271063,大阪府,大阪市西区,北堀江３丁目,2022-08-04,21,道路上,男性,40歳代,あり
5,窃盗,ひったくり,西,立売堀交番,271063,大阪府,大阪市西区,立売堀５丁目,2022-07-25,22,道路上,女性,20歳代,あり
6,窃盗,ひったくり,東,南久宝寺町交番,271284,大阪府,大阪市中央区,内久宝寺町４丁目,2022-05-31,1,道路上,男性,30歳代,あり


In [None]:
# 管轄警察署.発生地.ごとに人数を集約
table(df$管轄警察署.発生地.)


  中堺   交野 住之江   住吉     南   吹田     堺   大正   天満   守口 富田林 
     2      1      1      1     28      1      5      1      6      4      1 
岸和田   布施   摂津     旭 曽根崎     東 東住吉   東成 東淀川   松原   枚方 
     1      3      2      1     10      7      4      2      6      2      3 
  此花   河内   浪速   淀川   生野   福島     西   西成 豊中南   門真 阿倍野 
     1      1     13      3      2      2      5     11      1      2      1 
  高槻   高石   鶴見 
     2      1      1 

In [None]:
# 管轄警察署.発生地.ごとに人数を集約
table(df$被害者の年齢)


  10歳代   20歳代   30歳代   40歳代   50歳代  60-64歳  65-69歳 70歳以上 
       7       36       20       20       13        3        5       34 

In [None]:
# 被害者の性別が女性の行だけを抜き出す
subset(df, 被害者の性別 == "女性")

In [None]:
# データの要約
summary(df)

     罪名               手口           管轄警察署.発生地.
 Length:138         Length:138         Length:138        
 Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character  
                                                         
                                                         
                                                         
 管轄交番.駐在所.発生地. 市区町村コード.発生地. 都道府県.発生地.  
 Length:138              Min.   :271039         Length:138        
 Class :character        1st Qu.:271211         Class :character  
 Mode  :character        Median :271276         Mode  :character  
                         Mean   :271410                           
                         3rd Qu.:271284                           
                         Max.   :273015                           
 市区町村.発生地.   町丁目.発生地.     発生年月日.始期.    発生時.始期.  
 Length:138         Length:138         Length:138         Min.   : 0.00  
 Class :character   Class :character   Cl

### **3.3 ファイル読み込みの際の文字コードの問題**

ファイルエンコーディングは，文字データをコンピューターで扱うために数値に変換する規則のことです。異なる言語や特殊文字を正確に表示・保存するために、さまざまなエンコーディング方式が存在します．そのためデータの読み込みの際に問題になることがあります．

**Shift JISとUTF-8の違い**

- **Shift JIS（またの名をCP932）：** 日本で広く使われているエンコーディング方式です。日本語文字に特化しており、Windows環境でよく使用されます．Excelで読み書きができるのは，Shift JISでエンコーディングされたCSVファイルです．
- **UTF-8：** Unicodeを用いたエンコーディング方式で、世界中のほぼすべての言語をサポートしています．政府や自治体のオープンデータもだいたいUTF-8ですし，Mac, ubuntuなどのOSやウェブ上で広く使われてますが，Excelでは読めません．文字化けします．

「文字化け」というのはこんな感じです．
```
Shift_JIS「これってもしかして」
UTF-8「私たち」
「「?????ւ??��Ă??`?`?`?`?H」」
```

テキストファイルが上手く読み込めないときは，ファイルエンコーディングが間違っている可能性を疑ってください．

In [None]:
# Shift JISエンコーディングのCSVファイルを読み込む
data_sjis <- read.csv("path/to/your/sjis_file.csv", fileEncoding = "CP932")


# UTF-8エンコーディングのCSVファイルを読み込む
data_utf8 <- read.csv("path/to/your/utf8_file.csv", fileEncoding = "utf8")

### **3.4 Excelファイルの読み込み**

base RではExcelファイルを直接読み込むことはできませんが，`readxl`ライブラリをインポートすることで，Excelファイルを読み込むことができるようになります．

In [None]:
# readxlパッケージの読み込み
library(readxl)

# Excelファイルの読み込み（最初のシートを読み込む）
data_excel <- read_excel("file.xlsx")

# 特定のシートを指定して読み込む
data_excel_sheet <- read_excel("file.xlsx", sheet = "Sheet2")

ERROR: Error: `path` does not exist: ‘file.xlsx’


### **3.5 読み込んだデータを概観する方法**

読み込んだデータについて、その構造や内容を把握するための関数を使用します。

In [None]:
# 最初の6行を表示
head(data)

# 最後の6行を表示
tail(data)

# データの要約統計量を表示（数値データの場合は平均、最小値、最大値など）
summary(data)