# 実習①　データ前処理


## Rによる処理の基礎

### パイプ処理入門

パイプ処理：データを効率的に処理するための枠組み



+ 通常の処理：ひとつの処理が完全に終わったら次の処理へと逐次的に処理する


xというデータにf1, f2, ... fnの関数を順に適用したときのイメージ


```
fn(fn-1(...(f2(f1())
```

+ パイプ処理：終わった部分から徐々に次の処理に流していき、並列的に処理する

ここでパイプ演算子を|として、

```
f1(x) | f2 | ... | fn
```

linuxなどで処理するときに重宝する



Rでは"dplyr"パッケージを使う

dplyrの使い方についてはRStudioチームのチートシートが参考になる

https://www.rstudio.com/resources/cheatsheets/

In [1]:
library("dplyr")


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



組み込みのToothGrowthデータで実演

In [2]:
# data description
?ToothGrowth

0,1
ToothGrowth {datasets},R Documentation

0,1,2,3
"[,1]",len,numeric,Tooth length
"[,2]",supp,factor,Supplement type (VC or OJ).
"[,3]",dose,numeric,Dose in milligrams/day


In [3]:
# ToothGrowth dataset

##[,1]	len 	numeric	Tooth length
##[,2]	supp	factor	Supplement type (VC or OJ).
##[,3]	dose	numeric	Dose in milligrams/day

# 普通にhead()
head(ToothGrowth)


Unnamed: 0_level_0,len,supp,dose
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>
1,4.2,VC,0.5
2,11.5,VC,0.5
3,7.3,VC,0.5
4,5.8,VC,0.5
5,6.4,VC,0.5
6,10.0,VC,0.5


In [4]:
# これがこう書ける
ToothGrowth %>% head()


Unnamed: 0_level_0,len,supp,dose
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>
1,4.2,VC,0.5
2,11.5,VC,0.5
3,7.3,VC,0.5
4,5.8,VC,0.5
5,6.4,VC,0.5
6,10.0,VC,0.5


In [5]:
# 行の指定
# subset / filter
# head(subset(ToothGrowth, supp == "OJ"))

ToothGrowth %>% filter(supp == "OJ") %>% head()

Unnamed: 0_level_0,len,supp,dose
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>
1,15.2,OJ,0.5
2,21.5,OJ,0.5
3,17.6,OJ,0.5
4,9.7,OJ,0.5
5,14.5,OJ,0.5
6,10.0,OJ,0.5


In [6]:
# 列の指定
# select
# len列とsupp列を、len列を「length」、supp列を「supp_type」として出力

ToothGrowth %>% select(length=len, supp_type=supp) %>% head()

Unnamed: 0_level_0,length,supp_type
Unnamed: 0_level_1,<dbl>,<fct>
1,4.2,VC
2,11.5,VC
3,7.3,VC
4,5.8,VC
5,6.4,VC
6,10.0,VC


### テキスト処理の基礎
#### stringrパッケージ

In [7]:
# libraryの読み込み
library('stringr')


+ 検索
    + str_subset() : 指定されたキーワードが含まれている文字列を返す
    + str_detect() : 指定されたキーワードが含まれていればTRUE, そうでなければFALSEを返す
    + grep: Rの標準の関数。ヒットしたベクトルの位置を返す
+ 置換
    + str_replace() : 指定された検索語を置換語で置き換える
    + sub: Rの標準の関数。検索語を置換語で置き換える



In [8]:
# 月名のリスト
(months = month.name) 

In [9]:
# "r"を含む月名を抜き出す
# str_subset
months %>% str_subset('r')

In [10]:
# str_detect では真偽値が返る
months %>% str_detect('r')

### 正規表現

**正規表現** *regular expression* :柔軟に文字列を処理するための記法

※言語ごとに記法に差異があるので注意する


#### 基本

|記号|説明|
|---|---|
|^|行頭|
|$|行頭|
|.|任意の1文字|
|\||または|

#### エスケープシーケンス

|記号|説明|
|---|---|
|\\\\d|数字(digits)|
|\\\\w|単語に使われる文字・数字・アンダーバー(words)|
|\\\\s|空白(spaces)|
|\\n|改行(newline)|
|\\t|タブ(tab)|



#### 量指定子

|記号|説明|使用例|結果|
|---|---|---|---|
|*|0回以上の繰り返し|||
|+|1回以上の繰り返し|\\\\d+|1回以上の数字の連続|
|?|0または1回|https?|httpまたはhttps|

#### エスケープ文字

正規表現など特殊な機能を持つ文字については\\\\(バックスラッシュまたは円記号２つ)を直前につける


#### 制御

|記号|説明|使用例|結果|
|---|---|---|---|
|[ ]|括弧内に含まれる文字にマッチ|[abcde]|abcdeのいずれか1文字|
|[^ ]|括弧内に含まれない文字にマッチ|[^abcde]|abcde以外の文字1文字|
|( )|グループ化|(abcde)|「abcde」という連続する文字のグループ|



    

#### その他の文字クラス

|記号|説明|
|---|---|
|[:alpha:]|アルファベット|
|[:lower:]|小文字アルファベット|
|[:upper:]|大文字アルファベット|
|[:digit:]|数字|
|[:alnum:]|アルファベット＋数字|
|[:punct:]|記号|
|[:graph:]|数字＋記号＋アルファベット|
|[:blank:]|空白、タブ|


### 正規表現の練習


In [11]:
# 冒頭三文字
'abcdefg' %>% str_extract('^...')

In [12]:
# 普通の文字列
'abcdefg' %>% str_extract('bcd')

In [13]:
# 末尾三文字
'abcdefg' %>% str_extract('...$')

In [14]:
# abまたはefにマッチしたものをすべて
'abcdefg' %>% str_extract_all('ab|ef')

In [15]:
# 例文
sentence = 'googleのトップページはhttps://www.google.co.jp/です'

In [16]:
# 冒頭の英字のみを抜き出す
sentence %>% str_extract('^[A-z]+')

In [17]:
# urlを抜き出してみる
sentence %>% str_extract('https?[A-z:/\\.]*')

In [18]:
# 例文
sentence = "computational social sciences"

In [19]:
# 単語(アルファベットの連続)をすべて抜き出す
sentence %>% str_extract_all('[A-z]+') 

In [20]:
# sで始まる単語をすべて抜き出す
sentence %>% str_extract_all('s[A-z]*')

In [21]:
# -alで終わる単語をすべて抜き出す
sentence %>% str_extract_all('[A-z]*al')

In [22]:
# 母音をすべて抜き出す
sentence %>% str_extract_all('[aiueo]')

In [23]:
# 母音をすべて抜き出す
sentence %>% str_extract_all('[aiueo]')

### その他処理

#### in 演算子

%in% を使うと要素がベクトルの中に含まれるかを判定できる



In [24]:
c(1,2,3,4,5) %in% c(1,5) # 要素が1または5であればTRUE

## RMecabの基礎

+ MeCab: 形態素解析エンジン
+ RMeCab: MeCabをR上で使うためのパッケージ


In [25]:
#install.packages('RMeCab', repos='http://rmecab.jp/R')

In [26]:
library('RMeCab')

In [27]:
RMeCabC('今日は本を読んだ') %>% unlist()

In [28]:
test = RMeCabC('今日は本を読んだ') %>% unlist()

In [29]:
# 結果から名詞と動詞を抜き出す

test[names(test) %in% c('名詞', '動詞')]

In [30]:
names(test) %in% c('名詞', '動詞')

In [31]:
# 第二引数に1を入力すると、動詞の原形になる

RMeCabC('今日は本を読んだ', 1) %>% unlist()

## クリーニングの実際

例文：

「やまいり？やまはいって木を丸める？」

**「切ってきて、丸めて、家の屋根にしげておくん。それはてんかごめんけどどこのやまいってきってきてもよいということになっちょった。」**


In [32]:
text = '切ってきて、丸めて、家の屋根にしげておくん。それはてんかごめんけどどこのやまいってきってきてもよいということになっちょった。'

In [33]:
RMeCabC(text)

表現を変える

'切ってきて、丸めて、家の屋根にしげておくん。それはてんかごめんけどどこのやまいってきってきてもよいということになっちょった。'

'切ってきて、丸めて、家の屋根に す げておくん。それは 天下御免 けどどこの山 に行って切ってきてもよいということになっていた。'

In [34]:
text = '切ってきて、丸めて、家の屋根にすげておくん。それは天下御免でどこの山に行って切ってきてもよいということになっていた。'

In [35]:
RMeCabC(text)

In [36]:
# 辞書登録前
RMeCabC('まあそういうことで、余分な話はいいけん。')

In [37]:
getwd()

In [38]:
# 辞書登録後
RMeCabC('まあそういうことで、余分な話はいいけん。', dic='dict/example.dic')

In [39]:
# 辞書登録前
RMeCabC('そこに来ちょる。')

In [40]:
# 辞書登録後
RMeCabC('そこに来ちょる。', dic='dict/example.dic')


In [41]:
# 活用語は活用ごとに登録しないといけない
RMeCabC('そこに来ちょった。', dic='dict/example.dic')

In [42]:
text = 'しまあたのぉ、ここへ今日イノシシの肉が家にあったけん持ってくーだった'

In [43]:
RMeCabC(text)

In [44]:
text = 'しまったなぁ、ここへ今日イノシシの肉が家にあったから持ってくるんだった'

In [45]:
RMeCabC(text)