# 正規表現

正規表現とは文字列の集合を一つの文字列で表現する方法です。<br>
例えば、プログラムを書く際に「与えられた文字列が```いくつかの小文字アルファベット```+`＠`+```いくつかの小文字アルファベット```でできているかどうか」を判定したいと考えたときに地道に実装すると以下の様に実装できます。

In [None]:
Boolean judgeSentense( String sentense ){
    Boolean flag = false;

    // @が含まれるか判定
    if(sentense.indexOf("@") == -1){
        return flag;
    }
    // @より前が1文字以上あるか判定
    if( sentense.substring(0,sentense.indexOf("@")).length() < 1){
        return flag;
    }
    // @より後が1文字以上あるか判定
    if( sentense.substring(sentense.indexOf("@") + 1).toLowerCase().length() < 1){
        return false;
    }
    // @より前が小文字か判定
    if(sentense.substring(0,sentense.indexOf("@")).equals(sentense.substring(0,sentense.indexOf("@")).toLowerCase())
    // @より後が小文字か判定
    && sentense.substring(sentense.indexOf("@") + 1).equals(sentense.substring(sentense.indexOf("@") + 1).toLowerCase())
    ){
        flag = true;
    }
    
    return flag;
}

In [None]:
// 判定してみる
System.out.println(judgeSentense("hoge@fuga")); // trueになる
System.out.println(judgeSentense("Hoge@Fuga")); // falseになる
System.out.println(judgeSentense("Hoge@fuga")); // falseになる
System.out.println(judgeSentense("hoge@Fuga")); // falseになる
System.out.println(judgeSentense("@fuga")); // falseになる
System.out.println(judgeSentense("hoge@")); // falseになる
System.out.println(judgeSentense("hogefuga")); // falseになる

judgeSentenseメソッドを見てみると、様々なパターンを考慮してif文で判定しているので<br>
読みづらく、コメントがあってもそれぞれ何をしているのかわかりにくく、処理も長いです。

これを簡単にしてくれるのが正規表現です。


先程のコードを正規表現を使って書くと以下の様になります。

In [None]:
Boolean judgeSentense( String sentense ){
    return sentense.matches("[a-z]+@[a-z]+");
}

In [None]:
System.out.println(judgeSentense("hoge@fuga")); // trueになる
System.out.println(judgeSentense("Hoge@Fuga")); // falseになる
System.out.println(judgeSentense("Hoge@fuga")); // falseになる
System.out.println(judgeSentense("hoge@Fuga")); // falseになる
System.out.println(judgeSentense("@fuga")); // falseになる
System.out.println(judgeSentense("hoge@")); // falseになる
System.out.println(judgeSentense("hogefuga")); // falseになる

judgeSentenseメソッドを見ると以下の1行だけで実装されています。
```java
return sentense.matches("[a-z]+@[a-z]+");
```

matchesメソッドは、文字列が正規表現と一致するかを判定するメソッドで、<br>
`[a-z]+@[a-z]+`こそが正規表現です。<br>
この正規表現は `アルファベット小文字1文字以上` `@` `アルファベット小文字1文字以上`というのを表しています。

正規表現は以下のルールに従って表現できます。
また、記号ではなく文字列として扱いたい場合は記号の前にエスケープ文字「\\\」が必要になります。

|記号|記号の説明|
| :--- | :--- |
|`.` | 任意の1文字。改行文字は除く。|
|`*`	| 直前の1文字の0回以上の繰り返し。|
|`^`	| 行の先頭。|
|`$`	| 行の末尾。|
|`[ ]` | 任意の1文字。「-」で範囲指定可能。 |
|`[^ ]` | 任意の1文字と不一致。「-」で範囲指定可能。|
|`+` | 直前の文字の1回以上の繰り返し。 |
|`?`	| 直前の文字が0個または1個 |
|`{ }` | カッコ内の数値の繰り返し|
|`{n}` | 直前の文字のn個の繰り返し|
|`同上` | {,n}	直前の文字のn個以下の繰り返し|
|`同上` | {m,}	直前の文字のm個以上の繰り返し|
|`同上` | {m,n}	直前の文字のm個以上、n個以下の繰り返し|
|`\|`  | 直前、直後どちらか |
|`( )` | カッコ内をグループ化。マッチした内容は参照可能。|

# Javaの文字列操作で正規表現を扱う方法<br>(Stringクラス)
上記の正規表現を用いた文字列の判定方法は、
Stringクラスのmatchesメソッドを用いたものでした。  
文字列が指定された正規表現と一致するかどうかを判定し、  
一致する場合にだけtrueが返されます。

In [None]:
public void isBerry (String str) {
    // 引数の文字列が「何らかの文字で始まりberryで終わっているか」を判定
    if(str.matches(".*berry$")) {
        System.out.println(str + "はベリー系です");
    } else {
        System.out.println(str + "はベリー系ではありません");
    }
}
isBerry("Strawberry");
isBerry("Orange");
isBerry("cranberry");

# 問題
Stringクラスのmatchesメソッドを使用します。
1. 基本となる文字列を定義します。
1. matchesメソッドの引数に正規表現で以下のパターンをそれぞれ設定して、文字の検索を行いましょう。
- 文字の部分一致を判定するもの
- 文字の前方一致を判定するもの
- 文字の後方一致を判定するもの
- 一致しないパターン

In [None]:
Boolean judgeSentense( String sentense ){
    return sentense.matches(""); //matchesメソッドの引数を求める
}

# Javaの文字列操作で正規表現を扱う方法<br>(PatternクラスとMatcherクラス)
もう少し複雑な正規表現を扱う場合には、  
java.util.regexパッケージのPatternクラスとMatcherクラスを使用します。

|クラス|概要|
|--|--|
|Pattern|コンパイル済みの正規表現| 
|Matcher|Patternを特定の文字列に適用するときのステートを保持する|  

それぞれのクラスを使ってどのように操作をしていくのか見ていきましょう。


### 1. 正規表現のパターンオブジェクトを作る
Patternクラスのcompileメソッドの引数に正規表現のパターンを指定してパターンオブジェクトを作成します。
<br>・正規表現文字列を渡してコンパイルする
<br>・正規表現文字列の他にオプションを指定することができる
<br>・マルチスレッドでも使い回し可能

In [None]:
Pattern p = Pattern.compile("a*b");

### 2. Matcherオブジェクトを作成する
Patternクラスのmatcherメソッドの引数にパターンとマッチさせる文字列を指定してMatcherオブジェクトを作成します。

In [None]:
Matcher m = p.matcher("aaaaab");

### 3. Matcherオブジェクトを使って操作をする
Matcherオブジェクトを使ってチェックや抽出をしていきます。  
- 一致するかチェックする(find)  


In [None]:
if (m.find()){
  System.out.println("マッチしました");
}

- 一致する複数の文字をすべて抽出する(group)  
groupメソッドはfindメソッドで一致した文字列を返します。

In [None]:
// 検索する文字列を用意
String str = "神奈川県川崎市 123-4567, 神奈川県川崎市 111-2233";

// 正規表現のパターンを作成
Pattern ptn = Pattern.compile("[0-9]{3}-[0-9]{4}");
Matcher ma = ptn.matcher(str);

while (ma.find()) {
    System.out.println("一致した部分は : " + ma.group());
}

# 問題
java.util.regexパッケージのPatternクラスとMatcherクラスを使用します。
1. 基本となる文字列を定義します。
1. 正規表現でPatternクラスを用意しましょう。  
　例  
　・文字の部分一致を判定するもの    
　・文字の前方一致を判定するもの   
　・文字の後方一致を判定するもの  
　・一致しないもの  
3. Matcherクラスと2のPatternを使って、1の文字列から検索してみましょう。
4. 3の一致部分を出力してみましょう。
5. Matcherクラスを使って1の文字列に2のPatternを検索し、別の文字に置換してみましょう。