正規表現（Regex）は、テキストデータの**標準化（正規化）・抽出・加工**を効率よく行うために非常に有用なツールです。以下に、用途別に実践的な事例とその正規表現の使い方を解説します。

---

## ✅ 1. **テキストの標準化（正規化）**

### 事例：全角英数字→半角英数字への変換（Python側で対応）

正規表現というよりは `re` モジュールと組み合わせることで前処理を統一できます。

In [None]:
import re
import unicodedata

text = "Ｔｅｓｔ１２３"
normalized = unicodedata.normalize("NFKC", text)
print(normalized)  # 出力: Test123

> 🔍 **ポイント**：正規表現の前に、Unicode正規化を使うことで後続処理の安定性が増します。

---

## ✅ 2. **パターン抽出**

### 事例1：メールアドレスの抽出

In [None]:
import re

text = "お問い合わせは info@example.com までお願いします。"
emails = re.findall(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', text)
print(emails)  # ['info@example.com']

> 🔍 **ポイント**：`.findall()`で複数抽出。ドメインは「.co.jp」などの複数階層も対応。


### 事例2：日付の抽出（YYYY/MM/DD形式）


In [None]:
text = "イベントは2025/06/17に開催されます。"
date = re.search(r'(\d{4})[/-](\d{1,2})[/-](\d{1,2})', text)
print(date.groups())  # ('2025', '06', '17')

> 🔍 **ポイント**：年月日をグループ化して抽出。フォーマットが混在していても対応可能。

## ✅ 3. **文字列の整形・置換（加工）**

### 事例1：電話番号の整形（ハイフン付け）


In [None]:
text = "お問い合わせ: 09012345678"
formatted = re.sub(r'(\d{3})(\d{4})(\d{4})', r'\1-\2-\3', text)
print(formatted)  # お問い合わせ: 090-1234-5678


> 🔍 **ポイント**：`re.sub`の第3引数でキャプチャしたグループを順に再配置できる。


### 事例2：HTMLタグ除去（簡易）


In [None]:
html = "<p>こんにちは</p><br><div>テスト</div>"
clean = re.sub(r'<.*?>', '', html)
print(clean)  # こんにちはテスト


> 🔍 **注意**：HTMLタグは構造が複雑なため、基本はHTMLパーサ使用推奨（例：`BeautifulSoup`）。

## ✅ 4. **否定条件や前後関係の抽出**

### 事例：特定のキーワードの**前後を含めて**抽出（前方・後方一致）


In [None]:
text = "商品コード: ABC123 は特価です。"
match = re.search(r'(?<=商品コード:\s)[A-Z]+\d+', text)
print(match.group())  # ABC123


> 🔍 `(?<=...)` は**後読み**。`(?=...)` は**先読み**。条件を満たすが出力には含めない。


## ✅ 5. **データのフィルタリング**

### 事例：カンマ区切りの値の中から日本語が含まれる要素を抽出


In [None]:
text = "Apple,バナナ,Orange,ミカン,123"
japanese_words = re.findall(r'[一-龥ぁ-んァ-ン]+', text)
print(japanese_words)  # ['バナナ', 'ミカン']

## ✅ 6. **任意の括弧でくくられた文字列の抽出**

### ◉ 事例1：全角・半角の「丸括弧」`()` または `（）` を含む文字列の抽出


In [None]:
import re

text = "この製品（新モデル）は非常に人気です。旧製品(参考)もあります。"
results = re.findall(r'[\(（](.*?)[\)）]', text)
print(results)  # ['新モデル', '参考']


> 🔍 **ポイント**：

* `\(（` と `\)）` で半角と全角の括弧を両方対応。
* `.*?` は**最短一致**（欲張らないマッチ）を指定。

### ◉ 事例2：角括弧 `[ ]` 内の文字列を抽出（例：タグ抽出）


In [None]:
text = "本のカテゴリ：[小説]、[歴史]、[科学]"
tags = re.findall(r'\[(.*?)\]', text)
print(tags)  # ['小説', '歴史', '科学']


### ◉ 事例3：ネストを考慮しない中括弧 `{}` 抽出（例：テンプレート記法）


In [None]:
text = "ユーザー名: {username}、パスワード: {password}"
placeholders = re.findall(r'\{(.*?)\}', text)
print(placeholders)  # ['username', 'password']


## ✅ 7. **Markdown形式のデータの抽出**
Markdown文法に特有の記法を対象に、正規表現で抽出する例を紹介します。


### ◉ 事例1：Markdownの見出し（`# 見出し`）の抽出


In [None]:
text = "# タイトル1\n## サブタイトル\n### 小見出し"
headings = re.findall(r'^\s{0,3}#{1,6}\s+(.*)', text, flags=re.MULTILINE)
print(headings)  # ['タイトル1', 'サブタイトル', '小見出し']

> 🔍 **ポイント**：`^\s{0,3}#{1,6}` は最大6つまでの見出し `#` をマッチ。


### ◉ 事例2：Markdownのリンク `[テキスト](URL)` の抽出


In [None]:
text = "詳しくは [公式サイト](https://example.com) をご覧ください。"
links = re.findall(r'\[([^\]]+)\]\((https?://[^\)]+)\)', text)
print(links)  # [('公式サイト', 'https://example.com')]


> 🔍 **出力形式**：リンクテキストとURLのタプル。


### ◉ 事例3：Markdownのコードブロック（` ``` `）の抽出


In [None]:
text = """
ここからコードです：
```python
def hello():
    print("Hello, World!")
```

以上です。
"""
blocks = re.findall(r'`[\w]*\n(.*?)`', text, flags=re.DOTALL)
print(blocks)  # \['def hello():\n    print("Hello, World!")']

> 🔍 **ポイント**：
- `[\w]*` で言語指定（例：`python`）を含んでも抽出可能。
- `re.DOTALL` を使うことで改行を含むマッチが可能。


### ◉ 事例4：Markdownの箇条書き `- 項目` の抽出

In [None]:
text = """
- りんご
- ばなな
- みかん
"""
items = re.findall(r'^\s*-\s+(.*)', text, flags=re.MULTILINE)
print(items)  # ['りんご', 'ばなな', 'みかん']


## ✅ 8. **Markdownの箇条書きの抽出**

### ◉ 対応する箇条書きの種類

| 種類           | 記法例                        |
| ------------ | -------------------------- |
| ✔ 箇条書き（番号なし） | `- 項目`, `* 項目`, `+ 項目`     |
| ✔ 番号付きリスト    | `1. 項目`, `2. 項目`, `10. 項目` |


## 🔍 正規表現での抽出例

### 📌 事例1：番号なしリスト（- / \* / +）


In [None]:
import re

markdown = """
- リンゴ
* バナナ
+ みかん
"""

items = re.findall(r'^\s*[-*+]\s+(.*)', markdown, flags=re.MULTILINE)
print(items)  # ['リンゴ', 'バナナ', 'みかん']

> ✅ **解説**：

* `^\s*[-*+]`：行頭に空白＋`-`または`*`または`+`
* `\s+`：スペース1つ以上
* `.*`：項目名をキャプチャ


### 📌 事例2：番号付きリスト


In [None]:
markdown = """
1. りんご
2. バナナ
10. みかん
"""

numbered_items = re.findall(r'^\s*\d+\.\s+(.*)', markdown, flags=re.MULTILINE)
print(numbered_items)  # ['りんご', 'バナナ', 'みかん']

> ✅ **解説**：

* `\d+\.`：数字＋ピリオド
* `\s+`：スペース1つ以上
* `.*`：項目名をキャプチャ


### 📌 番号付き／なしの箇条書きを**まとめて抽出**


In [None]:
markdown = """
- リンゴ
1. バナナ
* みかん
2. オレンジ
"""

all_items = re.findall(r'^\s*(?:[-*+]|(?:\d+\.))\s+(.*)', markdown, flags=re.MULTILINE)
print(all_items)  # ['リンゴ', 'バナナ', 'みかん', 'オレンジ']

> ✅ **解説**：

* `(?:...)` は非キャプチャグループ（抽出対象ではない）
* `(?:[-*+]|(?:\d+\.))` で箇条書き全種に対応


## 🧠 補足：ネストされたリストの処理

例えば以下のようなネストリストの場合、インデント情報を含めて抽出可能です。
```markdown
- 果物
  - リンゴ
  - みかん
```

In [None]:
markdown_nested = """
- 果物
  - リンゴ
  - みかん
"""

nested = re.findall(r'^(\s*)[-*+]\s+(.*)', markdown_nested, flags=re.MULTILINE)
for indent, item in nested:
    level = len(indent) // 2  # スペース2個で1階層
    print(f"Level {level}: {item}")

出力例：

```
Level 0: 果物
Level 1: リンゴ
Level 1: みかん

## 📦 まとめ表

| 用途         | 正規表現                              |                     |
| ---------- | --------------------------------- | ------------------- |
| 箇条書き（番号なし） | `^\s*[-*+]\s+(.*)`                |                     |
| 箇条書き（番号あり） | `^\s*\d+\.\s+(.*)`                |                     |
| 両対応（まとめて）  | \`^\s\*(?:\[-\*+]                 | (?:\d+.))\s+(.\*)\` |
| ネスト階層付き抽出  | `^(\s*)[-*+]\s+(.*)`（インデント長で階層算出） |                     |

---

必要に応じて、抽出した箇条書きをJSON化・CSV化・HTML化などの活用にも展開できます。
ご希望あればその例もお出しできます！

## 🔄 応用アイデア

| 用途                  | 正規表現例（簡略）                           |
| ------------------- | ----------------------------------- |
| `() [] {}`など任意括弧の抽出 | `[\(\[{](.*?)[\)\]}]`               |
| Markdownリンク         | `\[([^\]]+)\]\((https?://[^\)]+)\)` |
| コードブロック             | ` ```[\w]*\n(.*?)``` ` （DOTALL）     |
| 見出し                 | `^\s{0,3}#{1,6}\s+(.+)` （MULTILINE） |
| 強調                  | `\*\*(.+?)\*\*` や `__(.+?)__`       |

---

必要に応じて、**パターンに合わせて抽出してCSV化**、**HTML化して一覧表示**などの実践タスクにも組み込めます。
ご希望があれば、具体的なスクリプトに展開することもできます！

## 🔧 補足：よく使う正規表現パターン集

| 用途     | 正規表現例           | 説明               |
| ------ | --------------- | ---------------- |
| 数字     | `\d+`           | 1文字以上の数字         |
| 英単語    | `\b[a-zA-Z]+\b` | 単語単位の英字          |
| 空白除去   | `\s+`           | 連続した空白           |
| 全角カナ   | `[ァ-ヶー]+`       | カタカナ             |
| 日本語文字列 | `[一-龥ぁ-んァ-ン]`   | ひらがな・カタカナ・漢字を対象に |

---

## 💡 活用のヒント

* **前処理工程に定型のルールがある場合、正規表現をテンプレート化**して管理すると効率的です。
* **曖昧なルールには正規表現よりも構造的な処理（パーサ等）の導入を検討**するとよいです。
