| Version | Published Date| Details |
| -- | -- | -- |
| ver.1.0.0 | 2023/8/29 | 初版 |

# 正規表現を使いこなそう

Station3では，これまでのStationで学んだ正規表現を本格的に使いこなします。しばらくは覚えるばかりで「これがいったいなんの役に立つのか」と思った方もいることでしょう。このStationでは，より多彩な正規表現を学びます。このStationが終わる頃には電話番号やメールアドレスの抽出といった，より実務的なタスクをこなすことを目指します。

## 文字集合

前回のStationでは `\d` が数字を意味することを学びました。つまり `\d` は `0|1|2|3|4|5|6|7|8|9` の短縮形です。

|  短縮形  |  意味  |
| ---- | ---- |
| \d |0-9の数字|
| \D | 0-9の数字以外 |
| \w | 文字，数字，下線 (単語wordのw) |
| \W | 文字，数字，下線 **以外** |
| \s | スペース，タブ，改行 (空白spaceのs) |
| \S | スペース，タブ，改行 **以外** |

`\d` は数字に， `\w` は数字，文字，下線にそれぞれマッチしますが，文字だけにマッチする短縮形がないことに注意しましょう。文字だけにマッチさせるには後述の文字集合 `[a-zA-Z]` を使います。

In [1]:
import re

In [2]:
zodiac_animals = re.compile(r'\d+\s\w+')
zodiac_animals.findall('1 rat, 2 ox, 3 tiger, 4 rabbit, 5 dragon, 6 snake, 7 horse, 8 sheep, 9 monkey, 10 rooster, 11 dog, 12 pig')

['1 rat',
 '2 ox',
 '3 tiger',
 '4 rabbit',
 '5 dragon',
 '6 snake',
 '7 horse',
 '8 sheep',
 '9 monkey',
 '10 rooster',
 '11 dog',
 '12 pig']

`\d+\s\w+` は，1つ以上の数字 `\d+` の次に、空白文字が1つ `\s` あり，1つ以上の文字または数字または下線 `\w+` が続く文字列にマッチします。`findall()` メソッドは，この正規表現パターンにマッチした文字列をリストとして返します。

## 独自の文字集合を定義する

`\d` や `\w` や `\s` のような短縮形では集合が大きすぎる場合 `[]` を使って独自の文字集合を定義できます。たとえば `[aiueoAIUEO]` は大文字と小文字の母音にマッチします。

In [3]:
vowel_regex = re.compile(r'[aiueoAIUEO]')
vowel_regex.findall('Baby shark and Momma shark')

['a', 'a', 'a', 'o', 'a', 'a']

また `-` を使って文字や数字の範囲を指定できます。たとえば `[0-5]` という文字集合は `0-5` の数字にだけマッチします。 `0|1|2|3|4|5` と書くよりもはるかに短く書けますね。 `[a-zA-Z0-9]` という文字集合は 小文字，大文字，数字 にマッチします。

`[]` 内では，通常の正規表現の記号は解釈されないことに注意しましょう。つまり `.` `*` `?` `()` に `\` をつける必要はありません。たとえば `[0-5.]` は 0-5 の数字とピリオドにマッチします。 `[0-5\.]` のように書く必要はありません。

`[` の直後に `^` をつけると，文字の **補集合** になります。補集合とは，定義した文字集合以外とマッチする，ということを示します。

In [4]:
consonant_regex = re.compile(r'[^aiueoAIUEO]')
consonant_regex.findall('Baby shark and Momma shark')

['B',
 'b',
 'y',
 ' ',
 's',
 'h',
 'r',
 'k',
 ' ',
 'n',
 'd',
 ' ',
 'M',
 'm',
 'm',
 ' ',
 's',
 'h',
 'r',
 'k']

日本語の文字にマッチする正規表現は以下のように書きます。

| 文字種 | 正規表現           |
|--------|--------------------|
| 全角英字 | `[A-Za-z]`           |
| 全角数字 | `[0-9]`              |
| 漢数字  | `[ 〇一二三四五六七八九 ]` |
| ひらがな | `[\u3040-\u309F]`     |
| カタカナ | `[\u30A0-\u30FF]`     |
| 半角カタカナ | `[\uFF66-\uFF9F]`  |
| 漢字   | `[\u4E00-\u9fff]`    |

## `^` と `$` 記号

`^` には別の使い方もあり，検索対象の文字列の先頭にマッチすることを指定するときにも使います。同様に `$` は文字列の末尾にマッチします。 `^` と `$` を同時に使うと，文字列全体が正規表現とマッチすることを表します。つまり，文字列の一部がマッチするものは扱わなくなります。

In [5]:
begins_with_hello = re.compile(r'^Hello')
begins_with_hello.search('Hello, world!')

<re.Match object; span=(0, 5), match='Hello'>

In [6]:
begins_with_hello.search('He said hello.') == None

True

また `\d$` という正規表現は `0-9` の数字で終わる文字列にマッチします。

In [7]:
ends_with_number = re.compile(r'\d$')
ends_with_number.search('Your number is 765')

<re.Match object; span=(17, 18), match='5'>

In [8]:
ends_with_number.search('Your number is seven hundred sixty-five.') == None

True

`^\d+$` という正規表現は，全体が1文字以上の数字である文字列とマッチします。

In [9]:
whole_string_is_num = re.compile(r'^\d+$')
whole_string_is_num.search('9876543210')

<re.Match object; span=(0, 10), match='9876543210'>

In [10]:
whole_string_is_num.search('12345aahbksh67890') == None

True

In [11]:
whole_string_is_num.search('765 283315') == None

True

## ワイルドカード文字

正規表現では `.` は **ワイルドカード** と呼ばれ，改行以外の任意の文字とマッチします。たとえば

In [12]:
at_regex = re.compile(r'.at')
at_regex.findall('Matt sat at the flat mat and chatted with his fat cat.')

['Mat', 'sat', ' at', 'lat', 'mat', 'hat', 'fat', 'cat']

`.` は1文字としかマッチしないため，この例の `flat` に対しては `lat` だけがマッチします。 `.` そのものとマッチさせたい場合は `\` を使って `\.` とエスケープします。

### `.` と `*` であらゆる文字とマッチする

あらゆる文字列でもマッチしたいことがあります。たとえば `名前:` にマッチしたあとに続く文字列や `名字:` にマッチしたあとに続く文字列です。このように「なんでも」にマッチさせるための正規表現は `.*` と書きます。 `.` は「改行以外の任意の1文字」であり `*` は「直前のパターンの0回以上の繰り返し」を意味するのでした。

これらを組み合わせて任意の長さの文字列を表現します。

In [13]:
name_regex = re.compile(r'名: (.*) 姓: (.*)')
mo = name_regex.search('名: 炭治郎 姓: 竈門')
mo.group(1)

'炭治郎'

In [14]:
mo.group(2)

'竈門'

`.*` は貪欲モードを採用し，できるだけ長い文字列とマッチします。非貪欲モードにしたいときは `.*?` と疑問符を付けます。`{}` の場合と同様に，疑問符は非貪欲モードにすることを意味します。

In [15]:
nongreedy_regex = re.compile(r'<.*?>') # 非貪欲
mo = nongreedy_regex.search('<To serve man> for lunch.>')
mo.group()

'<To serve man>'

In [16]:
greedy_regex = re.compile(r'<.*>') # 貪欲
mo = greedy_regex.search('<To serve man> for lunch.>')
mo.group()

'<To serve man> for lunch.>'

この正規表現はどちらも「 `<` ではじまり，任意の文字列が続き `>` で終わる」ことを示しています。しかし `<To serve man> for lunch.>` という文字列に対しては `>` とマッチするパターンが2通りあります。非貪欲モードではできるだけ短い文字列とマッチし，貪欲モードではできるだけ長い文字列とマッチします。

### `.` を改行とマッチさせる

`.*` は改行以外のあらゆる文字列とマッチします。 `re.compile()` の第2引数として `re.DOTALL` を渡すと，ドット文字が改行を含むすべての文字とマッチするようになります。

In [17]:
no_newline_regex = re.compile('.*')
no_newline_regex.search(
    "God's in his heaven \n"
    "All's right with the world!\n"
).group()

"God's in his heaven "

In [18]:
newline_regex = re.compile('.*', re.DOTALL)
newline_regex.search(
    "God's in his heaven \n"
    "All's right with the world!\n"
).group()

"God's in his heaven \nAll's right with the world!\n"

`no_newline_regex` では `re.DOTALL` オプションが渡されていなかったため，最初の改行文字の前までの部分にマッチしました。一方 `newline_regex` は `re.DOTALL` オプションを使って生成したため，改行文字も含めて文字列全体にマッチしたことがわかります。

## 正規表現に用いる記号のまとめ

ここまでたくさんの記法を説明してきました。ここで簡単に基本的な正規表現をまとめます。

- `?`は，直前のグループの0回か1回の出現にマッチする
- `*`は，直前のグループの0回以上の出現にマッチする
- `+`は，直前のグループの1回以上の出現にマッチする
- `{n}`は，直前のグループのn回の出現にマッチする
- `{n,}`は，直前のグループのn回以上の出現にマッチする
- `{,m}`は，直前のグループの0~m回の出現にマッチする
- `{n,m}`は，直前のグループのn~m回の出現にマッチする
- `{n,m}?`，`*?`，`+?`は，直前のグループの非貪欲マッチを行う
- `^spam`は，「spam」から始まる文字列とマッチする
- `spam$`は，「spam」で終わる文字列とマッチする
- `.`は，改行文字以外の任意の1文字とマッチする
- `\d`，`\w`，`\s`は，それぞれ，数字，単語を構成する文字，空白文字にマッチする
- `\D`，`\W`，`\S`は，それぞれ，数字，単語を構成する文字，空白文字以外の文字にマッチする
- `[abc]`は，角カッコの中の任意の1文字にマッチする（この例では、「a」か「b」か「c」）
- `[^abc]`は，角カッコの中の文字以外の任意の1文字にマッチする

## 大文字・小文字を無視したマッチ

通常は，正規表現は大文字と小文字を区別してマッチします。例えば次の正規表現はそれぞれまったく異なる文字列とマッチします。

In [19]:
regex1 = re.compile('Ruby')
regex2 = re.compile('ruby')
regex3 = re.compile('rUby')
regex4 = re.compile('RUBY')

大文字と小文字を区別せずにマッチしたいときがあります。そうするには `re.compile()` に `re.IGNORECASE` もしくは `re.I` オプションを渡します。

In [20]:
ruby = re.compile(r'ruby', re.I)
ruby.search('Ruby is an interpreted, high-level, general-purpose programming language').group()

'Ruby'

In [21]:
ruby.search('RUBY is an interpreted, high-level, general-purpose programming language').group()

'RUBY'

In [22]:
ruby.search('ruby is an interpreted, high-level, general-purpose programming language').group()

'ruby'

## `sub()` メソッドを用いて文字列を置換する

正規表現は文字列のパターン検索だけではなく，文字列の置換もすることもできます。 `Regex` オブジェクトの `sub()` メソッドは引数を2つ取ります。第1引数は置き換える文字列，第2引数は検索置換対象の文字列です。 `sub()` メソッドは置換後の文字列を返します。

In [23]:
names_regex = re.compile(r'Agent \w+')
names_regex.sub('***CENSORED***', "Agent Matt gave the secret documents to Agent Mary")

'***CENSORED*** gave the secret documents to ***CENSORED***'

マッチした文字列を，置換の一部として使いたい場合もあります。その場合は `sub()` の第1引数に `\1` `\2` `\3` のように，グループの番号を使って記述します。

たとえば，個人情報を含む名前を検索し，頭文字だけで表示するとしましょう。そうするには `(\w)\w*` という正規表現を用いて `sub()` の第1引数に `\1****` を渡します。`\1` がグループ1にマッチした文字列であり，今回の場合は正規表現の `(\w)` に置き換わります。

In [24]:
agent_names_regex = re.compile(r'Agent (\w)\w*')
agent_names_regex.sub(r'\1****', "Agent Anderson told Agent Campbell that Agent Edwards knew Agent Bennett was a double agent")

'A**** told C**** that E**** knew B**** was a double agent'

## 複雑な正規表現を管理する

正規表現は，テキストのパターンが単純なうちはよいのですが，複雑になってくると長くてややこしい記述が必要になります。この場合は，正規表現の文字列の中に含まれる空白文字やコメントを無視するように `re.compile()` に指定すればこの問題を緩和できます。この **冗長モード** を指定するには `re.compile()` に `re.VERBOSE` を渡します。

In [25]:
 phone_regex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)'
                             r'\d{4}(\s*(ext|x|ext.)\s*\d{2,5})?)')

のような難解な1行の正規表現を

In [26]:
phone_regex = re.compile(r"""(
    (\d{3}|\(\d{3}\))?              # 3桁の市外局番(()が付いていてもよい)
    (\s|-|\.)?                      # 区切り(スペースかハイフンかドット)
    \d{3}                           # 3桁の市内局番
    (\s|-|\.)                       # 区切り
    \d{4}                           # 4桁の番号
    (\s*(ext|x|ext.)\s*\d{2,5})?    # 2~5桁の内線番号
    )""", re.VERBOSE)

のようにも書けます。正規表現の文字列中のコメントの書き方はPythonのコードと同じです。このように書いた場合は文字列中の余分な空白もマッチする文字列には含まれなくなります。

In [27]:
text = """
This is
very looooooooooooong
sentence
"""
text

'\nThis is\nvery looooooooooooong\nsentence\n'

行数の多いテキストをPythonで書く場合，このように `"""` と `"""` で囲むと複数行に渡って可読性を高めながらテキストを書けることは覚えておくとよいでしょう。改行を取り除きたい場合は `replace()` メソッドを使うと便利です。

In [28]:
text.replace("\n", "")

'This isvery looooooooooooongsentence'

# 電話番号とメールアドレスを抽出

自動化のStationでは，今までのStationとは違い，より実務的なプロジェクトに取り組みます。ここで大量のウェブページや文書から，すべての電話番号とメールアドレスを見つけ出すことを考えます。

手作業でページをスクロールして探し出すのはとても長い時間がかかることでしょう。しかしColabに貼り付けたテキストから電話番号とメールアドレスを検索してくれるプログラムがあれば `Ctrl/Comman + A` で全テキストを選択，`Ctrl/Comman + C` でColabに貼り付け，プログラムを実行するだけで済みます。

こういった少し重たい自動化処理をPythonで行う場合，すぐにコードを書きたくなる方もいることでしょう。しかしいきなり取りかかるのではなく，まずは全体を構想した方が，多くの場合より楽に速く問題を解くことができます。

たとえば，電話番号とメールアドレスを抽出するためには，次のような機能が必要です。

1. 貼り付けられたテキストを読み込む
2. テキストから電話番号とメールアドレスを見つける
3. 見つけたパターンを表示する

次にこれをコードで実現する方法を考えます。コードは次のようなことをする必要があります。

1. 電話番号用とメールアドレス用の2つの正規表現を作る
2. 2つの正規表現にマッチするすべての文字列を取得する
3. マッチした文字列をきれいに整形して表示する
4. 何も見つからなかったときにメッセージを表示する

このようなロードマップを作ると，それぞれの問題に集中して取り組めます。少しむずかしく感じるかもしれませんが，今まで学んだことを使えば実現できます。

## 電話番号の抽出

日本の電話番号は，市外局番が0からはじまる1-4桁，市内局番が1-4桁，加入者番号が4桁であり，正規表現は次のようになります。市外局番は数字かそれぞれが丸カッコで囲まれたもののどちらかであるため `|` で区切って記述しています。それぞれが何とマッチするのかを忘れないようにコメントをつけています。

In [29]:
phone_regex = re.compile(r"""(
    (0\d{0,3}|\(0\d{0,3}\))         # 市外局番
    (\s|-)                          # 区切り
    (\d{1,4})                       # 市内局番
    (\s|-)                          # 区切り
    (\d{3,4})                       # 加入者番号
    (\s*(ext|x|ext.)\s*(\d{2,5}))?  # 内線番号
    )""", re.VERBOSE)

## メールアドレスの抽出

同様に，メールアドレスの正規表現をつくります。プログラムは次のようになるでしょう。

In [30]:
email_regex = re.compile(r"""(
    [a-zA-Z0-9._%+-]+   # ユーザー名
    @                   # @記号
    [a-zA-Z0-9.-]+      # ドメイン名
    (\.[a-zA-Z]{2,4})   # ドットの後
)""", re.VERBOSE)

メールアドレスのユーザー名の部分は，小文字，大文字，数字，ドット，下線，パーセント，プラス，ハイフンから1文字以上使って構成されます。これらは文字集合 `[a-zA-Z0-9._%+-]` として表わせ，1つ以上あるので `+` をつけます。

ユーザー名とドメイン名は `@` で区切ります。ドメイン名に使える文字は少し限定されていて，アルファベット，数字，ドット，ハイフンだけなので `[a-zA-Z]` とします。最後に「ドットの後」の部分 (技術的にはトップレベルドメインといいます) は，文字通り「ドットの後」としここでは2-4文字とします。

実際にはメールアドレスの形式にはより複雑なルールがあります。ここで書いた正規表現があらゆる正しいメールアドレスにマッチするものではありませんが，よくあるメールアドレスの大部分にはマッチするでしょう。

## セル内のテキストを検索する

電話番号とメールアドレスそれぞれのための正規表現を準備できました。それではPythonの `re` にはついにColabのセルに書かれたテキストを検索してもらいましょう。ここでは以前に学んだ `findall()` メソッドを使います。

In [31]:
text = """
お問い合わせありがとうございます。

ご不明点やご質問がございましたら、お気軽にお知らせください。

お問い合わせ先の連絡先情報は以下の通りです：

電話番号：

本社：(0120)-1234-5678
支店1：03-9876-5432
支店2：052-2468-1357
メールアドレス：

一般お問い合わせ：info@example.com
カスタマーサポート：support@example.com
営業部門：sales@example.com
鈴木：suzuki.taro@example.cs.com
お手数ですが、お問い合わせの際は、以下の情報をお知らせください：

お名前：
ご連絡先（電話番号またはメールアドレス）：
お問い合わせ内容：

ご連絡いただいた内容に対し、迅速に対応させていただきます。
どうぞよろしくお願いいたします。
"""

In [32]:
matches = []

for groups in phone_regex.findall(text):
    phone_num = '-'.join([groups[1], groups[3], groups[5]])
    if groups[8] != '':
        phone_num += ' x' + groups[8]
    matches.append(phone_num)

for groups in email_regex.findall(text):
    matches.append(groups[0])

正規表現がマッチするたびに1つのタプルが作られ，正規表現のグループに対応する文字列が格納されています。 `groups[0]` は正規表現全体を表すため，タプルの先頭要素は検索したい対象そのものとなります。

検索結果は定義した `matches` リストに記録していきます。最初は空リスト `[]` として `for` ループを2回回します。まずメールアドレスを調べ，そのあとに電話番号を調べます。メールアドレスは `groups[0]` を使って単にマッチした文字列の全体を追加しています。一方で電話番号は単純に追加することはしません。この正規表現はさまざまな形式の電話番号を見つけ出しますが，追加するのはひとつの標準フォーマットにしておいた方が便利です。そのため `phone_num` 変数には `groups[1], groups[3], groups[5], groups[8]` にマッチした文字列から構成した文字列を格納します。それぞれ市外局番，3桁の番号，4桁の番号，内線番号に相当します。グループ番号は，グループの開きカッコが出てくる順に数えます。

## 検索結果をひとまとめにする

以上で `matches` に文字列のリストとして電話番号とメールアドレスを取得できました。今度はこれを見やすく表示してみます。ここではPythonのリストが `[]` である場合は `False` そうでなければ `True` を返すことを利用しています。

In [33]:
if matches:
    matched_text = "\n".join(matches)
    print("見つかった電話番号とメールアドレスはこちらです: ")
    print(matched_text)
else:
    print("電話番号とメールアドレスは見つかりませんでした")

見つかった電話番号とメールアドレスはこちらです: 
(0120)-1234-5678
03-9876-5432
052-2468-1357
info@example.com
support@example.com
sales@example.com
suzuki.taro@example.cs.com


# 確認テスト

個人情報が含まれたcsvファイルである `personal_info` を使って以下の問いに答えてください。このファイルに含まれる個人情報はすべてダミーであり，プログラムによって生成したものです。テストの回答はそれぞれ以下の質問の答えを数字で入力してください。プログラムのソースコードを入力する必要はありません。

1. 携帯電話番号の下2桁が `11` である人の人数を答えてください。
1. 早生まれの人数を答えてください。早生まれとは，生まれた月が1月から3月の人を指します。
1. 東京23区に住む人数を答えてください。東京23区の住所は必ず「東京都○○区」と表されることに注意してください。例: 東京都渋谷区，東京都北区

In [34]:
import pandas as pd
personal_info = pd.read_csv("https://drive.google.com/uc?id=17jpKCf-Qdo3IVObiF1WJzFRdEXWdYVHt")
personal_info

Unnamed: 0,氏名,氏名（ひらがな）,年齢,生年月日,性別,血液型,メールアドレス,電話番号,携帯電話番号,郵便番号,住所,会社名
0,野田 大知,のだ だいち,67,1955年12月23日,男,A,nodadaichi@example.com,0964-63-4407,080-8537-4965,867-2838,熊本県熊本市西区春日2-4-10,
1,金田 英俊,かねだ ひでとし,56,1966年05月20日,男,O,kanedahidetoshi@example.org,0846-39-1554,080-3826-9491,730-7952,広島県福山市川口町1-2-12,合名会社染谷農機工作所
2,稲村 政昭,いなむら まさあき,62,1960年11月19日,男,A,inamuramasaaki@example.net,06-6819-4382,080-4393-4681,577-6363,大阪府大阪市住之江区南港中4-2-4,
3,中島 一弘,なかじま かずひろ,37,1986年02月01日,その他・不明,A,nakajima_kazuhiro@example.com,03-8838-4950,080-2420-0588,119-6946,東京都渋谷区広尾2-5-15,合資会社橘屋
4,大塚 愛美,おおつか めぐみ,62,1961年02月13日,女,B,otsuka_megumi@example.ne.jp,01587-7-2293,050-8744-2152,079-4718,北海道沙流郡日高町富川南3-2-18,
...,...,...,...,...,...,...,...,...,...,...,...,...
195,古川 聡太,ふるかわ そうた,35,1987年12月22日,男,B,furukawasota@example.com,0267-77-2518,090-1424-3975,392-9646,長野県松本市中央1-2-3,株式会社ケンテック
196,宇佐美 紘子,うさみ ひろこ,21,2002年02月17日,女,B,hirokousami@example.com,0494-05-3136,080-6575-1815,347-1039,埼玉県南埼玉郡宮代町川端2-4-202,有限会社ツカサ
197,吉池 博子,よしいけ ひろこ,27,1995年08月28日,女,O,yoshiike_hiroko@example.com,03-0362-8237,070-3530-6019,202-5618,東京都渋谷区恵比寿1-1-18,
198,坂本 亜紀子,さかもと あきこ,42,1980年12月13日,女,A,sakamoto1213@example.ne.jp,0564-53-7373,080-8975-8091,445-2380,愛知県名古屋市西区上名古屋3-3-903,株式会社HERO


In [35]:
# ヒント 1: 男性のみを抽出する
personal_info[personal_info['性別'] == '男']

Unnamed: 0,氏名,氏名（ひらがな）,年齢,生年月日,性別,血液型,メールアドレス,電話番号,携帯電話番号,郵便番号,住所,会社名
0,野田 大知,のだ だいち,67,1955年12月23日,男,A,nodadaichi@example.com,0964-63-4407,080-8537-4965,867-2838,熊本県熊本市西区春日2-4-10,
1,金田 英俊,かねだ ひでとし,56,1966年05月20日,男,O,kanedahidetoshi@example.org,0846-39-1554,080-3826-9491,730-7952,広島県福山市川口町1-2-12,合名会社染谷農機工作所
2,稲村 政昭,いなむら まさあき,62,1960年11月19日,男,A,inamuramasaaki@example.net,06-6819-4382,080-4393-4681,577-6363,大阪府大阪市住之江区南港中4-2-4,
5,太田 紀彦,おおた のりひこ,73,1949年07月04日,男,A,norihikoota@example.co.jp,03-9879-5847,090-9720-6999,165-0390,東京都港区六本木2-3-7ルミエール310,
6,平島 祐樹,ひらしま ゆうき,29,1994年02月21日,男,A,hirashima_yuuki@example.net,048-756-3820,050-9067-9055,337-5796,埼玉県川口市鳩ヶ谷本町3-1-6,有限会社伊藤工務店
...,...,...,...,...,...,...,...,...,...,...,...,...
181,澤井 豊,さわい ゆたか,78,1944年06月22日,男,O,yutakasawai@example.jp,0493-85-1688,090-5076-2376,346-4393,埼玉県志木市下宗岡1-4-12ハイネスクラウズ609,
188,加勢 俊輔,かせい しゅんすけ,56,1966年05月21日,男,O,kasei_shunsuke@example.ne.jp,06-7869-7959,070-6174-7663,559-8660,大阪府大阪市中央区南船場2-1-509,有限会社藤屋
191,渡部 修,わたなべ おさむ,47,1975年07月21日,男,B,watanabe_721@example.ne.jp,0883-64-3384,090-7697-3005,777-1643,徳島県徳島市中島田町3-2-7,株式会社田中工務店
193,川波 文仁,かわなみ ふみひと,73,1949年09月07日,男,O,fumihito_kawanami@example.org,0480-51-8182,050-6572-6116,343-2879,埼玉県北葛飾郡杉戸町内田1-3-20グランアッシュ113,


In [36]:
# ヒント 2: personal_infoの登録件数を計算する
len(personal_info)

200

In [37]:
def eleven_end(date_str):

  # 日付のパターンを作成
  pattern = re.compile(r"11$")

  # パターンに一致する部分を抽出
  match = pattern.search(date_str)

  # 月を返す
  if match:
    return True
  else:
    return False

In [38]:
personal_info["eleven_end"] = personal_info["携帯電話番号"].apply(eleven_end)

In [39]:
print(personal_info)

         氏名   氏名（ひらがな）  年齢         生年月日      性別 血液型  \
0     野田 大知     のだ だいち  67  1955年12月23日       男   A   
1     金田 英俊   かねだ ひでとし  56  1966年05月20日       男   O   
2     稲村 政昭  いなむら まさあき  62  1960年11月19日       男   A   
3     中島 一弘  なかじま かずひろ  37  1986年02月01日  その他・不明   A   
4     大塚 愛美   おおつか めぐみ  62  1961年02月13日       女   B   
..      ...        ...  ..          ...     ...  ..   
195   古川 聡太   ふるかわ そうた  35  1987年12月22日       男   B   
196  宇佐美 紘子    うさみ ひろこ  21  2002年02月17日       女   B   
197   吉池 博子   よしいけ ひろこ  27  1995年08月28日       女   O   
198  坂本 亜紀子   さかもと あきこ  42  1980年12月13日       女   A   
199   山口 千尋   やまぐち ちひろ  29  1993年09月09日       女   A   

                           メールアドレス          電話番号         携帯電話番号      郵便番号  \
0           nodadaichi@example.com  0964-63-4407  080-8537-4965  867-2838   
1      kanedahidetoshi@example.org  0846-39-1554  080-3826-9491  730-7952   
2       inamuramasaaki@example.net  06-6819-4382  080-4393-4681  577-6363   
3    nakajima_kazuhiro@example.

In [40]:
personal_info["eleven_end"].value_counts()

False    197
True       3
Name: eleven_end, dtype: int64

In [41]:
def get_month_from_date(date_str):

  # 日付のパターンを作成
  pattern = re.compile(r"(.*)年(.*)月(.*)日")

  # パターンに一致する部分を抽出
  match = pattern.search(date_str)

  # 月を返す
  if match:
    return int(match.group(2))
  else:
    return None

In [42]:
personal_info["月"] = personal_info["生年月日"].apply(get_month_from_date)

In [43]:
print(personal_info)

         氏名   氏名（ひらがな）  年齢         生年月日      性別 血液型  \
0     野田 大知     のだ だいち  67  1955年12月23日       男   A   
1     金田 英俊   かねだ ひでとし  56  1966年05月20日       男   O   
2     稲村 政昭  いなむら まさあき  62  1960年11月19日       男   A   
3     中島 一弘  なかじま かずひろ  37  1986年02月01日  その他・不明   A   
4     大塚 愛美   おおつか めぐみ  62  1961年02月13日       女   B   
..      ...        ...  ..          ...     ...  ..   
195   古川 聡太   ふるかわ そうた  35  1987年12月22日       男   B   
196  宇佐美 紘子    うさみ ひろこ  21  2002年02月17日       女   B   
197   吉池 博子   よしいけ ひろこ  27  1995年08月28日       女   O   
198  坂本 亜紀子   さかもと あきこ  42  1980年12月13日       女   A   
199   山口 千尋   やまぐち ちひろ  29  1993年09月09日       女   A   

                           メールアドレス          電話番号         携帯電話番号      郵便番号  \
0           nodadaichi@example.com  0964-63-4407  080-8537-4965  867-2838   
1      kanedahidetoshi@example.org  0846-39-1554  080-3826-9491  730-7952   
2       inamuramasaaki@example.net  06-6819-4382  080-4393-4681  577-6363   
3    nakajima_kazuhiro@example.

In [44]:
print(personal_info["月"].value_counts())

2     23
11    22
12    19
1     19
9     19
7     18
8     18
6     16
3     15
5     13
10     9
4      9
Name: 月, dtype: int64


In [45]:
import pandas as pd
#上限表示数を拡張
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 300)

In [46]:
def has_tokyo_ward(address):

  # 住所のパターンを作成
  pattern = re.compile(r'東京都\w+区')

  # パターンに一致する部分を抽出
  match = pattern.search(address)

  # 一致した場合はTrueを返す
  if match:
    return True
  else:
    return False

In [47]:
personal_info["特別区"] = personal_info["住所"].apply(has_tokyo_ward)

In [48]:
print(personal_info)

          氏名    氏名（ひらがな）  年齢         生年月日      性別 血液型  \
0      野田 大知      のだ だいち  67  1955年12月23日       男   A   
1      金田 英俊    かねだ ひでとし  56  1966年05月20日       男   O   
2      稲村 政昭   いなむら まさあき  62  1960年11月19日       男   A   
3      中島 一弘   なかじま かずひろ  37  1986年02月01日  その他・不明   A   
4      大塚 愛美    おおつか めぐみ  62  1961年02月13日       女   B   
5      太田 紀彦    おおた のりひこ  73  1949年07月04日       男   A   
6      平島 祐樹    ひらしま ゆうき  29  1994年02月21日       男   A   
7       岡村 正    おかむら ただし  46  1976年08月01日       男   O   
8     田中 麻由美     たなか まゆみ  43  1979年06月25日       女   B   
9      磯野 千晶     いその ちあき  29  1993年06月27日       女   O   
10      大隅 圭     おおすみ けい  74  1948年12月27日       男   O   
11     池野 雅士     いけの まさし  64  1959年01月14日       男   B   
12     新谷 優子    しんたに ゆうこ  23  2000年03月02日       女   O   
13      岩崎 卓    いわさき すぐる  24  1998年08月04日       男  AB   
14     浦田 真光    うらた まさみつ  36  1987年01月06日       男   B   
15     関野 厚子     せきの あつこ  26  1996年08月16日       女   A   
16     西山 光浩   にしやま みつひろ  20  2

In [49]:
print(personal_info["特別区"].value_counts())

False    140
True      60
Name: 特別区, dtype: int64


In [50]:
# 確認テスト(1) : 携帯電話番号の下2桁が `11` である人の人数
# 回答にはここで計算した人数を数値で入力してください
5

5

In [51]:
# 確認テスト(2) : 早生まれの人数
# 回答にはここで計算した人数を数値で入力してください
57

57

In [52]:
# 確認テスト(3) : 東京23区に住む人数を答えてください
# 回答にはここで計算した人数を数値で入力してください
60

60