In [None]:
# Regular Expressions：正規表現
# Regular Expressions (sometimes shortened to regexp, regex, or re) are a tool for matching patterns in text. 
# In Python, we have the re module. The applications for regular expressions are wide-spread, but they are fairly complex, 
# so when contemplating using a regex for a certain task, think about alternatives, and come to regexes as a last resort.

# 正規表現(regexp. regex または re と省略されます)はテキストの中のパターンをマッチさせるツールです。
# Pythonでは、 reモジュールを使います。正規表現の方法は多岐に渡りますが、とても複雑なので特定のタスクに正規表現を使いたいと思った時は代替案を考え、
# 最後の手段として正規表現に頼るようにしましょう。

In [None]:
# An example regex is r"^(From|To|Cc).*?python-list@python.org" 
# Now for an explanation: the caret ^ matches text at the beginning of a line. The following group, 
# the part with (From|To|Cc) means that the line has to start with one of the words that are separated by the pipe |. 
# That is called the OR operator, and the regex will match if the line starts with any of the words in the group.
# The .*? means to un-greedily match any number of characters, except the newline \n character. 
# The un-greedy part means to match as few repetitions as possible. The . character means any non-newline character, 
# the * means to repeat 0 or more times, and the ? character makes it un-greedy.

# So, the following lines would be matched by that regex: From: python-list@python.org To: !asp]<,. python-list@python.org

# 正規表現の例として、r"^(From|To|Cc).*?python-list@python.org" があります。
# 説明すると：キャレット ^ が1番最初のテキストにマッチします。
# 次のグループ (From|To|Cc) の部分は、行がこれらの単語のいずれかで始まる必要があることを意味します。
# これはOR演算子と呼ばれ、グループ内の単語のいずれかで行が始まる場合に正規表現がマッチします。
# .*? は、改行文字 \n を除く任意の文字を最小限にマッチさせることを意味します。最小限というのは、できるだけ少ない繰り返しにマッチさせるということです。
# . は任意の非改行文字を意味し、* は0回以上の繰り返しを意味し、? は最小限にすることを意味します。

# したがって、次の行はその正規表現にマッチします。
From: python-list@python.org
To: !asp]<,. python-list@python.org

In [None]:
# A complete reference for the re syntax is available at the python docs.
# reシンタックスの完全なリファレンスは、Pythonのドキュメントで利用可能です。

https://docs.python.org/3/library/re.html#regular-expression-syntax"RE%20syntax

# As an example of a "proper" email-matching regex (like the one in the exercise), see this
# （演習で使用されているような）"適切な"メールアドレスにマッチする正規表現の例については、こちらをご覧ください。

https://pdw.ex-parrot.com/Mail-RFC822-Address.html

In [None]:
# Example: 　正規表現を使って文字列からパターンを検索する
import re #re モジュールをインポートしている
pattern = re.compile(r"\[(on|off)\]")  # 文字列内の [on] または [off] を探す
print(re.search(pattern, "Mono: Playback 65 [75%] [-16.50dB] [on]")) #re.search() 関数を使ってpatternを検索
# 最初の文字列には [on] が含まれているので、re.search() はマッチオブジェクトを返します。
print(re.search(pattern, "Nada...:-("))
# この文字列にはパターンにマッチする部分がないので、re.search() は何も返しません。
# End Example

In [None]:
# Exercise: make a regular expression that will match an email
def test_email(your_pattern):
    pattern = re.compile(your_pattern)
    emails = ["john@example.com", "python-list@python.org", "wha.t.`1an?ug{}ly@email.com"]
    for email in emails:
        if not re.match(pattern, email):
            print("You failed to match %s" % (email))
        elif not your_pattern:
            print("Forgot to enter a pattern!")
        else:
            print("Pass")
pattern = r"" # Your pattern here!
test_email(pattern)

In [None]:
# 問題：emailにマッチする正規表現を作りましょう
# import re をして正規表現を使えるようにして、
# re.compileで探したい文字列を定義するところまでは理解できたと思うのですが、

pattern = r"" # Your pattern here!　ここからどうしたらいいのかわからないので答えを見ます

In [None]:
pattern = r"\"?([-a-zA-Z0-9.`?{}]+@\w+\.\w+)\"?"

#こういうのもいけました

pattern = r"\"?([[A-Za-z0-9]+@[A-Za-z0-9]+\.[A-Z|a-z]"

In [2]:
#Odaさんコメント
# 正規表現というのは、かなり数学的な背景があります。
# 文字列から毎日一文字ずつが、川を流れてくるとします。
# そして、あなたの部隊はその側の見張り小屋から監視し、文字列が全部流れきったときに、
# 流れた文字列が「なんらかの条件」を満たしているかを判定するというミッションが与えられました。

# もちろん、流れてくる文字をすべて写してもいいという条件だったら、どういう条件でもできそうですが、
# ここで、「見張り小屋の引き継ぎ資料のサイズをあらかじめ決めないといけない」という制約をつけます。
# だから長さの分からない文字列を書き写せません。このときにできることが正規表現で表現できるものになります。

# たとえば、流れてきた a の数と b の数が同じか、という問題は解けません。
# なぜならば、a の数を数えようと思うと、10進法で書くとしても引き継ぎ資料に何桁用意したらいいか分からないからです。

# でも、メールアドレスっぽいかを確認するなどはできます。
# まあ、そういう理論的な背景はともかく、結構色々な問題を解くのに便利なので、多くの言語に標準機能として入っています。