### 匹配字符串中的某个模式：

In [3]:
import re


pattern = r"apple"
text = "I have an apple and an orange."
match = re.search(pattern, text)
if match:
    print("Found:", match.group())  # 输出: Found: apple
else:
    print("Not found")


Found: apple


### 查找所有匹配的模式：

In [4]:
import re


pattern = r"an"
text = "I have an apple and an orange."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['an', 'an']




['an', 'an', 'an', 'an']


### 替换字符串中的模式：

In [5]:
import re


pattern = r"apple"
text = "I have an apple and an orange."
replacement = "banana"
new_text = re.sub(pattern, replacement, text)
print(new_text)  # 输出: "I have an banana and an orange."


I have an banana and an orange.


### 切割字符串：

In [8]:
import re

text = "apple,banana,orange"
pattern = r","
split_result = re.split(pattern, text)
print(split_result)  # 输出: ['apple', 'banana', 'orange']


['apple', 'banana', 'orange']


### 匹配多个字符中的一个：

In [7]:
import re


pattern = r"[aeiou]"
text = "Hello, World!"
matches = re.findall(pattern, text, re.IGNORECASE)  # 忽略大小写
print(matches)  # 输出: ['e', 'o', 'o', 'o']


['e', 'o', 'o']


### 自定义匹配重复次数：

In [6]:
import re

pattern = r"a{2,4}"
text = "aa ab aaa aaaa aaaaa"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['aa', 'aaa', 'aaaa']


['aa', 'aaa', 'aaaa', 'aaaa']


### .：匹配任何字符，除了换行符。

In [9]:
import re

pattern = r"gr.y"
text1 = "gray"
text2 = "grey"
text3 = "groy"
match1 = re.search(pattern, text1)
match2 = re.search(pattern, text2)
match3 = re.search(pattern, text3)
print(match1.group())  # 输出: gray
print(match2.group())  # 输出: grey
print(match3.group())  # 输出: groy


gray
grey
groy


### []：匹配中括号内的任何一个字符

In [10]:
import re

pattern = r"[aeiou]"
text = "Hello, World!"
matches = re.findall(pattern, text, re.IGNORECASE)
print(matches)


['e', 'o', 'o']


### [^]：匹配不在中括号内的任何一个字符

In [11]:
import re

pattern = r"[^0-9]"
text = "Hello, 123!"
matches = re.findall(pattern, text)
print(matches)


['H', 'e', 'l', 'l', 'o', ',', ' ', '!']


### \d：匹配数字字符

In [12]:
import re

pattern = r"\d"
text = "I have 2 apples and 3 oranges."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['2', '3']


['2', '3']


### \D：匹配非数字字符。

In [13]:
import re

pattern = r"\D"
text = "I have 2 apples and 3 oranges."
matches = re.findall(pattern, text)
print(matches)


['I', ' ', 'h', 'a', 'v', 'e', ' ', ' ', 'a', 'p', 'p', 'l', 'e', 's', ' ', 'a', 'n', 'd', ' ', ' ', 'o', 'r', 'a', 'n', 'g', 'e', 's', '.']


### \w：匹配字母、数字或下划线字符

In [14]:
import re

pattern = r"\w"
text = "Hello, World!"
matches = re.findall(pattern, text)
print(matches)


['H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd']


### \s：匹配空白字符（空格、制表符、换行符等）

In [15]:
import re

pattern = r"\s"
text = "Hello\tWorld\nPython"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['\t', '\n']


['\t', '\n']


### 匹配电子邮件地址：

In [None]:
import re

pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}"
text = "My email is john.doe@example.com. Please contact me."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['john.doe@example.com']


当你使用正则表达式 r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}" 时，它的目的是匹配电子邮件地址的模式。让我们逐步解释这个正则表达式的各个部分：

    [a-zA-Z0-9._%+-]+: 这部分匹配电子邮件地址的用户名部分。具体解释如下：
        [a-zA-Z0-9]: 表示可以是任何字母（不区分大小写）或数字。
        ._%+-: 表示可以包含特殊字符（点、下划线、百分号、加号和减号）。
        +: 表示前面的字符集可以出现一次或多次，确保用户名部分不为空。

    @: 这是电子邮件地址中的必需字符，用于分隔用户名和域名部分。

    [a-zA-Z0-9.-]+: 这部分匹配电子邮件地址的域名部分。具体解释如下：
        [a-zA-Z0-9]: 表示可以是任何字母（不区分大小写）或数字。
        .-: 表示可以包含点（.）或短划线（-）字符。
        +: 表示前面的字符集可以出现一次或多次，确保域名部分不为空。

    \.: 这是用来匹配电子邮件地址中的点（.）字符的转义符。正则表达式中的.默认匹配任何字符，所以要匹配实际的点字符，我们需要使用 \.。

    [a-zA-Z]{2,4}: 这部分匹配电子邮件地址的顶级域名（TLD），如.com或.edu等。具体解释如下：
        [a-zA-Z]: 表示只能是字母（不区分大小写）。
        {2,4}: 表示前面的字符集可以出现2到4次，这是为了匹配不同长度的TLD。

所以，这个正则表达式的总体目标是匹配具有正确格式的电子邮件地址。请注意，这个正则表达式可能无法捕获所有可能的电子邮件地址，因为电子邮件地址的格式有很多变种，但它可以匹配大多数常见的电子邮件地址格式

### 匹配美国电话号码：

In [16]:
import re

pattern = r"\d{3}-\d{3}-\d{4}"
text = "My phone number is 555-123-4567. Call me anytime."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['555-123-4567']


['555-123-4567']


### 匹配URL：

In [17]:
import re

pattern = r"https?://[a-zA-Z0-9.-]+/[a-zA-Z0-9./-]+"
text = "Visit my website at https://www.example.com/page1."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['https://www.example.com/page1']


['https://www.example.com/page1.']


### 匹配日期：

In [None]:
import re

pattern = r"\d{4}-\d{2}-\d{2}"
text = "The meeting is scheduled for 2023-09-15."
matches = re.findall(pattern, text)
print(matches)  # 输出: ['2023-09-15']


### 匹配HTML标签内容：

In [None]:
import re

pattern = r"<.*?>"
text = "<p>This is a <b>sample</b> HTML <i>text</i>.</p>"
matches = re.findall(pattern, text)
print(matches)  # 输出: ['<p>', '</b>', '<i>', '</i>', '</p>']
