## 10.2 字符串函数操作


### 10.2.1 字符串的基本函数操作

#### （1）大小写转换函数

In [2]:
user_name = "Harry POTTER"

# 1. 将姓名转换为全部大写
print(f"全部大写格式：{user_name.upper()}")

# 2. 将姓名转换为全部小写
print(f"全部小写格式：{user_name.lower()}")

# 3. 将姓名每个单词的首字母大写
print(f"标题格式：{user_name.title()}")

全部大写格式：HARRY POTTER
全部小写格式：harry potter
标题格式：Harry Potter


#### （2）空白字符处理函数

In [3]:
text = "  I love the world!  "      # 创建一个新的字符串

print(f"使用 lstrip() 删除左侧空白: '{text.lstrip()}'") 
print(f"使用 rstrip() 删除右侧空白: '{text.rstrip()}'")
print(f"使用 strip() 删除两侧空白: '{text.strip()}'") 
print(f"原字符串仍然保留空白: '{text}'")

使用 lstrip() 删除左侧空白: 'I love the world!  '
使用 rstrip() 删除右侧空白: '  I love the world!'
使用 strip() 删除两侧空白: 'I love the world!'
原字符串仍然保留空白: '  I love the world!  '


In [4]:
text = text.strip()
print(f"去除空白后的字符串 text: '{text}'")

去除空白后的字符串 text: 'I love the world!'


#### （3）查找与替换函数

In [5]:
# 原字符串
text = "Hello, welcome to Python programming. Python is fun!"

# 查找子字符串的位置
position = text.find("Python")
print(f"'Python'第一次出现的位置: {position}")

'Python'第一次出现的位置: 18


In [6]:
# 统计子字符串出现的次数
count = text.count("Python")
print(f"'Python'在字符串中出现的次数: {count}")

'Python'在字符串中出现的次数: 2


In [7]:
# 检查字符串是否以某个前缀开始
is_start = text.startswith("Hello")
print(f"字符串是否以'Hello'开始: {is_start}")

字符串是否以'Hello'开始: True


In [8]:
# 检查字符串是否以某个后缀结束
is_end = text.endswith("fun!")
print(f"字符串是否以'fun!'结束: {is_end}")

字符串是否以'fun!'结束: True


In [9]:
# 替换指定的子字符串
replaced_text = text.replace("Python", "Java")
print(f"替换'Python'为'Java'后的字符串: {replaced_text}")

替换'Python'为'Java'后的字符串: Hello, welcome to Java programming. Java is fun!


#### （4）分割与连接函数

In [10]:
text = "Hello, welcome to Python programming."
# 默认按空格分割
words = text.split()
print(words)  # 输出: ['Hello,', 'welcome', 'to', 'Python', 'programming.']

# 指定分隔符 ","
words = text.split(",")
print(words)  # 输出: ['Hello', ' welcome to Python programming.']

# 限制分割次数
words = text.split(" ", 2)
print(words)  # 输出: ['Hello,', 'welcome', 'to Python programming.']

['Hello,', 'welcome', 'to', 'Python', 'programming.']
['Hello', ' welcome to Python programming.']
['Hello,', 'welcome', 'to Python programming.']


In [11]:
words = ['Hello', 'welcome', 'to', 'Python', 'programming.']
# 使用空格连接列表中的单词
sentence = " ".join(words)
print(sentence)  # 输出: Hello welcome to Python programming.

# 使用逗号连接
csv_format = ",".join(words)
print(csv_format)  # 输出: Hello,welcome,to,Python,programming.

Hello welcome to Python programming.
Hello,welcome,to,Python,programming.


### 10.2.2 字符串的索引和切片

#### （1）字符串的索引

In [15]:
# 定义字符串
text = "Hello, Python!"

# 正向索引访问
print(text[0])   # 输出 'H'，即第一个字符
print(text[7])   # 输出 'P'，即第八个字符
print(text[12])  # 输出 'n'，即第十三个字符

# 负向索引访问
print(text[-1])  # 输出 '!'，即最后一个字符
print(text[-6])  # 输出 'P'，从末尾反向第六个字符
print(text[-13]) # 输出 'H'，与正向索引0的结果一致

H
P
n
!
y
e


In [13]:
# 定义字符串
text = "Hello, Python! Hello, World!"

# 使用 find 和 rfind 查找子字符串
print(text.find("Hello"))   # 输出 0，'Hello' 第一次出现的位置
print(text.rfind("Hello"))  # 输出 15，'Hello' 最后一次出现的位置

# 使用 index 和 rindex 查找子字符串
print(text.index("Python"))   # 输出 7，'Python' 的起始位置
try:
    print(text.index("Java")) # 若未找到，抛出 ValueError 异常
except ValueError:
    print("未找到 'Java'")

0
15
7
未找到 'Java'


#### （2）字符串的切片

In [16]:
# 示例字符串
text = "Hello, Python!"

# 1. 提取子字符串
# 从第1个字符开始，到第5个字符结束（不包含第5个字符）
print(text[0:5])  # 输出: 'Hello'

# 2. 使用省略的开始或结束位置
# 从起始位置到第5个字符结束
print(text[:5])   # 输出: 'Hello'
# 从第7个字符开始到字符串末尾
print(text[7:])   # 输出: 'Python!'

# 3. 使用负索引
# 从倒数第7个字符开始，到倒数第1个字符结束（不包含最后一个字符）
print(text[-7:-1])  # 输出: 'Python'

# 4. 步长切片
# 每隔一个字符提取一次
print(text[::2])   # 输出: 'Hlo yhn'
# 反向提取整个字符串
print(text[::-1])  # 输出: '!nohtyP ,olleH'

# 5. 省略开始、结束和步长
# 默认提取整个字符串
print(text[:])    # 输出: 'Hello, Python!'

# 6. 尝试切片的结束索引超出字符串长度
# Python自动处理至字符串结尾，程序不会报错
print(text[7:50])  # 输出: 'Python!'

Hello
Hello
Python!
Python
Hlo yhn
!nohtyP ,olleH
Hello, Python!
Python!


## 10.4 Pyhton 的正则表达式模块

### 10.4.1 正则表达式模块用法

In [17]:
import re
print(re.match('one', 'one two three'))
print(re.match('three', 'one two three'))

<re.Match object; span=(0, 3), match='one'>
None


In [18]:
import re
match=re.match('one', 'one two three')
print(match.group())

one


In [19]:
pattern = r"\d+"
search = re.search(pattern, "abc123xyz")
if search:
    print(search.group())

123


In [20]:
s = "Cats are smarter than dogs";
match = re.match('dogs',s)
if match:
    print ("re.match:",match.group())
else:
    print ("re.match: None")

search = re.search('dogs',s)
if search:
    print ("re.seartch:",search.group())
else:
    print ("re.seartch: None")

re.match: None
re.seartch: dogs


In [21]:
pattern = r"\d+"  # 匹配所有的数字
string = "abc123xyz456"
result = re.findall(pattern, string)
print(result)  # 输出：['123', '456']

['123', '456']


In [22]:
it = re.finditer(r'\d+','abc123xyz456') 
for match in it: 
    print(match.group())

123
456


In [24]:
import re
# 使用 compile 创建正则表达式对象
pattern = re.compile(r'\d+')

# 待处理字符串
text = "The year 2023 is followed by 2024, and 123abc is another example."

# 1. 使用 match() 方法：尝试从字符串开头进行匹配
match_result = pattern.match(text)
if match_result:
    print(f"Match: {match_result.group()}")
else:
    print("Match: No match at the start of the string.")

# 2. 使用 search() 方法：在整个字符串中查找第一个匹配
search_result = pattern.search(text)
if search_result:
    print(f"Search: Found {search_result.group()} at position {search_result.span()}")

# 3. 使用 findall() 方法：找到字符串中所有符合模式的部分
findall_result = pattern.findall(text)
print(f"Findall: All matches found - {findall_result}")

# 4. 使用 finditer() 方法：返回匹配的迭代器对象
finditer_result = pattern.finditer(text)
print("Finditer:")

for match in finditer_result:
    print(f"  Found '{match.group()}' at position {match.span()}")

Match: No match at the start of the string.
Search: Found 2023 at position (9, 13)
Findall: All matches found - ['2023', '2024', '123']
Finditer:
  Found '2023' at position (9, 13)
  Found '2024' at position (29, 33)
  Found '123' at position (39, 42)


In [25]:
result = re.sub(r'\d+', 'X', 'Order 123 shipped on 2024-10-15.')
print(result)

Order X shipped on X-X-X.


In [26]:
result = re.sub(r'\d+', 'X', 'Order 123 shipped on 2024-10-15.', count=2)
print(result)

Order X shipped on X-10-15.


In [27]:
def repl_func(match):
    return str(int(match.group()) * 2)

result = re.sub(r'\d+', repl_func, 'Price: 10, Quantity: 3.')
print(result)

Price: 20, Quantity: 6.


In [28]:
s = 'one1two2three3four4'

print(re.split('\d+', s))     # 按照数字切分
print(re.split('a', s, 1))    # a 匹配不到, 返回包含自身的列表
print(re.split('\d+', s, 1))  # maxsplit 参数

['one', 'two', 'three', 'four', '']
['one1two2three3four4']
['one', 'two2three3four4']


In [29]:
# 按标点符号分割
result = re.split(r'[,.!?]', 'Hello, world! How are you?')
print(result)  

# 使用分组，分割后的结果会保留分隔符
result = re.split(r'([,.!?])', 'Hello, world! How are you?')
print(result)  

['Hello', ' world', ' How are you', '']
['Hello', ',', ' world', '!', ' How are you', '?', '']


In [30]:
pattern = r"(\w+)@(\w+)\.(\w+)"
string = "contact: example@domain.com"

match = re.search(pattern, string)

print(match.group())      # 输出：example@domain.com（整个匹配）
print(match.group(1))     # 输出：example（第 1 个捕获组）
print(match.group(2))     # 输出：domain（第 2 个捕获组）
print(match.group(3))     # 输出：com（第 3 个捕获组）

example@domain.com
example
domain
com


In [31]:
print(match.span())      # 输出：(9, 25)（整个匹配的起止位置）
print(match.span(1))     # 输出：(9, 16)（第 1 个捕获组的起止位置）
print(match.span(2))     # 输出：(17, 23)（第 2 个捕获组的起止位置）
print(match.span(3))     # 输出：(24, 27)（第 3 个捕获组的起止位置）

(9, 27)
(9, 16)
(17, 23)
(24, 27)


### 10.4.2 正则表达式的修饰符

In [32]:
s = """ Python is a great 
        object-oriented,
        interpreted, 
        And interactive 
        programming language.
        """
re1= re.findall(r'(great)(.*?)(inter)',s,re.S)
print("re.S使.匹配包括换行在内的所有字符",re1)
re2 = re.findall(r'(and.*)',s,re.I)
print("re.I不区分大小写:",re2)
re3 = re.findall(r'(inter.*)',s,re.M)
print("re.M多行匹配",re3)

re.S使.匹配包括换行在内的所有字符 [('great', ' \n        object-oriented,\n        ', 'inter')]
re.I不区分大小写: ['And interactive ']
re.M多行匹配 ['interpreted, ', 'interactive ']


In [33]:
import re
pattern = re.compile(r"""
# 匹配数字或字母
/d+
# 数字
| 
[a-zA-Z]+
# 字母
""", re.X)
result = pattern.match('abc')
print(result.group())

abc


## 10.5 正则表达式的应用案例

#### （1）用户名匹配

In [34]:
#用户名匹配
import re
pattern='^[A-Za-z0-9_]{3,15}$'
username=input('请输入用户名（quit退出）：')

while(username != 'quit'):
    result=re.match(pattern,username)
    if result:
        print('用户名：',username,'匹配!')
    else:
        print('用户名：',username,'不匹配!')
    username=input('请输入用户名（quit退出）：')
print('程序完成！')

请输入用户名（quit退出）：user_123
用户名： user_123 匹配!
请输入用户名（quit退出）：u1
用户名： u1 不匹配!
请输入用户名（quit退出）：user@name
用户名： user@name 不匹配!
请输入用户名（quit退出）：quit
程序完成！


#### （2）密码匹配

In [35]:
#用户密码匹配
import re
pattern='^(?=.*[A-Z])(?=.*[a-z])(?=.*\d)[A-Za-z\d]{8,20}$'
password=input('请输入密码（quit退出）：')

while(password != 'quit'):
    result=re.match(pattern,password)
    if result:
        print('密码：',password,'匹配!')
    else:
        print('密码：',password,'不匹配!')
    password=input('密码（quit退出）：')
print('程序完成！')

请输入密码（quit退出）：Password123
密码： Password123 匹配!
密码（quit退出）：short1
密码： short1 不匹配!
密码（quit退出）：alllowercase123
密码： alllowercase123 不匹配!
密码（quit退出）：LLUPPERCASE123
密码： LLUPPERCASE123 不匹配!
密码（quit退出）：quit
程序完成！


#### （3）URL匹配

In [36]:
#url匹配
import re
url_pattern = r'^(http://|https://)?(www\.)[a-zA-Z0-9-]+\.[a-zA-Z]{2,6}$'

# 测试URL
test_urls = [
    'http://www.example.com',
    'https://www.example.net',
    'www.example.org',
    'example.com', 
    'http://example', 
]

# 检验URL
for url in test_urls:
    if re.match(url_pattern, url):
        print(f'{url}\t is a valid URL.')
    else:
        print(f'{url}\t is not a valid URL.')

http://www.example.com	 is a valid URL.
https://www.example.net	 is a valid URL.
www.example.org	 is a valid URL.
example.com	 is not a valid URL.
http://example	 is not a valid URL.


#### （4）电子邮箱匹配

In [37]:
#电子邮箱匹配
import re
email_pattern = r'^[a-zA-Z0-9_-]+@[a-zA-Z0-9-]+\.[a-zA-Z]{2,6}$'

# 测试邮箱
test_emails = [
    'example@example.com',
    'user.name123@subdomain.example.co',
    'invalid@domain',  # 不符合正则表达式
    'user@.com',  # 不符合正则表达式
    'user@domain.c',  # 不符合正则表达式
]

# 检验邮箱
for email in test_emails:
    if re.match(email_pattern, email):
        print(f'"{email}" is a valid email address.')
    else:
        print(f'"{email}" is not a valid email address.')

"example@example.com" is a valid email address.
"user.name123@subdomain.example.co" is not a valid email address.
"invalid@domain" is not a valid email address.
"user@.com" is not a valid email address.
"user@domain.c" is not a valid email address.


## 10.6 上机实践

1. 编写一个函数，接收一个字符串作为输入，完成以下操作：
   - 统计字符串中每个字符的出现次数。
   - 将所有字母 "a"替换成字母 "o"。
   - 输出修改后的字符串和字符统计信息，以字典的形式输出。

In [38]:
import collections

def process_string(input_str):
    # 统计字符串中每个字符的出现次数
    char_count = collections.Counter(input_str)
    # 将所有字母 'a' 替换为字母 'o'
    modified_str = input_str.replace('a', 'o')   
    # 输出修改后的字符串和字符统计信息
    return modified_str, dict(char_count)

# 示例使用
input_str = "banana apple"
modified_str, char_count = process_string(input_str)
 
print("修改后的字符串:", modified_str)
print("字符统计信息:", char_count)

修改后的字符串: bonono opple
字符统计信息: {'b': 1, 'a': 4, 'n': 2, ' ': 1, 'p': 2, 'l': 1, 'e': 1}


2. 使用字符串的索引和切片操作完成任务：给定一个字符串 text，编写一个函数，从字符串中提取出前三个字符，最后三个字符，以及中间的部分（排除首尾三个字符），并返回一个新的字符串，新的字符串按顺序连接前三个字符、中间字符和最后三个字符。如果字符串的长度小于6，返回原始字符串。

In [39]:
def extract_parts(text):
    # 判断字符串长度是否小于6
    if len(text) < 6:
        return text
        
    # 提取前三个字符
    first_three = text[:3]
    # 提取最后三个字符
    last_three = text[-3:]
    # 提取中间部分（排除首尾三个字符）
    middle_part = text[3:-3]

    # 返回按顺序连接的结果
    return first_three + middle_part + last_three

# 示例使用
text = "abcdefg"
result = extract_parts(text)
print("结果:", result)

结果: abcdefg


3. 使用正则表达式，可以将句子中的拼写错误的小写 "i"替换为大写 "I"。例如，对于句子：“i am a college student, I am not a businessman.”，可以通过匹配独立的小写字母 "i"并进行替换，从而确保只有单独出现的小写字母 "i"被替换为大写字母 "I"。

In [41]:
import re

text= "i am a college student, i love whu. "
pattern = re.compile(r'(?:[^\w]|\b)i(?:[^\w])')

while True:
    result = pattern.search(text)
    if result:
        if result.start(0) != 0:
            text= text[:result.start(0)+1]+'I'+ text[result.end(0)-1:]
        else:
            text= text [:result.start(0)]+'I'+ text[result.end(0)-1:]
    else:
        break

print(text)

I am a college student, I love whu. 


4. 编写一个函数，接收一个字符串，判断该字符串是否符合国内的手机号码格式。手机号码格式为：以 1 开头，第二位是 3,4,5,6,7,8,9 之一，后面跟着 9 位数字。

In [42]:
import re

def is_valid_phone_number(phone_number):
    # 定义手机号码正则表达式
    pattern = r"^1[3-9]\d{9}$"
    # 使用re.match()判断是否符合格式
    if re.match(pattern, phone_number):
        return True
    else:
        return False

# 示例使用
phone_number = "13812345678"
result = is_valid_phone_number(phone_number)
print("手机号是否有效:", result)

手机号是否有效: True


5. 编写一个函数，给定一段文本，提取文本中所有符合 `YYYY-MM-DD` 格式的日期（例如：2024-11-17）。参考代码如下：

In [43]:
import re

def extract_dates(text):
    # 定义日期的正则表达式：4位数字-2位数字-2位数字
    pattern = r"\d{4}-\d{2}-\d{2}"
    
    # 使用re.findall()找到所有符合日期格式的字符串
    dates = re.findall(pattern, text)
    
    return dates

# 示例使用
text = "今天是2024-11-17，明天是2024-11-18。"
result = extract_dates(text)
print("提取到的日期:", result)

提取到的日期: ['2024-11-17', '2024-11-18']


## 上机作业

一、字符串的函数应用

>Emma Woodhouse, handsome, clever, and rich, with a comfortable home and happy disposition, seemed to unite some of the best blessings of existence; and had lived nearly twenty-one years in the world with very little to distress or vex her.

针对上述语料，请完成以下操作:

(1) 统计上述文本中共有多少个单词。

(2) 输出上述文本中所有长度为4个字母的单词。

(3) 将上一步输出的单词分别以首字母大写、全大写、全小写的方式输出。

二、正则表达式的应用

(1) 编写正则表达式，匹配所有的有效的Python标识符集合。

(2) 编写正则表达式，查找下面文本中所有处于单词开头位置的字母。

 >`Python is a great object-oriented, interpreted, and interactive programming language.`

(3) 编写正则表达式，查找下面文本中所有处于单词开头位置的数字。
 
 >`Pyth8on 7is a 3great 2object-oriented, inter4preted, 1an3d interactive programming 5language.`

(4) 编写程序，检测下列电子邮箱地址是否规范。符合规范的输出该邮箱地址，并提示其符合规范；对于不符合规范的邮箱地址，提示其不合规范，并提供`whu123@163.com`作为参考规范。
   
   >`email1: abc123@163com;    email2: abc321@123.com;    email3: bdssq@com;`
    
   >`email4: 2233198@acn.cn;   email5: bdad@dsa@qq.com    email6: wss321@222.c.c`

三、Jieba分词的应用

>武汉大学学科门类齐全、综合性强、特色明显，涵盖了哲、经、法、教育、文、史、理、工、农、医、管理、艺术等12个学科门类。学校设有人文科学、社会科学、理学、工学、信息科学和医学六大学部34个学院（系）以及3所三级甲等附属医院。有123个本科专业。17个学科进入ESI全球排名前1%，5个一级学科、17个二级学科被认定为国家重点学科，6个学科为国家重点（培育）学科，有10个一流建设学科。57个一级学科具有硕士学位授予权。46个一级学科具有博士学位授予权。有42个博士后流动站。

针对上述语料（也可以自行导入语料），请完成以下操作。

(1) 利用Jieba分词对上述文本进行分词

(2) 利用Jieba分词对上述文本进行关键词提取

(3) 利用Jieba分词对上述文本进行词标注