# Python中正则表达式教学文档

## 1. 正则表达式的基本原理和作用  
正则表达式（Regular Expressions，简称regex或regexp）是一种用于字符串搜索和操作的强大工具。它使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。

### 作用  
* 模式匹配：识别符合某个模式的字符串。  
* 数据提取：从一段文本中提取出我们感兴趣的部分。  
* 数据清洗：格式化和清理数据，使其更适合分析。

### 在经济与管理学研究中的应用场景  
* 文本分析：从经济报告、新闻或社交媒体中提取关键词或主题。  
* 数据清洗：处理调查问卷数据，移除不需要的字符或格式化数据。  
* 合规性检查：验证输入数据是否符合特定格式，如电话号码、邮箱地址等。

## 2. 使用正则表达式搜索某个字符  
在Python中，re模块提供了正则表达式的支持。  
### 函数说明
* re.search(pattern, string)：在字符串中搜索模式，如果找到匹配，则返回匹配对象，否则返回None。
* re.findall(pattern, string)：返回字符串中所有匹配模式的子串。

### 示例代码

In [3]:
import re

# 搜索字符串中的数字
pattern = r'\d+'
text = "The price of the product is 99.99 dollars."
match = re.search(pattern, text)
if match:
    print("Found:", match.group())  # 输出找到的第一个数字

# 找出所有数字
numbers = re.findall(pattern, text)
print("All numbers:", numbers)  # 输出所有数字

Found: 99
All numbers: ['99', '99']


## 3. 使用正则表达式替换某个字符
### 函数说明
* re.sub(pattern, repl, string)：将字符串中所有匹配模式的子串替换为repl。

### 示例代码

In [None]:
# 将文本中的所有数字替换为"XXX"
pattern = r'\d+'
text = "The price of the product is 99.99 dollars."
new_text = re.sub(pattern, 'XXX', text)
print("Modified text:", new_text)

## 4. 使用正则表达式分割文本
### 函数说明
* re.split(pattern, string)：根据模式指定的分隔符分割字符串。

### 示例代码

In [None]:
# 使用正则表达式分割电话号码
pattern = r'\W+'
phone = "Contact: 1-800-123-4567"
parts = re.split(pattern, phone)
print("Split phone number:", parts)  # 输出分割后的电话号码部分

## 总结  
正则表达式是Python中处理字符串的强大工具，通过上述示例，我们学习了如何使用正则表达式进行搜索、替换和分割操作。在经济与管理学研究中，正则表达式可以帮助我们处理和分析大量的文本数据，从而更好地理解市场动态、消费者行为等。