In [1]:
import re

def extract_words_with_bao(text):
    """
    提取包含"包"字的前两个字组合
    
    参数:
    text: 输入文本字符串
    
    返回:
    匹配到的词组列表
    """
    # 正则表达式：(.{2})包
    # (.{2}) 匹配任意两个字符
    # 包 匹配"包"字
    pattern = r'(.{2})包'
    
    # findall会返回所有匹配的分组
    matches = re.findall(pattern, text)
    
    # 将匹配结果与"包"字组合
    results = [match + '包' for match in matches]
    
    return results

# 测试示例
test_cases = [
    "0元爱看加油包1GB",
    "这个流量包很便宜",
    "有多个流量包和语音包",
    "这里没有包字",
    "一个包子"  # 这种情况不会匹配，因为"包"前没有两个字
]

for text in test_cases:
    result = extract_words_with_bao(text)
    print(f"文本：{text}")
    print(f"提取结果：{result}")
    print()

文本：0元爱看加油包1GB
提取结果：['加油包']

文本：这个流量包很便宜
提取结果：['流量包']

文本：有多个流量包和语音包
提取结果：['流量包', '语音包']

文本：这里没有包字
提取结果：['没有包']

文本：一个包子
提取结果：['一个包']



In [2]:
import re

def extract_storage_pattern(text):
    """
    提取数字+数字GB格式的字符串
    
    参数:
    text: 输入文本字符串
    
    返回:
    匹配到的存储规格字符串列表
    """
    # 正则表达式：(\d+\+\d+GB)
    # \d+ 匹配一个或多个数字
    # \+ 匹配加号
    # GB 匹配GB字符
    pattern = r'(\d+\+\d+GB)'
    
    # findall会返回所有匹配的结果
    matches = re.findall(pattern, text)
    
    return matches

# 测试示例
test_cases = [
    "荣耀100 16+256GB 5G 直播专属",
    "iPhone 14 8+128GB 黑色",
    "手机 12+512GB",
    "这里没有存储信息",
    "8+256GB和12+512GB两种配置"
    “OPPOA2m 8+256G”
]

for text in test_cases:
    result = extract_storage_pattern(text)
    print(f"文本：{text}")
    print(f"提取结果：{result}")
    print()

文本：荣耀100 16+256GB 5G 直播专属
提取结果：['16+256GB']

文本：iPhone 14 8+128GB 黑色
提取结果：['8+128GB']

文本：手机 12+512GB
提取结果：['12+512GB']

文本：这里没有存储信息
提取结果：[]

文本：8+256GB和12+512GB两种配置
提取结果：['8+256GB', '12+512GB']



In [3]:
import re

def extract_package_price(text):
    """
    提取数字+元套餐格式的字符串
    
    参数:
    text: 输入文本字符串
    
    返回:
    匹配到的套餐价格字符串列表
    """
    # 正则表达式：(\d+元套餐)
    # \d+ 匹配一个或多个数字
    # 元套餐 匹配"元套餐"字符
    pattern = r'(\d+元套餐)'
    
    # findall会返回所有匹配的结果
    matches = re.findall(pattern, text)
    
    return matches

# 测试示例
test_cases = [
    "承诺消费69元可享99元套餐",
    "办理129元套餐送话费",
    "可选择39元套餐或59元套餐",
    "这里没有套餐信息",
    "套餐价格100元"  # 这种格式不会匹配
]

for text in test_cases:
    result = extract_package_price(text)
    print(f"文本：{text}")
    print(f"提取结果：{result}")
    print()

文本：承诺消费69元可享99元套餐
提取结果：['99元套餐']

文本：办理129元套餐送话费
提取结果：['129元套餐']

文本：可选择39元套餐或59元套餐
提取结果：['39元套餐', '59元套餐']

文本：这里没有套餐信息
提取结果：[]

文本：套餐价格100元
提取结果：[]



In [4]:
import re

def extract_discount_pattern(text):
    """
    提取'优惠'前面两个字（数字当作一个字）与'优惠'组合的字符串
    
    参数:
    text: 输入文本字符串
    
    返回:
    匹配到的优惠相关字符串列表
    """
    # 正则表达式：((?:\d+|.){2})优惠
    # (?:\d+|.) 匹配一个完整数字或一个字符
    # {2} 匹配两次
    # 优惠 匹配"优惠"字符
    pattern = r'((?:\d+|.){2})优惠'
    
    # findall会返回所有匹配的结果
    matches = re.findall(pattern, text)
    
    # 将匹配结果与"优惠"字组合
    results = [match + '优惠' for match in matches]
    
    return results

# 测试示例
test_cases = [
    "套餐折扣可享69元优惠",
    "满100减20优惠",
    "双重优惠活动",
    "这是299元优惠券",
    "优惠活动进行中",  # 这种情况不会匹配，因为"优惠"前没有字符
    "限时特惠优惠"
]

for text in test_cases:
    result = extract_discount_pattern(text)
    print(f"文本：{text}")
    print(f"提取结果：{result}")
    print()

文本：套餐折扣可享69元优惠
提取结果：['69元优惠']

文本：满100减20优惠
提取结果：['减20优惠']

文本：双重优惠活动
提取结果：['双重优惠']

文本：这是299元优惠券
提取结果：['299元优惠']

文本：优惠活动进行中
提取结果：[]

文本：限时特惠优惠
提取结果：['特惠优惠']



In [5]:
import re

def extract_ram_pattern(text):
    """
    提取数字GB+数字GB格式的字符串
    
    参数:
    text: 输入文本字符串
    
    返回:
    匹配到的内存规格字符串列表
    """
    # 正则表达式：(\d+GB\+\d+GB)
    # \d+ 匹配一个或多个数字
    # GB 匹配GB字符
    # \+ 匹配加号
    pattern = r'(\d+GB\+\d+GB)'
    
    # findall会返回所有匹配的结果
    matches = re.findall(pattern, text)
    
    return matches

# 测试示例
test_cases = [
    "荣耀8GB+12GB",
    "手机内存8GB+12GB 性能强劲",
    "可选6GB+8GB或8GB+12GB",
    "这里没有内存信息",
    "内存大小8GB"  # 这种格式不会匹配
]

for text in test_cases:
    result = extract_ram_pattern(text)
    print(f"文本：{text}")
    print(f"提取结果：{result}")
    print()

文本：荣耀8GB+12GB
提取结果：['8GB+12GB']

文本：手机内存8GB+12GB 性能强劲
提取结果：['8GB+12GB']

文本：可选6GB+8GB或8GB+12GB
提取结果：['6GB+8GB', '8GB+12GB']

文本：这里没有内存信息
提取结果：[]

文本：内存大小8GB
提取结果：[]



In [8]:
import re

def extract_memory_storage(text):
    """
    提取手机内存和存储配置，支持多种格式：
    - 数字GB+数字GB  (8GB+256GB)
    - 数字G+数字GB   (8G+256GB)
    - 数字+数字GB    (8+256GB)
    - 数字+数字G     (8+256G)
    - 数字G+数字G    (8G+256G)
    - 数字GB+数字TB  (8GB+1TB - 数字G+数字TB   (8G+1TB)
    - 数字+数字T     (8+1T)
    
    参数:
    text: 输入文本字符串
    
    返回:
    列表，每个元素是一个字典，包含内存和存储信息
    """
    # 构建正则表达式
    pattern = r'(\d+)(?:GB|G)?\+(\d+)(?:GB|G|TB|T)'
    
    # 查找所有匹配
    matches = re.findall(pattern, text)
    print("**************")
    print(matches)
    print("**************")
    results = []
    for ram, storage in matches:
        # 转换为整数
        ram_size = int(ram)
        storage_size = int(storage)
        
        # 创建结果字典
        config = {
            'ram': ram_size,
            'ram_unit': 'GB',  # 统一使用GB作为内存单位
            'storage': storage_size,
            'storage_unit': 'GB',  # 默认使用GB
            'original_text': f"{ram}+{storage}"  # 保存原始文本
        }
        
        # 如果存储容量是TB级别（这里假设大于等于1000GB就是TB）
        if storage_size < 100:  # 如果是1T、2T这样的格式
            config['storage'] = storage_size
            config['storage_unit'] = 'TB'
        
        results.append(config)
    
    return results

# 测试示例
test_cases = [
    "荣耀手机8GB+256GB黑色",
    "可选8G+128GB或12GB+512GB",
    "内存配置：6+128G",
    "可选版本16G+1TB",
    "8+256G基础版",
    "12GB+2T尊享版",
    "8G+1T豪华版",
    "多种配置：8GB+256GB，12G+512G，16GB+1TB"
]

for text in test_cases:
    result = extract_memory_storage(text)
    print(f"\n文本：{text}")
    print(f"提取结果：")
    for config in result:
        print(f"内存: {config['ram']}{config['ram_unit']}, "
              f"存储: {config['storage']}{config['storage_unit']}, "
              f"原始格式: {config['original_text']}")

**************
[('8', '256')]
**************

文本：荣耀手机8GB+256GB黑色
提取结果：
内存: 8GB, 存储: 256GB, 原始格式: 8+256
**************
[('8', '128'), ('12', '512')]
**************

文本：可选8G+128GB或12GB+512GB
提取结果：
内存: 8GB, 存储: 128GB, 原始格式: 8+128
内存: 12GB, 存储: 512GB, 原始格式: 12+512
**************
[('6', '128')]
**************

文本：内存配置：6+128G
提取结果：
内存: 6GB, 存储: 128GB, 原始格式: 6+128
**************
[('16', '1')]
**************

文本：可选版本16G+1TB
提取结果：
内存: 16GB, 存储: 1TB, 原始格式: 16+1
**************
[('8', '256')]
**************

文本：8+256G基础版
提取结果：
内存: 8GB, 存储: 256GB, 原始格式: 8+256
**************
[('12', '2')]
**************

文本：12GB+2T尊享版
提取结果：
内存: 12GB, 存储: 2TB, 原始格式: 12+2
**************
[('8', '1')]
**************

文本：8G+1T豪华版
提取结果：
内存: 8GB, 存储: 1TB, 原始格式: 8+1
**************
[('8', '256'), ('12', '512'), ('16', '1')]
**************

文本：多种配置：8GB+256GB，12G+512G，16GB+1TB
提取结果：
内存: 8GB, 存储: 256GB, 原始格式: 8+256
内存: 12GB, 存储: 512GB, 原始格式: 12+512
内存: 16GB, 存储: 1TB, 原始格式: 16+1
