<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#正则表达式" data-toc-modified-id="正则表达式-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>正则表达式</a></span><ul class="toc-item"><li><span><a href="#统计一个字符串中汉字的个数" data-toc-modified-id="统计一个字符串中汉字的个数-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>统计一个字符串中汉字的个数</a></span></li></ul></li><li><span><a href="#计算威尔逊打分" data-toc-modified-id="计算威尔逊打分-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>计算威尔逊打分</a></span></li><li><span><a href="#Python实现数据批（batch）处理" data-toc-modified-id="Python实现数据批（batch）处理-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Python实现数据批（batch）处理</a></span></li></ul></div>

## 正则表达式

### 统计一个字符串中汉字的个数

在下述代码中：

1. `re.findall(r'[\u4e00-\u9fff]', s)` 使用正则表达式匹配字符串 `s` 中的所有汉字。
2. `len(chinese_characters)` 返回匹配到的汉字列表的长度，也就是字符串中汉字的个数。

In [2]:
import re


def length_by_chinese_characters(s):
    # 使用正则表达式匹配所有汉字
    # chinese_characters = re.findall(ur'[\u4e00-\u9fff]', s)  # python2
    chinese_characters = re.findall(r'[\u4e00-\u9fff]', s)
    return len(chinese_characters)


# 示例字符串
text = "这是一个示例字符串，包含汉字和英文字符。"
result = length_by_chinese_characters(text)
print(f"按汉字计算的字符串长度是: {result}")

按汉字计算的字符串长度是: 18


## 计算威尔逊打分

威尔逊得分（Wilson score）间隔是一个统计方法，用于在给定成功次数和总次数的情况下，计算成功率的置信区间。这在评级和排序系统中非常有用，尤其是当你希望在样本量较小时获得较为可靠的估计值。

In [6]:
import math


def wilson_score_lower_bound(pos, total, confidence=0.95):
    """
    计算威尔逊得分下界
    :param pos: 正面评价数量（成功次数）
    :param total: 总评价数量（总次数）
    :param confidence: 置信水平（默认0.95）
    :return: 威尔逊得分下界
    """
    if total == 0:
        return 0
    
    if pos > total:
        return 0

    z = abs(math.erf(confidence / math.sqrt(2)) * math.sqrt(2))
    phat = pos / total
    lower_bound = (phat + z**2 / (2 * total) - z * math.sqrt((phat * (1 - phat) + z**2 / (4 * total)) / total)) / (1 + z**2 / total)
    return lower_bound

print(wilson_score_lower_bound(2, 0))
print(wilson_score_lower_bound(100, 100))
print(wilson_score_lower_bound(16, 100))
print(wilson_score_lower_bound(106, 100))

0
0.9914179631436058
0.12883065371189042
0


## Python实现数据批（batch）处理

In [36]:
def batch_process(lst, batch_size):
    """
    将列表按批次分割处理。
    :param lst: 要处理的列表。
    :param batch_size: 每个批次的大小。
    :return: 一个生成器，每次生成一个批次。
    """
    for i in range(0, len(lst), batch_size):
        yield lst[i:i + batch_size]

# 示例用法
data = range(1, 98)
batch_size = 10

for batch in batch_process(data, batch_size):
    print(batch)
    # 在此处添加处理批次的逻辑，例如：
    # process_batch(batch)

range(1, 11)
range(11, 21)
range(21, 31)
range(31, 41)
range(41, 51)
range(51, 61)
range(61, 71)
range(71, 81)
range(81, 91)
range(91, 98)
