In [3]:
from collections import Counter

def analyze_words(file_path, top_n=None):
    """
    分析词典文件中的词汇：
        1. 按 unique character 将词分为两类
        2. 统计 unique character 的数量分布
        3. 统计每个字符在数据集中的出现频率（百分比）
        4. **统计各词长 (len(word)) 的词数与占比**
    参数
    ----
    file_path : str
        词典文件路径，每行一个词
    top_n : int | None
        若指定，仅显示出现次数最多的前 N 个字符
    """
    words_high_unique = []   # unique char > 6 的词
    words_low_unique  = []   # unique char <= 6 的词
    char_counter      = Counter()  # 记录所有字符出现次数
    word_length_counts = Counter() # 记录词长分布

    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                word = line.strip().lower()
                if not word:        # 跳过空行
                    continue

                # 1) 分类统计
                if len(set(word)) > 6:
                    words_high_unique.append(word)
                else:
                    words_low_unique.append(word)

                # 2) 逐字符计数
                char_counter.update(word)

                # 3) 词长计数
                word_length_counts[len(word)] += 1

    except FileNotFoundError:
        print(f"文件 {file_path} 未找到")
        return
    except Exception as e:
        print(f"读取文件时出错: {e}")
        return

    # ===== 词级别统计 =====
    total_words       = len(words_high_unique) + len(words_low_unique)
    high_unique_count = len(words_high_unique)
    low_unique_count  = len(words_low_unique)

    print("=== 词典分析结果 ===")
    print(f"总词数: {total_words}")
    print(f"Unique char > 6 的词数: {high_unique_count}")
    print(f"Unique char <= 6 的词数: {low_unique_count}")
    print(f"Unique char > 6 的词占比: {high_unique_count / total_words * 100:.2f}%")

    # ===== 词长分布 =====
    print("\n=== 词长分布（长度 ➔ 词数 / 占比） ===")
    for length in sorted(word_length_counts):
        cnt = word_length_counts[length]
        pct = cnt / total_words * 100
        print(f"长度 {length:>2}: {cnt:>7} 词  |  {pct:6.2f}%")

    # ===== unique character 数量分布 =====
    print(f"\n=== Unique Character 数量分布 ===")
    unique_char_counts = {}
    for word in words_high_unique + words_low_unique:
        c = len(set(word))
        unique_char_counts[c] = unique_char_counts.get(c, 0) + 1
    for c in sorted(unique_char_counts):
        print(f"Unique chars = {c}: {unique_char_counts[c]} 词")

    # ===== 字符频率统计 =====
    print(f"\n=== 字符频率统计 ===")
    total_chars = sum(char_counter.values())
    if total_chars == 0:
        print("无字符可统计")
    else:
        # 由高到低输出，也可设置 top_n
        most_common = char_counter.most_common(top_n) if top_n else char_counter.most_common()
        for ch, cnt in most_common:
            pct = cnt / total_chars * 100
            display_ch = repr(ch)[1:-1] if ch.isspace() else ch  # 不可见字符可读化
            print(f"'{display_ch}': {cnt} 次，占比 {pct:.4f}%")

    # ===== 返回值 =====
    return {
        'total_words'        : total_words,
        'high_unique_count'  : high_unique_count,
        'low_unique_count'   : low_unique_count,
        'char_frequency'     : {ch: cnt / total_chars for ch, cnt in char_counter.items()},
        'length_distribution': {length: cnt / total_words for length, cnt in word_length_counts.items()}
    }


# 运行示例
if __name__ == "__main__":
    file_path = "words_250000_train.txt"
    results = analyze_words(file_path, top_n=50)    # 只看出现次数最多的 50 个字符


=== 词典分析结果 ===
总词数: 227300
Unique char > 6 的词数: 151260
Unique char <= 6 的词数: 76040
Unique char > 6 的词占比: 66.55%

=== 词长分布（长度 ➔ 词数 / 占比） ===
长度  1:      17 词  |    0.01%
长度  2:     264 词  |    0.12%
长度  3:    2201 词  |    0.97%
长度  4:    5287 词  |    2.33%
长度  5:   11274 词  |    4.96%
长度  6:   19541 词  |    8.60%
长度  7:   25948 词  |   11.42%
长度  8:   30452 词  |   13.40%
长度  9:   30906 词  |   13.60%
长度 10:   26953 词  |   11.86%
长度 11:   22786 词  |   10.02%
长度 12:   18178 词  |    8.00%
长度 13:   12956 词  |    5.70%
长度 14:    8710 词  |    3.83%
长度 15:    5211 词  |    2.29%
长度 16:    3143 词  |    1.38%
长度 17:    1775 词  |    0.78%
长度 18:     859 词  |    0.38%
长度 19:     441 词  |    0.19%
长度 20:     225 词  |    0.10%
长度 21:      98 词  |    0.04%
长度 22:      44 词  |    0.02%
长度 23:      14 词  |    0.01%
长度 24:       9 词  |    0.00%
长度 25:       3 词  |    0.00%
长度 27:       2 词  |    0.00%
长度 28:       1 词  |    0.00%
长度 29:       2 词  |    0.00%

=== Unique Character 数量分布 ===
Unique chars = 1: