# 计算字母相似度

## 介绍

这个文件中我们进行了三个方面的工作

1. 利用开源的字典计算两个字母的相关程度

计算方法为：在字典数据集中，统计两两字母相邻的组合出现次数，然后计算当个字母分别在前面所得组合的出现次数，用两个字母的出现次数向量进行余弦相似度计算。

2. 定义了一种计算一个单词的正常性的方法

- 通过计算一个单词的字母的相似度，得到一个相似度矩阵
- 将给定单词的字母与下一个字母的相似度依次相加，（由于我们的单词是定长的，所以一共是四个相似度相加即可）
- 如此得到一个相似度之和，我们可以知道，一定程度上，一共单词前后两个字母的相似度越高，那么这个单词的正常性越高。

3. 对原数据进行处理（参考了这个数据https://bert.org/assets/posts/wordle/words.json）

- 去除异常值（改掉了四个单词，可以说是参考了网上的那天给的具体的正确单词值）
- 对于每个单词，计算其正常性，并将其加入到原数据中（为后续神经网络做准备）

## 利用开源的字典计算两个字母的相关程度

In [1]:
# 导入numpy库
import numpy as np

In [2]:
# 打开英文字典文件
with open("words_clean.txt", "r") as words:
    # 创建一个空字典来存储每个字母出现的次数
    letter_count = {}
    # 创建一个空字典来存储每对相邻字母出现的次数
    pair_count = {}

    # 遍历每个单词
    for word in words:
        # 去掉单词末尾的换行符
        word = word.strip()
        # 遍历单词中的每个字母
        for i in range(len(word)):
            # 获取当前字母
            letter = word[i]
            # 如果字母不在letter_count中，就把它加入，并初始化为0
            if letter not in letter_count:
                letter_count[letter] = 0
            # 把当前字母出现的次数加1
            letter_count[letter] += 1

            # 如果不是最后一个字母，就获取下一个字母，并组成一对相邻字母
            if i < len(word) - 1:
                next_letter = word[i+1]
                pair = letter + next_letter
                # 如果相邻字母不在pair_count中，就把它加入，并初始化为0
                if pair not in pair_count:
                    pair_count[pair] = 0
                # 把当前相邻字母出现的次数加1
                pair_count[pair] += 1

In [3]:
# 显示letter_count中的前10个item
print("letter_count:\n", list(letter_count.items())[:10])
# 显示pair_count中的前10个item
print("pair_count:\n", list(pair_count.items())[:10])

letter_count:
 [('a', 330309), ('l', 216916), ('s', 273315), ('b', 71757), ('e', 412371), ('r', 269353), ('g', 90238), ('c', 164370), ('h', 103087), ('n', 275977)]
pair_count:
 [('aa', 463), ('al', 43636), ('as', 18572), ('ab', 14013), ('be', 10451), ('er', 72275), ('rg', 4129), ('ac', 19190), ('ch', 22188), ('he', 20824)]


In [4]:
# 创建一个空列表来存储所有可能的26个英文字母组合（共有26*26=676种）
letter_combinations = []
# 遍历所有可能的第一个字母（从a到z）
for first_letter in "abcdefghijklmnopqrstuvwxyz":
    # 遍历所有可能的第二个字母（从a到z）
    for second_letter in "abcdefghijklmnopqrstuvwxyz":
        # 组合两个字母，并添加到列表中
        combination = first_letter + second_letter
        letter_combinations.append(combination)

In [5]:
# 显示letter_combinations中的前10个item
print("letter_combinations:\n", letter_combinations[:10])
print(letter_combinations[26:36])
print(letter_combinations[52:62])
print(letter_combinations[78:88])
print(letter_combinations[104:114])
print(letter_combinations[130:140])
print(letter_combinations[156:166])
print(letter_combinations[182:192])
print(letter_combinations[208:218])
print(letter_combinations[234:244])

letter_combinations:
 ['aa', 'ab', 'ac', 'ad', 'ae', 'af', 'ag', 'ah', 'ai', 'aj']
['ba', 'bb', 'bc', 'bd', 'be', 'bf', 'bg', 'bh', 'bi', 'bj']
['ca', 'cb', 'cc', 'cd', 'ce', 'cf', 'cg', 'ch', 'ci', 'cj']
['da', 'db', 'dc', 'dd', 'de', 'df', 'dg', 'dh', 'di', 'dj']
['ea', 'eb', 'ec', 'ed', 'ee', 'ef', 'eg', 'eh', 'ei', 'ej']
['fa', 'fb', 'fc', 'fd', 'fe', 'ff', 'fg', 'fh', 'fi', 'fj']
['ga', 'gb', 'gc', 'gd', 'ge', 'gf', 'gg', 'gh', 'gi', 'gj']
['ha', 'hb', 'hc', 'hd', 'he', 'hf', 'hg', 'hh', 'hi', 'hj']
['ia', 'ib', 'ic', 'id', 'ie', 'if', 'ig', 'ih', 'ii', 'ij']
['ja', 'jb', 'jc', 'jd', 'je', 'jf', 'jg', 'jh', 'ji', 'jj']


In [6]:
# 创建一个空列表来存储每对相邻字母出现的次数向量（共有676个元素: 26*26=676）
pair_vectors = []
# 遍历所有可能的相邻字母组合（从aa到zz）
for combination in letter_combinations:
    # 如果相邻字母在pair_count中，就获取它出现的次数，否则默认为0
    count = pair_count.get(combination, 0)
    # 把次数添加到向量中（作为一个元素）
    pair_vectors.append(count)

In [7]:
len(pair_vectors)

676

In [8]:
# 打印pair_vectors，我们可以看到它是一个一维向量，共有676个元素
print("pair_vectors:\n", np.array(pair_vectors).reshape(26, 26)[:10, :10])

pair_vectors:
 [[  463 14013 19190 10757  6575  2441  9259  2132  7452   411]
 [ 9945  1907   434   479 10451   159    96   237  9578   275]
 [24803    58  2719   129 15772    56    54 22188 12195     4]
 [10191   449   277  2113 24078   404  1184   595 20452   322]
 [16171  3474 13839 32075  8302  4032  4621  1710  5268   438]
 [ 4058    58    73    63  5661  3453    35    54  7519    13]
 [ 8798   256    74   176 13072   145  2309  3266  9080    17]
 [16501   373   154   181 20824   294    95   132 16152    26]
 [22491  5033 37513 15228 15426  6499  7657   501   630   190]
 [ 1842     5    21    18  1344     5     5    12   498     9]]


> 这里就得到了一个pairs的map

In [9]:
# 创建一个空列表来存储每个单独字母出现的次数向量（共有26个向量，每个向量有676个元素）
letter_vectors = []
alphabet = "abcdefghijklmnopqrstuvwxyz"
# 遍历所有可能的单独字母（从a到z）
for letter in alphabet:
    # 创建一个空列表来存储当前单独字母出现的次数向量（共有676个元素）
    vector = []
    # 遍历所有可能的相邻字母组合（从aa到zz）
    for combination in letter_combinations:
        # 如果当前单独字母是相邻组合中的第一个或第二个，就获取它出现的次数，否则默认为0 
        if letter in combination:
            count = pair_count.get(combination, 0)
        else:
            count = 0 
        # 把次数添加到向量中（作为一个元素）    
        vector.append(count)
    
    # 把当前单独字符出现的次数向量添加到列表中   
    letter_vectors.append(vector)

In [10]:
letter_vectors[0]

[463,
 14013,
 19190,
 10757,
 6575,
 2441,
 9259,
 2132,
 7452,
 411,
 3575,
 43636,
 12953,
 45592,
 515,
 11119,
 393,
 35888,
 18572,
 43972,
 6462,
 4044,
 2267,
 1395,
 3285,
 1732,
 9945,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 24803,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 10191,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 16171,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 4058,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 8798,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 16501,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 22491,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,

In [11]:
np.corrcoef(letter_vectors[0], letter_vectors[1])

array([[1.        , 0.05158347],
       [0.05158347, 1.        ]])

In [12]:
# 创建一个空列表来存储相关系数矩阵（共有26*26=676个元素，每个元素是两个字符之间的相关系数）
correlation_matrix = []
# 遍历所有可能的第一个单独字母（从a到z）
for i in range(26):
    # 获取当前单独字母出现的次数向量
    letter_vector_1 = letter_vectors[i]
    # 遍历所有可能的第二个单独字母（从a到z）
    for j in range(26):
        # 获取当前单独字母出现的次数向量
        letter_vector_2 = letter_vectors[j]
        # 用numpy库中的corrcoef()函数来计算两个向量之间的相关系数
        correlation = np.corrcoef(letter_vector_1, letter_vector_2)[0][1]
        # 把相关系数添加到矩阵中（作为一个元素）
        correlation_matrix.append(correlation)

In [13]:
# 打印相关系数矩阵 保留两位小数
print("correlation_matrix:\n", np.array(correlation_matrix).reshape(26, 26).round(3))

correlation_matrix:
 [[ 1.     0.052  0.088  0.007 -0.02  -0.019  0.007  0.018 -0.002 -0.014
  -0.014  0.211  0.084  0.133 -0.037  0.023 -0.012  0.157  0.009  0.154
  -0.026 -0.004 -0.001 -0.019 -0.025 -0.012]
 [ 0.052  1.    -0.023 -0.02  -0.002 -0.023 -0.02  -0.021  0.    -0.017
  -0.021  0.035 -0.008 -0.022 -0.001 -0.025 -0.01  -0.007 -0.023 -0.023
   0.01  -0.016 -0.022 -0.017 -0.022 -0.015]
 [ 0.088 -0.023  1.    -0.02   0.013 -0.024 -0.02   0.117  0.138 -0.018
   0.032 -0.019 -0.022 -0.     0.082 -0.025 -0.01  -0.01  -0.008 -0.009
  -0.004 -0.016 -0.022 -0.017 -0.013 -0.015]
 [ 0.007 -0.02  -0.02   1.     0.171 -0.021 -0.017 -0.018  0.063 -0.015
  -0.019 -0.017 -0.02   0.019  0.002 -0.022 -0.009 -0.01  -0.02  -0.021
  -0.014 -0.014 -0.019 -0.015 -0.016 -0.013]
 [-0.02  -0.002  0.013  0.171  1.    -0.01   0.006  0.031 -0.023 -0.018
   0.009  0.119  0.052  0.13  -0.034  0.03  -0.011  0.359  0.191  0.124
  -0.03   0.079 -0.013  0.008 -0.027  0.007]
 [-0.019 -0.023 -0.024 -0.021 -0.0

In [14]:
corr_matrix = np.array(correlation_matrix).reshape(26, 26)

In [15]:
def alpha2idx(alpha):
    return ord(alpha) - ord('a')

In [16]:
alpha2idx('z')

25

## 定义了一种计算一个单词的正常性的方法

In [37]:
corr_matrix.shape

(26, 26)

In [39]:
corr_matrix[1,26]

IndexError: index 26 is out of bounds for axis 1 with size 26

In [17]:
def get_normal_value(test_word):
    normal_value = 0
    # 用相关系数矩阵去衡量test_word的怪异程度
    # 衡量方法为，从第一个字母开始，计算每个字母与其后续字母的相关系数，加在normal_value上，以此衡量该值
    for i in range(len(test_word)-1):
        normal_value += corr_matrix[alpha2idx(test_word[i]),alpha2idx(test_word[i+1])]
    return normal_value
test_word = "ooooo"
print(test_word + " normal value is " + str(get_normal_value(test_word)))

ooooo normal value is 3.9999999999999996


## 对原数据进行处理

In [18]:
import pandas as pd
# 读入Problem_C_Data_Wordle.xlsx文件
df = pd.read_excel("Problem_C_Data_Wordle.xlsx")

In [19]:
# 将第一行作为列名
df.columns = df.iloc[0]
# 删除第一行
df = df.drop(0)
# 删除空列
df = df.dropna(axis=1, how='all')
# 重置索引
df = df.reset_index(drop=True)
# 1.2 查看数据
df.head()

Unnamed: 0,Date,Contest number,Word,Number of reported results,Number in hard mode,1 try,2 tries,3 tries,4 tries,5 tries,6 tries,7 or more tries (X)
0,2022-12-31 00:00:00,560,manly,20380,1899,0,2,17,37,29,12,2
1,2022-12-30 00:00:00,559,molar,21204,1973,0,4,21,38,26,9,1
2,2022-12-29 00:00:00,558,havoc,20001,1919,0,2,16,38,30,12,2
3,2022-12-28 00:00:00,557,impel,20160,1937,0,3,21,40,25,9,1
4,2022-12-27 00:00:00,556,condo,20879,2012,0,2,17,35,29,14,3


#### 去除异常值

In [20]:
# 找出字符串长度不等于5的行
print("总共有" + str(len(df[df['Word'].str.len() != 5])) + "行字符串长度不等于5")
df[df['Word'].str.len() != 5]

总共有4行字符串长度不等于5


Unnamed: 0,Date,Contest number,Word,Number of reported results,Number in hard mode,1 try,2 tries,3 tries,4 tries,5 tries,6 tries,7 or more tries (X)
15,2022-12-16 00:00:00,545,rprobe,22853,2160,0,6,24,32,24,11,3
35,2022-11-26 00:00:00,525,clen,26381,2424,1,17,36,31,12,3,0
246,2022-04-29 00:00:00,314,tash,106652,7001,2,19,34,27,13,4,1
353,2022-01-12 00:00:00,207,favor,137586,3073,1,4,15,26,29,21,4


In [21]:
# 我们在网址上找到了那天的正确答案
df.loc[15, 'Word'] = 'probe'
df.loc[35, 'Word'] = 'clean'
df.loc[246, 'Word'] = 'stash'
df.loc[353, 'Word'] = 'favor'

In [22]:
print("总共有" + str(len(df[df['Word'].str.len() != 5])) + "行字符串长度不等于5")

总共有0行字符串长度不等于5


In [50]:
# 找出字符串中包含非字母字符的行
print("总共有" + str(len(df[df['Word'].str.contains('[^a-zA-Z]')])) + "行字符串中包含非字母字符")
df[df['Word'].str.contains('[^a-zA-Z]')]

总共有1行字符串中包含非字母字符


Unnamed: 0,Date,Contest number,Word,Number of reported results,Number in hard mode,1 try,2 tries,3 tries,4 tries,5 tries,6 tries,7 or more tries (X)
20,2022-12-11 00:00:00,540,naïve,21947,2075,1,7,24,32,24,11,1


In [51]:
df.loc[20, 'Word'] = 'naive'

## 计算正常性并加入到原数据中

In [52]:
# 用apply()函数来对每一行的Word列进行计算
df['normal_value'] = df['Word'].apply(get_normal_value)

In [53]:
# 保存为xlsx文件
df.to_excel("Problem_C_Data_Wordle_new.xlsx", index=False)