## 极其简单的想法

用训练数据来计算数字图像的平均暗度,0, 1, 2, . . . , 9。当有一幅新的图像
呈现,我们先计算图像的暗度,然后猜测它接近哪个数字的平均暗度。

### 加载数据

In [1]:
# 导入库
from collections import defaultdict
import mnist_loader

#加载数据
training_data, validation, test_data = mnist_loader.load_data()

### 计算数字图像的平均暗度

In [8]:
def avg_darknesses(training_data):
    """计算数字图像的平均暗度
    
        输入： 训练数据集
                training_data[0]: 为图像的数据
                training_data[1]: 对应的数字
        
        返回值： 键值为0~9的字典，对应的值为数据图像的平均暗度"""
    digit_counts = defaultdict(int)
    darknesses = defaultdict(float)
    for image, digit in zip(training_data[0], training_data[1]):
        digit_counts[digit] += 1
        darknesses[digit] += sum(image)
    avgs = defaultdict(float)
    for digit, n in digit_counts.items():
        avgs[digit] = darknesses[digit] / n
    return avgs

In [9]:
# 计算数字图像的平均暗度
avgs = avg_darknesses(training_data)

### 预测

In [10]:
def guess_digit(image, avgs):
    """根据输入的图像与哪个数字的平均暗度最接近，来预测图像的数字
    
        输入： 1.待预测的数字图像 2.数字图像的平均暗度
        
        返回： 预测图像的数字"""
    darkness = sum(image)
    distances = {k: abs(v-darkness) for k,v in avgs.items()}
    return min(distances, key=distances.get)

### 评估

In [11]:
num_correct = sum(int(guess_digit(image, avgs) == digit) for image, digit in zip(test_data[0], test_data[1]))

print("Baseline classifier using average darkness of image.")
print("%s of %s values correct." % (num_correct, len(test_data[1])))

Baseline classifier using average darkness of image.
2225 of 10000 values correct.


### 总结

可以发现这是个很天真的想法，虽然比随机地猜测有了很大的改进,能取得 10000 测试图像中 2225 的精确度,即22.25%，但效果仍然不能让人满意。因此，需要努力找到其他方法，以获得更高的精确度。