In [1]:
# 通过对tensorflow的学习，了解了基本的使用，不过学习和实践还是有区别的
# 在实际生活中，我们有很多的图片，为了方便我自己学习我打算进行一个实验
# 1. 自己准备原材料，通过软件绘制5*5px的png图片，其中主要是图形，然后给定标签
# 2. 在tensorflow建立模型，并对其进行训练，然后输入新的内容，看是否可以识别
# 如果上面的实验完成后，我们就有了一个解决图像识别的利器，自己手动标注，通过机器学习，后面的数据进行分类

# 实践
# 创建 3*3px的简单图片作为并添加类别到dataset中，并标注类别
# 当然测试集和数据集都是一样的，只是一个用户训练分一部分作为训练


In [88]:
# 遍历目录读取所有图片，并将文件名作为其标签, 准备数据
import os
import png
import numpy as np

dir = './08.resource'
fs = os.listdir(dir)

X_list = []
y_list = []


for f in fs:
    label = f.split('.')[0].split('-')[0]
    p = os.path.join(dir,f)
    _,_,rows,_ = png.Reader(p).read_flat()
    X_list.append(rows.tolist())
    y_list.append(label)

X_raw = np.array(X_list, dtype=np.float64).reshape(12,100)
y_raw = np.array(y_list, dtype=np.str)
y_raw

array(['star', 'circle', 'rect', 'circle', 'rect', 'circle', 'star',
       'star', 'rect', 'star', 'rect', 'circle'], dtype='<U6')

In [89]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y_raw)
X = X_raw
y

array([2, 0, 1, 0, 1, 0, 2, 2, 1, 2, 1, 0])

In [117]:
# 分割数据集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,stratify=y)

# 数据标准化
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss.fit(X_train)
X_train_std = ss.transform(X_train)
X_test_std = ss.transform(X_test)


from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(C=50.0)
lr.fit(X_train_std, y_train)
lr.score(X_test_std, y_test)

0.6666666666666666

In [130]:
# 预测矩形
r = png.Reader('./08.resource/rect-test.png')
_,_,rows,_ = r.read_flat()
X_rect_raw = np.array(rows, dtype=np.float64).reshape(1,100)
y_rect_raw = np.array(['rect'])

X_rect_std = ss.transform(X_rect_raw)
y_rect = le.transform(y_rect_raw)


y_pred = lr.predict(X_rect_std)
print(y_rect == y_pred)

[ True]


In [132]:
# 预测圆
r = png.Reader('./08.resource/circle-test.png')
_,_,rows,_ = r.read_flat()
X_circle_raw = np.array(rows, dtype=np.float64).reshape(1,100)
y_circle_raw = np.array(['circle'])

X_circle_std = ss.transform(X_rect_raw)
y_circle = le.transform(y_rect_raw)


y_pred = lr.predict(X_rect_std)
print(y_circle == y_pred)

[ True]


In [133]:
# 预测星
r = png.Reader('./08.resource/star-test.png')
_,_,rows,_ = r.read_flat()
X_star_raw = np.array(rows, dtype=np.float64).reshape(1,100)
y_star_raw = np.array(['star'])

X_star_std = ss.transform(X_star_raw)
y_star = le.transform(y_star_raw)


y_pred = lr.predict(X_star_std)
print(y_star == y_pred)

[ True]


In [135]:
# 增加难度，直接给出不是正方形
r = png.Reader('./08.resource/rect-test2.png')
_,_,rows,_ = r.read_flat()
X_rect_raw = np.array(rows, dtype=np.float64).reshape(1,100)
y_rect_raw = np.array(['rect'])

X_rect_std = ss.transform(X_rect_raw)
y_rect = le.transform(y_rect_raw)


y_pred = lr.predict(X_rect_std)
print(y_rect == y_pred)
print(y_pred)
# 通过结果我们可以看到，他已经不能够识别了，不过因为测试数据中是,直接认为我给出的数据是圆，实际上给出的是长方形
# 之所以出现这种结果其实也是可以理解的，是因为数据集很小，从而导致无法准确的识别，有了这个基础之后，我其实有一个问题
# 所有的分类模型我都可以用于识别图片，只是纠结的其实是如何将图片转化为之前训练的数据，最后其实就是将图片的数据直接拉平，
# 其中tensorflow按照我现在的看法，他那边主要是实现了神经网络，

[False]
[0]
