In [None]:
import numpy as np
from PIL import Image
import pandas as pd
import cv2
import seaborn as sns
import matplotlib.pyplot as plt
import os
from google.colab import drive
from sklearn.model_selection import train_test_split
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Всего у нас  1070 чб изображений, форматы могут как jpg, или img, так и другие. Каждое из них является капчей, состоящей из 5 символов. Названия картинок отображают содержание капчи. Например 2ap5g.jpg. Размеры каждого изображения - 50 на 200 пикселей. Для начала проверим, действительно ли используются все числа и буквы английского алфавита.

In [None]:
dir='/content/drive/My Drive/samples/samples'
chars = {}
for captcha in  os.listdir(dir):
  for i in captcha.split(".")[0]:
    chars[i] = chars.get(i, 0) +1
print(len(chars))
print(*chars.keys())

19
d 7 n 3 4 2 w 6 f 5 x p c y m g e b 8


Видим, что используется всего 19 символов, значит будем тренировать нашу модель всего на 19 символах, что позволит нам существенно улучшить результат. Подготовим наши данные. Будем сопоставлять в y не саму расшифрованную капчу, а матрицу размера 5 (длина любой капчи) на 19 (количество символов). Так у нас для каждой картинки будет матрица, в которой будет по 1 единице в строчке - в столбце, в котором стоит символ

In [None]:
X = np.zeros((1070, 50, 200, 1))  # Добавляем дополнительное измерение для канала
y = np.zeros((5, 1070, 19))
symbols = list(chars.keys())
print(symbols)
for i, captcha in enumerate(os.listdir(dir)):
    captcha_without_format = captcha.split(".")[0]
    captcha_image = cv2.imread(os.path.join(dir, captcha), cv2.IMREAD_GRAYSCALE) / 255.0 #нормируем
    captcha_image = np.expand_dims(captcha_image, axis=-1)  # Добавляем дополнительное измерение
    matr = np.zeros((5, 19))
    X[i] = captcha_image
    for place, symbol in enumerate(captcha_without_format):
        matr[place, list(chars.keys()).index(symbol)] = 1
    y[:, i] = matr

print(X.shape)

['d', '7', 'n', '3', '4', '2', 'w', '6', 'f', '5', 'x', 'p', 'c', 'y', 'm', 'g', 'e', 'b', '8']
(1070, 50, 200, 1)


Разделим данные на тренировочные, тестовые и валидационные вручную, потому что мне не охота возиться. Будем использовать следующие пропорции: 0.7 на тренировочные, 0.15 на тестовые и 0.15 на валидационные данные.

In [None]:
X_train = X[: 749]
y_train = y[:, :749]
X_val = X[749 : 910]
y_val = y[:, 749 : 910]
X_test = X[910:]
y_test = y[:, 910:]
# Перемешивание тренировочных данных
train_indices = np.arange(X_train.shape[0])
np.random.shuffle(train_indices)
X_train = X_train[train_indices]
y_train = y_train[:, train_indices]

# Перемешивание тестовых данных
test_indices = np.arange(X_test.shape[0])
np.random.shuffle(test_indices)
X_test = X_test[test_indices]
y_test = y_test[:, test_indices]

# Перемешивание валидационных данных
val_indices = np.arange(X_val.shape[0])
np.random.shuffle(val_indices)
X_val = X_val[val_indices]
y_val = y_val[:, val_indices]

y_train = np.transpose(y_train, (1, 0, 2))
y_test = np.transpose(y_test, (1, 0, 2))
y_val = np.transpose(y_val, (1, 0, 2))

# Проверка формы разделенных данных
print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)
print("X_val shape:", X_val.shape)
print("y_val shape:", y_val.shape)

X_train shape: (749, 50, 200, 1)
y_train shape: (749, 5, 19)
X_test shape: (160, 50, 200, 1)
y_test shape: (160, 5, 19)
X_val shape: (161, 50, 200, 1)
y_val shape: (161, 5, 19)


Я собираюсь использовать сверточную нейронную сеть для решения задачи, ведь они как раз подходят для работы с изображениями.

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Conv2D
from keras.layers import Flatten
from keras.layers import MaxPooling2D
from keras.layers import BatchNormalization
from keras.models import Model
from keras.layers import Dropout
from keras.layers import Input
from keras.layers import Reshape
import keras

In [None]:
def build_model_4():
    # Входной слой
    inp_layer = Input(shape=(50, 200, 1))  # Входные данные имеют форму (50, 200, 1)

    # Первый сверточный слой
    convol_layer_1 = Conv2D(32, (3, 3), padding='same', activation='relu')(inp_layer)  # 32 фильтра размером 3x3
    pool_1 = MaxPooling2D((2, 2), padding='same')(convol_layer_1)

    # Второй сверточный слой
    convol_layer_2 = Conv2D(64, (3, 3), padding='same', activation='relu')(pool_1)
    pool_2 = MaxPooling2D((2, 2), padding='same')(convol_layer_2)

    # третий сверточный слой
    convol_layer_3 = Conv2D(128, (3, 3), padding='same', activation='relu')(pool_2)
    pool_3 = MaxPooling2D((2, 2), padding='same')(convol_layer_3)

    fl = Flatten()(pool_3)
    x = Dropout(0.4)(fl)
    # пытаемся предотвратить переобучение
    x = BatchNormalization()(x)
    outputs = []


    # для каждой отдельной буквы создаем отдельную как бы ветку, чтобы можно было угадывать ее отдельно
    dense1 = Dense(64 , activation='relu')(x)
    dropout1= Dropout(0.5)(dense1)
    dpo1 = BatchNormalization()(dropout1)
    output1 = Dense(19 , activation='softmax')(dpo1)
    outputs.append(output1)

    dense2 = Dense(64 , activation='relu')(x)
    dropout2= Dropout(0.5)(dense2)
    dpo2 = BatchNormalization()(dropout2)
    output2 = Dense(19 , activation='softmax')(dpo2)
    outputs.append(output2)

    dense3 = Dense(64 , activation='relu')(x)
    dropout3= Dropout(0.5)(dense3)
    dpo3 = BatchNormalization()(dropout3)
    output3 = Dense(19 , activation='softmax')(dpo3)
    outputs.append(output3)

    dense4 = Dense(64 , activation='relu')(x)
    dropout4= Dropout(0.5)(dense4)
    dpo4 = BatchNormalization()(dropout4)
    output4 = Dense(19 , activation='softmax')(dpo4)
    outputs.append(output4)

    dense5 = Dense(64 , activation='relu')(x)
    dropout5= Dropout(0.5)(dense5)
    dpo5 = BatchNormalization()(dropout5)
    output5 = Dense(19 , activation='softmax')(dpo5)
    outputs.append(output5)

    model = Model(inputs=inp_layer, outputs=outputs)

    model.compile(optimizer=keras.optimizers.Adam(learning_rate=0.0005), loss="categorical_crossentropy", metrics=["accuracy"] * 5)

    return model

model_4 = build_model_4()
model_4.summary()


In [None]:
from keras.callbacks import EarlyStopping

early_stopping = EarlyStopping(
    monitor='val_loss',  # Метрика для мониторинга
    patience=10,         # Количество эпох без улучшения, после которых остановить обучение
    restore_best_weights=True  # Восстановить лучшие веса после окончания обучения
)


history = model_4.fit(
    X_train, [y_train[:, i] for i in range(5)],
    batch_size=32,
    epochs=100,
    validation_data=(X_val, [y_val[:, i] for i in range(5)]),
    callbacks=[early_stopping]
)


Epoch 1/100
[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m27s[0m 510ms/step - dense_11_accuracy: 0.0709 - dense_13_accuracy: 0.0605 - dense_15_accuracy: 0.0738 - dense_17_accuracy: 0.0387 - dense_19_accuracy: 0.0542 - loss: 17.8106 - val_dense_11_accuracy: 0.0000e+00 - val_dense_13_accuracy: 0.0807 - val_dense_15_accuracy: 0.0745 - val_dense_17_accuracy: 0.0248 - val_dense_19_accuracy: 0.0745 - val_loss: 14.6841
Epoch 2/100
[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 25ms/step - dense_11_accuracy: 0.1950 - dense_13_accuracy: 0.1963 - dense_15_accuracy: 0.1466 - dense_17_accuracy: 0.1082 - dense_19_accuracy: 0.1415 - loss: 14.5690 - val_dense_11_accuracy: 0.0000e+00 - val_dense_13_accuracy: 0.1118 - val_dense_15_accuracy: 0.1242 - val_dense_17_accuracy: 0.0994 - val_dense_19_accuracy: 0.1056 - val_loss: 14.4786
Epoch 3/100
[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 20ms/step - dense_11_accuracy: 0.5220 - dense_13_accuracy: 0.4071 - d

In [None]:
def makePredict(captcha):
    captcha = np.reshape(captcha , (1, 50,200,1))
    result = model_4.predict(captcha)
    result = np.reshape(result ,(5,19))

    label = ''.join([symbols[np.argmax(i)] for i in result])

    return label
def capcha_back(y, symbols = symbols):
  label = ['','','','','']
  for i in range(5):
    for j in range(19):
      if y[i][j] == 1:
        label[i] = symbols[j]
  return ''.join(label)

print(symbols)
count = 0
for i in range(X_test.shape[0]):
  pred = makePredict(X_test[i])
  if pred != capcha_back(y_test[i]):
    count+=1




['d', '7', 'n', '3', '4', '2', 'w', '6', 'f', '5', 'x', 'p', 'c', 'y', 'm', 'g', 'e', 'b', '8']
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 638ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 18ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 17ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 17ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 19ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[

In [None]:
print(X_test.shape[0], count, ((X_test.shape[0] - count) / X_test.shape[0] * 100))

160 27 83.125


Таким образом точность нашей модели на тестовой выборке составила 83.125 процентов, мне кажется точность могла улучшиться, если бы мы распологали большим количеством данных, хотя-бы в 2 раза больше.