## Пробный датасет под CRNN

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os
import shutil
from PIL import Image
import pandas as pd
import numpy as np

In [None]:
gt = pd.DataFrame(columns=['fn', 'value'])

with open('/content/drive/MyDrive/Datasets/fields/fields_m.txt', 'r') as f:
  for index, row in enumerate(f):
    if row[0] == '#':
      continue
    row = row.split()
    gt.loc[gt.shape[0]] = (row[0], row[-1].replace('|', ' '))
gt.head(5)

Unnamed: 0,fn,value
0,01_0002,Фамилия Кунарев
1,01_0004,Фамилия Кириллина
2,01_0005,Фамилия Сурова
3,01_0006,Фамилия Кузнецов
4,01_0007,Фамилия: Кузнецов


In [None]:
# Пути к исходной и целевой директориям
source_dir = "/content/drive/MyDrive/Datasets/fields"
target_dir = "/content/drive/MyDrive/Datasets/fields_m"

# Убедимся, что целевые папки 01, 02, 03 существуют
for folder in ["01", "02", "03"]:
    os.makedirs(os.path.join(target_dir, folder), exist_ok=True)

In [None]:
# Получаем список имен файлов без расширения из колонки fn
file_names = set(gt['fn'].tolist())

# Проходим по каждой папке в исходной директории
for folder in ["01", "02", "03"]:
    folder_path = os.path.join(source_dir, folder)

    # Проверяем наличие папки
    if not os.path.exists(folder_path):
        print(f"Папка {folder_path} не существует.")
        continue

    # Перебираем все файлы в текущей папке
    for file in os.listdir(folder_path):
        # Получаем имя файла без расширения
        file_name_no_ext = os.path.splitext(file)[0]

        # Если имя файла (без расширения) есть в списке имен из DataFrame
        if file_name_no_ext in file_names:
            source_path = os.path.join(folder_path, file)
            target_path = os.path.join(target_dir, folder, file)

            # Копируем файл в целевую директорию
            shutil.copy2(source_path, target_path)
            print(f"Файл {file} скопирован в {target_path}")

Файл 01_0432.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0432.png
Файл 01_0435.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0435.png
Файл 01_0436.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0436.png
Файл 01_0433.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0433.png
Файл 01_0434.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0434.png
Файл 01_0441.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0441.png
Файл 01_0440.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0440.png
Файл 01_0439.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0439.png
Файл 01_0444.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0444.png
Файл 01_0445.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0445.png
Файл 01_0449.png скопирован в /content/drive/MyDrive/Datasets/fields_m/01/01_0449.png
Файл 01_0447.png скопирован в /content/drive/MyDrive/D

## Датасет под Transformer

In [3]:
# Путь к папке с изображениями и текстовому файлу
image_folder = '/content/drive/MyDrive/Datasets/fields_transf_train'
text_file_path = '/content/drive/MyDrive/Datasets/fields/fields.txt'

# Чтение списка файлов в папке (оставляем только имена без расширения)
image_files = {os.path.splitext(filename)[0] for filename in os.listdir(image_folder) if filename.endswith('.png')}

gt = pd.DataFrame(columns=['fn', 'value'])

with open(text_file_path, 'r') as f:
  for index, row in enumerate(f):
    if row[0] == '#':
      continue
    row = row.split()
    gt.loc[gt.shape[0]] = (row[0] +'.png', row[-1].replace('\\', ' '))

# Фильтрация строк, где имя файла есть в списке image_files
gt_filtered = gt[gt['fn'].str.replace('.png', '').isin(image_files)]

# Вывод первых 5 строк отфильтрованного датафрейма
gt_filtered.head(10)

Unnamed: 0,fn,value
0,01_0002.png,Фамилия Кунарев
1,01_0004.png,Фамилия Кириллина
2,01_0005.png,Фамилия Сурова
3,01_0006.png,Фамилия Кузнецов
4,01_0007.png,Фамилия: Кузнецов
5,01_0008.png,Фамилия: Атаджанова
6,01_0009.png,Фамилия Потапов
7,01_0010.png,Фамилия: Сафонов
8,01_0011.png,Фамилия: Сичинская
9,01_0013.png,Фамилия: Алашев


In [4]:
# Путь к папке с файлами
image_folder = '/content/drive/MyDrive/Datasets/fields_transf_train'

# Получаем список всех файлов в папке
files_in_folder = set(os.listdir(image_folder))

# Получаем список файлов из колонки fn датафрейма
files_in_df = set(gt_filtered['fn'].tolist())

# Находим файлы, которые есть в папке, но отсутствуют в датафрейме
files_not_in_df = files_in_folder - files_in_df

# Выводим результат
print("Файлы, которых нет в датафрейме:")
for file in files_not_in_df:
    print(file)

Файлы, которых нет в датафрейме:


In [5]:
gt_filtered.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2560 entries, 0 to 3332
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   fn      2560 non-null   object
 1   value   2560 non-null   object
dtypes: object(2)
memory usage: 60.0+ KB


In [6]:
output_file = 'fields_transf_train.tsv'
gt_filtered.to_csv(output_file, sep='\t', index=False, header=False)

print(f"Файл {output_file} успешно сохранен.")

Файл fields_transf_train.tsv успешно сохранен.


In [7]:
# Путь к папке с изображениями и текстовому файлу
image_folder = '/content/drive/MyDrive/Datasets/fields_transf_test'
text_file_path = '/content/drive/MyDrive/Datasets/fields/fields.txt'

# Чтение списка файлов в папке (оставляем только имена без расширения)
image_files = {os.path.splitext(filename)[0] for filename in os.listdir(image_folder) if filename.endswith('.png')}

gt = pd.DataFrame(columns=['fn', 'value'])

with open(text_file_path, 'r') as f:
  for index, row in enumerate(f):
    if row[0] == '#':
      continue
    row = row.split()
    gt.loc[gt.shape[0]] = (row[0] +'.png', row[-1].replace('\\', ' '))

# Фильтрация строк, где имя файла есть в списке image_files
gt_filtered = gt[gt['fn'].str.replace('.png', '').isin(image_files)]

# Вывод первых 5 строк отфильтрованного датафрейма
gt_filtered.head(10)

Unnamed: 0,fn,value
600,01_0857.png,Фамилия Метелкин
601,01_0858.png,Фамилия Курдюмов
602,01_0874.png,Фамилия Байден
603,01_0876.png,Фамилия Симонова
604,01_0878.png,Фамилия Ястребова
605,01_0880.png,Фамилия Сталоне
606,01_0881.png,Фамилия Лундгрен
607,01_0884.png,Фамилия Трамп
608,01_0885.png,Фамилия Грей
609,01_0888.png,Фамилия Володин


In [8]:
gt_filtered.info()

<class 'pandas.core.frame.DataFrame'>
Index: 770 entries, 600 to 3189
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   fn      770 non-null    object
 1   value   770 non-null    object
dtypes: object(2)
memory usage: 18.0+ KB


In [9]:
output_file = 'fields_transf_test.tsv'
gt_filtered.to_csv(output_file, sep='\t', index=False, header=False)

print(f"Файл {output_file} успешно сохранен.")

Файл fields_transf_test.tsv успешно сохранен.
