# Анализ и предобработка данных

## Структурирование данных

In [2]:
import zipfile
    
def unzip(file, path): # функция для разархивирования
    with zipfile.ZipFile(file, 'r') as zip_file:
        zip_file.extractall(path)

In [6]:
unzip(file='C:/worning/mashinka/car_numbers/----------.v1-all_cam.yolov5pytorch.zip', path='C:/worning/mashinka/car_numbers/all/1')

В данном датасете есть след данные:

- test - папка

- train - папка
 
- valid - папка

- data.yaml - данные по классам и путям к папкам

In [9]:
unzip(file='C:/worning/mashinka/car_numbers/archive.zip', path='C:/worning/mashinka/car_numbers/all/2')

В данном датасете есть след данные:

- annatation - разметка

- images - фотографии

Так как разметка сохранена в формате xml, в дальнейшем нам будет удобен формат yolo. Соответственно в дальнейшем мы поменяем формат разметки на более удобный.

In [10]:
unzip(file='C:/worning/mashinka/car_numbers/russian-car-plates.v3i.yolov5pytorch.zip', path='C:/worning/mashinka/car_numbers/all/3')

В данном датасете есть след данные:

- train - папка
 
- valid - папка

- data.yaml - данные по классам и путям к папкам

Класс во всех данных один. В формате yolo он записывается цифрой, соответсвенно даже если у них разные названия они будут обозначаться как 0 и мы можем спокойно объединить наши данные

Меняем формат разметки

In [2]:
!git clone https://github.com/bjornstenger/xml2yolo.git 

Cloning into 'xml2yolo'...


Открываем файл convert.py и меняем там название 0 класса на licence так как именно он указан во всех файлах xml, остальные удаляем. 

Далее перенесли данный файл в папку с разметкой формата xml.

Запускаем данный файл. 

Все данные разметки записались в формате txt что соответсвует yolo формату.

Удаляем разметку в формате xml и файл для изменения формата.

In [4]:
import os
# удаляем файлы в формате xml
dir_name = "C:/worning/mashinka/car_numbers/all/2/annotations"
test = os.listdir(dir_name)

for item in test:
    if item.endswith(".xml"):
        os.remove(os.path.join(dir_name, item))
        
# удаляем файл для изменения формата
os.remove('C:/worning/mashinka/car_numbers/all/2/annotations/convert.py')

### Объединение данных для последующего обучения

Так как в двух из трёх датасетах похожая система структура объединяем в начале их, после объединим эти данные и с третьей папкой.

In [1]:
import os
from distutils.dir_util import copy_tree


content_dir = {'1': ['test', 'train', 'valid'], '3': ['train', 'valid']}

data_root = 'C:/worning/mashinka/car_numbers/all'

new_folder = 'C:/worning/mashinka/car_numbers/new'
mode = 0o777
# создаем папку куда будем копировать файлы
if not os.path.exists(new_folder):
   os.mkdir(new_folder, mode)
for sub_dir in content_dir:
    print(content_dir[sub_dir])
    for content in content_dir[sub_dir]:
        print(content)
        path_to_content = sub_dir + "/" + content
        dir_to_move = data_root + '/' + path_to_content
        print(dir_to_move)
        # копируем файлы
        copy_tree(dir_to_move, new_folder)



['test', 'train', 'valid']
test
C:/worning/mashinka/car_numbers/all/1/test
train
C:/worning/mashinka/car_numbers/all/1/train
valid
C:/worning/mashinka/car_numbers/all/1/valid
['train', 'valid']
train
C:/worning/mashinka/car_numbers/all/3/train
valid
C:/worning/mashinka/car_numbers/all/3/valid


In [5]:
# копируем разметку из 2 папки в общую
copy_tree('C:/worning/mashinka/car_numbers/all/2/annotations', 'C:/worning/mashinka/car_numbers/new/labels')

['C:/worning/mashinka/car_numbers/new/labels\\Cars0.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars1.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars10.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars100.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars101.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars102.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars103.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars104.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars105.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars106.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars107.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars108.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars109.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars11.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars110.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\Cars111.txt',
 'C:/worning/mashinka/car_numbers/new/labels\\

In [6]:
# копируем фотографии из 2 папки в общую
copy_tree('C:/worning/mashinka/car_numbers/all/2/images', 'C:/worning/mashinka/car_numbers/new/images')

['C:/worning/mashinka/car_numbers/new/images\\Cars0.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars1.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars10.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars100.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars101.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars102.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars103.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars104.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars105.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars106.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars107.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars108.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars109.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars11.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars110.png',
 'C:/worning/mashinka/car_numbers/new/images\\Cars111.png',
 'C:/worning/mashinka/car_numbers/new/images\\

### Проверка данных

In [10]:
from pathlib import Path

path_back = Path('C:/worning/mashinka/car_numbers/all')
print('Сумма данных изначально:', sum(1 for x in path_back.rglob('*') if x.is_file()))
path_all = Path('C:/worning/mashinka/car_numbers/new')
print('Сумма данных после переноса в одну папку:',  sum(1 for x in path_all.rglob('*') if x.is_file()))

Сумма данных изначально: 4496
Сумма данных после переноса в одну папку: 4494


Исходных данных больше на 2 потому что там есть два файла формата yaml, которые мы не переносили.

## Разметка данных

### Проверка пропусков

In [23]:
import os

data_root = 'C:/worning/mashinka/car_numbers/new/labels'
num = 0

source_dir = os.path.join(data_root)
for file_name in os.listdir(source_dir):
    if os.stat(data_root + "/" + file_name).st_size == 0:
        print('Пропуск', file_name)
        num += 1
print(num)

Пропуск ---------------384-_png.rf.38902ecf23961b48ce15a1c7711befc8.txt
1


Пропусков в данной разметке нет

#### Если пропуски есть

In [13]:
!git clone https://github.com/ManzarIMalik/YOLO-Annotation-Tool.git

Cloning into 'YOLO-Annotation-Tool'...


### Сохранение разметки в формате json

In [14]:
# Создаем файл где будем хранить все имена файлов в папке images
with open("C:/worning/mashinka/car_numbers/new/images/all.txt",'w') as a: 
    for path, subdirs, files in os.walk('C:/worning/mashinka/car_numbers/new/images/'):
        for file in files:
            f = os.path.join(path, file)
            a.write(str(f)+os.linesep)

In [15]:
!git clone https://github.com/Taeyoung96/Yolo-to-COCO-format-converter.git

Cloning into 'Yolo-to-COCO-format-converter'...


В файле main.py меняем названия классов

Для правильного сохранения форматов требуется сохранить разметку и фотографии в одной папке

In [19]:
copy_tree('C:/worning/mashinka/car_numbers/new/labels', 'C:/worning/mashinka/car_numbers/new/images')

['C:/worning/mashinka/car_numbers/new/images\\---------------384-_png.rf.3115846f532385095ffc7e96b43ecdbd.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------384-_png.rf.38902ecf23961b48ce15a1c7711befc8.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------385-_png.rf.94e75d82a999106ad452917dc9fc2266.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------385-_png.rf.ded19cf000e73fa1ce77fff2f799ca92.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------386-_png.rf.30e777fa3fb118f88538a588f3a2aa69.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------386-_png.rf.f35052cf7bd2cc307458141e56f1aeff.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------388-_png.rf.792d880513951a456c06c425176fbb43.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------388-_png.rf.aa61efd96e02eb883a1b8c5b16044064.txt',
 'C:/worning/mashinka/car_numbers/new/images\\---------------389-_png.rf.2fdf5daf319bacebbfd5d4682607dd6

In [20]:
!python C:/worning/mashinka/car_numbers/a/Yolo-to-COCO-format-converter/main.py --path C:/worning/mashinka/car_numbers/new/images/ --output ../data.json

Start!

Processing 0 ...
Processing 1 ...
Processing 2 ...
Processing 3 ...
Processing 4 ...
Processing 5 ...
Processing 6 ...
Processing 7 ...
Processing 8 ...
Processing 9 ...
Processing 10 ...
Processing 11 ...
Processing 12 ...
Processing 13 ...
Processing 14 ...
Processing 15 ...
Processing 16 ...
Processing 17 ...
Processing 18 ...
Processing 19 ...
Processing 20 ...
Processing 21 ...
Processing 22 ...
Processing 23 ...
Processing 24 ...
Processing 25 ...
Processing 26 ...
Processing 27 ...
Processing 28 ...
Processing 29 ...
Processing 30 ...
Processing 31 ...
Processing 32 ...
Processing 33 ...
Processing 34 ...
Processing 35 ...
Processing 36 ...
Processing 37 ...
Processing 38 ...
Processing 39 ...
Processing 40 ...
Processing 41 ...
Processing 42 ...
Processing 43 ...
Processing 44 ...
Processing 45 ...
Processing 46 ...
Processing 47 ...
Processing 48 ...
Processing 49 ...
Processing 50 ...
Processing 51 ...
Processing 52 ...
Processing 53 ...
Processing 54 ...
Processing 5