In [2]:
import pandas as pd
import numpy as np
import random
import string
import tensorflow as tf
import torch
import pandas as pd
import tika
import warnings
import nltk

from tensorflow.keras.layers import Input, Dense, Concatenate, Dropout, Bidirectional, RepeatVector
from tensorflow.keras.models import Model
from tensorflow.keras.utils import plot_model
from sklearn.metrics import classification_report
from sklearn.metrics import f1_score
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from kaggle.api.kaggle_api_extended import KaggleApi
from keras.utils import to_categorical
from transformers import BertTokenizer, BertModel
from catboost import CatBoostClassifier
from numpy.random import choice as ch
from faker import Faker
from itertools import chain
from tqdm import tqdm
from tika import parser

In [3]:
warnings.simplefilter(action='ignore', category=FutureWarning)

In [4]:
OKATO_REGIONS = '''01	Алтайский край
03	Краснодарский край
04	Красноярский край
05	Приморский край
07	Ставропольский край
08	Хабаровский край
10	Амурская область
11	Архангельская область
12	Астраханская область
14	Белгородская область
15	Брянская область
17	Владимирская область
18	Волгоградская область
19	Вологодская область
20	Воронежская область
22	Нижегородская область
24	Ивановская область
25	Иркутская область
26	Республика Ингушетия
27	Калининградская область
28	Тверская область
29	Калужская область
30	Камчатский край
32	Кемеровская область - Кузбасс
33	Кировская область
34	Костромская область
35	Республика Крым
36	Самарская область
37	Курганская область
38	Курская область
40	Город Санкт-Петербург город федерального значения	
41	Ленинградская область
42	Липецкая область
44	Магаданская область
45	Город Москва столица Российской Федерации город федерального значения	
46	Московская область
47	Мурманская область
49	Новгородская область
50	Новосибирская область
52	Омская область
53	Оренбургская область
54	Орловская область
56	Пензенская область
57	Пермский край
58	Псковская область
60	Ростовская область
61	Рязанская область
63	Саратовская область
64	Сахалинская область
65	Свердловская область
66	Смоленская область
67	Город федерального значения Севастополь	
68	Тамбовская область
69	Томская область
70	Тульская область
71	Тюменская область
73	Ульяновская область
75	Челябинская область
76	Забайкальский край
77	Чукотский автономный округ
78	Ярославская область
79	Республика Адыгея (Адыгея)
80	Республика Башкортостан
81	Республика Бурятия
82	Республика Дагестан
83	Кабардино-Балкарская Республика
84	Республика Алтай
85	Республика Калмыкия
86	Республика Карелия
87	Республика Коми
88	Республика Марий Эл
89	Республика Мордовия
90	Республика Северная Осетия-Алания
91	Карачаево-Черкесская Республика
92	Республика Татарстан (Татарстан)
93	Республика Тыва
94	Удмуртская Республика
95	Республика Хакасия
96	Чеченская Республика
97	Чувашская Республика - Чувашия
98	Республика Саха (Якутия)
99	Еврейская автономная область'''.split('\n')

In [5]:
regions = {}
for i in OKATO_REGIONS:
    row = i.split('\t')
    regions[row[0]] = row[1]

In [6]:
fake = Faker('ru_RU')
data = []

In [7]:
def generate_passport():
    region = random.choice(list(regions.keys()))
    year = str(random.choice([i for i in range(24)]))
    if len(year) == 1:
        year = f'0{year}'
    series = ''.join([str(random.randint(0, 9)) for i in range (6)])
    return f'{region} {year} {series}'

In [8]:
generate_passport()

'87 12 691805'

In [9]:
def generate_snils():
    nums = [
        random.randint(1, 1) if x == 0
        else '-' if x == 3
        else '-' if x == 7
        else ' ' if x == 11
        else random.randint(0, 9)
        for x in range(0, 12)
    ]

    cont = (nums[10] * 1) + (nums[9] * 2) + (nums[8] * 3) + \
           (nums[6] * 4) + (nums[5] * 5) + (nums[4] * 6) + \
           (nums[2] * 7) + (nums[1] * 8) + (nums[0] * 9)

    if cont in (100, 101):
        cont = '00'

    elif cont > 101:
        cont = (cont % 101)
        if cont in (100, 101): cont = '00'
        elif cont < 10: cont = '0' + str(cont)

    elif cont < 10: cont = '0' + str(cont)

    nums.append(cont)
    return ''.join([str(x) for x in nums])

In [10]:
generate_snils()

'137-094-019 53'

In [11]:
def ctrl_summ(nums, type):
    ctrl_type = {
        'n2_12': [7, 2, 4, 10, 3, 5, 9, 4, 6, 8],
        'n1_12': [3, 7, 2, 4, 10, 3, 5, 9, 4, 6, 8],
        'n1_10': [2, 4, 10, 3, 5, 9, 4, 6, 8],
    }
    n = 0
    l = ctrl_type[type]
    for i in range(0, len(l)):
        n += nums[i] * l[i]
    return n % 11 % 10

In [12]:
def generate_inn():
    l = ch([10, 12], p=[0.1, 0.9])
    nums = [
        random.randint(9, 9) if x == 0
        else random.randint(6, 6) if x == 1
        else random.randint(0, 9)
        for x in range(0, 9 if l == 10 else 10)
    ]

    if l == 10:
        n1 = ctrl_summ(nums, 'n1_10')
        nums.append(n1)

    elif l == 12:
        n2 = ctrl_summ(nums, 'n2_12')
        nums.append(n2)
        n1 = ctrl_summ(nums, 'n1_12')
        nums.append(n1)

    return ''.join([str(x) for x in nums])

In [13]:
generate_inn()

'9642914124'

In [14]:
temp = dict.fromkeys(set([fake.job() for i in range(10000)]))
jobs_list_fake = list(temp)

jobs_df = pd.read_csv('OKZ_jobs_list.csv', delimiter=',', header=11)[:3101]
jobs_df = jobs_df.iloc[:, 2:-3]
jobs_df = jobs_df.drop_duplicates()
jobs_df = jobs_df.reset_index(drop=True)

job_list = list(set.union(set(jobs_df['Наименование должности '].values), set(jobs_list_fake)))
job_list = list(set([item for item in job_list if type(item) == str]))

job_list = list(set([item.rstrip(' ') for item in job_list 
            if '(' not in item and 
            ')' not in item and 
            'Российской Федерации' not in item and
            'Федерального Собрания' not in item and
            'федерального органа' not in item
            ]))


def generate_job():
    return random.choice(job_list)

In [15]:
generate_job()

'Диспетчер отдела эксплуатации автохозяйства'

In [16]:
def generate_salary():
    # апрель 2019
    # https://dzen.ru/a/Xdz7rxjAYBYMxMeg, Росстат
    ranges = [
        (10000, 11280),
        (11280, 13000),
        (13000, 17000),
        (17000, 24820),
        (24820, 33900),
        (33900, 50000),
        (50000, 75000),
        (75000, 100000),
        (100000, 250000),
        (250000, 1000000)
    ]
    weights = [
        0.029,
        0.035,
        0.073,
        0.17,
        0.187,
        0.219,
        0.154,
        0.062,
        0.063,
        0.008
    ]
    cdf = np.cumsum(weights)
    u = random.random()
    index = np.searchsorted(cdf, u)
    salary = random.uniform(*ranges[index])
    return int(salary)


In [17]:
generate_salary()

10016

In [18]:
def generate_phone_number():
    patterns = [
        '+7##########',
        '+7 ### ### ## ##',
        '+7 ### ### ##-##',
        '+7 ### ###-## ##',
        '+7 ### ###-##-##',
        '+7 (###) ### ## ##',
        '+7 (###) ### ##-##',
        '+7 (###) ###-## ##',
        '+7 (###) ###-##-##',
        '8##########',
        '8 ### ### ## ##',
        '8 ### ### ##-##',
        '8 ### ###-## ##',
        '8 ### ###-##-##',
        '8 (###) ### ## ##',
        '8 (###) ### ##-##',
        '8 (###) ###-## ##',
        '8 (###) ###-##-##',
    ]
    return fake.bothify(random.choice(patterns))

In [19]:
generate_phone_number()

'+7 005 507-67 51'

In [20]:
num_records = 1000 # 2000 для ВКР, пока тестирую 1000 для преддипломной

In [21]:
data = []
for _ in range(num_records):
        gender = random.choice(["М", "Ж", 'Мужчина', 'Женщина', 'Муж', 'Жен'])
        full_name = fake.name_male() if gender in ['М', 'Муж', 'Мужчина'] else fake.name_female()
        birth_date = fake.date_of_birth(minimum_age=18, maximum_age=70)
        passport = generate_passport()
        address = random.choice([fake.address(), fake.address()[:-8]])
        phone = generate_phone_number()
        income = generate_salary()
        inn = generate_inn()
        snils = generate_snils()
        military_status = random.choice(['Годен', 'Не годен', 'Годен с ограничениями', 'Отсрочка', 'Альтернативная служба']) if gender in ['М', 'Муж', 'Мужчина'] else '-'
        job_experience = generate_job()
        marital_status = random.choice(["Холост", "Женат"]) if gender in ['М', 'Муж', 'Мужчина'] else random.choice(['Не замужем', 'Замужем'])
        education = random.choice(["Среднее", "Средне-специальное", "Высшее", "Незаконченное высшее"])

        data.append({
        "Полное имя": full_name,
        "Пол": gender,
        "Дата рождения": birth_date,
        "Паспорт": passport,
        "Место и адрес жительства": address,
        "Номер телефона": phone,
        "Сведения о доходах": income,
        "ИНН": inn,
        "СНИЛС": snils,
        "Отношение к воинской обязанности": military_status,
        "Сведения о трудовом стаже, предыдущих местах работы": job_experience,
        "Семейное положение": marital_status,
        "Данные об образовании, квалификации": education,
})

In [22]:
def generate_random_string():
    text = [random.choices(population=['?', '#', '!', ' '], weights=[0.7, 0.15, 0.1, 0.05], k=1) for i in range(random.randint(1,70))]
    temp = fake.bothify(''.join([item[0] for item in text]))

    translation_table = str.maketrans({
        ch: random.choice(f'абвгдеёжзийклмнопрстуфхцчшщъыьэюя{"абвгдеёжзийклмнопрстуфхцчшщъыьэюя".upper()}')
        for ch in string.ascii_letters
    })

    return temp.translate(translation_table)

In [23]:
generate_random_string()

'ыЯБНЩТ2аЩ5ОЖо цз6ЬЪйцлс8о ХКЦг7ЙсуМ8щйфЪ'

In [24]:
def generate_random_onlyletters_string():
    text = [random.choices(population=['?', ' '], weights=[0.9, 0.1], k=1) for i in range(random.randint(1,70))]
    temp = fake.bothify(''.join([item[0] for item in text]))

    
    translation_table = str.maketrans({
        ch: random.choice(f'абвгдеёжзийклмнопрстуфхцчшщъыьэюя{"абвгдеёжзийклмнопрстуфхцчшщъыьэюя".upper()}')
        for ch in string.ascii_letters
    })

    return temp.translate(translation_table)

In [25]:
generate_random_onlyletters_string()

'ЮКъЬлЦдб ъММхлвЛэъК'

In [26]:
def generate_INN_SNILS_like():
    text = [random.choices(population=['#', '!', ' '], weights=[0.7, 0.2, 0.1], k=1) for i in range(random.randint(6,14))]
    temp = [item[0] for item in text]

    text = fake.bothify(''.join(temp))
    ridx = random.randint(0, len(text) - 1)
    new_text = text[:ridx] + '-' + text[ridx + 1:]

    return new_text

In [27]:
generate_INN_SNILS_like()

'27104247-253'

In [28]:
def generate_passport_mimic():
    base_text = list(generate_passport())
    random.shuffle(base_text)
    return ''.join(base_text)

In [29]:
generate_passport_mimic()

'78 3836 6125'

In [30]:
def generate_INN_mimic():
    base_text = list(generate_inn())
    base_text = f'{random.choice([str(i) for i in range(0, 8)])}{generate_inn()[1:]}'
    return ''.join(base_text)

In [31]:
generate_INN_mimic()

'062592245281'

In [32]:
content = ''
with open('10000-russian-words-cyrillic-only.txt', 'r', encoding='utf-8') as f:
    content = f.readlines()
russian_words_dictionary = [i.replace('\n', '') for i in content]

In [33]:
def generate_words_string():
    word_count = random.randint(1, 4)
    digit_check = random.randint(0, 1)
    text = ''
    if digit_check:
        text = random.choices(population=russian_words_dictionary, k=word_count)
        digit_count = random.randint(1, 4)
        for i in range(digit_count):
            digit = ''.join(random.choices(population=[str(i) for i in range (10)], k=random.randint(1, 8)))
            text.append(digit)
        random.shuffle(text)
        return ' '.join(text)
    else:
        text = random.choices(population=russian_words_dictionary, k=word_count)
        return ' '.join(text)

In [34]:
generate_words_string()

'заключенный брэнд шея'

In [35]:
mappings = {
    'Полное имя': ['full_name', 'name', 'FIO'],
    'Пол': ['gender', 'sex', 'm_or_f'],
    'Дата рождения': ['birth_date', 'date_of_birth', 'dob', 'birthdate', 'bdate'],
    'Паспорт': ['passport_number', 'passport_id', 'passport_series_and_number', 'passport', 'pass', 'pass_id', 'pass_num', 'pass_number'],
    'Место и адрес жительства': ['address', 'residence_address', 'living_address', 'living_place'],
    'Номер телефона': ['phone_number', 'phone', 'mobile_phone', 'pnumber', 'p_number', 'phone_n', 'number'],
    'Сведения о доходах': ['income_info', 'salary_info', 'earnings_info', 'income', 'salary', 'earnings'],
    'ИНН': ['inn', 'EIN', 'ein', 'INN', 'tin', 'TIN'],
    'СНИЛС': ['snils', 'SNILS', 'inila', 'INILA', 'IIAN', 'iian'],
    'Отношение к воинской обязанности': ['military_service_info', 'military_status', 'mil_status', 'military_s', 'military_service_status'],
    'Сведения о трудовом стаже, предыдущих местах работы': ['work_experience', 'previous_jobs', 'employment_history', 'job_experience', 'work_years', 'job_years', 'employment_years'],
    'Семейное положение': ['marital_status', 'family_status', 'marital', 'marriage', 'fam_status'],
    'Данные об образовании, квалификации': ['education_info', 'qualification_info', 'degree_info', 'education', 'qualification', 'degree']
}
mappings_label = {
    'Полное имя': 1,
    'Пол': 2,
    'Дата рождения': 3,
    'Паспорт': 4,
    'Место и адрес жительства': 5,
    'Номер телефона': 6,
    'Сведения о доходах': 7,
    'ИНН': 8,
    'СНИЛС': 9,
    'Отношение к воинской обязанности': 10,
    'Сведения о трудовом стаже, предыдущих местах работы': 11,
    'Семейное положение': 12,
    'Данные об образовании, квалификации': 13,
    'Не является ПДн': 14
}
mappings_types = {
    'Полное имя': ['char', 'varchar', 'text'],
    'Пол': ['char', 'varchar', 'text'],
    'Дата рождения': ['char', 'varchar', 'text', 'date', 'time', 'datetime', 'timestamp'],
    'Паспорт': ['char', 'varchar', 'text'],
    'Место и адрес жительства': ['char', 'varchar', 'text'],
    'Номер телефона': ['char', 'varchar', 'text'], # числовые? но только те, что без ' ', '-', '()'
    'Сведения о доходах': ['char', 'varchar', 'text', 'integer', 'numeric', 'decimal'], # float? double?
    'ИНН': ['char', 'varchar', 'text', 'integer', 'numeric', 'decimal'],
    'СНИЛС': ['char', 'varchar', 'text'],
    'Отношение к воинской обязанности': ['char', 'varchar', 'text'],
    'Сведения о трудовом стаже, предыдущих местах работы': ['char', 'varchar', 'text'],
    'Семейное положение': ['char', 'varchar', 'text'],
    'Данные об образовании, квалификации': ['char', 'varchar', 'text'],
    'Не является ПДн': ['char', 'varchar', 'text']
}

In [36]:
df = pd.DataFrame(data)

In [37]:
df.head(5)

Unnamed: 0,Полное имя,Пол,Дата рождения,Паспорт,Место и адрес жительства,Номер телефона,Сведения о доходах,ИНН,СНИЛС,Отношение к воинской обязанности,"Сведения о трудовом стаже, предыдущих местах работы",Семейное положение,"Данные об образовании, квалификации"
0,Эдуард Яковлевич Казаков,Муж,1989-06-30,38 20 901819,"клх Тында, наб. Белорусская, д. 17, 551542",+7 817 317-35-68,27015,962691080168,179-602-853 07,Отсрочка,Копировщик,Женат,Среднее
1,Комаров Илья Антипович,Муж,2001-11-26,22 13 324210,"п. Дзержинск, алл. Советской Армии, д. 971 стр. 6",8 228 634 97 07,16727,967653358414,117-680-024 49,Не годен,Командир дноочистительного снаряда,Женат,Средне-специальное
2,Рябов Олег Димитриевич,М,1959-07-10,08 08 276787,"г. Плесецк, пр. Саратовский, д. 23 к. 867",8 (704) 961-71 21,162195,960663069754,148-705-478 92,Не годен,Заведующий опытным полем,Женат,Высшее
3,Фортунат Борисович Кириллов,Муж,1991-06-07,76 06 790058,"г. Шаховская, пр. Мичурина, д. 9",+7 (769) 443 02-98,21517,9680333561,109-260-382 40,Годен,Медицинская сестра милосердия,Холост,Незаконченное высшее
4,Нинель Геннадьевна Корнилова,Ж,1963-11-19,47 22 985854,"г. Кириши, алл. Щорса, д. 339 стр. 6, 219314",8 986 800-88 25,27300,968161868483,197-173-452 05,-,Зубной врач,Замужем,Среднее


In [38]:
df['Сведения о трудовом стаже, предыдущих местах работы'].str.len().max()

121

In [39]:
df.shape

(1000, 13)

In [40]:
df_rdy = pd.DataFrame({
    'type': [], 
    'data': [], 
    'label': []
})

for col in df.columns: 
    for i in range(num_records): 
        name = random.choice(mappings[col]) 
        label = mappings_label[list(filter(lambda x: name in mappings[x], mappings))[0]]

        df_rdy = df_rdy.append({
        'type': random.choice(mappings_types[col]),
        'data': df[col].iloc[i],
        'label': label
        }, ignore_index=True
        )

In [41]:
df_rdy

Unnamed: 0,type,data,label
0,varchar,Эдуард Яковлевич Казаков,1.0
1,varchar,Комаров Илья Антипович,1.0
2,char,Рябов Олег Димитриевич,1.0
3,text,Фортунат Борисович Кириллов,1.0
4,char,Нинель Геннадьевна Корнилова,1.0
...,...,...,...
12995,varchar,Незаконченное высшее,13.0
12996,text,Незаконченное высшее,13.0
12997,char,Средне-специальное,13.0
12998,varchar,Незаконченное высшее,13.0


In [42]:
defpath = 'books\\'
books = [
    "voina-i-mir.epub",
    "prestuplenie-i-nakazanie.epub",
    "Mikhail_Bulgakov__Master_I_Margarita.epub",
    "Oruell-1984.epub"
]

for fileIn in books:
    parsed = parser.from_file(defpath + fileIn)
    content = parsed["content"]
    fileOut = fileIn.replace('epub', 'txt')

    with open(defpath +fileOut, 'w', encoding='utf-8') as fout:
        fout.write(content)

2024-05-24 01:00:52,363 [MainThread  ] [WARNI]  Failed to see startup log message; retrying...


In [43]:
nltk.download('punkt')
tokenizer_t = nltk.sent_tokenize

targets = [book.replace('epub', 'txt') for book in books]
sentences = []
for target in targets:
    temp = tokenizer_t(content)
    for i in temp:
        sentences.append(i)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\minichazer\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [44]:
sentences = [
    sentence.replace('\n', '').replace('\xa0—', '').replace('\xa0', '')
    for sentence in sentences
    ]

In [45]:
def get_random_sentence(sentence_length: int):
    while True:
        temp = random.choice(sentences)
        if len(temp) < sentence_length:
            return temp


In [46]:
get_random_sentence(128)

'—Удивляюсь, она у меня была полная.'

In [47]:
generation_methods = {
    'just_string': generate_random_onlyletters_string,
    'string_with_digits': generate_random_string,
    'INN-like': generate_INN_SNILS_like,
    'random_words': generate_words_string,
    'mimic_INN': generate_INN_mimic,
    'mimic_passport': generate_passport_mimic,
    'get_random_sentence': lambda: get_random_sentence(128)
}

In [48]:
for col in df.columns:
    for i in range(num_records * 2):
        method_choice = random.choice(list(generation_methods.keys()))
        text = generation_methods[method_choice]()
        
        df_rdy = df_rdy.append({
            'type': random.choice(mappings_types['Не является ПДн']),  # str, integer, bigint, datetime, numeric
            'data': text,
            'label': 14
        }, ignore_index=True)

In [49]:
df_rdy

Unnamed: 0,type,data,label
0,varchar,Эдуард Яковлевич Казаков,1.0
1,varchar,Комаров Илья Антипович,1.0
2,char,Рябов Олег Димитриевич,1.0
3,text,Фортунат Борисович Кириллов,1.0
4,char,Нинель Геннадьевна Корнилова,1.0
...,...,...,...
38995,char,На всей скамье произошло легкое движение.,14.0
38996,text,3-1648,14.0
38997,char,267847503854,14.0
38998,varchar,ГаЙфгоЕ7Д2э48Щт4А,14.0


In [50]:
tokenizer = BertTokenizer.from_pretrained(
    'google-bert/bert-base-uncased', 
    return_attention_mask=False,
    return_token_type_ids=False
)
model_bert = BertModel.from_pretrained('google-bert/bert-base-uncased')

In [51]:
print(df_rdy.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39000 entries, 0 to 38999
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   type    39000 non-null  object 
 1   data    39000 non-null  object 
 2   label   39000 non-null  float64
dtypes: float64(1), object(2)
memory usage: 914.2+ KB
None


In [52]:
df_rdy['type'] = df_rdy['type'].astype(str)
df_rdy['data'] = df_rdy['data'].astype(str)
df_rdy_part = df_rdy.sample(n=num_records * 39) # 26
df_rdy_part.reset_index(drop=True, inplace=True)
df_rdy_part

Unnamed: 0,type,data,label
0,varchar,77686 долгосрочный 04609844 33553476,14.0
1,char,267576949106,14.0
2,text,00869381 05,14.0
3,varchar,Он продолжал:Цели этих трех групп совершенно н...,14.0
4,char,—Сент-Мартин?,14.0
...,...,...,...
38995,varchar,"д. Добрянка, ш. Садовое, д. 8/9",5.0
38996,char,5р9Ой3мъхвъЁФ н4ОЛ 6Дл62дхгтЁЖъъ2ое2н,14.0
38997,varchar,Мужчина,2.0
38998,char,"Мне все равно, что вы с ней сделаете.",14.0


In [53]:
lb = LabelEncoder()
df_rdy_part['type'] = lb.fit_transform(df_rdy_part['type'])
df_rdy_part

Unnamed: 0,type,data,label
0,9,77686 долгосрочный 04609844 33553476,14.0
1,0,267576949106,14.0
2,6,00869381 05,14.0
3,9,Он продолжал:Цели этих трех групп совершенно н...,14.0
4,0,—Сент-Мартин?,14.0
...,...,...,...
38995,9,"д. Добрянка, ш. Садовое, д. 8/9",5.0
38996,0,5р9Ой3мъхвъЁФ н4ОЛ 6Дл62дхгтЁЖъъ2ое2н,14.0
38997,9,Мужчина,2.0
38998,0,"Мне все равно, что вы с ней сделаете.",14.0


In [54]:
def one_hot_encode(text, num_classes=255):
    one_hot = to_categorical(text, num_classes=num_classes)
    return one_hot

In [55]:
df_rdy_part['type'] = df_rdy_part['type'].apply(one_hot_encode)
df_rdy_part

Unnamed: 0,type,data,label
0,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",77686 долгосрочный 04609844 33553476,14.0
1,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",267576949106,14.0
2,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...",00869381 05,14.0
3,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",Он продолжал:Цели этих трех групп совершенно н...,14.0
4,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",—Сент-Мартин?,14.0
...,...,...,...
38995,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","д. Добрянка, ш. Садовое, д. 8/9",5.0
38996,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",5р9Ой3мъхвъЁФ н4ОЛ 6Дл62дхгтЁЖъъ2ое2н,14.0
38997,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",Мужчина,2.0
38998,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","Мне все равно, что вы с ней сделаете.",14.0


In [56]:
sample_size = int(num_records * 39)
df_rdy_part_small = df_rdy_part.sample(sample_size)
df_rdy_part_small.reset_index(drop=True, inplace=True)
df_rdy_part_small

Unnamed: 0,type,data,label
0,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",500 44 64733,14.0
1,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...",8- 7835,14.0
2,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","6Книга: …едой, работой…здесь: …едой, питьем, р...",14.0
3,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",660698481013,14.0
4,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","На площади стояло несколько тысяч человек, сре...",14.0
...,...,...,...
38995,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",спонсор значимость,14.0
38996,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","—На площади Победы, у памятника.",14.0
38997,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",дрянь уложить убить 4864342 208 4125067 278,14.0
38998,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...",960707903754,8.0


In [57]:
def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

In [58]:
new_df = pd.DataFrame(columns=df_rdy_part_small.columns)
block_size = int(df_rdy_part_small.shape[0] / 10) - 1
blocks = [df_rdy_part_small[i:i+block_size] for i in range(0, len(df_rdy_part_small), block_size)]

In [59]:
blocks[10]

Unnamed: 0,type,data,label
38990,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",Сейчас он видел только одно: дубинку в руке на...,14.0
38991,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",К Тмммй,14.0
38992,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",кирпич мало чуждый относить,14.0
38993,"[0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",963119934550,8.0
38994,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",—И чай настоящий.,14.0
38995,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",спонсор значимость,14.0
38996,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","—На площади Победы, у памятника.",14.0
38997,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",дрянь уложить убить 4864342 208 4125067 278,14.0
38998,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...",960707903754,8.0
38999,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",344 88311 21,14.0


In [60]:
def process_block(block: pd.DataFrame, model, tokenizer):
    texts = block['data'].tolist()
    tokenized_texts = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in tokenized_texts.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    embeddings = embeddings.cpu().numpy()
    temp = block.copy()
    temp['data'] = embeddings.tolist()
    return pd.DataFrame(temp)

In [61]:
process_block(blocks[10], model_bert, tokenizer)

Unnamed: 0,type,data,label
38990,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.025002039968967438, 0.015757350251078606, ...",14.0
38991,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.027518242597579956, 0.019459927454590797, ...",14.0
38992,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.040391117334365845, 0.008245470933616161, ...",14.0
38993,"[0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.04965107515454292, 0.020491870120167732, -...",8.0
38994,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.019960597157478333, 0.024940378963947296, ...",14.0
38995,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.04264238849282265, 0.007093786261975765, -...",14.0
38996,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.023757318034768105, 0.01897738128900528, -...",14.0
38997,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.04017196595668793, 0.014388076029717922, -...",14.0
38998,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...","[-0.043378282338380814, 0.010371110402047634, ...",8.0
38999,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.05355649068951607, 0.01728801429271698, 8....",14.0


In [62]:
process_block(blocks[10], model_bert, tokenizer).head(1).iloc[0]

type     [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
data     [-0.025002039968967438, 0.015757350251078606, ...
label                                                 14.0
Name: 38990, dtype: object

In [358]:
for i, block in enumerate(tqdm(blocks)):
    new_block = process_block(block, model_bert, tokenizer)
    new_block.to_pickle(f'df-chunks\\{i}_chunk.pkl')

100%|██████████| 11/11 [1:01:36<00:00, 336.02s/it]


In [63]:
dfs = []
for i in range(11):
    filename = f'df-chunks\\{i}_chunk.pkl'
    df = pd.read_pickle(filename)
    dfs.append(df)
df_rdy_part_small = pd.concat(dfs, ignore_index=True)
df_rdy_part_small

Unnamed: 0,type,data,label
0,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.026118218898773193, 0.018988119438290596, ...",14.0
1,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.03868452087044716, -0.0006962965126149356,...",11.0
2,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...","[-0.03977047652006149, 0.037099793553352356, -...",5.0
3,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.029298972338438034, 0.005822142586112022, ...",13.0
4,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.054089609533548355, 0.016389301046729088, ...",5.0
...,...,...,...
38995,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.03346395492553711, 0.02389773726463318, -0...",14.0
38996,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.01887720637023449, -0.007937731221318245, ...",10.0
38997,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.04495000094175339, -0.0019072296563535929,...",14.0
38998,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...","[-0.03291013464331627, 0.01871037669479847, -0...",14.0


In [64]:
save_point = df_rdy_part_small.copy()

In [65]:
df_rdy_part_small['label']

0        14.0
1        11.0
2         5.0
3        13.0
4         5.0
         ... 
38995    14.0
38996    10.0
38997    14.0
38998    14.0
38999     4.0
Name: label, Length: 39000, dtype: float64

In [66]:
def one_hot_encode(text, num_classes=15):
    one_hot = to_categorical(text, num_classes=num_classes)
    return one_hot

In [67]:
def remove_first_element(arr):
    return arr[1:]

In [68]:
df_rdy_part_small['label'] = df_rdy_part_small['label'].astype({'label':int})
df_rdy_part_small['label'] = df_rdy_part_small['label'].apply(one_hot_encode)
df_rdy_part_small['label'] = df_rdy_part_small['label'].apply(remove_first_element)

In [69]:
df_rdy_part_small

Unnamed: 0,type,data,label
0,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.026118218898773193, 0.018988119438290596, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
1,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.03868452087044716, -0.0006962965126149356,...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
2,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...","[-0.03977047652006149, 0.037099793553352356, -...","[0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, ..."
3,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.029298972338438034, 0.005822142586112022, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
4,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.054089609533548355, 0.016389301046729088, ...","[0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, ..."
...,...,...,...
38995,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.03346395492553711, 0.02389773726463318, -0...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
38996,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.01887720637023449, -0.007937731221318245, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
38997,"[1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.04495000094175339, -0.0019072296563535929,...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
38998,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, ...","[-0.03291013464331627, 0.01871037669479847, -0...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."


In [70]:
df_rdy_part_small['label'].shape

(39000,)

In [71]:
i_type = Input(shape=(255,), dtype='float32', name='i_type') # type
i_data = Input(shape=(768,), dtype='float32', name='i_data') # data
type_dense = Dense(128, activation='relu')(i_type)
data_dense = Dense(128, activation='relu')(i_data)
concat = Concatenate()([type_dense, data_dense])
dropout = Dropout(0.2)(concat)
output = Dense(14, activation='softmax')(dropout)
model = Model(inputs=[i_type, i_data], outputs=output)

In [72]:
model.summary()

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 i_type (InputLayer)         [(None, 255)]                0         []                            
                                                                                                  
 i_data (InputLayer)         [(None, 768)]                0         []                            
                                                                                                  
 dense (Dense)               (None, 128)                  32768     ['i_type[0][0]']              
                                                                                                  
 dense_1 (Dense)             (None, 128)                  98432     ['i_data[0][0]']              
                                                                                              

In [73]:
model.compile(
    optimizer='nadam', 
    loss='categorical_crossentropy', 
    metrics=[
        tf.keras.metrics.Precision(), 
        tf.keras.metrics.Recall(), 
        'accuracy'])

In [74]:
train_df, test_df = train_test_split(df_rdy_part_small, test_size=0.2, random_state=42)

X_train = train_df[['type', 'data']]
y_train = train_df['label']

X_test = test_df[['type', 'data']]
y_test = test_df['label']

type_train = np.stack(X_train['type'].values)
data_train = np.stack(X_train['data'].values)

y_train = np.stack(y_train.values)

type_test = np.stack(X_test['type'].values)
data_test = np.stack(X_test['data'].values)

y_test = np.stack(y_test.values)

In [75]:
data_train.shape

(31200, 768)

In [76]:
history = model.fit(x=[type_train, data_train], y=y_train,
                    epochs=10,
                    validation_split=0.2)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [77]:
model.evaluate(x=[type_test, data_test], y=y_test)



[0.04847342520952225,
 0.9838358163833618,
 0.9832051396369934,
 0.9834615588188171]

In [79]:
model.save('models\\128_nadam_2drop.h5')
model.save('models\\128_nadam_2drop.keras')

In [375]:
eval_test_df = pd.DataFrame(columns=['type', 'data'])

vals = {
    'Даничкин Антон Сергеевич': 'char',
    'Безопасность Безопасность Безопасность': 'text',

    'Муж': 'char',
    'Х': 'text',

    '01-01-1990': 'char',
    '12 56 78': 'text',

    '72 20 567123': 'char',
    '73 40593 848583468': 'text',

    'ЯНАО, г. Саеехард, ул. Кошшшшкино, д. 500': 'varchar',
    'Где-то там, 620, может быть и не там, да и не совсем уверен': 'text',

    '+7 922 28 60 923': 'char',
    '2 147 483 647': 'text',

    '70000': 'char',
    '250000000000000': 'text',

    '963538512189': 'char',
    '123123456456': 'text',

    '146-533-459 14': 'char',
    '123-123-123-123': 'text',

    'Годен с ограничениями': 'char',
    'Это никуда не годится': 'text',

    'Блогер': 'char',
    'Размышления и полет фантазии': 'text',

    'Не замужем': 'char',
    'Под окном': 'text',

    'Незаконченное высшее': 'char',
    'Два маленьких, два больших и два средних': 'text',   
}

for key, value in vals.items():
    eval_test_df = eval_test_df.append({
        'data': key,
        'type': value,
    }, ignore_index=True)

In [376]:
eval_test_df = pd.DataFrame(columns=['type', 'data'])

vals = {
    'Даничкин Антон Сергеевич': 'char',
    'Безопасность Безопасность Безопасность': 'text',
    'Муж': 'char',
    'Х': 'text',
    '01-01-1990': 'char',
    '12 56 78': 'text',
    '72 20 567123': 'char',
    '73 40593 848583468': 'text',
    'ЯНАО, г. Саеехард, ул. Кошшшшкино, д. 500': 'varchar',
    'Где-то там, 620, может быть и не там, да и не совсем уверен': 'text',
    '+7 922 28 60 923': 'char',
    '2 147 483 647': 'text',
    '70000': 'char',
    '250000000000000': 'text',
    '963538512189': 'char',
    '123123456456': 'text',
    '146-533-459 14': 'char',
    '123-123-123-123': 'text',
    'Годен с ограничениями': 'char',
    'Это никуда не годится': 'text',
    'Блогер': 'char',
    'Размышления и полет фантазии': 'text',
    'Не замужем': 'char',
    'Под окном': 'text',
    'Незаконченное высшее': 'char',
    'Два маленьких, два больших и два средних': 'text',
}

for key, value in vals.items():
    eval_test_df = eval_test_df.append({
        'data': key,
        'type': value,
    }, ignore_index=True)

In [377]:
eval_test_df

Unnamed: 0,type,data
0,char,Даничкин Антон Сергеевич
1,text,Безопасность Безопасность Безопасность
2,char,Муж
3,text,Х
4,char,01-01-1990
5,text,12 56 78
6,char,72 20 567123
7,text,73 40593 848583468
8,varchar,"ЯНАО, г. Саеехард, ул. Кошшшшкино, д. 500"
9,text,"Где-то там, 620, может быть и не там, да и не ..."


In [378]:
eval_test_df_original = eval_test_df.copy()

In [379]:
eval_test_df['type'] = lb.fit_transform(eval_test_df['type'])
eval_test_df['type'] = eval_test_df['type'].apply(one_hot_encode)
eval_test_df['data'] = eval_test_df['data'].apply(lambda x: embed_bert_cls(x, model_bert, tokenizer))

type_eval = np.stack(eval_test_df['type'].values)
data_eval = np.stack(eval_test_df['data'].values)

type_eval = np.zeros((type_eval.shape[0], 255), dtype=np.float32)
type_eval[:, :type_eval.shape[1]] = type_eval

In [380]:
predictions = model.predict(
    {
        'i_type': type_eval, 
        'i_data': data_eval
    })



In [381]:
predictions_list = predictions.tolist()

In [393]:
predictions_df = pd.DataFrame(columns=['type', 'data', 'prediction'])

for i in range(len(predictions_list)):
    col1, col2 = eval_test_df_original['type'][i], eval_test_df_original['data'][i]
    sorted_indices = sorted(range(len(predictions_list[i])), key=lambda k: predictions_list[i][k], reverse=True)
    filtered_indices = [idx for idx in sorted_indices if predictions_list[i][idx] >= 0.3]
    predictions_str = ', '.join([f'{list(mappings_label.keys())[list(mappings_label.values()).index(idx+1)]} - {predictions_list[i][idx]:.4f}' for idx in filtered_indices])
    predictions_df = predictions_df.append({
        'type': col1,
        'data': col2,
        'prediction': predictions_str
    }, ignore_index=True)

predictions_df

Unnamed: 0,type,data,prediction
0,char,Даничкин Антон Сергеевич,Полное имя - 0.9959
1,text,Безопасность Безопасность Безопасность,Не является ПДн - 0.9998
2,char,Муж,Пол - 0.9967
3,text,Х,Не является ПДн - 0.9992
4,char,01-01-1990,Дата рождения - 0.9666
5,text,12 56 78,Не является ПДн - 0.8857
6,char,72 20 567123,Паспорт - 0.9481
7,text,73 40593 848583468,Не является ПДн - 0.9740
8,varchar,"ЯНАО, г. Саеехард, ул. Кошшшшкино, д. 500",Место и адрес жительства - 0.9997
9,text,"Где-то там, 620, может быть и не там, да и не ...",Не является ПДн - 0.9998


In [32]:
# %load_ext tensorboard

In [16]:
import datetime
from tensorboard.plugins.hparams import api as hp

In [394]:
HP_NUM_UNITS = hp.HParam('num_units', hp.Discrete([64, 128, 256]))
HP_DROPOUT = hp.HParam('dropout', hp.Discrete([0.2, 0.3, 0.4]))
HP_OPTIMIZER = hp.HParam('optimizer', hp.Discrete(['rmsprop', 'nadam', 'adam', 'adamax']))

METRIC_ACCURACY = 'accuracy'

with tf.summary.create_file_writer('logs/hparam_tuning').as_default():
  hp.hparams_config(
    hparams=[HP_NUM_UNITS, HP_DROPOUT, HP_OPTIMIZER],
    metrics=[hp.Metric(METRIC_ACCURACY, display_name='Accuracy')],
  )

In [395]:
def train_test_model(hparams):
    i_type = Input(shape=(255,), dtype='float32', name='i_type') # type
    i_data = Input(shape=(768,), dtype='float32', name='i_data') # data
    type_dense = Dense(hparams[HP_NUM_UNITS], activation='relu')(i_type)
    data_dense = Dense(hparams[HP_NUM_UNITS], activation='relu')(i_data)
    concat = Concatenate()([type_dense, data_dense])
    dropout = Dropout(hparams[HP_DROPOUT])(concat)
    output = Dense(14, activation='softmax')(dropout)
    model = Model(inputs=[i_type, i_data], outputs=output)

    model.compile(
        optimizer=hparams[HP_OPTIMIZER], 
        loss='categorical_crossentropy', 
        metrics=[
            tf.keras.metrics.Precision(), 
            tf.keras.metrics.Recall(), 
            'accuracy'])

    model.fit(x=[type_train, data_train], y=y_train, epochs=4)
    accuracy = model.evaluate([type_test, data_test], y_test)[-1]
    return accuracy
        

In [19]:
def run(run_dir, hparams):
  with tf.summary.create_file_writer(run_dir).as_default():
    hp.hparams(hparams)  # record the values used in this trial
    accuracy = train_test_model(hparams)
    tf.summary.scalar(METRIC_ACCURACY, accuracy, step=1)

In [396]:
session_num = 0

for num_units in HP_NUM_UNITS.domain.values:
  for dropout_rate in HP_DROPOUT.domain.values:
    for optimizer in HP_OPTIMIZER.domain.values:
      hparams = {
          HP_NUM_UNITS: num_units,
          HP_DROPOUT: dropout_rate,
          HP_OPTIMIZER: optimizer,
      }
      run_name = "run-%d" % session_num
      # run_name = "run-%d" % session_num
      print('--- Starting trial: %s' % run_name)
      print({h.name: hparams[h] for h in hparams})
      run('logs/hparam_tuning/' + run_name, hparams)
      session_num += 1

--- Starting trial: run-0
{'num_units': 64, 'dropout': 0.2, 'optimizer': 'adam'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-1
{'num_units': 64, 'dropout': 0.2, 'optimizer': 'adamax'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-2
{'num_units': 64, 'dropout': 0.2, 'optimizer': 'nadam'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-3
{'num_units': 64, 'dropout': 0.2, 'optimizer': 'rmsprop'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-4
{'num_units': 64, 'dropout': 0.2, 'optimizer': 'sgd'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-5
{'num_units': 64, 'dropout': 0.3, 'optimizer': 'adam'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-6
{'num_units': 64, 'dropout': 0.3, 'optimizer': 'adamax'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-7
{'num_units': 64, 'dropout': 0.3, 'optimizer': 'nadam'}
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4
--- Starting trial: run-

In [None]:
%tensorboard --logdir logs/hparam_tuning

# Результаты относительно разных гиперпараметров 

<div>
<img src="images\results_list.png" width="800"/>
</div>

# График результатов
<div>
<img src="images\results_table.png" width="800"/>
</div>