# Генерация синтетических данных на основе связанных таблиц

In [1]:
%load_ext watermark

In [None]:
%watermark

In [None]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [None]:
import pandas as pd
import sqlalchemy
import multi_gen_func as mgf
from sdv.metadata import MultiTableMetadata
from sdv.multi_table import HMASynthesizer
from sdv.evaluation.multi_table import evaluate_quality, run_diagnostic

# Глобальные ограничения
1. **Размер таблиц**. Чем длиннее и шире таблицы, тем больше ресурсов будет использоваться. В тестовом примере максимальный размер - 30000 строк и 11 полей (после коррекции связей между таблицами, подробнее в соответствующем блоке)
2. **Глубина связей**. Для оптимальной работы необходимо ограничиться вторым уровнем глубины, то есть table1->table2->table3, где **->** это связь типа *основная_таблица -> дочерняя*. При добавлении ссылки table3->table4 потребление ресурсов возрастает в разы

*******

# Базовая конфигурация
В данной секции необходимо определить базовую конфигурацию данных, с которыми идет работа. Далее подробнее о каждой ячейке

### Первичные ключи

Конфиг первичных ключей - словарь типа {имя_таблицы: имя_поля }

### Ограничение: 
**Данное решение запрещает использовать составные первичные ключи. В данном случае ключевые поля нужно свести к единственному** (можно использовать хеш от значений данных полей)


In [None]:
pkeys = {'bookings': 'book_ref',
         'tickets': 'ticket_no',
         'ticket_flights': 'key',
         'flights': 'flight_id',
         'airports': 'airport_code',
         'aircrafts': 'aircraft_code',
         'seats': 'key'}

### Регулярки. Опциональная ячейка
Если есть желание добавить регулярку, то можно создать словарь типа {имя_таблицы: {имя_поля: регулярка} }

In [None]:
regex = {'flights': {'flight_no': 'PG[0-9]{5}',
                     'aircraft_code': '[0-9A-Z]{3}',
                     'arrival_airport': '[A-Z]{3}',
                     'departure_airport': '[A-Z]{3}',
                     'flight_id': '[0-9]{5}'},
         'bookings': {'book_ref': '[A-Z0-9]{5}'},
         'tickets': {'ticket_no': '[0-9]{10}',
                     'book_ref': '[A-Z0-9]{5}',
                     'passenger_id': '[0-9]{4} [0-9]{6}'},
         'ticket_flights': {'ticket_no': '[0-9]{10}',
                            'flight_id': '[0-9]{5}'},
         'airports': {'airport_code': '[A-Z]{3}'},
         'aircrafts': {'aircraft_code': '[0-9A-Z]{3}'},
         'seats': {'aircraft_code': '[0-9A-Z]{3}',
                   'seat_no': '[0-9A-K]'}
        }

### Отношения и ключи
Здесь описываются все связи между таблицами

Словарь из кортежей типа:

{ (имя_родительской_таблицы, имя_дочерней_таблицы): (первичный_ключ_родительской, внешний_ключ_дочерней) }

### Ограничение
Если между таблицами имеется **более одной связи**, то для обхода уникальности ключей словаря необходимо добавить **третий элемент** в один из кортежей-ключей, пример с таблицами airports и flights ниже

In [None]:
relations_and_keys = {('bookings', 'tickets'): ('book_ref', 'book_ref'),
                      ('tickets', 'ticket_flights'): ('ticket_no', 'ticket_no'),
                      ('flights', 'ticket_flights'): ('flight_id', 'flight_id'),
                      ('airports', 'flights'): ('airport_code', 'departure_airport'),
                      ('airports', 'flights', 1): ('airport_code', 'arrival_airport'),
                      ('aircrafts', 'flights'): ('aircraft_code', 'aircraft_code'),
                      ('aircrafts', 'seats'): ('aircraft_code', 'aircraft_code')}

### Дополнительно скрываемые поля
Пояснение **для категориальных или текстовых данных**: в пакете sdv существует тип id, который гарантирует обезличенность данных. По умолчанию данный тип получают все ключи, которые представляются в виде некой инкрементальной числовой или символьной последовательности (зависит от исходных данных). Для более реалистичного внешнего вида этим полям можно задать шаблон регулярного выражения для генерации (подобная ячейка находится выше). 

В случае, если есть необходимость скрыть неключевые текстовые/категориальные поля, создается словарь типа {имя_таблицы: имя_поля }

In [None]:
other_important_fields = {'tickets': 'passenger_id', 
                          'flights': 'flight_no',
                          'seats': 'seat_no'}

### Кастомные типы
Здесь можно задать другие типы полей, исчерпывающий список по ссылкам ниже:

https://docs.sdv.dev/sdv/reference/metadata-spec/sdtypes#conceptual-sdtypes

https://faker.readthedocs.io/en/master/providers.html

Для использования достаточно добавить название типа (в случае остальных типов sdv) или просто название функции (в случае пакета Faker).

Итоговый объект - словарь типа {имя_таблицы: [имя_поля, тип] }

In [None]:
other_types_fields = {'tickets': ['passenger_name', 'name']}

### Работа с SQL:

Если исходные данные тянутся из БД, то необходимо 3 объекта:
1. sqlalchemy engine
2. строка-название схемы в БД
3. sql-конфиг. О нем подробнее:

Создается словарь типа {имя_таблицы: аргументы}, где аргументом является либо **None**, либо **словарь**:

В случае **None** функция вытянет данные с аргументами по умолчанию, а именно - все поля и лимит 30000

Если нужны не все (или дополнительные поля), а также больше/меньше строк, их можно передать в виде **словаря** {ключ_словаря: соответствующее_значение}:

**Ключ словаря: fields**

Соответствующее значение: строка, которую вы написали бы в случае обычного sql запроса после ключевого слова SELECT

**Ключ словаря: limit**

Соответствующее значение: либо строка-пробел (' ') для выгрузки всей таблицы, либо строка типа LIMIT N, где N - количество необходимых строк

**Все образцы ниже:**

In [None]:
engine = sqlalchemy.create_engine('postgresql://postgres:1234@localhost:5432/demo')
SCHEMA = 'bookings'
sql = {'bookings': None,
       'airports': None,
       'aircrafts': None,
       'flights': {'fields': "*, scheduled_departure + interval '1 day' as constraint_date"},
       'ticket_flights': {'fields': '*, md5((ticket_no || flight_id)::bytea) AS key',
                          'limit': ' '},
       'tickets': {'fields': 'ticket_no, book_ref, passenger_id, passenger_name'},
       'seats': {'fields': '*, md5((aircraft_code || seat_no)::bytea) AS key'}}

### Работа с CSV-файлами
Если исходные данные загружаются из csv-файлов, необходимо создать один основной словарь и один опциональный:
1. **Основной** (dates в образце) - конфиг для полей, содержащих даты для корректного парсинга. Формат - {table_name: [data_fields] }, где [data_fields] - список из полей, которые содержат даты в пределах таблицы table_name
2. **Опциональный** (csv_names в образце) - для случая, когда имена csv файлов не совпадают с заданными ранее в словаре первичных ключей названиями таблиц (без учета расширения). Формат - {table_name: file_name.csv }


In [None]:
dates = {'bookings': ['book_date'],
         'flights': ['scheduled_departure', 
                     'scheduled_arrival', 
                     'actual_departure', 
                     'actual_arrival',
                     'constraint_date']}
csv_names = {'tickets': 'tickets.csv',
             'bookings': 'bookings.csv',
             'flights': 'flights.csv',
             'ticket_flights': 'ticket_flights.csv',
             'airports': 'airports.csv',
             'seats': 'seats.csv',
             'aircrafts': 'aircrafts.csv'}

*****

# Загрузка данных

### SQL interface
Необходимо передать sql-конфиг, схему в БД и sqlalchemy-движок.

В результате будет получен словарь, содержащий датафреймы. Каждый датафрейм - таблица из БД в соответствии с конфигом.

Документация функции и образец ниже:

In [None]:
help(mgf.read_sql)

In [None]:
df = mgf.read_sql(sql, SCHEMA, engine)

### CSV interface. 
Здесь по умолчанию необходимо передать путь к csv-файлам. Далее все зависит от того, совпадают ли имена таблиц и файлов (True по умолч):
1. Если да - второй аргумент True, передаем конфиг первичных ключей как аргумент pkeys

2. Если нет - False, далее нужно передать соответствующий имен csv файлов как аргумент names

В конце передается конфиг для полей с датой как аргумент dates, если таких полей нет, то его можно не передавать

В результате будет получен словарь, содержащий датафреймы. Каждый датафрейм - таблица из csv-файла в соответствии с конфигом

In [None]:
help(mgf.read_csv)

Имена совпадают:

In [None]:
df = mgf.read_csv('csvs/', True, pkeys=pkeys, dates=dates)

Имена не совпадают

In [None]:
df = mgf.read_csv('csvs/', False, names=csv_names, dates=dates)

****

# Предобработка данных

### Связи между таблицами
**Пояснение:**
sdv не может работать, если в связанных таблицах есть значения внешнего ключа, отсутствующие в значениях первичного ключа родительской таблице. 

При полной выборке без лимитов можно отказаться от преобразований. Если же выборка неполная, то данной фукнции необходимо передать прежде полученный словарь **(далее схема)** из датафреймов и конфиг отношений и ключей

In [None]:
help(mgf.correct_relations)

In [None]:
mgf.correct_relations(df, relations_and_keys)

Кастомная печать схемы:

In [None]:
mgf.print_len(df)

### Приведение полей с датами к оптимальному для работы типу

In [None]:
help(mgf.date_corrections_for_dataframe)

In [None]:
df = mgf.date_corrections_for_dataframe(df)

****

# Метаданные. Основная конфигурация


В данном блоке:
1. Создается объект метаданных
2. Производится базовое автоматическое заполнение объекта на основе исходного DataFrame
3. Вызывается функция для основных дополнений объекта, подробное описание над соответствующей ячейкой

In [None]:
metadata = MultiTableMetadata()

In [None]:
mgf.detect_metadata(df, metadata)

Здесь производятся основные дополнения, а именно:
1. Ключевым полям присваивается тип id
2. Полям с датой присваивается тип datetime, а также формат даты
3. Определяются первичные ключи

Подробнее в документации ниже:

In [None]:
help(mgf.main_metadata_corrections)

In [None]:
mgf.main_metadata_corrections(df, metadata, pkeys, relations_and_keys) 

### Базовый объект метаданных выглядит следующим образом:

In [None]:
metadata

****

# Опциональные дополнения

### Обезличить неключевые поля:

In [None]:
help(mgf.hide_not_key_fields)

In [None]:
mgf.hide_not_key_fields(metadata, other_important_fields)#, regex)

### Добавить кастомные типы:

In [None]:
help(mgf.add_custom_type)

In [None]:
mgf.add_custom_type(metadata, other_types_fields)

****

# Добавление связей между таблицами

In [None]:
help(mgf.add_relations)

In [None]:
mgf.add_relations(metadata, relations_and_keys)

*****

# Итоговая метадата

In [None]:
metadata

### Можно сохранить в словарь или в json:

In [None]:
help(mgf.save_metadata)

In [None]:
meta_dict = mgf.save_metadata(metadata, 'dict')

### Валидация позволит проверить наши метаданные на соответствие логике пакета sdv

In [None]:
metadata.validate()

### ERD на основе созданных метаданных. Можно проверить и сравнить с исходной

In [None]:
metadata.visualize()

*****

# Генерация
Для генерации связанных таблиц имеется только одна open-source модель, а именно HMA:

https://docs.sdv.dev/sdv/multi-table-data/modeling/synthesizers/hmasynthesizer

### Создание модели

Передается метадата, также можно передать параметр локализации (с ним, например, имена будут генерироваться в соответствии с регионом).


**Ограничение**: локализация работает с переменным успехом

In [None]:
multi_synthesizer = HMASynthesizer(metadata, locales=['ru_RU'])

### Добавление ограничений/условий

Здесь можно добавить ограничения на столбцы таблиц. Функция позволяет легко добавить 2 ограничения - Inequality  и FixedCombinations. Подробнее о них, а также о других доступных:

https://docs.sdv.dev/sdv/multi-table-data/modeling/synthetic-data-workflow/constraints

In [None]:
help(mgf.add_constraint)

In [None]:
mgf.add_constraint(multi_synthesizer, 'inequality', 'flights', ['scheduled_departure', 'scheduled_arrival'])

In [None]:
mgf.add_constraint(multi_synthesizer, 'inequality', 'flights', ['scheduled_arrival', 'constraint_date'])

### Валидация позволит проверить соответствие исходных данных с заполненными ранее метаданными

In [None]:
multi_synthesizer.validate(df)

## Обучение модели

In [None]:
multi_synthesizer.fit(df)

## Выборка синтетических данных
Параметром scale передается % от размера исходных данных. Пропорция не всегда будет точной, все зависит от связей между таблицами

In [None]:
synthetic_schema = multi_synthesizer.sample(scale=0.1)

# Сравнение исходных и синтетических данных

In [None]:
df['bookings']

In [None]:
synthetic_schema['bookings']

In [None]:
df['tickets']

In [None]:
synthetic_schema['tickets']

In [None]:
df['ticket_flights']

In [None]:
synthetic_schema['ticket_flights']

In [None]:
df['flights']

In [None]:
synthetic_schema['flights']

In [None]:
df['airports']

In [None]:
synthetic_schema['airports']

In [None]:
df['aircrafts']

In [None]:
synthetic_schema['aircrafts']

In [None]:
df['seats']

In [None]:
synthetic_schema['seats']

# Отчеты о качестве

### Создание отчета

Это основной способ автоматической оценки качества синтетических данных. В случае моделирования связанных таблиц оценка качества не совсем честная, т.к. синтетическая выборка пропорциями так или иначе будет отличаться от исходной (аргумент scale < 1 в блоке выборки). Кроме этого, если не задать шаблоны регулярок, то поля типа id будут почти всегда отличаться по формату, а значит и по значениям. Поэтому пугаться полученных 40-60% не стоит. Главное, что данные обезличены, а связи сохранены

In [None]:
quality_report = evaluate_quality(
    df,
    synthetic_schema,
    metadata
)

### Визуальное сравнение распределения и границ полей (категориальных, числовых и полей с датами) таблиц в исходных и синтетических данных

In [None]:
fig = quality_report.get_visualization('Column Shapes', table_name='bookings')
fig.show()

In [None]:
fig = quality_report.get_visualization('Column Shapes', table_name='flights')
fig.show()

### Визуальная проверка распределения конкретного поля отдельной таблицы (категориального, числового, поля-даты или bool)

In [None]:
help(mgf.plot_field_distribution)

In [None]:
mgf.plot_field_distribution(df, synthetic_schema, metadata, 'bookings', 'total_amount')

### Отчет-диагностика

Здесь можно получить информацию о соблюдении границ значений, доле отсутствующих промежутков или категорий,а также копий исходных данных

**Пояснение про копии исходных данных:**
Если не добавлять шаблоны регулярок, то к данным копиям относятся либо категориальные данные (которые было решено не обезличивать), либо даты/числа/bool. 

Как и ранее, если совпало значение в поле с датой, а остальные реально важные поля обезличены, то такое совпадение включится в отчет, хотя по факту оно безобидно и переживать не стоит

In [None]:
diagnostic_report = run_diagnostic(
    real_data=df,
    synthetic_data=synthetic_schema,
    metadata=metadata)