In [2]:
import pandas as pd
from sdv.single_table import CTGANSynthesizer
from sdv.metadata import SingleTableMetadata


In [3]:

# 1. Datensatz laden
input_path = 'encoded_dataset_schema.csv'
df = pd.read_csv(input_path)


In [4]:

# 2. Ordinale Spalten definieren
ordinal_columns = [
    'alter', 'konsumhaeufigkeit',
    'situation_freunde_familie', 'situation_party', 'situation_zuhause_essen',
    'situation_zuhause_entspannung', 'situation_oeffentliche_veranstaltungen',
    'situation_gastro', 'situation_urlaub',
    'involvement_interesse', 'involvement_rolle', 'involvement_spass',
    'involvement_wichtigkeit', 'involvement_vorteilhaft', 'involvement_unverzichtbar',
    'gesundheit_wichtig', 'umweltfreundlich_wichtig', 'neue_produkte_probie',
    'bio_mehrpreis_bereit', 'tierfrei_wichtig', 'alkoholverzicht_wichtig',
    'einfluss_geschmack', 'einfluss_geruch', 'einfluss_preis', 'einfluss_markenbekanntheit',
    'einfluss_nachhaltigkeit', 'einfluss_herkunft', 'einfluss_verpackungsdesign',
    'einfluss_verpackungsform', 'einfluss_aktionsangebote', 'einfluss_alkoholgehalt',
    'einfluss_empfehlung', 'einfluss_verfuegbarkeit',
    'praef_sorte_alkoholfrei', 'praef_sorte_weizen', 'praef_sorte_koelsch',
    'praef_sorte_altbier', 'praef_sorte_pale_ale', 'praef_sorte_stout',
    'praef_sorte_maerzen_export', 'praef_sorte_radler', 'praef_sorte_pils',
    'praef_sorte_bock_schwarzrauchbier', 'praef_sorte_helles_lager', 'praef_sorte_craft_beer',
    'praef_alkoholfrei_0', 'praef_alkoholfrei_0_5', 'praef_bier_alkohol',
    'geschmack_rauchig', 'geschmack_hopfig', 'geschmack_suesslich_malzig',
    'geschmack_fruchtig', 'geschmack_kraeuter', 'geschmack_gewuerze',
    'geschmack_bitter', 'geschmack_saeuerlich', 'geschmack_zitrus'
]


In [5]:

# 3. Metadaten erzeugen
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(data=df)

# Ordinale Felder manuell setzen
for column in ordinal_columns:
    if column in df.columns:
        metadata.update_column(column_name=column, sdtype='ordinal')

# 4. CTGAN-Synthesizer initialisieren
synthesizer = CTGANSynthesizer(
    metadata=metadata,
    epochs=300,
    batch_size=500,
    generator_dim=(256, 256),
    discriminator_dim=(256, 256),
    pac=10,
    verbose=True,
    random_state=42
)

InvalidMetadataError: Invalid sdtype: 'ordinal' is not recognized. Please use one of the supported SDV sdtypes.

In [None]:

# 5. Modell trainieren
print("Model Fitting...")
synthesizer.fit(df)

# 6. Synthetische data erzeugen
num_samples = 1000
synthetic_data = synthesizer.sample(num_rows=num_samples)

# 7. Ausgabe speichern
output_path = "data/synthetic_result_data/synthetic_data_ctgan.csv"
synthetic_data.to_csv(output_path, index=False)
print(f"âœ… {num_samples} synthetische Zeilen gespeichert als {output_path}")
