In [3]:
from faker import Faker
import pandas as pd

fake = Faker('it_IT')  # Set locale to Italian

# Define the schemas with data types based on the CSV file
schemas = {
    "BUONI_SERVIZIO": {
        "id_domanda": "PK", "codice_fiscale": "FK", "id_bando": "FK", "stato": "strutturato", 
        "ambito_residenza": "strutturato", "comune_residenza": "strutturato", "ambito_domicilio": "strutturato", 
        "comune_domicilio": "strutturato", "ambito_fruizione": "strutturato", "comune_fruizione": "strutturato", 
        "servizio": "strutturato", "tipologia_graduatoria": "strutturato", "annualita_operativa": "AAAA/AAAA", 
        "disabile": "strutturato", "condizione sociale": "strutturato", "mensa": "strutturato", "trasporto": "strutturato", 
        "data_inizio": "data", "data_fine": "data", "isee_ordinario": "valuta", "isee_minori": "valuta", 
        "isee_socio_sanitario_ristretto": "valuta", "totale_preventivo": "valuta", "quota_buono": "valuta", 
        "componenti_nucleo": "numero", "disabili_nucleo": "numero", "genitori": "numero", "genitori_lavoratori": "numero"
    },
    "ATTESTAZIONI_BUONI_SERVIZIO": {
        "id_attestazione": "PK", "id_domanda": "FK", "id_fattura": "FK", "mese_anno": "MM/AAAA", 
        "presenze": "numero", "totale_attestazione": "valuta", "quota_buono": "valuta"
    },
    "LIQUIDAZIONI_BUONI_SERVIZIO": {
        "id_fattura": "PK", "id_bando": "FK", "id_unita_di_offerta": "FK", "ambito": "strutturato", 
        "mese_anno": "MM/AAAA", "stato": "strutturato", "totale_fattura": "valuta", 
        "importo_ammesso_a_liquidazione": "valuta", "importo_liquidato": "valuta", 
        "importo_rendicontato": "valuta", "importo_ammesso_in_rendicontazione": "valuta"
    },
    "FINANZIAMENTI": {
        "id_finanziamento": "PK", "id_bando": "FK", "ambito": "strutturato", "numero_provvedimento": "libero", 
        "data_provvedimento": "data", "tipologia_finanziamento": "strutturato", "tipologia_graduatoria": "strutturato", 
        "annualita_operativa": "AAAA/AAAA", "importo": "valuta", "contratti": "valuta", "economie": "valuta", 
        "disponibile": "valuta"
    },
    # Add other schemas as needed
}

# Function to generate dummy data
def generate_dummy_data(schema, num_rows=100):
    data = []
    for _ in range(num_rows):
        row = []
        for field, dtype in schema.items():
            if dtype in ["PK", "FK"]:
                row.append(fake.random_int(min=1, max=1000))
            elif dtype == "data":
                row.append(fake.date())
            elif dtype == "valuta":
                row.append(round(fake.random_number(digits=5), 2))
            elif dtype == "numero":
                row.append(fake.random_int(min=1, max=10))
            elif dtype == "strutturato":
                row.append(fake.random_element(elements=("categoria1", "categoria2", "categoria3")))
            elif dtype == "stato":
                row.append(fake.random_element(elements=("non istruita", "in istruttoria", "ammessa e finanziata", "ammessa e non finanziata", "non ammessa", "rinuncia", "revoca", "proc. chiuso")))
            elif dtype == "AAAA/AAAA":
                row.append(f"{fake.year()}/{fake.year()}")
            elif dtype == "AAAA":
                row.append(fake.year())
            elif dtype == "MM/AAAA":
                row.append(f"{fake.month()}/{fake.year()}")
            elif dtype == "libero":
                row.append(fake.text(max_nb_chars=20))
            else:
                row.append(fake.word())
        data.append(row)
    return pd.DataFrame(data, columns=schema.keys())

# Example usage
for table_name, schema in schemas.items():
    df = generate_dummy_data(schema)
    df.to_csv(f"dummy-data/{table_name}.csv", index=False)
    print(f"Saved {table_name}.csv")

Saved BUONI_SERVIZIO.csv
Saved ATTESTAZIONI_BUONI_SERVIZIO.csv
Saved LIQUIDAZIONI_BUONI_SERVIZIO.csv
Saved FINANZIAMENTI.csv


In [4]:
df = pd.read_csv("dummy-data/BUONI_SERVIZIO.csv")
df

Unnamed: 0,id_domanda,codice_fiscale,id_bando,stato,ambito_residenza,comune_residenza,ambito_domicilio,comune_domicilio,ambito_fruizione,comune_fruizione,...,data_fine,isee_ordinario,isee_minori,isee_socio_sanitario_ristretto,totale_preventivo,quota_buono,componenti_nucleo,disabili_nucleo,genitori,genitori_lavoratori
0,609,928,910,categoria3,categoria1,categoria3,categoria2,categoria1,categoria1,categoria3,...,1993-12-06,98749,78587,27897,43225,56618,4,8,9,7
1,117,173,57,categoria1,categoria3,categoria1,categoria3,categoria1,categoria1,categoria2,...,1996-01-25,37573,22126,44128,64897,6767,4,6,7,2
2,400,864,291,categoria3,categoria2,categoria2,categoria2,categoria3,categoria1,categoria3,...,1992-10-19,41555,69603,83880,10464,23632,3,5,3,5
3,351,146,216,categoria1,categoria3,categoria1,categoria2,categoria3,categoria2,categoria1,...,2017-05-20,87083,72217,14758,13031,47265,3,6,7,5
4,97,876,359,categoria3,categoria1,categoria1,categoria3,categoria2,categoria2,categoria1,...,1972-10-02,37244,26111,72813,40104,24137,3,1,5,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,598,805,350,categoria3,categoria3,categoria1,categoria1,categoria3,categoria1,categoria1,...,2000-03-01,11630,78838,99764,720,77009,5,9,3,4
96,342,638,841,categoria2,categoria1,categoria3,categoria1,categoria1,categoria1,categoria1,...,1993-10-23,45253,30164,23238,9273,36939,6,3,4,6
97,810,483,184,categoria2,categoria2,categoria1,categoria1,categoria3,categoria3,categoria1,...,1991-10-17,97614,61085,27749,62601,16336,10,6,3,2
98,238,837,31,categoria2,categoria3,categoria1,categoria1,categoria3,categoria1,categoria2,...,2023-01-31,4747,63139,3862,55893,93153,1,8,1,4


In [None]:
import psycopg2
import pandas as pd

# Database connection parameters
conn_params = {
    "dbname": "metabase",
    "user": "metabase",
    "password": "metabase",
    "host": "localhost",
    "port": "5432"
}

# Function to load CSV into PostgreSQL
def load_csv_to_postgres(table_name, csv_file):
    conn = psycopg2.connect(**conn_params)
    cursor = conn.cursor()
    df = pd.read_csv(csv_file)
    columns = ",".join(df.columns)
    values = ",".join(["%s"] * len(df.columns))
    insert_query = f"INSERT INTO {table_name} ({columns}) VALUES ({values})"
    for row in df.itertuples(index=False, name=None):
        cursor.execute(insert_query, row)
    conn.commit()
    cursor.close()
    conn.close()
    print(f"Loaded {csv_file} into {table_name}")

# Load each CSV file into PostgreSQL
for table_name in schemas.keys():
    load_csv_to_postgres(table_name, f"{table_name}.csv")