In [1]:
import duckdb
import pandas as pd

In [40]:
def merge_tables_by_keyword(db_path, keyword):
    # Connect to the DuckDB database
    conn = duckdb.connect(db_path)
    
    # Query to get all table names containing the specified keyword
    query = f"SELECT table_name FROM information_schema.tables WHERE table_name ILIKE '%{keyword}%';"
    table_names = conn.execute(query).fetchall()

    # Extract table names from query result
    table_names = [name[0] for name in table_names]

    # Read each table into a DataFrame and merge them
    merged_df = pd.DataFrame()
    for table_name in table_names:
        df = conn.execute(f'SELECT * FROM {table_name}').fetchdf()
        merged_df = pd.concat([merged_df, df], ignore_index=True)

    # Close the connection
    conn.close()
    
    return merged_df

def save_merged_table_to_new_db(merged_df, new_db_path, table_name):
    # Connect to the new DuckDB database
    conn = duckdb.connect(new_db_path)
    
    # Drop the table if it exists
    conn.execute(f"DROP TABLE IF EXISTS {table_name}")
    
    # Save the merged DataFrame to the new database
    conn.execute(f"CREATE TABLE {table_name} AS SELECT * FROM merged_df")
    
    # Close the connection
    conn.close()

def merge_and_save_all_groups(db_path, new_db_path):
    # Define the keywords to group tables by
    keywords = ['idealista', 'income', 'fotocasa']
    
    for keyword in keywords:
        # Merge tables by keyword
        merged_df = merge_tables_by_keyword(db_path, keyword)
        
        # Save the merged DataFrame to the new database
        save_merged_table_to_new_db(merged_df, new_db_path, table_name=keyword)



In [41]:
merge_and_save_all_groups('../formatted_zone/formatted.db', '../trusted_zone/trusted.db')

In [42]:
con = duckdb.connect('../trusted_zone/trusted.db')

In [43]:
con.sql("SELECT table_name FROM information_schema.tables WHERE table_schema = 'main';")

┌────────────┐
│ table_name │
│  varchar   │
├────────────┤
│ fotocasa   │
│ idealista  │
│ income     │
└────────────┘

In [44]:
con.sql("SELECT * FROM idealista")


┌─────────────────────┬────────────────────────────────────────┬───────────────────────┬─────────────────────┬─────────────┬───────────────────────────┬───────────────────────────┬─────────────────┬──────────────┬─────────────────────────────────────────────────────────────────────────────────────────────┬───────────────────┬───────────┬─────────┬───────────┬──────────────┬───────────┬────────┬──────────┬────────┬───────────┬─────────────────────────────────┬───────────┬──────────────┬─────────┬────────────┬───────────┬─────────────┬──────────────────────────────────────────────┬──────────┬──────────┬─────────┬────────────────┬─────────┬─────────────┬───────────────────────────────────┬──────────────────────────────────────────────────────────────────────────────────────────────────────────┬─────────┬───────────┬─────────┬────────────┬───────────────────┬──────────────────────┬────────────┬────────────────────────┬───────┬────────┬───────────────────────────────────────────────────────

In [47]:
con = duckdb.connect('../formatted_zone/formatted.db')

con.sql("SELECT * FROM income_2020")


┌──────────────┬──────────────────────────────────────────────┬───────────┬───────────────┬───────────┬───────────────┬───────────┐
│   Distric    │                    Barris                    │ RDLpc (€) │ Index (RDLpc) │ RPLpc (€) │ Index (RPLpc) │ timestamp │
│   varchar    │                   varchar                    │  double   │    varchar    │  double   │    varchar    │  varchar  │
├──────────────┼──────────────────────────────────────────────┼───────────┼───────────────┼───────────┼───────────────┼───────────┤
│ Ciutat Vella │ el Raval                                     │    11.178 │ 0.54          │    11.999 │ 0.51          │ 2020      │
│ Ciutat Vella │ el Barri Gòtic                               │     15.99 │ 0.77          │    18.668 │ 0.80          │ 2020      │
│ Ciutat Vella │ la Barceloneta                               │    13.246 │ 0.64          │    14.806 │ 0.64          │ 2020      │
│ Ciutat Vella │ Sant Pere, Santa Caterina i la Ribera        │     16.77 │ 

In [48]:
con.sql("SELECT table_name FROM information_schema.tables WHERE table_schema = 'main';")

┌─────────────────────────────┐
│         table_name          │
│           varchar           │
├─────────────────────────────┤
│ extended_idealista          │
│ extended_opendatabcn_income │
│ fotocasa_27_09_2024         │
│ fotocasa_28_09_2024         │
│ idealista_01_06_2020        │
│ idealista_01_08_2020        │
│ idealista_01_11_2020        │
│ idealista_02_01_2020        │
│ idealista_02_03_2020        │
│ idealista_02_06_2020        │
│          ·                  │
│          ·                  │
│          ·                  │
│ idealista_29_07_2020        │
│ idealista_29_08_2020        │
│ idealista_30_01_2020        │
│ idealista_30_08_2020        │
│ idealista_30_10_2020        │
│ idealista_31_05_2020        │
│ idealista_31_10_2020        │
│ idealista_31_12_2020        │
│ income_2020                 │
│ income_2021                 │
├─────────────────────────────┤
│     138 rows (20 shown)     │
└─────────────────────────────┘