In [7]:
import glob
from pathlib import Path, PurePath
import pandas as pd
import duckdb

# Get all sale files in the specified directory
sale_files = glob.glob(str(Path().resolve().parent / "data/실거래가/*sale*.csv"))

# make dictionary of sale files from the list, with the first part of the filename as the key
sale_files = {PurePath(file).stem.split("_")[0]: file for file in sale_files}
sale_files

{'apart': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\apart_sale_all.csv',
 'commercial': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\commercial_sale_all.csv',
 'detached': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\detached_sale_all.csv',
 'factory': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\factory_sale_all.csv',
 'land': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\land_sale_all.csv',
 'multifamily': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\multifamily_sale_all.csv',
 'officetel': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\officetel_sale_all.csv',
 'presale': 'C:\\Users\\USER\\Documents\\quacklytics\\data\\실거래가\\presale_sale_all.csv'}

In [8]:
from collections import OrderedDict

korean_keys = OrderedDict(
    [
        ("단독/다가구", "detached"),
        ("오피스텔", "officetel"),
        ("연립/다세대", "multifamily"),
        ("아파트", "apart"),
        # ("분양/입주권", "presale"),
        ("상업/업무용", "commercial"),
        # ("토지", "land"),
        ("공장/창고 등", "factory"),
    ]
)
korean_keys

OrderedDict([('단독/다가구', 'detached'),
             ('오피스텔', 'officetel'),
             ('연립/다세대', 'multifamily'),
             ('아파트', 'apart'),
             ('상업/업무용', 'commercial'),
             ('공장/창고 등', 'factory')])

In [9]:
con = duckdb.connect()

con.execute("""
            INSTALL excel;
            LOAD excel;
            """)

<duckdb.duckdb.DuckDBPyConnection at 0x296eea284f0>

| type         | 시군구 | 유형 | 주택유형 | 번지 | 본번 | 부번 | 도로명 | 단지/건물명 | 용도지역 | 건축물주용도 | 도로조건 | 전용/연면적(㎡) | 대지면적(㎡)   | 계약년월 | 계약일 | 거래금액(만원) | 동  | 층  | 매수자 | 매도자 | 지분구분 | 건축년도 | 해제사유발생일 | 거래유형 | 중개사소재지 | 등기일자 |
| ------------ | ------ | ---- | -------- | ---- | ---- | ---- | ------ | ----------- | -------- | ------------ | -------- | --------------- | -------------- | -------- | ------ | -------------- | --- | --- | ------ | ------ | -------- | -------- | -------------- | -------- | ------------ | -------- |
| 단독/다가구  | 시군구 |      | 주택유형 | 번지 |      |      | 도로명 |             |          |              | 도로조건 | 연면적(㎡)      | 대지면적(㎡)   | 계약년월 | 계약일 | 거래금액(만원) |     |     | 매수   | 매도   |          | 건축년도 | 해제사유발생일 | 거래유형 | 중개사소재지 |          |
| 오피스텔     | 시군구 |      |          | 번지 | 본번 | 부번 | 도로명 | 단지명      |          |              |          | 전용면적(㎡)    |                | 계약년월 | 계약일 | 거래금액(만원) |     | 층  | 매수   | 매도   |          | 건축년도 | 해제사유발생일 | 거래유형 | 중개사소재지 |          |
| 연립/다세대  | 시군구 |      |          | 번지 | 본번 | 부번 | 도로명 | 건물명      |          |              |          | 전용면적(㎡)    | 대지권면적(㎡) | 계약년월 | 계약일 | 거래금액(만원) |     | 층  | 매수자 | 매도자 |          | 건축년도 | 해제사유발생일 | 거래유형 | 중개사소재지 | 등기일자 |
| 아파트       | 시군구 |      |          | 번지 | 본번 | 부번 | 도로명 | 단지명      |          |              |          | 전용면적(㎡)    |                | 계약년월 | 계약일 | 거래금액(만원) | 동  | 층  | 매수자 | 매도자 |          | 건축년도 | 해제사유발생일 | 거래유형 | 중개사소재지 | 등기일자 |
| 상업/업무용  | 시군구 | 유형 |          | 지번 |      |      | 도로명 |             | 용도지역 | 건축물주용도 | 도로조건 | 전용/연면적(㎡) | 대지면적(㎡)   | 계약년월 | 계약일 | 거래금액(만원) |     | 층  | 매수   | 매도   | 지분구분 | 건축년도 | 해제사유발생일 | 거래유형 | 중개사소재지 |          |
| 공장/창고 등 | 시군구 | 유형 |          | 지번 |      |      | 도로명 |             | 용도지역 | 건축물주용도 | 도로조건 | 전용/연면적(㎡) | 대지면적(㎡)   | 계약년월 | 계약일 | 거래금액(만원) |     | 층  | 매수   | 매도   | 지분구분 | 건축년도 | 해제사유발생일 | 거래유형 | 중개사소재지 |          |


In [None]:
"""
NO,
type,
시군구,
유형,
주택유형,
번지,
본번,
부번,
도로명,
"단지/건물명",
용도지역,
건축물주용도,
도로조건,
"전용/연면적(㎡)",
"대지면적(㎡)",
계약년월,
계약일,
"거래금액(만원)",
동,
층,
매수자,
매도자,
지분구분,
건축년도,
해제사유발생일,
거래유형,
중개사소재지,
등기일자,
"""


'\nNO,\ntype,\n시군구,\n유형,\n주택유형,\n번지,\n본번,\n부번,\n도로명,\n"단지/건물명",\n용도지역,\n건축물주용도,\n도로조건,\n"전용/연면적(㎡)",\n"대지면적(㎡)",\n계약년월,\n계약일,\n"거래금액(만원)",\n동,\n층,\n매수자,\n매도자,\n계약년월,\n계약일,\n지분구분,\n건축년도,\n해제사유발생일,\n거래유형,\n중개사소재지,\n등기일자,\n'

In [28]:
# detached

# read detached csv
detached = con.sql(f"""
    SELECT
        CONCAT('단독/다가구', NO) AS NO,
        '단독/다가구' AS type,
        시군구,
        CAST(NULL AS VARCHAR) AS 유형,
        주택유형,
        번지,
        CAST(NULL AS VARCHAR) AS 본번,
        CAST(NULL AS VARCHAR) AS 부번,
        도로명,
        CAST(NULL AS VARCHAR) AS "단지/건물명",
        CAST(NULL AS VARCHAR) AS 용도지역,
        CAST(NULL AS VARCHAR) AS 건축물주용도,
        도로조건,
        "연면적(㎡)" AS "전용/연면적(㎡)",
        "대지면적(㎡)",
        계약년월,
        계약일,
        "거래금액(만원)",
        CAST(NULL AS VARCHAR) AS 동,
        CAST(NULL AS VARCHAR) AS 층,
        매수 AS 매수자,
        매도 AS 매도자,
        CAST(NULL AS VARCHAR) AS 지분구분,
        건축년도,
        해제사유발생일,
        거래유형,
        중개사소재지,
        CAST(NULL AS VARCHAR) AS 등기일자,
    FROM read_csv('{sale_files["detached"]}', header=true, all_varchar=true)
""")
detached

┌─────────────────┬─────────────┬───────────────────────────────────────────┬─────────┬──────────┬─────────┬─────────┬─────────┬──────────────────┬─────────────┬──────────┬──────────────┬──────────┬─────────────────┬──────────────┬──────────┬─────────┬────────────────┬─────────┬─────────┬─────────┬─────────┬──────────┬──────────┬────────────────┬──────────┬──────────────┬──────────┐
│       NO        │    type     │                  시군구                   │  유형   │ 주택유형 │  번지   │  본번   │  부번   │      도로명      │ 단지/건물명 │ 용도지역 │ 건축물주용도 │ 도로조건 │ 전용/연면적(㎡) │ 대지면적(㎡) │ 계약년월 │ 계약일  │ 거래금액(만원) │   동    │   층    │ 매수자  │ 매도자  │ 지분구분 │ 건축년도 │ 해제사유발생일 │ 거래유형 │ 중개사소재지 │ 등기일자 │
│     varchar     │   varchar   │                  varchar                  │ varchar │ varchar  │ varchar │ varchar │ varchar │     varchar      │   varchar   │ varchar  │   varchar    │ varchar  │     varchar     │   varchar    │ varchar  │ varchar │    varchar     │ varchar │ varchar │ varchar │ varchar │ varchar  │ varch

In [29]:
# officetel

# read officetel csv
officetel = con.sql(f"""
    SELECT
        CONCAT('오피스텔', NO) AS NO,
        '오피스텔' AS type,
        시군구,
        CAST(NULL AS VARCHAR) AS 유형,
        CAST(NULL AS VARCHAR) AS 주택유형,
        번지,
        본번,
        부번,
        도로명,
        단지명 AS "단지/건물명",
        CAST(NULL AS VARCHAR) AS 용도지역,
        CAST(NULL AS VARCHAR) AS 건축물주용도,
        CAST(NULL AS VARCHAR) AS 도로조건,
        "전용면적(㎡)" AS "전용/연면적(㎡)",
        CAST(NULL AS VARCHAR) AS "대지면적(㎡)",
        계약년월,
        계약일,
        "거래금액(만원)",
        CAST(NULL AS VARCHAR) AS 동,
        층,
        매수 AS 매수자,
        매도 AS 매도자,
        CAST(NULL AS VARCHAR) AS 지분구분,
        건축년도,
        해제사유발생일,
        거래유형,
        중개사소재지,
        CAST(NULL AS VARCHAR) AS 등기일자,
    FROM read_csv('{sale_files["officetel"]}', header=true, all_varchar=true)
""")
officetel

┌──────────────┬──────────┬────────────────────────────────┬─────────┬──────────┬─────────┬─────────┬─────────┬───────────────────┬───────────────────────────────────┬──────────┬──────────────┬──────────┬─────────────────┬──────────────┬──────────┬─────────┬────────────────┬─────────┬─────────┬─────────┬─────────┬──────────┬──────────┬────────────────┬──────────┬──────────────┬──────────┐
│      NO      │   type   │             시군구             │  유형   │ 주택유형 │  번지   │  본번   │  부번   │      도로명       │            단지/건물명            │ 용도지역 │ 건축물주용도 │ 도로조건 │ 전용/연면적(㎡) │ 대지면적(㎡) │ 계약년월 │ 계약일  │ 거래금액(만원) │   동    │   층    │ 매수자  │ 매도자  │ 지분구분 │ 건축년도 │ 해제사유발생일 │ 거래유형 │ 중개사소재지 │ 등기일자 │
│   varchar    │ varchar  │            varchar             │ varchar │ varchar  │ varchar │ varchar │ varchar │      varchar      │              varchar              │ varchar  │   varchar    │ varchar  │     varchar     │   varchar    │ varchar  │ varchar │    varchar     │ varchar │ varchar │ varchar │ varchar 

In [30]:
# multifamily

# read multifamily csv
multifamily = con.sql(f"""
    SELECT
        CONCAT('연립/다세대', NO) AS NO,
        '연립/다세대' AS type,
        시군구,
        CAST(NULL AS VARCHAR) AS 유형,
        CAST(NULL AS VARCHAR) AS 주택유형,
        번지,
        본번,
        부번,
        도로명,
        건물명 AS "단지/건물명",
        CAST(NULL AS VARCHAR) AS 용도지역,
        CAST(NULL AS VARCHAR) AS 건축물주용도,
        CAST(NULL AS VARCHAR) AS 도로조건,
        "전용면적(㎡)" AS "전용/연면적(㎡)",
        "대지권면적(㎡)" AS "대지면적(㎡)",
        계약년월,
        계약일,
        "거래금액(만원)",
        CAST(NULL AS VARCHAR) AS 동,
        층,
        매수자,
        매도자,
        CAST(NULL AS VARCHAR) AS 지분구분,
        건축년도,
        해제사유발생일,
        거래유형,
        중개사소재지,
        등기일자,
    FROM read_csv('{sale_files["multifamily"]}', header=true, all_varchar=true)
""")
multifamily

┌──────────────────┬─────────────┬───────────────────────────────┬─────────┬──────────┬─────────┬─────────┬─────────┬─────────────────────┬──────────────────────────┬──────────┬──────────────┬──────────┬─────────────────┬──────────────┬──────────┬─────────┬────────────────┬─────────┬─────────┬─────────┬─────────┬──────────┬──────────┬────────────────┬──────────┬──────────────┬──────────┐
│        NO        │    type     │            시군구             │  유형   │ 주택유형 │  번지   │  본번   │  부번   │       도로명        │       단지/건물명        │ 용도지역 │ 건축물주용도 │ 도로조건 │ 전용/연면적(㎡) │ 대지면적(㎡) │ 계약년월 │ 계약일  │ 거래금액(만원) │   동    │   층    │ 매수자  │ 매도자  │ 지분구분 │ 건축년도 │ 해제사유발생일 │ 거래유형 │ 중개사소재지 │ 등기일자 │
│     varchar      │   varchar   │            varchar            │ varchar │ varchar  │ varchar │ varchar │ varchar │       varchar       │         varchar          │ varchar  │   varchar    │ varchar  │     varchar     │   varchar    │ varchar  │ varchar │    varchar     │ varchar │ varchar │ varchar │ varchar │ v

In [31]:
# apart

# read apart csv
# df_apart = pd.read_csv(sale_files['apart'], dtype=str)
apart = con.sql(f"""
    SELECT
        CONCAT('아파트', NO) AS NO,
        '아파트' AS type,
        시군구,
        CAST(NULL AS VARCHAR) AS 유형,
        CAST(NULL AS VARCHAR) AS 주택유형,
        번지,
        본번,
        부번,
        도로명,
        단지명 AS "단지/건물명",
        CAST(NULL AS VARCHAR) AS 용도지역,
        CAST(NULL AS VARCHAR) AS 건축물주용도,
        CAST(NULL AS VARCHAR) AS 도로조건,
        "전용면적(㎡)" AS "전용/연면적(㎡)",
        CAST(NULL AS VARCHAR) AS "대지면적(㎡)",
        계약년월,
        계약일,
        "거래금액(만원)",
        동,
        층,
        매수자,
        매도자,
        CAST(NULL AS VARCHAR) AS 지분구분,
        건축년도,
        해제사유발생일,
        거래유형,
        중개사소재지,
        등기일자,
    FROM read_csv('{sale_files["apart"]}', header=true, all_varchar=true)
""")
apart

┌─────────────┬─────────┬─────────────────────────────────────┬─────────┬──────────┬─────────┬─────────┬─────────┬────────────────────┬────────────────────────┬──────────┬──────────────┬──────────┬─────────────────┬──────────────┬──────────┬─────────┬────────────────┬─────────┬─────────┬─────────┬─────────┬──────────┬──────────┬────────────────┬──────────┬──────────────┬──────────┐
│     NO      │  type   │               시군구                │  유형   │ 주택유형 │  번지   │  본번   │  부번   │       도로명       │      단지/건물명       │ 용도지역 │ 건축물주용도 │ 도로조건 │ 전용/연면적(㎡) │ 대지면적(㎡) │ 계약년월 │ 계약일  │ 거래금액(만원) │   동    │   층    │ 매수자  │ 매도자  │ 지분구분 │ 건축년도 │ 해제사유발생일 │ 거래유형 │ 중개사소재지 │ 등기일자 │
│   varchar   │ varchar │               varchar               │ varchar │ varchar  │ varchar │ varchar │ varchar │      varchar       │        varchar         │ varchar  │   varchar    │ varchar  │     varchar     │   varchar    │ varchar  │ varchar │    varchar     │ varchar │ varchar │ varchar │ varchar │ varchar  │ varchar 

In [32]:
# commercial

# read commercial csv
commercial = con.sql(f"""
    SELECT
        CONCAT('상업/업무용', NO) AS NO,
        '상업/업무용' AS type,
        시군구,
        유형,
        CAST(NULL AS VARCHAR) AS 주택유형,
        지번 AS 번지,
        CAST(NULL AS VARCHAR) AS 본번,
        CAST(NULL AS VARCHAR) AS 부번,
        도로명,
        CAST(NULL AS VARCHAR) AS "단지/건물명",
        용도지역,
        건축물주용도,
        도로조건,
        "전용/연면적(㎡)",
        "대지면적(㎡)",
        계약년월,
        계약일,
        "거래금액(만원)",
        CAST(NULL AS VARCHAR) AS 동,
        층,
        매수 AS 매수자,
        매도 AS 매도자,
        지분구분,
        건축년도,
        해제사유발생일,
        거래유형,
        중개사소재지,
        CAST(NULL AS VARCHAR) AS 등기일자,
    FROM read_csv('{sale_files["commercial"]}', header=true, all_varchar=true, force_not_null=['지분구분'])
""")
commercial

┌─────────────────┬─────────────┬────────────────────────────────────┬─────────┬──────────┬─────────┬─────────┬─────────┬────────────────┬─────────────┬───────────────┬───────────────┬──────────┬─────────────────┬──────────────┬──────────┬─────────┬────────────────┬─────────┬─────────┬─────────┬─────────┬──────────┬──────────┬────────────────┬──────────┬──────────────┬──────────┐
│       NO        │    type     │               시군구               │  유형   │ 주택유형 │  번지   │  본번   │  부번   │     도로명     │ 단지/건물명 │   용도지역    │ 건축물주용도  │ 도로조건 │ 전용/연면적(㎡) │ 대지면적(㎡) │ 계약년월 │ 계약일  │ 거래금액(만원) │   동    │   층    │ 매수자  │ 매도자  │ 지분구분 │ 건축년도 │ 해제사유발생일 │ 거래유형 │ 중개사소재지 │ 등기일자 │
│     varchar     │   varchar   │              varchar               │ varchar │ varchar  │ varchar │ varchar │ varchar │    varchar     │   varchar   │    varchar    │    varchar    │ varchar  │     varchar     │   varchar    │ varchar  │ varchar │    varchar     │ varchar │ varchar │ varchar │ varchar │ varchar  │ varchar  │    

In [33]:
# factory

# read factory csv
factory = con.sql(f"""
    SELECT
        CONCAT('공장/창고 등', NO) AS NO,
        '공장/창고 등' AS type,
        시군구,
        유형,
        CAST(NULL AS VARCHAR) AS 주택유형,
        지번 AS 번지,
        CAST(NULL AS VARCHAR) AS 본번,
        CAST(NULL AS VARCHAR) AS 부번,
        도로명,
        CAST(NULL AS VARCHAR) AS "단지/건물명",
        용도지역,
        건축물주용도,
        도로조건,
        "전용/연면적(㎡)",
        "대지면적(㎡)",
        계약년월,
        계약일,
        "거래금액(만원)",
        CAST(NULL AS VARCHAR) AS 동,
        층,
        매수 AS 매수자,
        매도 AS 매도자,
        지분구분,
        건축년도,
        해제사유발생일,
        거래유형,
        중개사소재지,
        CAST(NULL AS VARCHAR) AS 등기일자,
    FROM read_csv('{sale_files["factory"]}', header=true, all_varchar=true, force_not_null=['지분구분'])
""")
factory

┌─────────────────┬──────────────┬─────────────────────────────────────┬─────────┬──────────┬─────────┬─────────┬─────────┬─────────────────┬─────────────┬───────────────┬───────────────────────┬──────────┬─────────────────┬──────────────┬──────────┬─────────┬────────────────┬─────────┬─────────┬─────────┬─────────┬──────────┬──────────┬────────────────┬──────────┬──────────────┬──────────┐
│       NO        │     type     │               시군구                │  유형   │ 주택유형 │  번지   │  본번   │  부번   │     도로명      │ 단지/건물명 │   용도지역    │     건축물주용도      │ 도로조건 │ 전용/연면적(㎡) │ 대지면적(㎡) │ 계약년월 │ 계약일  │ 거래금액(만원) │   동    │   층    │ 매수자  │ 매도자  │ 지분구분 │ 건축년도 │ 해제사유발생일 │ 거래유형 │ 중개사소재지 │ 등기일자 │
│     varchar     │   varchar    │               varchar               │ varchar │ varchar  │ varchar │ varchar │ varchar │     varchar     │   varchar   │    varchar    │        varchar        │ varchar  │     varchar     │   varchar    │ varchar  │ varchar │    varchar     │ varchar │ varchar │ varchar │ va

In [36]:
realtx_master = con.sql("""
SELECT * FROM detached
UNION ALL
SELECT * FROM officetel
UNION ALL
SELECT * FROM multifamily
UNION ALL
SELECT * FROM apart
UNION ALL
SELECT * FROM commercial
UNION ALL
SELECT * FROM factory;
""")
realtx_master

┌─────────────────┬─────────────┬───────────────────────────────────────────┬─────────┬──────────┬─────────┬─────────┬─────────┬──────────────────┬─────────────┬──────────┬──────────────┬──────────┬─────────────────┬──────────────┬──────────┬─────────┬────────────────┬─────────┬─────────┬─────────┬─────────┬──────────┬──────────┬────────────────┬──────────┬──────────────┬──────────┐
│       NO        │    type     │                  시군구                   │  유형   │ 주택유형 │  번지   │  본번   │  부번   │      도로명      │ 단지/건물명 │ 용도지역 │ 건축물주용도 │ 도로조건 │ 전용/연면적(㎡) │ 대지면적(㎡) │ 계약년월 │ 계약일  │ 거래금액(만원) │   동    │   층    │ 매수자  │ 매도자  │ 지분구분 │ 건축년도 │ 해제사유발생일 │ 거래유형 │ 중개사소재지 │ 등기일자 │
│     varchar     │   varchar   │                  varchar                  │ varchar │ varchar  │ varchar │ varchar │ varchar │     varchar      │   varchar   │ varchar  │   varchar    │ varchar  │     varchar     │   varchar    │ varchar  │ varchar │    varchar     │ varchar │ varchar │ varchar │ varchar │ varchar  │ varch

### 엑셀에 저장

xlsx 파일은 1백만행 제한이 있음. 여러 파일로 나누어 저장

In [37]:
output_to = Path().resolve().parent / "data/실거래가/processed"
output_to.mkdir(parents=True, exist_ok=True)

MAX_ROWS = 1_048_576 - 1  # considering header
table_name = "realtx_master"
output_prefix = "realtx_part"

# 전체 row 수 확인, 파일 수 도출
total_rows = con.sql(f"SELECT COUNT(*) FROM {table_name}").fetchone()[0]  # type: ignore
num_parts = (total_rows + MAX_ROWS - 1) // MAX_ROWS

for i in range(num_parts):
    offset = i * MAX_ROWS  # starts with 0
    output_file = output_to / f"{output_prefix}_{i + 1}.xlsx"  # starts with 1

    con.sql(f"""
        COPY (
            SELECT * FROM {table_name}
            LIMIT {MAX_ROWS} OFFSET {offset}
        ) TO '{output_file}'
        WITH (
            FORMAT xlsx,
            HEADER true,
            SHEET 'data'
        )
    """)
    print(f"Saved {output_file}")

Saved C:\Users\USER\Documents\quacklytics\data\실거래가\processed\realtx_part_1.xlsx
Saved C:\Users\USER\Documents\quacklytics\data\실거래가\processed\realtx_part_2.xlsx
Saved C:\Users\USER\Documents\quacklytics\data\실거래가\processed\realtx_part_3.xlsx
Saved C:\Users\USER\Documents\quacklytics\data\실거래가\processed\realtx_part_4.xlsx
Saved C:\Users\USER\Documents\quacklytics\data\실거래가\processed\realtx_part_5.xlsx


### parquet 파일 저장

In [38]:
output_file = output_to / "realtx.parquet"
con.sql(f"""
    COPY (
        SELECT * FROM {table_name}
    )
    TO '{output_file}'
    WITH (FORMAT PARQUET);
""")
print(f"Saved {output_file}")

Saved C:\Users\USER\Documents\quacklytics\data\실거래가\processed\realtx.parquet
