In [3]:
import pandas as pd

# 합치고자 하는 파일 목록
files = [
    "강원 최종.xlsx",
    "경기도 최종.xlsx",
    "경북 최종.xlsx",
    "경상남도 최종.xlsx",
    "광주 최종.xlsx",
    "대구 최종.xlsx",
    "대전 최종.xlsx",
    "부산 최종.xlsx",
    "서울 최종.xlsx",
    "울산광역시 최종.xlsx",
    "인천 최종.xlsx",
    "전라남도 최종.xlsx",
    "전북특별자치도 최종.xlsx",
    "충청남도 최종.xlsx",
    "충청북도 최종.xlsx",
]

# 각 파일을 데이터프레임으로 읽어 리스트에 추가
dfs = [pd.read_excel(file) for file in files]

# 모든 데이터프레임을 하나로 합치기
combined_df = pd.concat(dfs, ignore_index=True)

# 합쳐진 데이터프레임을 새로운 CSV 파일로 저장
combined_df.to_csv("combined_apartments.csv", index=False, encoding='utf-8-sig')

print("모든 파일이 'combined_apartments.csv' 파일로 합쳐졌습니다.")

모든 파일이 'combined_apartments.csv' 파일로 합쳐졌습니다.


In [4]:
combined_df

Unnamed: 0,기준년월,지역,아파트,공급면적(㎡),전용면적(㎡),일반분양,특별분양,세대수,미분양수,분양가(만원),...,어린이집,유치원,초등학교,중학교(2km 이내),고등학교(2km 이내),지하철 - 반경 1.5km 이내,버스 - 반경 500m 이내,고속철도 - 10km 이내,고속도로IC - 10km 이내,주변시세 평균
0,202504,강원도,강릉자이르네디오션,109.54,84.88,26,27,53,2,57590,...,3,0,1,1,1,0,0,1,3,3.9
1,202504,강원도,강릉자이르네디오션,109.96,84.98,10,11,21,0,50260,...,3,0,1,1,1,0,0,1,3,3.9
2,202504,강원도,강릉자이르네디오션,109.97,84.98,11,15,26,1,56360,...,3,0,1,1,1,0,0,1,3,3.9
3,202504,강원도,강릉자이르네디오션,111.15,84.92,19,21,40,3,53700,...,3,0,1,1,1,0,0,1,3,3.9
4,202504,강원도,강릉자이르네디오션,131.96,101.96,2,-,2,0,72320,...,3,0,1,1,1,0,0,1,3,3.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2242,202208,충청북도,음성푸르지오센터피크,113.73,84.90,79,368,447,0,34000,...,0,0,0,0,1,0,1,0,3,1.1
2243,202208,충청북도,음성푸르지오센터피크,113.78,84.89,8,19,27,0,34300,...,0,0,0,0,1,0,1,0,3,1.1
2244,202208,충청북도,음성푸르지오센터피크,114.26,84.89,42,182,224,0,33000,...,0,0,0,0,1,0,1,0,3,1.1
2245,202208,충청북도,음성푸르지오센터피크,140.16,110.73,61,29,90,2,43100,...,0,0,0,0,1,0,1,0,3,1.1


In [5]:
import pandas as pd

# 1. 두 CSV 파일을 각각 데이터프레임으로 로드합니다.
#    - pop_df: 인구 정보 등이 포함된 원본 데이터
#    - apt_df: 업데이트할 최신 아파트 정보가 담긴 데이터
pop_df = pd.read_csv("merged_population_data.csv")
apt_df = pd.read_csv("combined_apartments.csv")

# 2. '기준년월' 컬럼의 데이터 형식을 통일합니다.
# pop_df의 'YYYY-MM' 또는 다른 형식의 날짜를 apt_df의 YYYYMM 형식(정수)으로 변환합니다.
# to_datetime으로 변환하며 날짜 형식이 아닌 값은 NaT(Not a Time)으로 처리합니다.
pop_df['기준년월'] = pd.to_datetime(pop_df['기준년월'], errors='coerce').dt.strftime('%Y%m')

# 만약 변환에 실패한 행(NaT)이 있다면, 기존 'merged_population_data.csv'의 원본 값으로 다시 채워줍니다.
# 이는 이미 YYYYMM 형식으로 되어있는 데이터가 손상되지 않도록 방지합니다.
pop_df['기준년월'].fillna(pd.read_csv("merged_population_data.csv")['기준년월'], inplace=True)

# 최종적으로 '기준년월' 컬럼 전체를 정수(integer) 형태로 변환합니다.
pop_df['기준년월'] = pop_df['기준년월'].astype(int)


# 3. 업데이트의 기준이 될 고유 키(key) 컬럼들을 정의합니다.
key_columns = ['기준년월', '지역', '아파트', '공급면적(㎡)', '전용면적(㎡)']

# 4. 두 데이터프레임을 고유 키를 사용해 인덱스로 설정합니다.
pop_df_indexed = pop_df.set_index(key_columns)
apt_df_indexed = apt_df.set_index(key_columns)

# 5. pop_df를 apt_df의 내용으로 업데이트합니다.
# 공통된 인덱스를 기준으로, 공통된 컬럼의 값만 최신 정보(apt_df)로 업데이트됩니다.
# pop_df에만 있는 '총인구수' 등의 컬럼은 이 과정에서 완전히 보존됩니다.
pop_df_indexed.update(apt_df_indexed)

# 6. 인덱스를 다시 일반 컬럼으로 되돌립니다.
final_df = pop_df_indexed.reset_index()

# 7. 최종 업데이트된 데이터프레임을 새로운 CSV 파일로 저장합니다.
output_filename = "merged_population_data_final_updated.csv"
final_df.to_csv(output_filename, index=False, encoding='utf-8-sig')

print(f"업데이트가 완료되어 '{output_filename}' 파일로 저장되었습니다.")

업데이트가 완료되어 'merged_population_data_final_updated.csv' 파일로 저장되었습니다.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  pop_df['기준년월'].fillna(pd.read_csv("merged_population_data.csv")['기준년월'], inplace=True)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_indexed.update(apt_df_indexed)
  pop_df_

In [6]:
final_df

Unnamed: 0,기준년월,지역,아파트,공급면적(㎡),전용면적(㎡),일반분양,특별분양,세대수,미분양수,분양가(만원),...,버스 - 반경 500m 이내,고속철도 - 10km 이내,고속도로IC - 10km 이내,주변시세 평균,주변시세 평균(만원),시세차익(만원),KB매매가격지수,Close,총인구수,인구증감률
0,202504,강원도,강릉자이르네디오션,109.5400,84.8800,26,27,53,2,57590,...,0,1,3,3.9,39000,-18590,89.303238,2697.670000,1512088.0,-0.1
1,202504,강원도,강릉자이르네디오션,109.9600,84.9800,10,11,21,0,50260,...,0,1,3,3.9,39000,-11260,89.303238,2697.670000,1512088.0,-0.1
2,202504,강원도,강릉자이르네디오션,109.9700,84.9800,11,15,26,1,56360,...,0,1,3,3.9,39000,-17360,89.303238,2697.670000,1512088.0,-0.1
3,202504,강원도,강릉자이르네디오션,111.1500,84.9200,19,21,40,3,53700,...,0,1,3,3.9,39000,-14700,89.303238,2697.670000,1512088.0,-0.1
4,202504,강원도,강릉자이르네디오션,131.9600,101.9600,2,-,2,0,72320,...,0,1,3,3.9,39000,-33320,89.303238,2697.670000,1512088.0,-0.1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2209,202212,충청북도,음성동문디이스트,110.3724,84.9615,189,498,687,34,32600,...,4,0,3,1.1,11000,-21600,96.569873,2361.278564,1595058.0,0.0
2210,202212,충청북도,진천금호어울림센트럴파크,99.8234,76.9848,38,38,76,23,25940,...,5,0,3,1.9,19000,-6940,96.569873,2361.278564,1595058.0,0.0
2211,202212,충청북도,진천금호어울림센트럴파크,99.8946,76.9209,22,17,39,0,25440,...,5,0,3,1.9,19000,-6440,96.569873,2361.278564,1595058.0,0.0
2212,202212,충청북도,진천금호어울림센트럴파크,109.6959,84.9840,71,75,146,110,28510,...,5,0,3,1.9,19000,-9510,96.569873,2361.278564,1595058.0,0.0
