In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from IPython.display import display
import warnings

warnings.filterwarnings('ignore', category=UserWarning)
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

In [4]:

# 연도별 데이터를 담을 딕셔너리
seoul_data = {}

# 2010~2019 CSV 읽기
for year in range(2010, 2020):
    file_path = f'./raw_data/c_seoul_{year}.csv'
    seoul_data[year] = pd.read_csv(file_path, encoding='EUC-KR', header=15)

# 연도 컬럼 추가 후 합치기
df_list = []
for year, df in seoul_data.items():
    df['연도'] = year  # 각 데이터프레임에 연도 컬럼 추가
    df_list.append(df)

# 모든 연도 데이터프레임 합치기
df_all = pd.concat(df_list, ignore_index=True)

# 확인
display(df_all.head())
display(df_all.tail())

Unnamed: 0,NO,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),...,층,매수자,매도자,건축년도,도로명,해제사유발생일,거래유형,중개사소재지,등기일자,연도
0,1,서울특별시 동대문구 휘경동,57,57,0,주공1,84.75,201012,31,36800,...,17,-,-,2001,한천로 248,-,-,-,-,2010
1,2,서울특별시 동대문구 휘경동,366,366,0,동일스위트리버,84.973,201012,31,43000,...,19,-,-,2007,한천로 300,-,-,-,-,2010
2,3,서울특별시 성북구 종암동,131,131,0,아이파크종암동2차,59.675,201012,31,33900,...,6,-,-,2005,종암로9길 71,-,-,-,-,2010
3,4,서울특별시 도봉구 창동,347,347,0,창동주공3단지(해등마을),49.94,201012,31,23000,...,10,-,-,1991,해등로 50,-,-,-,-,2010
4,5,서울특별시 도봉구 창동,809,809,0,금용,84.93,201012,31,29500,...,5,-,-,1997,우이천로 200,-,-,-,-,2010


Unnamed: 0,NO,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),...,층,매수자,매도자,건축년도,도로명,해제사유발생일,거래유형,중개사소재지,등기일자,연도
784745,74986,서울특별시 구로구 고척동,322,322,0,성원,56.97,201901,1,26500,...,6,-,-,1996,경인로47가길 10,-,-,-,-,2019
784746,74987,서울특별시 서대문구 북가좌동,488,488,0,대경아르체,48.48,201901,1,42000,...,6,-,-,2018,응암로 133,-,-,-,-,2019
784747,74988,서울특별시 노원구 월계동,929,929,0,현대,114.99,201901,1,65200,...,2,-,-,2000,석계로 49,-,-,-,-,2019
784748,74989,서울특별시 용산구 이촌동,395,395,0,대림,84.78,201901,1,109000,...,3,-,-,1994,이촌로2가길 122,-,-,-,-,2019
784749,74990,서울특별시 성북구 정릉동,1031,1031,0,정릉힐스테이트3차,84.97,201901,1,52000,...,4,-,-,2008,보국문로 116,-,-,-,-,2019


In [5]:
# 모든 값이 '-'인 컬럼 찾기
all_dash_cols = (df_all == '-').sum() != 0

# 컬럼명만 출력
columns_all_dash = all_dash_cols[all_dash_cols].index.tolist()

print(columns_all_dash)
print(df_all.shape)

# drop
# ['동', '매수자', '매도자', '해제사유발생일', '거래유형', '중개사소재지', '등기일자']


['동', '매수자', '매도자', '해제사유발생일', '거래유형', '중개사소재지', '등기일자']
(784750, 21)


In [6]:

df_all.groupby('연도')['NO'].count()

연도
2010     44165
2011     54378
2012     40995
2013     68128
2014     85541
2015    120031
2016    110061
2017    104895
2018     81566
2019     74990
Name: NO, dtype: int64

In [7]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 784750 entries, 0 to 784749
Data columns (total 21 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   NO        784750 non-null  int64  
 1   시군구       784750 non-null  object 
 2   번지        784750 non-null  object 
 3   본번        784750 non-null  int64  
 4   부번        784750 non-null  int64  
 5   단지명       784750 non-null  object 
 6   전용면적(㎡)   784750 non-null  float64
 7   계약년월      784750 non-null  int64  
 8   계약일       784750 non-null  int64  
 9   거래금액(만원)  784750 non-null  object 
 10  동         784750 non-null  object 
 11  층         784750 non-null  int64  
 12  매수자       784750 non-null  object 
 13  매도자       784750 non-null  object 
 14  건축년도      784750 non-null  int64  
 15  도로명       784750 non-null  object 
 16  해제사유발생일   784750 non-null  object 
 17  거래유형      784750 non-null  object 
 18  중개사소재지    784750 non-null  object 
 19  등기일자      784750 non-null  object 
 20  연도  