In [1]:
import pandas as pd
import os


dir_path = "dataset\\deal_price\\Seoul"
file_list = os.listdir(dir_path)
df_list = list()

# 해당 폴더 안에 있는 csv 파일들을 읽어서 리스트 안에 데이터프레임들을 담음
for csv_file in file_list:
    df_list.append(pd.read_csv(dir_path+"\\"+csv_file ,skiprows=15,  encoding='cp949'))


In [2]:
df_list[1].info() # 리스트 안에 잘 담겼는지 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59011 entries, 0 to 59010
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   시군구       59011 non-null  object 
 1   번지        59011 non-null  object 
 2   본번        59011 non-null  int64  
 3   부번        59011 non-null  int64  
 4   단지명       59011 non-null  object 
 5   전용면적(㎡)   59011 non-null  float64
 6   계약년월      59011 non-null  int64  
 7   계약일       59011 non-null  int64  
 8   거래금액(만원)  59011 non-null  object 
 9   층         59011 non-null  int64  
 10  건축년도      59011 non-null  int64  
 11  도로명       59011 non-null  object 
 12  해제사유발생일   0 non-null      float64
 13  거래유형      59011 non-null  object 
 14  중개사소재지    59011 non-null  object 
dtypes: float64(2), int64(6), object(7)
memory usage: 6.8+ MB


In [3]:
# 모든 데이터프레임을을 통합
df_default = df_list[0]
for df_csv in df_list[1:]:
    df_default = pd.concat([df_default, df_csv], axis=0)

In [4]:
df_default.head() # 기본 정보 파악

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일,거래유형,중개사소재지
0,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200603,10,59500,7,1988.0,언주로 103,,-,-
1,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200603,29,60000,6,1988.0,언주로 103,,-,-
2,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200604,29,67000,9,1988.0,언주로 103,,-,-
3,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200606,1,60000,4,1988.0,언주로 103,,-,-
4,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200610,20,72250,5,1988.0,언주로 103,,-,-


In [5]:
df_default.info() # 데이터프레임 합친 결과 확인

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 15 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   시군구       1237491 non-null  object 
 1   번지        1237270 non-null  object 
 2   본번        1237416 non-null  float64
 3   부번        1237416 non-null  float64
 4   단지명       1237491 non-null  object 
 5   전용면적(㎡)   1237491 non-null  float64
 6   계약년월      1237491 non-null  int64  
 7   계약일       1237491 non-null  int64  
 8   거래금액(만원)  1237491 non-null  object 
 9   층         1237491 non-null  int64  
 10  건축년도      1237489 non-null  float64
 11  도로명       1237491 non-null  object 
 12  해제사유발생일   5242 non-null     float64
 13  거래유형      1237491 non-null  object 
 14  중개사소재지    1237491 non-null  object 
dtypes: float64(5), int64(3), object(7)
memory usage: 151.1+ MB


In [6]:
# 사용할 컬럼들만 거르고 컬럼명 영어로 치환 - null 값이 없는 컬럼들만 선택
# 번지, 본번, 부번은 null 값들이 있음
df_default = df_default[['시군구','본번','부번','도로명','단지명','계약년월','계약일','거래금액(만원)','층']]
df_default.columns = ['address','main_number','sub_number','road','name','year_month','day','deal_price','floor']
df_default.head() # 잘 걸러졌는지 확인

Unnamed: 0,address,main_number,sub_number,road,name,year_month,day,deal_price,floor
0,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200603,10,59500,7
1,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200603,29,60000,6
2,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200604,29,67000,9
3,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200606,1,60000,4
4,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200610,20,72250,5


In [7]:
# 타입 변경을 통해서 year_month, day 타입 str로 변경
df_default["deal_price"] = df_default["deal_price"].str.replace(",", "")
df = df_default.astype({'year_month':'str','day':'str','deal_price':'int64'}).copy()
df.head() # 형태가 변경된거 확인

Unnamed: 0,address,main_number,sub_number,road,name,year_month,day,deal_price,floor
0,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200603,10,59500,7
1,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200603,29,60000,6
2,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200604,29,67000,9
3,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200606,1,60000,4
4,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),200610,20,72250,5


In [8]:
df.info() # 타입 및 null 확인 -> main_number와 sub_number에 null 값들이 있다

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 9 columns):
 #   Column       Non-Null Count    Dtype  
---  ------       --------------    -----  
 0   address      1237491 non-null  object 
 1   main_number  1237416 non-null  float64
 2   sub_number   1237416 non-null  float64
 3   road         1237491 non-null  object 
 4   name         1237491 non-null  object 
 5   year_month   1237491 non-null  object 
 6   day          1237491 non-null  object 
 7   deal_price   1237491 non-null  int64  
 8   floor        1237491 non-null  int64  
dtypes: float64(2), int64(2), object(5)
memory usage: 94.4+ MB


In [9]:
# 'main_number'혹은 'sub_number'이 null 인데 'road'도 null 인 값을 확인 -> 없음
# 즉, 'road가 정보가 더욱 많음'
df[((df['main_number'].isnull()) |(df['sub_number'].isnull())) &(df['road'].isnull()) ]

Unnamed: 0,address,main_number,sub_number,road,name,year_month,day,deal_price,floor


In [10]:
# 연도 및 날짜 분리 및 생성
df['year'] = df['year_month'].str[0:4] # 연,월 합쳐져 있는 컬럼에서 연도만 추출
df['month'] = df['year_month'].str[4:] # 연,월 합쳐져 있는 컬럼에서 월만 추출
df.loc[df["day"].str.len()==1,"day"]='0'+df.loc[df["day"].str.len()==1,"day"] # 일이 있는 컬럼에서 1자리 숫자인 경우 앞에 0을 추가
df['date'] = pd.to_datetime(df['year']+df['month']+df['day']) # 일자들을 합쳐서 date 컬럼 생성
df = df.drop(['year_month'], axis=1) # 사용 안하는 컬럼들 제거
df.head()

Unnamed: 0,address,main_number,sub_number,road,name,day,deal_price,floor,year,month,date
0,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),10,59500,7,2006,3,2006-03-10
1,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),29,60000,6,2006,3,2006-03-29
2,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),29,67000,9,2006,4,2006-04-29
3,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),1,60000,4,2006,6,2006-06-01
4,서울특별시 강남구 개포동,655.0,2.0,언주로 103,개포2차현대아파트(220),20,72250,5,2006,10,2006-10-20


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 11 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   address      1237491 non-null  object        
 1   main_number  1237416 non-null  float64       
 2   sub_number   1237416 non-null  float64       
 3   road         1237491 non-null  object        
 4   name         1237491 non-null  object        
 5   day          1237491 non-null  object        
 6   deal_price   1237491 non-null  int64         
 7   floor        1237491 non-null  int64         
 8   year         1237491 non-null  object        
 9   month        1237491 non-null  object        
 10  date         1237491 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(2), int64(2), object(6)
memory usage: 113.3+ MB


In [12]:
# 주소 및 도로명들 분리
df["address_0"] = df["address"].str.split(' ',expand=True)[0] # '시' 만 추출해야 하나, 서울만 함으로 일단은 실행 X
df["address_1"] = df["address"].str.split(' ',expand=True)[1] # '구' 만 추출
df["address_2"] = df["address"].str.split(' ',expand=True)[2] # '동' 만 추출
df["road_name"] = df["road"].str.split(' ',expand=True)[0] # '도로명' 만 추출
df["road_number"] = df["road"].str.split(' ',expand=True)[1] # '도로숫자' 만 추출
df= df[['date','address_0','address_1','address_2','road_name','road_number','floor','deal_price','name','main_number','sub_number']] # 사용할 컬럼만 선택
df.head()

Unnamed: 0,date,address_0,address_1,address_2,road_name,road_number,floor,deal_price,name,main_number,sub_number
0,2006-03-10,서울특별시,강남구,개포동,언주로,103,7,59500,개포2차현대아파트(220),655.0,2.0
1,2006-03-29,서울특별시,강남구,개포동,언주로,103,6,60000,개포2차현대아파트(220),655.0,2.0
2,2006-04-29,서울특별시,강남구,개포동,언주로,103,9,67000,개포2차현대아파트(220),655.0,2.0
3,2006-06-01,서울특별시,강남구,개포동,언주로,103,4,60000,개포2차현대아파트(220),655.0,2.0
4,2006-10-20,서울특별시,강남구,개포동,언주로,103,5,72250,개포2차현대아파트(220),655.0,2.0


In [13]:
df.info() # road_number에 null 값이 생김을 확인

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 11 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   date         1237491 non-null  datetime64[ns]
 1   address_0    1237491 non-null  object        
 2   address_1    1237491 non-null  object        
 3   address_2    1237491 non-null  object        
 4   road_name    1237491 non-null  object        
 5   road_number  1237490 non-null  object        
 6   floor        1237491 non-null  int64         
 7   deal_price   1237491 non-null  int64         
 8   name         1237491 non-null  object        
 9   main_number  1237416 non-null  float64       
 10  sub_number   1237416 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(2), object(6)
memory usage: 113.3+ MB


In [14]:
df[df['road_number'].isnull()] # road_number에 null값이 들어 있는 row를 확인

Unnamed: 0,date,address_0,address_1,address_2,road_name,road_number,floor,deal_price,name,main_number,sub_number
80237,2020-12-31,서울특별시,중구,만리동2가,만리재로,,2,161000,서울역센트럴자이(임대),176.0,1.0


In [15]:
# '서울역센트럴자이'를 확인 -> '' 값이 존재함을 확인..
df.loc[df['name'] == '서울역센트럴자이',:]

Unnamed: 0,date,address_0,address_1,address_2,road_name,road_number,floor,deal_price,name,main_number,sub_number
100795,2017-05-03,서울특별시,중구,만리동2가,만리재로,175.0,6,79390,서울역센트럴자이,176.0,1.0
100796,2017-12-20,서울특별시,중구,만리동2가,만리재로,175.0,13,85000,서울역센트럴자이,176.0,1.0
100797,2017-12-30,서울특별시,중구,만리동2가,,,17,85000,서울역센트럴자이,176.0,1.0
77533,2018-03-20,서울특별시,중구,만리동2가,,,17,85000,서울역센트럴자이,176.0,1.0
71745,2019-07-13,서울특별시,중구,만리동2가,만리재로,175.0,13,134500,서울역센트럴자이,176.0,1.0
71746,2019-08-20,서울특별시,중구,만리동2가,만리재로,175.0,8,95000,서울역센트럴자이,176.0,1.0
71747,2019-08-23,서울특별시,중구,만리동2가,만리재로,175.0,15,139000,서울역센트럴자이,176.0,1.0
71748,2019-09-08,서울특별시,중구,만리동2가,만리재로,175.0,11,113800,서울역센트럴자이,176.0,1.0
71749,2019-09-21,서울특별시,중구,만리동2가,만리재로,175.0,24,132000,서울역센트럴자이,176.0,1.0
71750,2019-11-30,서울특별시,중구,만리동2가,만리재로,175.0,23,120000,서울역센트럴자이,176.0,1.0


>> null 값이 없다고 ''값도 없는건 아니구나!

In [16]:
df.loc[df['name'] == '서울역센트럴자이(임대)','name']='서울역센트럴자이' # '서울역센트럴자이(임대)' 명칭 '서울역센트럴자이'로 수정
df.loc[df['name'] == '서울역센트럴자이','road_name']='만리재로' # 위에서 확인한 값들로 'road_name' 수정
df.loc[df['name'] == '서울역센트럴자이','road_number']='175' # 위에서 확인한 값들로 'road_number' 수정
df.info() # 우선 1차적으로 null 값들은 처리함을 확인

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 11 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   date         1237491 non-null  datetime64[ns]
 1   address_0    1237491 non-null  object        
 2   address_1    1237491 non-null  object        
 3   address_2    1237491 non-null  object        
 4   road_name    1237491 non-null  object        
 5   road_number  1237491 non-null  object        
 6   floor        1237491 non-null  int64         
 7   deal_price   1237491 non-null  int64         
 8   name         1237491 non-null  object        
 9   main_number  1237416 non-null  float64       
 10  sub_number   1237416 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(2), object(6)
memory usage: 113.3+ MB


>> 앞에서 과정들을 통해서 ''들이 값들로 들어 있을 수도 있음을 깨달음

In [17]:
df = df.replace('', None) # ''값만 있는 값들을 null 값들로 수정
df.info() # 수정한 후 정보 확인

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 11 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   date         1237491 non-null  datetime64[ns]
 1   address_0    1237491 non-null  object        
 2   address_1    1237491 non-null  object        
 3   address_2    1237491 non-null  object        
 4   road_name    1235462 non-null  object        
 5   road_number  1234196 non-null  object        
 6   floor        1237491 non-null  int64         
 7   deal_price   1237491 non-null  int64         
 8   name         1237491 non-null  object        
 9   main_number  1237416 non-null  float64       
 10  sub_number   1237416 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(2), object(6)
memory usage: 113.3+ MB


In [18]:
df.isnull().sum() # df의 null 값들이 증가함을 확인, 
                  # 처음에는 도로주소가 null값이 더 적은 줄 알았지만, 전처리를 통해서 지번주소가 null 값이 더 적은 듯

date              0
address_0         0
address_1         0
address_2         0
road_name      2029
road_number    3295
floor             0
deal_price        0
name              0
main_number      75
sub_number       75
dtype: int64

In [19]:
# 'main_number'나 'sub_number' 둘중 하나만 null 인 것을 확인 -> 없음
# 즉, 2개가 동시에 null 값을 가지고 있음
df[((df['main_number'].isnull()) &(df['sub_number'].notnull()))
  |((df['main_number'].notnull()) &(df['sub_number'].isnull()))]

Unnamed: 0,date,address_0,address_1,address_2,road_name,road_number,floor,deal_price,name,main_number,sub_number


In [20]:
# 도로명정보에는 null이고 지번주소도 null인 데이터를 확인 -> 없다
# 즉, 어떻게든 주소에 대한 정보를 얻을 수 있다
df[((df['road_name'].isnull()) | (df['road_number'].isnull())) & (df['main_number'].isnull())] 

Unnamed: 0,date,address_0,address_1,address_2,road_name,road_number,floor,deal_price,name,main_number,sub_number


In [21]:
df.loc[df['main_number'].isnull(),['address_0','address_1','address_2','road_name','road_number','name','main_number','sub_number']] # 처리해야 할 null 값이 있는 데이터프레임을 조회

Unnamed: 0,address_0,address_1,address_2,road_name,road_number,name,main_number,sub_number
76753,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
76754,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
76755,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
76756,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
76757,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
...,...,...,...,...,...,...,...,...
27707,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
27708,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
27709,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,
8014,서울특별시,서초구,신원동,헌릉로8길,10-12,힐스테이트 서초 젠트리스,,


In [22]:
df.loc[df['main_number'].isnull(),'name'].unique() # 처리해야 할 지번주소에 null 값이 있는 아파트명들 조회
                                                   # '힐스테이트 서초 젠트리스'만 수정하면 될듯

array(['힐스테이트 서초 젠트리스'], dtype=object)

In [23]:
df.loc[df['name']=='힐스테이트 서초 젠트리스',:] # 기존 '힐스테이트 서초 젠트리스' 전체도 지번주소가 null값으로 되어 있음

Unnamed: 0,date,address_0,address_1,address_2,road_name,road_number,floor,deal_price,name,main_number,sub_number
76753,2015-03-01,서울특별시,서초구,신원동,헌릉로8길,10-12,5,73430,힐스테이트 서초 젠트리스,,
76754,2015-04-17,서울특별시,서초구,신원동,헌릉로8길,10-12,9,79000,힐스테이트 서초 젠트리스,,
76755,2015-05-01,서울특별시,서초구,신원동,헌릉로8길,10-12,6,95000,힐스테이트 서초 젠트리스,,
76756,2015-06-16,서울특별시,서초구,신원동,헌릉로8길,10-12,6,87200,힐스테이트 서초 젠트리스,,
76757,2015-06-26,서울특별시,서초구,신원동,헌릉로8길,10-12,8,94500,힐스테이트 서초 젠트리스,,
...,...,...,...,...,...,...,...,...,...,...,...
27707,2021-04-27,서울특별시,서초구,신원동,헌릉로8길,10-12,3,184500,힐스테이트 서초 젠트리스,,
27708,2021-05-26,서울특별시,서초구,신원동,헌릉로8길,10-12,4,165000,힐스테이트 서초 젠트리스,,
27709,2021-07-26,서울특별시,서초구,신원동,헌릉로8길,10-12,7,182000,힐스테이트 서초 젠트리스,,
8014,2022-06-23,서울특별시,서초구,신원동,헌릉로8길,10-12,5,204000,힐스테이트 서초 젠트리스,,


In [24]:
# 지번주소 null 값들을 검색하여서 정보를 얻고 수정
df.loc[df['name']=='힐스테이트 서초 젠트리스','main_number'] = 557
df.loc[df['name']=='힐스테이트 서초 젠트리스','sub_number'] = 0

In [25]:
# 사용할 컬럼들과, 컬럼명들 수정
df_deal = df[['date','address_0','address_1','address_2','main_number','sub_number','name','floor','deal_price']].copy()
df_deal.columns =['date','address_0','address_1','address_2','address_3','address_4','name','floor','deal_price']
df_deal.head()

Unnamed: 0,date,address_0,address_1,address_2,address_3,address_4,name,floor,deal_price
0,2006-03-10,서울특별시,강남구,개포동,655.0,2.0,개포2차현대아파트(220),7,59500
1,2006-03-29,서울특별시,강남구,개포동,655.0,2.0,개포2차현대아파트(220),6,60000
2,2006-04-29,서울특별시,강남구,개포동,655.0,2.0,개포2차현대아파트(220),9,67000
3,2006-06-01,서울특별시,강남구,개포동,655.0,2.0,개포2차현대아파트(220),4,60000
4,2006-10-20,서울특별시,강남구,개포동,655.0,2.0,개포2차현대아파트(220),5,72250


In [26]:
df_deal.info() # 데이터프레임 정보 확인

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype         
---  ------      --------------    -----         
 0   date        1237491 non-null  datetime64[ns]
 1   address_0   1237491 non-null  object        
 2   address_1   1237491 non-null  object        
 3   address_2   1237491 non-null  object        
 4   address_3   1237491 non-null  float64       
 5   address_4   1237491 non-null  float64       
 6   name        1237491 non-null  object        
 7   floor       1237491 non-null  int64         
 8   deal_price  1237491 non-null  int64         
dtypes: datetime64[ns](1), float64(2), int64(2), object(4)
memory usage: 94.4+ MB


In [27]:
df_deal.iloc[200] # 정보들 제대로 있는지 확인

date          2006-04-21 00:00:00
address_0                   서울특별시
address_1                     강남구
address_2                     개포동
address_3                   141.0
address_4                     0.0
name                      개포주공1단지
floor                           3
deal_price                  65000
Name: 200, dtype: object