In [1]:
import pandas as pd
import os


dir_path = "dataset\\deal_price\\Seoul"
file_list = os.listdir(dir_path)
df_list = list()

# 해당 폴더 안에 있는 csv 파일들을 읽어서 리스트 안에 데이터프레임들을 담음
for csv_file in file_list:
    df_list.append(pd.read_csv(dir_path+"\\"+csv_file ,skiprows=15,  encoding='cp949'))


In [2]:
df_list[1].info() # 리스트 안에 잘 담겼는지 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59011 entries, 0 to 59010
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   시군구       59011 non-null  object 
 1   번지        59011 non-null  object 
 2   본번        59011 non-null  int64  
 3   부번        59011 non-null  int64  
 4   단지명       59011 non-null  object 
 5   전용면적(㎡)   59011 non-null  float64
 6   계약년월      59011 non-null  int64  
 7   계약일       59011 non-null  int64  
 8   거래금액(만원)  59011 non-null  object 
 9   층         59011 non-null  int64  
 10  건축년도      59011 non-null  int64  
 11  도로명       59011 non-null  object 
 12  해제사유발생일   0 non-null      float64
 13  거래유형      59011 non-null  object 
 14  중개사소재지    59011 non-null  object 
dtypes: float64(2), int64(6), object(7)
memory usage: 6.8+ MB


In [3]:
# 모든 데이터프레임을을 통합
df_default = df_list[0]
for df_csv in df_list[1:]:
    df_default = pd.concat([df_default, df_csv], axis=0)

In [4]:
df_default.info() # 데이터프레임 합친 결과 확인

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 15 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   시군구       1237491 non-null  object 
 1   번지        1237270 non-null  object 
 2   본번        1237416 non-null  float64
 3   부번        1237416 non-null  float64
 4   단지명       1237491 non-null  object 
 5   전용면적(㎡)   1237491 non-null  float64
 6   계약년월      1237491 non-null  int64  
 7   계약일       1237491 non-null  int64  
 8   거래금액(만원)  1237491 non-null  object 
 9   층         1237491 non-null  int64  
 10  건축년도      1237489 non-null  float64
 11  도로명       1237491 non-null  object 
 12  해제사유발생일   5242 non-null     float64
 13  거래유형      1237491 non-null  object 
 14  중개사소재지    1237491 non-null  object 
dtypes: float64(5), int64(3), object(7)
memory usage: 151.1+ MB


In [5]:
df_default.head() # 기본 정보 파악

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일,거래유형,중개사소재지
0,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200603,10,59500,7,1988.0,언주로 103,,-,-
1,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200603,29,60000,6,1988.0,언주로 103,,-,-
2,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200604,29,67000,9,1988.0,언주로 103,,-,-
3,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200606,1,60000,4,1988.0,언주로 103,,-,-
4,서울특별시 강남구 개포동,655-2,655.0,2.0,개포2차현대아파트(220),77.75,200610,20,72250,5,1988.0,언주로 103,,-,-


In [6]:
# 사용할 컬럼들만 거르고 컬럼명 영어로 치환
# 번지, 본번, 부번은 null 값들이 있으므로 도로명을 가져옴
df_default = df_default[['시군구','도로명','단지명','계약년월','계약일','거래금액(만원)','층']]
df_default.columns = ['address','road','name','year_month','day','deal_price','floor']
df_default.head()

Unnamed: 0,address,road,name,year_month,day,deal_price,floor
0,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200603,10,59500,7
1,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200603,29,60000,6
2,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200604,29,67000,9
3,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200606,1,60000,4
4,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200610,20,72250,5


In [7]:
# 타입 변경을 통해서 year_month, day 타입 str로 변경
df_default["deal_price"] = df_default["deal_price"].str.replace(",", "")
df = df_default.astype({'year_month':'str','day':'str','deal_price':'int64'}).copy()
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 7 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   address     1237491 non-null  object
 1   road        1237491 non-null  object
 2   name        1237491 non-null  object
 3   year_month  1237491 non-null  object
 4   day         1237491 non-null  object
 5   deal_price  1237491 non-null  int64 
 6   floor       1237491 non-null  int64 
dtypes: int64(2), object(5)
memory usage: 75.5+ MB


In [8]:
df.head()

Unnamed: 0,address,road,name,year_month,day,deal_price,floor
0,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200603,10,59500,7
1,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200603,29,60000,6
2,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200604,29,67000,9
3,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200606,1,60000,4
4,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),200610,20,72250,5


In [9]:
# 연도 및 날짜 분리 및 생성
df['year'] = df['year_month'].str[0:4] # 연,월 합쳐져 있는 컬럼에서 연도만 추출
df['month'] = df['year_month'].str[4:] # 연,월 합쳐져 있는 컬럼에서 월만 추출
df.loc[df["day"].str.len()==1,"day"]='0'+df.loc[df["day"].str.len()==1,"day"] # 일이 있는 컬럼에서 1자리 숫자인 경우 앞에 0을 추가
df['date'] = pd.to_datetime(df['year']+df['month']+df['day']) # 일자들을 합쳐서 date 컬럼 생성
df = df.drop(['year_month'], axis=1) # 사용 안하는 컬럼들 제거
df.head()

Unnamed: 0,address,road,name,day,deal_price,floor,year,month,date
0,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),10,59500,7,2006,3,2006-03-10
1,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),29,60000,6,2006,3,2006-03-29
2,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),29,67000,9,2006,4,2006-04-29
3,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),1,60000,4,2006,6,2006-06-01
4,서울특별시 강남구 개포동,언주로 103,개포2차현대아파트(220),20,72250,5,2006,10,2006-10-20


In [10]:
# 주소 및 도로명들 분리
df["address_0"] = df["address"].str.split(' ',expand=True)[0] # '시' 만 추출해야 하나, 서울만 함으로 일단은 실행 X
df["address_1"] = df["address"].str.split(' ',expand=True)[1] # '구' 만 추출
df["address_2"] = df["address"].str.split(' ',expand=True)[2] # '동' 만 추출
df["road_name"] = df["road"].str.split(' ',expand=True)[0] # '도로명' 만 추출
df["road_number"] = df["road"].str.split(' ',expand=True)[1] # '도로숫자' 만 추출
df= df[['date','address_1','address_2','road_name','road_number','floor','deal_price','name']] # 사용할 컬럼만 선택
df.head()

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
0,2006-03-10,강남구,개포동,언주로,103,7,59500,개포2차현대아파트(220)
1,2006-03-29,강남구,개포동,언주로,103,6,60000,개포2차현대아파트(220)
2,2006-04-29,강남구,개포동,언주로,103,9,67000,개포2차현대아파트(220)
3,2006-06-01,강남구,개포동,언주로,103,4,60000,개포2차현대아파트(220)
4,2006-10-20,강남구,개포동,언주로,103,5,72250,개포2차현대아파트(220)


In [11]:
df.info() # road_number에 null 값이 있음을 확인

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1237491 entries, 0 to 12624
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   date         1237491 non-null  datetime64[ns]
 1   address_1    1237491 non-null  object        
 2   address_2    1237491 non-null  object        
 3   road_name    1237491 non-null  object        
 4   road_number  1237490 non-null  object        
 5   floor        1237491 non-null  int64         
 6   deal_price   1237491 non-null  int64         
 7   name         1237491 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 85.0+ MB


In [12]:
# road_number가 빈 값인 row 출력 -> '서울역센트럴자이(임대)'가 road_number가 none 이므로'서울역센트럴자이'를 확인
df.loc[df['road_number'].isnull(),:]  

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
80237,2020-12-31,중구,만리동2가,만리재로,,2,161000,서울역센트럴자이(임대)


In [13]:
# '서울역센트럴자이'를 확인 -> '' 값이 존재함을 확인..
df.loc[df['name'] == '서울역센트럴자이',:]

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
100795,2017-05-03,중구,만리동2가,만리재로,175.0,6,79390,서울역센트럴자이
100796,2017-12-20,중구,만리동2가,만리재로,175.0,13,85000,서울역센트럴자이
100797,2017-12-30,중구,만리동2가,,,17,85000,서울역센트럴자이
77533,2018-03-20,중구,만리동2가,,,17,85000,서울역센트럴자이
71745,2019-07-13,중구,만리동2가,만리재로,175.0,13,134500,서울역센트럴자이
71746,2019-08-20,중구,만리동2가,만리재로,175.0,8,95000,서울역센트럴자이
71747,2019-08-23,중구,만리동2가,만리재로,175.0,15,139000,서울역센트럴자이
71748,2019-09-08,중구,만리동2가,만리재로,175.0,11,113800,서울역센트럴자이
71749,2019-09-21,중구,만리동2가,만리재로,175.0,24,132000,서울역센트럴자이
71750,2019-11-30,중구,만리동2가,만리재로,175.0,23,120000,서울역센트럴자이


In [14]:
df.loc[df['name'] == '서울역센트럴자이(임대)','name']='서울역센트럴자이' # '서울역센트럴자이(임대)' 명칭 '서울역센트럴자이'로 수정
df.loc[df['name'] == '서울역센트럴자이','road_name']='만리재로' # 위에서 확인한 값들로 'road_name' 수정
df.loc[df['name'] == '서울역센트럴자이','road_number']='175' # 위에서 확인한 값들로 'road_number' 수정
df.loc[df['name'] == '서울역센트럴자이',:] # '서울역센트럴자이' 값 수정 됬는지 확인

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
100795,2017-05-03,중구,만리동2가,만리재로,175,6,79390,서울역센트럴자이
100796,2017-12-20,중구,만리동2가,만리재로,175,13,85000,서울역센트럴자이
100797,2017-12-30,중구,만리동2가,만리재로,175,17,85000,서울역센트럴자이
77533,2018-03-20,중구,만리동2가,만리재로,175,17,85000,서울역센트럴자이
71745,2019-07-13,중구,만리동2가,만리재로,175,13,134500,서울역센트럴자이
71746,2019-08-20,중구,만리동2가,만리재로,175,8,95000,서울역센트럴자이
71747,2019-08-23,중구,만리동2가,만리재로,175,15,139000,서울역센트럴자이
71748,2019-09-08,중구,만리동2가,만리재로,175,11,113800,서울역센트럴자이
71749,2019-09-21,중구,만리동2가,만리재로,175,24,132000,서울역센트럴자이
71750,2019-11-30,중구,만리동2가,만리재로,175,23,120000,서울역센트럴자이


In [15]:
# 앞에서 과정들을 통해서 ''들이 값들로 들어 있을 수도 있음을 깨달음
# 컬럼별로 ''을 값으로 가지고 있는지 확인
for column in df.columns:
    if '' in list(df[column].unique()):
        print(column,'수정해야함')
    else:
        pass

road_name 수정해야함
road_number 수정해야함


In [16]:
df.loc[(df['road_name']=='') |(df['road_number']==''),:] # 값들이 ''인 row들을 확인

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
1606,2006-02-23,강남구,논현동,,,1,73500,경복
1628,2006-10-19,강남구,논현동,,,7,71000,경복
2799,2006-01-24,강남구,대치동,,,4,80000,청실1
2806,2006-02-14,강남구,대치동,,,7,143500,청실1
2807,2006-02-14,강남구,대치동,,,10,142000,청실1
...,...,...,...,...,...,...,...,...
9199,2022-06-24,송파구,거여동,,,14,128000,e편한세상송파파크센트럴
9200,2022-07-21,송파구,거여동,,,23,135000,e편한세상송파파크센트럴
9201,2022-07-23,송파구,거여동,,,7,125000,e편한세상송파파크센트럴
9203,2022-08-19,송파구,거여동,,,9,130000,e편한세상송파파크센트럴


In [17]:
process_list=list() # 수정할 값들이 단긴 리스트 생성
# 'road_name' 컬럼이 ''인 값이거나 'road_number' 컬럼이 ''인 값들 중에서 아파트명 
for apart_name in list(df.loc[(df['road_name']=='') |(df['road_number']==''),'name'].unique()):
    temp_dict=dict()
    # 해당 아파트명에 대응하는 아파트명 값들 추가
    temp_dict['apartment_name']=apart_name 
    # 해당 아파트명에 대응하는 도로명 값들 추가
    temp_dict['road_name']= list(df.loc[df['name']==apart_name,'road_name'].unique())
    # 해당 아파트명에 대응하는 도로숫자 값들 추가
    temp_dict['road_number']=list(df.loc[df['name']==apart_name,'road_number'].unique())
    process_list.append(temp_dict)
print(process_list)

[{'apartment_name': '경복', 'road_name': ['언주로', ''], 'road_number': ['604', '']}, {'apartment_name': '청실1', 'road_name': ['남부순환로395길', ''], 'road_number': ['11', '']}, {'apartment_name': '청실2', 'road_name': ['남부순환로395길', ''], 'road_number': ['12', '']}, {'apartment_name': '도곡쌍용예가', 'road_name': ['남부순환로363길'], 'road_number': ['', '30']}, {'apartment_name': '진달래', 'road_name': ['', '도곡로', '청구로3길'], 'road_number': ['', '320', '72']}, {'apartment_name': '삼지', 'road_name': [''], 'road_number': ['']}, {'apartment_name': '성보', 'road_name': ['선릉로85길', '', '테헤란로52길', '목동중앙서로'], 'road_number': ['18', '', '16', '47']}, {'apartment_name': '진달래2차', 'road_name': [''], 'road_number': ['']}, {'apartment_name': '진달래3차', 'road_name': [''], 'road_number': ['']}, {'apartment_name': '한양', 'road_name': ['', '동남로71길', '미성5길', '구의강변로', '시흥대로', '동일로216길', '서초중앙로', '잠원로', '삼전로4길', '영등포로86길', '국제금융로'], 'road_number': ['', '19', '33', '11', '165', '92', '220', '62', '4-28', '32', '79']}, {'apartment_name': '삼익가든',

In [18]:
# 처리할 값들에 대해서 ''요소들 제거
for process in process_list:
    if '' in process['road_name']:
        process['road_name'].remove('')
    if '' in process['road_number']:
        process['road_number'].remove('')
    pass
print(process_list)

[{'apartment_name': '경복', 'road_name': ['언주로'], 'road_number': ['604']}, {'apartment_name': '청실1', 'road_name': ['남부순환로395길'], 'road_number': ['11']}, {'apartment_name': '청실2', 'road_name': ['남부순환로395길'], 'road_number': ['12']}, {'apartment_name': '도곡쌍용예가', 'road_name': ['남부순환로363길'], 'road_number': ['30']}, {'apartment_name': '진달래', 'road_name': ['도곡로', '청구로3길'], 'road_number': ['320', '72']}, {'apartment_name': '삼지', 'road_name': [], 'road_number': []}, {'apartment_name': '성보', 'road_name': ['선릉로85길', '테헤란로52길', '목동중앙서로'], 'road_number': ['18', '16', '47']}, {'apartment_name': '진달래2차', 'road_name': [], 'road_number': []}, {'apartment_name': '진달래3차', 'road_name': [], 'road_number': []}, {'apartment_name': '한양', 'road_name': ['동남로71길', '미성5길', '구의강변로', '시흥대로', '동일로216길', '서초중앙로', '잠원로', '삼전로4길', '영등포로86길', '국제금융로'], 'road_number': ['19', '33', '11', '165', '92', '220', '62', '4-28', '32', '79']}, {'apartment_name': '삼익가든', 'road_name': ['상암로'], 'road_number': ['224', '225']}, {'apartme

In [24]:
# 한번에 처리할 수 있는 값들과 처리할 수 없는 값들 구분하여서 리스트로 추가
process_list2 = list() # 한번에 처리할 수 있는 값들 리스트
process_list3 = list() # 한번에 처리할 수 없는 값들 리스트 - 여러개의 값
process_list4 = list() # 한번에 처리할 수 없는 값들 리스트 - 빈값
for process in process_list:
    temp_dict =dict()
    if (len(process['road_name'])==1) and (len(process['road_number'])==1):
        temp_dict['apartment_name'] = process['apartment_name']
        temp_dict['road_name'] = process['road_name'][0]
        temp_dict['road_number'] = process['road_number'][0]
        process_list2.append(temp_dict)
    elif (process['road_name']==[]) and (process['road_number']==[]):
        process_list4.append(process)
    else:
        process_list3.append(process)
print(process_list2)

[{'apartment_name': '경복', 'road_name': '언주로', 'road_number': '604'}, {'apartment_name': '청실1', 'road_name': '남부순환로395길', 'road_number': '11'}, {'apartment_name': '청실2', 'road_name': '남부순환로395길', 'road_number': '12'}, {'apartment_name': '도곡쌍용예가', 'road_name': '남부순환로363길', 'road_number': '30'}, {'apartment_name': '현대(고덕)', 'road_name': '동남로71길', 'road_number': '41'}, {'apartment_name': '유원강변', 'road_name': '노량진로23가길', 'road_number': '20'}, {'apartment_name': '평화', 'road_name': '퇴계로8길', 'road_number': '23'}, {'apartment_name': '삼익대청아파트', 'road_name': '개포로109길', 'road_number': '21'}, {'apartment_name': '주풍그린빌라트', 'road_name': '명일로', 'road_number': '158-5'}, {'apartment_name': '현대사원', 'road_name': '개포로110길', 'road_number': '46'}, {'apartment_name': '삼익그린2차', 'road_name': '고덕로', 'road_number': '210'}, {'apartment_name': '상계주공16(고층)', 'road_name': '동일로227길', 'road_number': '86'}, {'apartment_name': '한신4차', 'road_name': '동일로230길', 'road_number': '63'}, {'apartment_name': '에이아이디차관주택', 'road_nam

In [25]:
# 한번에 처리할 수 있는 값들 데이터프레임 처리
for process in process_list2:
    df.loc[df['name']==process['apartment_name'], 'road_name']=process['road_name']
    df.loc[df['name']==process['apartment_name'], 'road_number']=process['road_number']

In [26]:
print(len(process_list3)) # 총 41개의 값들 추가적으로 수정 필요
for temp_dict in process_list3: # 수정할 값들의 아파트명 확인
    print(temp_dict)
    print()

41
{'apartment_name': '진달래', 'road_name': ['도곡로', '청구로3길'], 'road_number': ['320', '72']}

{'apartment_name': '성보', 'road_name': ['선릉로85길', '테헤란로52길', '목동중앙서로'], 'road_number': ['18', '16', '47']}

{'apartment_name': '한양', 'road_name': ['동남로71길', '미성5길', '구의강변로', '시흥대로', '동일로216길', '서초중앙로', '잠원로', '삼전로4길', '영등포로86길', '국제금융로'], 'road_number': ['19', '33', '11', '165', '92', '220', '62', '4-28', '32', '79']}

{'apartment_name': '삼익가든', 'road_name': ['상암로'], 'road_number': ['224', '225']}

{'apartment_name': '미주', 'road_name': ['성내로', '등촌로13자길', '약령시로', '모래내로', '신반포로16길', '필동로5길'], 'road_number': ['74', '51', '154', '147', '344-7', '15-20', '2']}

{'apartment_name': '성내1차e-편한세상', 'road_name': ['천호대로168길'], 'road_number': ['58', '51']}

{'apartment_name': '현대', 'road_name': ['선릉로18길', '천호옛12길', '공항대로45길', '방화대로37길', '대학20길', '개봉로20길', '구로중앙로18길', '석계로', '섬밭로', '한천로58길', '정릉천동로', '약령시로21길', '서울시립대로29길', '여의대방로26길', '사당로17길', '여의대방로', '토정로', '성암로7길', '충정로7길', '신반포로3길', '동산로6길', '잠원로12길', '마장

In [118]:
# ''값 처리
# 추가할 값들
# df.loc[(df['name']=='진달래') & (df['address_1']=='강남구') , 'road_name'] = '도곡로'
# df.loc[(df['name']=='진달래') & (df['address_1']=='강남구') , 'road_number'] = '320'

# df.loc[(df['name']=='성보') &  (df['address_2']=='역삼동') , 'road_name'] = '선릉로85길'
# df.loc[(df['name']=='성보') &  (df['address_2']=='역삼동') , 'road_number'] = '18'

# df.loc[(df['name']=='진달래2차') , 'road_name'] = '도곡로43길'
# df.loc[(df['name']=='진달래2차') , 'road_number'] = '21'

# df.loc[(df['name']=='진달래3차') , 'road_name'] = '도곡로43길'
# df.loc[(df['name']=='진달래3차') , 'road_number'] = '20'
# 제거할 값들

In [51]:
# 체크1
df.loc[(df['name']== '서초한신') &  ((df['road_name']=='')|(df['road_number']=='')) , :]

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
79974,2006-10-19,서초구,서초동,남부순환로323길,,7,75800,서초한신
79975,2006-10-24,서초구,서초동,남부순환로323길,,3,67800,서초한신
40988,2007-06-29,서초구,서초동,남부순환로323길,,9,63200,서초한신
40989,2007-07-17,서초구,서초동,남부순환로323길,,5,79200,서초한신
40990,2007-08-06,서초구,서초동,남부순환로323길,,6,75000,서초한신
40991,2007-08-06,서초구,서초동,남부순환로323길,,10,110000,서초한신
37331,2008-01-21,서초구,서초동,남부순환로323길,,10,68000,서초한신


In [52]:
# 체크2
df.loc[(df['name']== '서초한신'), :]

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
79959,2006-03-08,서초구,서초동,남부순환로323길,38-16,8,68500,서초한신
79960,2006-03-11,서초구,서초동,남부순환로323길,38-16,7,69000,서초한신
79961,2006-03-14,서초구,서초동,남부순환로323길,38-16,8,83000,서초한신
79962,2006-03-15,서초구,서초동,남부순환로323길,38-15,12,88000,서초한신
79963,2006-03-24,서초구,서초동,남부순환로323길,38-16,3,54500,서초한신
...,...,...,...,...,...,...,...,...
54135,2020-10-21,서초구,서초동,남부순환로323길,38-15,4,158000,서초한신
27480,2021-05-22,서초구,서초동,남부순환로323길,38-16,6,186700,서초한신
27481,2021-09-18,서초구,서초동,남부순환로323길,38-15,10,182000,서초한신
27482,2021-09-25,서초구,서초동,남부순환로323길,38-16,2,189000,서초한신


In [36]:
# 체크3
df.loc[(df['name']=='한양') & (df['address_2']=='명일동'), :]

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
11060,2006-01-04,강동구,명일동,동남로71길,19,13,80000,한양
11061,2006-01-07,강동구,명일동,동남로71길,,13,69900,한양
11062,2006-01-12,강동구,명일동,동남로71길,,8,68000,한양
11063,2006-01-16,강동구,명일동,동남로71길,,2,66000,한양
11064,2006-01-18,강동구,명일동,동남로71길,19,3,46500,한양
...,...,...,...,...,...,...,...,...
3156,2021-03-03,강동구,명일동,동남로71길,19,4,170000,한양
3157,2021-03-11,강동구,명일동,동남로71길,19,11,147000,한양
3158,2021-03-12,강동구,명일동,동남로71길,19,1,170500,한양
3159,2021-08-06,강동구,명일동,동남로71길,19,5,171500,한양


In [45]:
df.loc[(df['address_2']=='옥수동') & (df['road_name']=='한림말길'), :]

Unnamed: 0,date,address_1,address_2,road_name,road_number,floor,deal_price,name
84498,2006-04-10,성동구,옥수동,한림말길,24,7,31000,극동옥정
84499,2006-04-28,성동구,옥수동,한림말길,24,6,31500,극동옥정
84500,2006-09-04,성동구,옥수동,한림말길,24,1,18000,극동옥정
84501,2006-10-09,성동구,옥수동,한림말길,24,12,35500,극동옥정
84502,2006-10-24,성동구,옥수동,한림말길,24,2,29800,극동옥정
...,...,...,...,...,...,...,...,...
29179,2021-10-09,성동구,옥수동,한림말길,50,3,184000,옥수하이츠
29180,2021-10-10,성동구,옥수동,한림말길,50,11,190000,옥수하이츠
29181,2021-11-22,성동구,옥수동,한림말길,50,15,213000,옥수하이츠
8369,2022-05-19,성동구,옥수동,한림말길,50,13,220000,옥수하이츠


road_name 까지만 해서 가격들이 비슷하게 움직인다면, road_number까지는 하지 말자?
2011년 부터 자료 모으기 시작?, 값들이 비어있는 프레임들의 날짜가 2010년 이전인듯