In [4]:
import pandas as pd
import os

# 데이터 경로 설정
data_path = '../data'

# 파일 존재 여부 확인
batch_stage_file = os.path.join(data_path, 'batch_stage_matching_result.xlsx')
multi_stage_file = os.path.join(data_path, 'multi_stage_matching_result.xlsx')

if not os.path.exists(batch_stage_file):
    print(f"오류: {batch_stage_file} 파일이 존재하지 않습니다.")
    print("파일 경로를 확인해주세요.")
else:
    # batch_stage_matching_result 파일 불러오기
    batch_stage_df = pd.read_excel(batch_stage_file)
    
    # 데이터 확인
    print("batch_stage_matching_result 데이터 크기:", batch_stage_df.shape)
    print("\nbatch_stage_matching_result 처음 5행:")
    print(batch_stage_df.head())

if not os.path.exists(multi_stage_file):
    print(f"오류: {multi_stage_file} 파일이 존재하지 않습니다.")
    print("파일 경로를 확인해주세요.")
else:
    # multi_stage_matching_result 파일 불러오기
    multi_stage_df = pd.read_excel(multi_stage_file)
    
    # 데이터 확인
    print("\nmulti_stage_matching_result 데이터 크기:", multi_stage_df.shape)
    print("\nmulti_stage_matching_result 처음 5행:")
    print(multi_stage_df.head())


batch_stage_matching_result 데이터 크기: (4194, 47)

batch_stage_matching_result 처음 5행:
   SEQ_NO   RECAP_PK       연면적     사용승인연도             건축물명  \
0     972  11110-900  10787.40 1971-04-21               본관   
1     974  11110-900   5458.12 1991-07-22        제2별관(제5호)   
2     975  11110-900   4949.30 2004-11-10   제3별관(감사원 제2별관)   
3     976  41480-189  10615.97 1999-08-26  감사교육원(감사교육원 청사)   
4    1861        NaN   4948.93 1987-11-09          대한민국학술원   

                       주소   지상   지하   TOTAREA         BLD_NM  ...  \
0         서울특별시 종로구 25-23  8.0  2.0  10787.40             본관  ...   
1         서울특별시 종로구 25-23  2.0  3.0   5458.12          (제5호)  ...   
2    서울특별시 종로구 삼청동 28-102  3.0  2.0       NaN            NaN  ...   
3                 경기도 파주시  4.0  1.0  10615.97  감사교육원 청사(본관동)  ...   
4  서울특별시 서초구 반포동 94-4 학술원  3.0  1.0       NaN            NaN  ...   

  건축물 시설관리자 이름 건축물 시설관리자  연락처 건축물 에너지사용량 입력자 이름 건축물 에너지사용량 입력자 연락처  \
0          정준혁   02-2011-3381               정준혁       02-20

In [8]:
multi_stage_df.columns

Index(['SEQ_NO', 'RECAP_PK', '연면적', '사용승인연도', '건축물명', '주소', '지상', '지하',
       'TOTAREA', 'BLD_NM', 'DONG_NM', 'USE_DATE', 'MGM_BLD_PK', 'MATCH_STAGE',
       'EBD_COUNT', 'BD_COUNT', 'ebd_tokens', '기관명', '지역', '용도', '면적', '냉난방면적',
       '기관유형', '코드번호', '건축물 등록일', '연간 단위면적당 1차 에너지 소비량 3개년 평균',
       '연간 단위면적당 1차 에너지 소비량 3개년 평균 중간값',
       '간절기 대비 소비량 비율[(냉방월 +난방월)/간절기월] 3개년 평균',
       '간절기 대비 소비량 비율[(냉방월 +난방월)/간절기월] 2개년 평균',
       '간절기 대비 소비량 비율[(냉방월 +난방월)/간절기월] 1개년 평균', '전기 (KWH)', '가스 (KWH)',
       '지역냉난방 (KWH)', '유류 (KWH)', '기타 (KWH)', '건축물 시설관리자 이름', '건축물 시설관리자  연락처',
       '건축물 에너지사용량 입력자 이름', '건축물 에너지사용량 입력자 연락처', 'EUI(1차E/냉난방 면적)',
       'EUI(1차E/연면적)', '연면적_원본', '사용승인연도_원본', '사용승인연도_year'],
      dtype='object')

In [9]:
# 1차 매칭 스테이지인 데이터만 필터링
batch_stage_1 = batch_stage_df[batch_stage_df['MATCH_STAGE'] == '1차']
multi_stage_1 = multi_stage_df[multi_stage_df['MATCH_STAGE'] == '1차']

# 두 데이터프레임의 차이점 확인
# batch_stage에만 있는 행 찾기
only_in_batch = batch_stage_1[~batch_stage_1['RECAP_PK'].isin(multi_stage_1['RECAP_PK'])]

# multi_stage에만 있는 행 찾기
only_in_multi = multi_stage_1[~multi_stage_1['RECAP_PK'].isin(batch_stage_1['RECAP_PK'])]

print("batch_stage에만 있는 1차 매칭 데이터 수:", len(only_in_batch))
print("multi_stage에만 있는 1차 매칭 데이터 수:", len(only_in_multi))

# 결과 확인
print("\nbatch_stage에만 있는 데이터 샘플:")
print(only_in_batch.head())
print("\nmulti_stage에만 있는 데이터 샘플:")
print(only_in_multi.head())


batch_stage에만 있는 1차 매칭 데이터 수: 5
multi_stage에만 있는 1차 매칭 데이터 수: 0

batch_stage에만 있는 데이터 샘플:
       SEQ_NO                      RECAP_PK       연면적     사용승인연도  \
1294   802808                     41461-849   3674.74 1989-01-18   
1445   974845  27230-1000000000000000767355  37276.68 2011-12-29   
2522  3394592               11140-100209993  83551.04 2012-08-21   
3532  5833784               51150-100177608   5130.25 2009-02-09   
3752  6033237                   11710-25318  75025.87 2001-05-17   

                건축물명                                                 주소    지상  \
1294        처인구청(B동)                             경기도 용인시 처인구 김량장동 286-3   5.0   
1445  120.KNU 글러벌프라자  대구광역시 북구 대학로 80(산격동 1370-1번지, 경북대학교 120.KNU 글러...  17.0   
2522         서울시청 본관                    서울특별시 중구 세종대로 110(태평로1가 31번지 )   13.0   
3532    강릉분원 과학기술연수원  강원특별자치도 강릉시 사임당로 679(대전동 922-1번지, KIST 강릉분원 기숙...   5.0   
3752         아이티벤처타워                                   서울특별시 송파구 가락동 78  18.0   

       지하   TO

In [10]:
print(multi_stage_df['MATCH_STAGE'].value_counts())
print(batch_stage_df['MATCH_STAGE'].value_counts())



MATCH_STAGE
1차              1633
3차               732
미매칭              597
10차              250
9차               226
6차               223
미매칭(RECAP없음)     178
2차               145
5차                69
4차                66
8차                51
7차                24
Name: count, dtype: int64
MATCH_STAGE
1차              1671
3차               742
미매칭              498
10차              251
6차               227
8차               214
미매칭(RECAP없음)     178
2차               145
미매칭(후보없음)        107
4차                72
5차                44
9차                26
7차                19
Name: count, dtype: int64


In [11]:
# 1차 매칭 스테이지인 데이터만 필터링
batch_stage_1 = batch_stage_df[batch_stage_df['MATCH_STAGE'] == '1차']
multi_stage_1 = multi_stage_df[multi_stage_df['MATCH_STAGE'] == '1차']

print("batch_stage 1차 매칭 데이터 수:", len(batch_stage_1))
print("multi_stage 1차 매칭 데이터 수:", len(multi_stage_1))
print("차이:", len(batch_stage_1) - len(multi_stage_1))

# SEQ_NO 기준으로 1차 매칭 스테이지인 데이터 중에서 한쪽에만 있는 행 찾기
batch_seq_nos = set(batch_stage_1['SEQ_NO'])
multi_seq_nos = set(multi_stage_1['SEQ_NO'])

only_in_batch_seq = batch_seq_nos - multi_seq_nos
only_in_multi_seq = multi_seq_nos - batch_seq_nos

print("\nbatch_stage에만 있는 SEQ_NO 수:", len(only_in_batch_seq))
print("multi_stage에만 있는 SEQ_NO 수:", len(only_in_multi_seq))

# 모든 열 표시 설정
pd.set_option('display.max_columns', None)

# batch_stage에만 있는 행 출력
only_in_batch_rows = batch_stage_1[batch_stage_1['SEQ_NO'].isin(only_in_batch_seq)]
print("\nbatch_stage에만 있는 1차 매칭 데이터 (전체 행):")
print(only_in_batch_rows)

# multi_stage에만 있는 행 출력
only_in_multi_rows = multi_stage_1[multi_stage_1['SEQ_NO'].isin(only_in_multi_seq)]
print("\nmulti_stage에만 있는 1차 매칭 데이터 (전체 행):")
print(only_in_multi_rows)

batch_stage 1차 매칭 데이터 수: 1671
multi_stage 1차 매칭 데이터 수: 1633
차이: 38

batch_stage에만 있는 SEQ_NO 수: 39
multi_stage에만 있는 SEQ_NO 수: 1

batch_stage에만 있는 1차 매칭 데이터 (전체 행):
       SEQ_NO                      RECAP_PK       연면적     사용승인연도  \
492    181883               51110-100171944   4919.10 1996-02-17   
493    181884               51110-100171944   3568.86 1990-06-08   
1294   802808                     41461-849   3674.74 1989-01-18   
1445   974845  27230-1000000000000000767355  37276.68 2011-12-29   
1547  1261839                    48170-3696   5463.86 1982-11-30   
1982  2622241                    46840-1215   4961.61 1997-01-07   
2288  3231880               11620-100197744   3134.59 1983-05-27   
2293  3231890               11620-100197744   5067.65 1994-06-22   
2298  3231954               11620-100197744   5257.04 1994-05-20   
2303  3231979               11620-100197744   3845.00 1993-10-20   
2312  3232076               11620-100197744   4733.08 2000-12-26   
2314  3232078        

In [12]:
# 1차 매칭 스테이지인 데이터만 필터링
batch_stage_1 = batch_stage_df[batch_stage_df['MATCH_STAGE'] == '1차']
multi_stage_1 = multi_stage_df[multi_stage_df['MATCH_STAGE'] == '1차']

print("batch_stage 1차 매칭 데이터 수:", len(batch_stage_1))
print("multi_stage 1차 매칭 데이터 수:", len(multi_stage_1))
print("차이:", len(batch_stage_1) - len(multi_stage_1))

# SEQ_NO 기준으로 1차 매칭 스테이지인 데이터 중에서 한쪽에만 있는 행 찾기
batch_seq_nos = set(batch_stage_1['SEQ_NO'])
multi_seq_nos = set(multi_stage_1['SEQ_NO'])

only_in_batch_seq = batch_seq_nos - multi_seq_nos
only_in_multi_seq = multi_seq_nos - batch_seq_nos

print("\nbatch_stage에만 있는 SEQ_NO 수:", len(only_in_batch_seq))
print("multi_stage에만 있는 SEQ_NO 수:", len(only_in_multi_seq))

# 지정된 열만 출력
columns_to_display = ['SEQ_NO', '연면적', '사용승인연도', 'TOTAREA', 'USE_DATE']

# batch_stage에만 있는 행 출력 (지정된 열만)
only_in_batch_rows = batch_stage_1[batch_stage_1['SEQ_NO'].isin(only_in_batch_seq)][columns_to_display]
print("\nbatch_stage에만 있는 1차 매칭 데이터 (선택된 열만):")
print(only_in_batch_rows)

# multi_stage에만 있는 행 출력 (지정된 열만)
only_in_multi_rows = multi_stage_1[multi_stage_1['SEQ_NO'].isin(only_in_multi_seq)][columns_to_display]
print("\nmulti_stage에만 있는 1차 매칭 데이터 (선택된 열만):")
print(only_in_multi_rows)

# 연면적과 TOTAREA가 다른 행 찾기
# 숫자 비교를 위해 TOTAREA가 NaN인 행은 제외하고 비교
print("\n연면적과 TOTAREA가 다른 행 (batch_stage):")
diff_area_batch = batch_stage_1[~batch_stage_1['TOTAREA'].isna() & 
                               (batch_stage_1['연면적'] != batch_stage_1['TOTAREA'])][columns_to_display]
print(diff_area_batch)

print("\n연면적과 TOTAREA가 다른 행 (multi_stage):")
diff_area_multi = multi_stage_1[~multi_stage_1['TOTAREA'].isna() & 
                               (multi_stage_1['연면적'] != multi_stage_1['TOTAREA'])][columns_to_display]
print(diff_area_multi)

# 사용승인연도와 USE_DATE가 다른 행 찾기
# 날짜 형식이므로 문자열로 비교
print("\n사용승인연도와 USE_DATE가 다른 행 (batch_stage):")
diff_date_batch = batch_stage_1[batch_stage_1['사용승인연도'] != batch_stage_1['USE_DATE']][columns_to_display]
print(diff_date_batch)

print("\n사용승인연도와 USE_DATE가 다른 행 (multi_stage):")
diff_date_multi = multi_stage_1[multi_stage_1['사용승인연도'] != multi_stage_1['USE_DATE']][columns_to_display]
print(diff_date_multi)

batch_stage 1차 매칭 데이터 수: 1671
multi_stage 1차 매칭 데이터 수: 1633
차이: 38

batch_stage에만 있는 SEQ_NO 수: 39
multi_stage에만 있는 SEQ_NO 수: 1

batch_stage에만 있는 1차 매칭 데이터 (선택된 열만):
       SEQ_NO       연면적     사용승인연도   TOTAREA   USE_DATE
492    181883   4919.10 1996-02-17   4919.10 1996-02-17
493    181884   3568.86 1990-06-08   3568.86 1990-06-08
1294   802808   3674.74 1989-01-18   3674.74 1989-01-18
1445   974845  37276.68 2011-12-29  37276.68 2011-12-29
1547  1261839   5463.86 1982-11-30   5463.86 1982-11-30
1982  2622241   4961.61 1997-01-07   4961.61 1997-01-07
2288  3231880   3134.59 1983-05-27   3134.59 1983-05-27
2293  3231890   5067.65 1994-06-22   5067.65 1994-06-22
2298  3231954   5257.04 1994-05-20   5257.04 1994-05-20
2303  3231979   3845.00 1993-10-20   3845.00 1993-10-20
2312  3232076   4733.08 2000-12-26   4733.08 2000-12-26
2314  3232078   4511.02 1998-05-30   4511.02 1998-05-30
2316  3232107   4370.19 1992-11-02   4370.19 1992-11-02
2322  3232117   4975.20 1991-09-06   4975.20 1991-0

In [16]:
# batch_stage와 text_matching의 미매칭 비교
batch_stage = pd.read_excel('C:/Users/HyeonPoong Lee/REB_GR/REB_green-remodeling-project/01_matching_energy_buildings/result/batch_stage_matching_result_final.xlsx')
text_matching = pd.read_excel('C:/Users/HyeonPoong Lee/REB_GR/REB_green-remodeling-project/01_matching_energy_buildings/result/text_matching_result_ver3.xlsx')

# batch_stage에서 미매칭인 행 찾기
batch_unmatched = batch_stage[batch_stage['MATCH_STAGE'].str.contains('미매칭', na=False)]

# text_matching에서 미매칭이 아닌 행 찾기
text_matched = text_matching[~text_matching['MATCH_STAGE'].str.contains('미매칭', na=False)]

# batch_stage의 미매칭 중 text_matching에서 매칭된 건 찾기
common_seq_nos = set(batch_unmatched['SEQ_NO']) & set(text_matched['SEQ_NO'])

# 결과 출력
print(f"batch_stage 미매칭 중 text_matching에서 매칭된 건수: {len(common_seq_nos)}")

# 상세 정보 출력
result_df = batch_unmatched[batch_unmatched['SEQ_NO'].isin(common_seq_nos)]
result_df = result_df.merge(text_matching[['SEQ_NO', 'MATCH_STAGE']], 
                          on='SEQ_NO', 
                          suffixes=('_batch', '_text'))

# 지정된 열만 출력
columns_to_display = ['SEQ_NO', '연면적', '사용승인연도', 'TOTAREA', 'USE_DATE', 
                     'MATCH_STAGE_batch', 'MATCH_STAGE_text']

print("\n상세 정보:")
print(result_df[columns_to_display])


batch_stage 미매칭 중 text_matching에서 매칭된 건수: 92

상세 정보:
            SEQ_NO         연면적     사용승인연도  TOTAREA USE_DATE MATCH_STAGE_batch  \
0           241083     3297.16 1994-05-22      NaN      NaN               미매칭   
1   10000000124320     4615.00 1967-09-01      NaN      NaN               미매칭   
2           273746     6922.73 2006-07-26      NaN      NaN               미매칭   
3          5945016     3399.53 1992-09-08      NaN      NaN               미매칭   
4           711381     8258.57 1999-11-30      NaN      NaN               미매칭   
..             ...         ...        ...      ...      ...               ...   
87         1634818  1097157.00 2014-02-28      NaN      NaN               미매칭   
88         1634819  1009697.00 2009-07-08      NaN      NaN               미매칭   
89         5374785     4000.00 1995-07-01      NaN      NaN               미매칭   
90         5374272     3392.97 1988-10-14      NaN      NaN               미매칭   
91         2744368     8143.00 2010-11-29      NaN      

In [20]:
result_df.to_excel('batch_text_matching_comparison.xlsx', index=False)

Unnamed: 0,SEQ_NO,RECAP_PK,연면적,사용승인연도,건축물명,new_주소,주소,지상,지하,TOTAREA,BLD_NM,DONG_NM,USE_DATE,MGM_BLD_PK,MATCH_STAGE_batch,비고,new_MGM,기관명,지역,용도,면적,냉난방면적,기관유형,코드번호,건축물 등록일,연간 단위면적당 1차 에너지 소비량 3개년 평균,연간 단위면적당 1차 에너지 소비량 3개년 평균 중간값,간절기 대비 소비량 비율[(냉방월 +난방월)/간절기월] 3개년 평균,간절기 대비 소비량 비율[(냉방월 +난방월)/간절기월] 2개년 평균,간절기 대비 소비량 비율[(냉방월 +난방월)/간절기월] 1개년 평균,전기 (KWH),가스 (KWH),지역냉난방 (KWH),유류 (KWH),기타 (KWH),건축물 시설관리자 이름,건축물 시설관리자 연락처,건축물 에너지사용량 입력자 이름,건축물 에너지사용량 입력자 연락처,EUI(1차E/냉난방 면적),EUI(1차E/연면적),ebd_tokens,연면적_원본,사용승인연도_원본,old_MGM_BLD_PK,MATCH_STAGE_text
0,241083,51230-100225970,3297.16,1994-05-22,농업기술센터,강원특별자치도 삼척시 근덕면 교가리 424-85 농업기술센터,강원특별자치도 삼척시 근덕면 교가리 424-85 농업기술센터,3.0,1.0,,,,,,미매칭,,,강원특별자치도 삼척시,중부2지역,업무시설,"3,000㎡이상~5,000㎡미만",3045.00,광역 및 지방자치단체,2062-0242,2017-04-05,미승인,0,1.343496,1.474702,1.700605,65.14294,0.00000,0.00000,0.0,0.0,백수민,033-570-4235,백수민,033-570-4235,179.143085,165.442591,{'농업기술센터'},3297.16,1994-05-22,검색불가,4차(BLD일치)
1,10000000124320,51210-100178635,4615.00,1967-09-01,속초시청(본관),"강원특별자치도 속초시 중앙로 183(중앙동 469-6번지, 속초시청(본관) )","강원특별자치도 속초시 중앙로 183(중앙동 469-6번지, 속초시청(본관) )",3.0,0.0,,,,,,미매칭,,,강원특별자치도 속초시,중부2지역,업무시설,"3,000㎡이상~5,000㎡미만",4615.00,광역 및 지방자치단체,2062-349,2022-02-17,미승인,0,1.203228,1.294104,0.000000,197.44941,0.00000,0.00000,0.0,0.0,남기영,033-639-2714,남기영,033-639-2714,542.985878,542.985878,"{'속초시청', '본관'}",4615.00,1967-09-01,검색불가,4차(BLD일치)
2,273746,51750-1004,6922.73,2006-07-26,영월의료원G동,"강원특별자치도 영월군 중앙1로 59(영월읍 영흥리 1072번지, 영월의료원 g동(제...","강원특별자치도 영월군 중앙1로 59(영월읍 영흥리 1072번지, 영월의료원 G동(제...",4.0,1.0,,,,,,미매칭,,,강원특별자치도 영월군,중부1지역,의료시설,"5,000㎡이상~10,000㎡미만",5813.97,광역 및 지방자치단체,1033-21,2019-12-05,미승인,0,1.382418,1.299519,1.281253,114.92108,101.13356,0.00000,0.0,0.0,권순현,033-370-9101,이동진,033-370-2755,417.166530,350.352201,{'영월의료원g동'},6922.73,2006-07-26,검색불가,4차(DONG일치)
3,5945016,51130-100215814,3399.53,1992-09-08,한국도로공사 강원지역본부,"강원특별자치도 원주시 북원로 2873(태장동 1889번지, 한국도로공사 강원지역본부)","강원특별자치도 원주시 북원로 2873(태장동 1889번지, 한국도로공사 강원지역본부)",3.0,1.0,,,,,,미매칭,,,한국도로공사,중부1지역,업무시설,"3,000㎡이상~5,000㎡미만",2841.00,공공기관,1062-396,2024-04-23,미승인,0,1.000663,0.997995,0.999373,132.92442,21.07417,0.00000,0.0,0.0,박종진,033-811-6165,이진화,054-811-2864,386.616325,323.096716,"{'강원지역본부', '한국도로공사'}",3399.53,1992-09-08,,4차(BLD일치)
4,711381,41285-119020,8258.57,1999-11-30,일산동부경찰서 본관,경기도 고양시 일산동구 정발산동 725,경기도 고양시 일산동구 정발산동 725,4.0,1.0,,,,,,미매칭,,,경기도북부경찰청,중부2지역,업무시설,"5,000㎡이상~10,000㎡미만",5460.59,중앙행정기관 및 소속기관,2063-0134,2018-02-12,미승인,0,1.388571,1.336928,1.289337,141.99244,0.00000,48.37557,0.0,0.0,백승혁,031-929-9339,박지성,031-960-3878,438.854780,290.172030,"{'일산동부경찰서', '본관'}",8258.57,1999-11-30,검색불가,4차(BLD일치)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
87,1634818,44133-148,1097157.00,2014-02-28,10공학관(천안),"충청남도 천안시 서북구 천안대로 1223-24(부대동 275번지, 제10공학관 ) ...","충청남도 천안시 서북구 천안대로 1223-24(부대동 275번지, 제10공학관 ) ...",8.0,1.0,,,,,,미매칭,,,공주대학교,중부2지역,교육연구시설,"10,000㎡이상",5755.00,국공립대학교,2044-,2023-10-18,미승인,0,0.000000,0.000000,0.000000,0.00000,0.00000,0.00000,0.0,0.0,함영준,041-521-9041,함영준,041-521-9041,0.000000,0.000000,"{'천안', '10공학관'}",1097157.00,2014-02-28,30200-100226885,4차(DONG일치)
88,1634819,44133-148,1009697.00,2009-07-08,8공학관(천안),"충청남도 천안시 서북구 천안대로 1223-24(부대동 275번지, 제8공학관 ) 충...","충청남도 천안시 서북구 천안대로 1223-24(부대동 275번지, 제8공학관 ) 충...",8.0,1.0,,,,,,미매칭,,,공주대학교,중부2지역,교육연구시설,"10,000㎡이상",6635.00,국공립대학교,2044-,2023-10-18,미승인,0,0.000000,0.000000,0.000000,0.00000,0.00000,0.00000,0.0,0.0,함영준,041-521-9041,함영준,041-521-9041,0.000000,0.000000,"{'8공학관', '천안'}",1009697.00,2009-07-08,,4차(DONG일치)
89,5374785,43720-344,4000.00,1995-07-01,보은경찰서,"충청북도 보은군 장신로 8(보은읍 장신리 1-3번지, 보은경찰서 부7동 )","충청북도 보은군 장신로 8(보은읍 장신리 1-3번지, 보은경찰서 부7동 )",3.0,1.0,,,,,,미매칭,,,충청북도경찰청,중부1지역,업무시설,"3,000㎡이상~5,000㎡미만",4000.00,중앙행정기관 및 소속기관,1062-392,2023-07-31,미승인,0,1.208757,1.275704,1.964139,103.11194,0.00000,0.00000,0.0,0.0,조혜리,043-540-1334,조혜리,043-540-1334,283.557835,283.557835,{'보은경찰서'},4000.00,1995-07-01,,4차(DONG일치)
90,5374272,43750-562,3392.97,1988-10-14,진천경찰서 본관,"충청북도 진천군 중앙동로 68(진천읍 읍내리 94-2번지, 경찰서 부4 )","충청북도 진천군 중앙동로 68(진천읍 읍내리 94-2번지, 경찰서 부4 )",3.0,1.0,,,,,,미매칭,,,충청북도경찰청,중부2지역,업무시설,"3,000㎡이상~5,000㎡미만",2700.00,중앙행정기관 및 소속기관,2062-374,2021-08-10,미승인,0,1.230831,1.194149,1.240263,162.53620,5.50451,0.00000,0.0,0.0,,,,,452.479060,360.066096,"{'본관', '진천경찰서'}",3392.97,1988-10-14,46870-3936,4차(DONG일치)


In [21]:
a = batch_stage[batch_stage['MATCH_STAGE'].str.contains('미매칭', na=False)]['기관명'].value_counts()
a[a >= 15]

기관명
경북대학교       55
부산대학교       50
전북대학교       49
서울대학교       36
서울특별시       21
            ..
한국가스안전공사     1
충청남도 서산시     1
충북대학교        1
충청북도 진천군     1
충청북도 청주시     1
Name: count, Length: 247, dtype: int64