In [1]:
# 파일 인코딩 오류로 어떤 인코딩으로 읽어도 읽히지 않음
# StringIO를 사용해 pandas로 읽기
from io import StringIO
import pandas as pd

# 파일을 바이너리로 열어서 utf-8로 디코딩 후 처리
with open('서울시 건축물대장 층별개요.csv', 'rb') as file:
    raw_data = file.read().decode('cp949', errors='ignore')  # cp949 에러 무시
    
df = pd.read_csv(StringIO(raw_data))

In [5]:
df.columns

Index(['대지위치', '시군구코드명', '법정동코드명', '대지구분코드명', '주지번', '부지번', '특수지명', '블록번호',
       '로트번호', '새주소도로코드명', '새주소법정동코드명', '새주소지상지하구분코드명', '새주소주지번', '새주소부지번',
       '층별개요일련번호', '건축물대장일련번호', '층구분코드명', '층번호', '층번호명', '구조코드명', '기타구조정보',
       '주용도코드명', '기타용도내용', '면적', '주부속구분코드명', '면적제외여부'],
      dtype='object')

In [25]:
# 필요컬럼 추출
df = df[['대지위치', '시군구코드명', '법정동코드명','층구분코드명', '층번호', '층번호명','주용도코드명', '기타용도내용', '면적']]

# 주용도코드명을 통해 업무시설 관련 건축물 확인
#df.주용도코드명.unique() # '사무소', '기타일반업무시설', '기타사무소', '일반업무시설', '데이터센터'

# 업무시설 관련 건물 필터링
work_fac = ['사무소', '기타일반업무시설', '기타사무소', '일반업무시설', '데이터센터']
df = df[df['주용도코드명'].isin(work_fac)]

# 시군구/층/주용도/기타용도 별 평균 건축면적 집계
grouped = df.groupby(['시군구코드명','층번호','주용도코드명','기타용도내용'])['면적'].mean().reset_index()
# 구로구 강남구 필터링
grouped = grouped[(grouped['시군구코드명'] == '서울특별시 강남구') | (grouped['시군구코드명'] == '서울특별시 구로구')]
# 면적 1000이상 필터링
grouped = grouped[grouped['면적'] > 1000]
grouped

Unnamed: 0,시군구코드명,층번호,주용도코드명,기타용도내용,면적
396,서울특별시 강남구,1.0,기타일반업무시설,"관리사무실,창고,주차장",1061.93
471,서울특별시 강남구,1.0,기타일반업무시설,"기계실,창고,사무소",1517.89
476,서울특별시 강남구,1.0,기타일반업무시설,"기계전기실,주차장",1716.81
491,서울특별시 강남구,1.0,기타일반업무시설,기타일반업무시설,1164.93
499,서울특별시 강남구,1.0,기타일반업무시설,"기타일반업무시설,근린생활시설",2439.18
636,서울특별시 강남구,1.0,기타일반업무시설,"복도,화장실,계단,창고",2122.555
670,서울특별시 강남구,1.0,기타일반업무시설,"사무소,창고",3856.955
694,서울특별시 강남구,1.0,기타일반업무시설,"승강기,홀,계단실통로",1432.27
719,서울특별시 강남구,1.0,기타일반업무시설,"승강기홀,계단실통로,부속실",1527.165
722,서울특별시 강남구,1.0,기타일반업무시설,"식당,주방,시청각실",1346.97


In [26]:
grouped.describe()

Unnamed: 0,층번호,면적
count,536.0,536.0
mean,13.578358,1989.049939
std,12.099487,1398.742238
min,1.0,1000.73
25%,3.75,1278.9275
50%,8.0,1671.056
75%,22.0,2197.3475
max,53.0,11211.67
