## 서울시 상권분석 서비스에서 지역별 평균 임대료 비교 테이블 스크래핑
- 읽어올 양이 많지 않아 테이블 부분 html 소스는 직접 조회하여 txt 파일로 옮겨와 로드함)

In [25]:
!pip install bs4
!pip install html5lib

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


In [31]:
from bs4 import BeautifulSoup
import pandas as pd

In [235]:
# 1. 저장된 HTML 파일 읽기
with open('20234_20242.html', 'r', encoding='utf-8') as file:
    html = file.read()

In [237]:
# 2. BeautifulSoup으로 HTML 파싱
soup = BeautifulSoup(html, 'html.parser')

In [239]:
# 3. <table> 태그 선택 (id로 선택)
table = soup.find('table', {'id': 'table1'})  # id="table1"인 테이블 찾기

In [241]:
# 4. <thead>에서 헤더 추출
thead = table.find('thead')
levels = []
for row in thead.find_all('tr'):
    level = [th.text.strip() for th in row.find_all('th')]
    levels.append(level)

In [243]:
levels

[['행정구역', '2023년 4분기', '2024년 1분기', '2024년 2분기'],
 ['환산 임대료', '환산 임대료', '환산 임대료'],
 ['전체', '1층', '1층 외', '전체', '1층', '1층 외', '전체', '1층', '1층 외']]

In [245]:
# 헤더가 3개의 수준으로 나누어져 있으므로 멀티인덱스로 변환이 필요
columns = [
    ['행정구역', '2023년 4분기', '2023년 4분기', '2023년 4분기', '2024년 1분기', '2024년 1분기', '2024년 1분기', '2024년 2분기', '2024년 2분기', '2024년 2분기'],
    ['', '환산 임대료', '환산 임대료', '환산 임대료', '환산 임대료', '환산 임대료', '환산 임대료', '환산 임대료', '환산 임대료', '환산 임대료'],
    ['', '전체', '1층', '1층 외', '전체', '1층', '1층 외', '전체', '1층', '1층 외']
]

multi_index = pd.MultiIndex.from_arrays(columns)

In [247]:
# 5. <tbody>에서 데이터 추출
tbody = table.find('tbody')
rows = []
for row in tbody.find_all('tr'):
    cols = row.find_all('td')
    cols = [col.text.strip() for col in cols]
    rows.append(cols)

In [249]:
# 6. pandas DataFrame으로 변환

data = pd.DataFrame(rows, columns=multi_index)

In [251]:
data.head(30)

Unnamed: 0_level_0,행정구역,2023년 4분기,2023년 4분기,2023년 4분기,2024년 1분기,2024년 1분기,2024년 1분기,2024년 2분기,2024년 2분기,2024년 2분기
Unnamed: 0_level_1,Unnamed: 1_level_1,환산 임대료,환산 임대료,환산 임대료,환산 임대료,환산 임대료,환산 임대료,환산 임대료,환산 임대료,환산 임대료
Unnamed: 0_level_2,Unnamed: 1_level_2,전체,1층,1층 외,전체,1층,1층 외,전체,1층,1층 외
0,하위 메뉴 펼침서울시 전체,137570.0,152707.0,122434.0,136609.0,151022.0,122196.0,136071.0,150596.0,121547.0
1,하위 메뉴 펼침종로구,201913.0,237218.0,166608.0,202740.0,236942.0,168539.0,195617.0,230674.0,160559.0
2,청운효자동,124821.0,176449.0,73193.0,154532.0,192600.0,116464.0,152054.0,188588.0,115520.0
3,사직동,153263.0,197574.0,108951.0,179307.0,219383.0,139232.0,184123.0,235516.0,132729.0
4,삼청동,171215.0,171215.0,,162297.0,162297.0,,153171.0,153171.0,
5,부암동,120284.0,120284.0,,126320.0,126320.0,,98167.0,115405.0,80929.0
6,평창동,121357.0,134264.0,108450.0,119281.0,120897.0,117665.0,101501.0,83479.0,119522.0
7,무악동,,,,,,,,,
8,교남동,,,,163590.0,163590.0,,184128.0,215432.0,152824.0
9,가회동,183172.0,243372.0,122973.0,160997.0,213749.0,108245.0,171799.0,233527.0,110071.0


In [253]:
# 각 자치구를 행정동 앞에 붙여줌
# 지역명을 추적할 변수
지역명 = None

for i in range(len(data)):
    # 현재 행에 '하위 메뉴 펼침'이 포함되어 있는지 체크
    current_value = data.loc[i, '행정구역'].values[0]  # Series에서 실제 값 추출
    if isinstance(current_value, str) and '하위 메뉴 펼침' in current_value:
        # '하위 메뉴 펼침'을 제외한 지역명 추출
        지역명 = current_value.replace('하위 메뉴 펼침', '').strip()
    
    # 지역명이 설정되어 있고 '하위 메뉴 펼침'이 포함되지 않은 행이라면
    elif 지역명 and isinstance(current_value, str):
        # 지역명을 현재 행에 추가
        data.loc[i, '행정구역'] = 지역명 + ' ' + current_value

# 결과 확인 (테스트용)
print(data[['행정구역']].head())

             행정구역
                 
                 
0  하위 메뉴 펼침서울시 전체
1     하위 메뉴 펼침종로구
2       종로구 청운효자동
3         종로구 사직동
4         종로구 삼청동


In [255]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 451 entries, 0 to 450
Data columns (total 10 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   (행정구역, , )                 451 non-null    object
 1   (2023년 4분기, 환산 임대료, 전체)    451 non-null    object
 2   (2023년 4분기, 환산 임대료, 1층)    451 non-null    object
 3   (2023년 4분기, 환산 임대료, 1층 외)  451 non-null    object
 4   (2024년 1분기, 환산 임대료, 전체)    451 non-null    object
 5   (2024년 1분기, 환산 임대료, 1층)    451 non-null    object
 6   (2024년 1분기, 환산 임대료, 1층 외)  451 non-null    object
 7   (2024년 2분기, 환산 임대료, 전체)    451 non-null    object
 8   (2024년 2분기, 환산 임대료, 1층)    451 non-null    object
 9   (2024년 2분기, 환산 임대료, 1층 외)  451 non-null    object
dtypes: object(10)
memory usage: 35.4+ KB


In [257]:
# 수집 결과 csv로 저장
data.to_csv('매출액_20234_20242.csv', index=False, encoding='utf-8')