In [None]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
# 한글 설정
# pip install koreanize_matplotlib
plt.rc('font', family='Malgun Gothic')
plt.rc('axes', unicode_minus=False)
# root = 'C:/workspace/python/project/data/'
root = 'G:/workspace/python/python_project/data/'

# 구글드라이브 : https://drive.google.com/drive/folders/1zIzm1o8-3uxcWSU2DoWpB8aV0Oxdfz_P?usp=sharing

In [None]:
'''
주거실태 데이터 프레임

국가통계포털 > 검색 (주택의 종류별 주택)
https://kosis.kr/search/search.do
https://kosis.kr/search/search.do;jsessionid=Ptk5Fb2aTBhtchTbG153Wf14awChdrNQHCT1gkY59HZ8gh6iv5J4VjNkZUkPQzZJ.STAT_SIGA2_servlet_engine1
'''
abode_house_category = pd.read_csv(root + '주거실태_Data/주택의_종류별_주택__읍면동_연도_끝자리_0__5___시군구_그_외_연도__20241120174542.csv', encoding = 'cp949')

In [None]:
# 주거실태 정보 확인
abode_house_category.info()

In [None]:
'''
0 행 삭제 클래스
'''
class ManagedDataFrame:
    def __init__(self, name, df):
        self.name = name
        self.df = df
        self.row_deleted = False  # 플래그 초기화

    def delete_row_once(self):
        if not self.row_deleted and 0 in self.df.index:
            self.df = self.df.drop(0)
            self.row_deleted = True
            print(f"{self.name}: 0행이 삭제되었습니다.")
        else:
            print(f"{self.name}: 삭제 작업이 이미 완료되었거나 0행이 없습니다.")

    # 객체 출력 시 사용자 정의 내용 반환
    def __repr__(self):
        return f"ManagedDataFrame(name={self.name}, row_deleted={self.row_deleted}, df=\n{self.df}\n)"

In [None]:
abode_house_category[:10]

In [None]:
category_2021 = abode_house_category.columns.str.contains('2021')
category_2021[0] = True

category_2022 = abode_house_category.columns.str.contains('2022')
category_2022[0] = True

category_2023 = abode_house_category.columns.str.contains('2023')
category_2023[0] = True

In [None]:
abode_house_category_2021_df = abode_house_category.loc[:, category_2021]
abode_house_category_2022_df = abode_house_category.loc[:, category_2022]
abode_house_category_2023_df = abode_house_category.loc[:, category_2023]

house_col_2021 = abode_house_category_2021_df.loc[0].values
house_col_2022 = abode_house_category_2022_df.loc[0].values
house_col_2023 = abode_house_category_2023_df.loc[0].values

abode_house_category_2021_df.columns = house_col_2021
abode_house_category_2022_df.columns = house_col_2022
abode_house_category_2023_df.columns = house_col_2023

display(abode_house_category_2021_df[:3])
display(abode_house_category_2022_df[:3])
display(abode_house_category_2023_df[:3])

In [None]:
abode_house_category_2021_df = ManagedDataFrame('abode_house_category_2021', abode_house_category_2021_df)
abode_house_category_2022_df = ManagedDataFrame('abode_house_category_2022', abode_house_category_2022_df)
abode_house_category_2023_df = ManagedDataFrame('abode_house_category_2023', abode_house_category_2023_df)

abode_house_category_2021_df.delete_row_once()
abode_house_category_2022_df.delete_row_once()
abode_house_category_2023_df.delete_row_once()

In [None]:
abode_house_category_2021_df = abode_house_category_2021_df.df
abode_house_category_2022_df = abode_house_category_2022_df.df
abode_house_category_2023_df = abode_house_category_2023_df.df

In [None]:
abode_house_category_2021_df.columns

In [None]:
abode_house_category_2021_df[:5]

In [None]:
abode_house_category_2022_df[:5]

In [None]:
abode_house_category_2023_df[:5]

In [None]:
abode_house_category_2021_df = abode_house_category_2021_df.rename(columns={'행정구역별(읍면동)':'구'})
abode_house_category_2022_df = abode_house_category_2022_df.rename(columns={'행정구역별(읍면동)':'구'})
abode_house_category_2023_df = abode_house_category_2023_df.rename(columns={'행정구역별(읍면동)':'구'})

In [None]:
'''
def drop_columns_once(df, column_names):
    if not hasattr(drop_columns_once, "executed"):
        drop_columns_once.executed = False

    if not drop_columns_once.executed:
        # 컬럼 삭제
        result = df.drop(columns=column_names)
        drop_columns_once.executed = True
        return result
    else:
        print("This function can only be executed once.")
        return df
'''

In [None]:
abode_house_category_2021_df = abode_house_category_2021_df.drop(columns=["단독주택-일반", "단독주택-다가구", "단독주택-영업겸용"])
abode_house_category_2022_df = abode_house_category_2022_df.drop(columns=["단독주택-일반", "단독주택-다가구", "단독주택-영업겸용"])
abode_house_category_2023_df = abode_house_category_2023_df.drop(columns=["단독주택-일반", "단독주택-다가구", "단독주택-영업겸용"])

In [None]:
abode_house_category_2021_df = abode_house_category_2021_df.rename(columns={'주택':'계'})
abode_house_category_2022_df = abode_house_category_2022_df.rename(columns={'주택':'계'})
abode_house_category_2023_df = abode_house_category_2023_df.rename(columns={'주택':'계'})

abode_house_category_2021_df = abode_house_category_2021_df.rename(columns={'단독주택-계':'단독주택'})
abode_house_category_2022_df = abode_house_category_2022_df.rename(columns={'단독주택-계':'단독주택'})
abode_house_category_2023_df = abode_house_category_2023_df.rename(columns={'단독주택-계':'단독주택'})

abode_house_category_2021_df = abode_house_category_2021_df.rename(columns={'비주거용 건물 내 주택':'비주거용주택'})
abode_house_category_2022_df = abode_house_category_2022_df.rename(columns={'비주거용 건물 내 주택':'비주거용주택'})
abode_house_category_2023_df = abode_house_category_2023_df.rename(columns={'비주거용 건물 내 주택':'비주거용주택'})

In [None]:
display(abode_house_category_2021_df)

In [None]:
display(abode_house_category_2022_df)

In [None]:
display(abode_house_category_2023_df)

In [None]:
abode_house_category_2021_df['계']           = abode_house_category_2021_df['계'].astype(int)
abode_house_category_2021_df['단독주택']     = abode_house_category_2021_df['단독주택'].astype(int)
abode_house_category_2021_df['아파트']       = abode_house_category_2021_df['아파트'].astype(int)
abode_house_category_2021_df['연립주택']     = abode_house_category_2021_df['연립주택'].astype(int)
abode_house_category_2021_df['다세대주택']   = abode_house_category_2021_df['다세대주택'].astype(int)
abode_house_category_2021_df['비주거용주택'] = abode_house_category_2021_df['비주거용주택'].astype(int)

In [None]:
abode_house_category_2022_df['계']           = abode_house_category_2022_df['계'].astype(int)
abode_house_category_2022_df['단독주택']     = abode_house_category_2022_df['단독주택'].astype(int)
abode_house_category_2022_df['아파트']       = abode_house_category_2022_df['아파트'].astype(int)
abode_house_category_2022_df['연립주택']     = abode_house_category_2022_df['연립주택'].astype(int)
abode_house_category_2022_df['다세대주택']   = abode_house_category_2022_df['다세대주택'].astype(int)
abode_house_category_2022_df['비주거용주택'] = abode_house_category_2022_df['비주거용주택'].astype(int)

In [None]:
abode_house_category_2023_df['계']           = abode_house_category_2023_df['계'].astype(int)
abode_house_category_2023_df['단독주택']     = abode_house_category_2023_df['단독주택'].astype(int)
abode_house_category_2023_df['아파트']       = abode_house_category_2023_df['아파트'].astype(int)
abode_house_category_2023_df['연립주택']     = abode_house_category_2023_df['연립주택'].astype(int)
abode_house_category_2023_df['다세대주택']   = abode_house_category_2023_df['다세대주택'].astype(int)
abode_house_category_2023_df['비주거용주택'] = abode_house_category_2023_df['비주거용주택'].astype(int)

In [None]:
abode_house_category_2021_df[:5]
abode_house_category_2022_df[:5]
abode_house_category_2023_df[:5]

In [None]:
# 그래프 시각화
fig, ax = plt.subplots(figsize=(10, 6))

# 막대그래프 그리기
categories = ['단독주택', '아파트', '연립주택', '다세대주택', '비주거용주택']
colors = ['#FF9999', '#66B2FF', '#99FF99', '#FFD700', '#CDB79E']

df = abode_house_category_2021_df

# 누적 막대그래프 생성
bottom_values = None
for i, category in enumerate(categories):
    ax.bar(df['구'], df[category], label=category, bottom=bottom_values, color=colors[i])
    bottom_values = df[category] if bottom_values is None else bottom_values + df[category]

# 그래프 꾸미기
ax.set_title('서울특별시 및 각 구별 주택 유형 분포 (누적)', fontsize=12)
ax.set_xlabel('구', fontsize=12)
ax.set_ylabel('주택 수', fontsize=12)
ax.legend(title='주택 유형')
ax.grid(axis='y', linestyle='--', alpha=0.7)

# X축 레이블 각도 설정
plt.xticks(rotation=45, ha='right')  # 각도 45도, 오른쪽 정렬

# 출력
plt.tight_layout()
plt.show()

In [None]:
df_2021 = pd.DataFrame(abode_house_category_2021_df)
df_2021['년도'] = 2021
df_2022 = pd.DataFrame(abode_house_category_2022_df)
df_2022['년도'] = 2022
df_2023 = pd.DataFrame(abode_house_category_2023_df)
df_2023['년도'] = 2023

# 데이터프레임 병합
df_combined = pd.concat([df_2021, df_2022, df_2023], ignore_index=True)
# 결과 확인
print(df_combined)

In [None]:
import matplotlib.pyplot as plt

# 년도별로 그룹화 후 시각화
years = df_combined['년도'].unique()

for year in years:
    df_year = df_combined[df_combined['년도'] == year]
    categories = ['단독주택', '아파트', '연립주택', '다세대주택', '비주거용주택']
    bottom_values = None
    colors = ['#FF9999', '#66B2FF', '#99FF99', '#FFD700', '#CDB79E']
    
    fig, ax = plt.subplots(figsize=(10, 6))
    
    for i, category in enumerate(categories):
        ax.bar(df_year['구'], df_year[category], label=category, bottom=bottom_values, color=colors[i])
        bottom_values = df_year[category] if bottom_values is None else bottom_values + df_year[category]
    
    ax.set_title(f'{year}년 구별 주택 유형 분포', fontsize=14)
    ax.set_xlabel('구', fontsize=12)
    ax.set_ylabel('주택 수', fontsize=12)
    ax.legend(title='주택 유형')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

In [None]:
# '서울특별시'를 제외한 데이터만 선택
df_filtered = df_combined[df_combined['구'] != '서울특별시']

# 결과 확인
print(df_filtered)

In [None]:
# 구별 주택 유형 분포
# 누적 막대그래프
years = df_filtered['년도'].unique()

for year in years:
    df_year = df_filtered[df_filtered['년도'] == year]
    categories = ['단독주택', '아파트', '연립주택', '다세대주택', '비주거용주택']
    bottom_values = None
    colors = ['#FF9999', '#66B2FF', '#99FF99', '#FFD700', '#CDB79E']
    
    fig, ax = plt.subplots(figsize=(10, 6))
    
    for i, category in enumerate(categories):
        ax.bar(df_year['구'], df_year[category], label=category, bottom=bottom_values, color=colors[i])
        bottom_values = df_year[category] if bottom_values is None else bottom_values + df_year[category]
    
    ax.set_title(f'{year}년 구별 주택 유형 분포 (서울특별시 제외)', fontsize=14)
    ax.set_xlabel('구', fontsize=12)
    ax.set_ylabel('주택 수', fontsize=12)
    ax.legend(title='주택 유형')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

In [None]:
categories = ['단독주택', '아파트', '연립주택', '다세대주택', '비주거용주택']

# 년도별 그룹화
grouped = df_combined.groupby('년도')[categories].sum()

# 비중 계산 (각 년도별 주택 유형 합계 / 해당 년도의 전체 주택 수 합계)
percentages = grouped.div(grouped.sum(axis=1), axis=0) * 100

print(percentages) 

In [None]:
# 전체 데이터의 주택 유형별 비중
colors = ['#FF9999', '#66B2FF', '#99FF99', '#FFD700', '#CDB79E']

# 그래프 생성
fig, ax = plt.subplots(figsize=(10, 6))
percentages.plot(kind='bar', stacked=True, color=colors, ax=ax)

# 그래프 꾸미기
ax.set_title('년도별 주택 유형 비중 (%)', fontsize=16)
ax.set_ylabel('비중 (%)', fontsize=12)
ax.set_xlabel('년도', fontsize=12)
ax.legend(title='주택 유형', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=0)
plt.tight_layout()

plt.show()

In [None]:
# 전체 데이터의 주택 유형별 비중
# 파이차트
for year, row in percentages.iterrows():
    fig, ax = plt.subplots(figsize=(8, 8))
    ax.pie(row, labels=categories, autopct='%1.1f%%', startangle=90, colors=colors)
    ax.set_title(f'{year}년 주택 유형 비중', fontsize=18)
    plt.show()

In [None]:
df_combined

In [None]:
# 년도별-구별 전체 주택 수 데이터
grouped = df_combined.pivot(index='구', columns='년도', values='계')

print(grouped)

In [None]:
# 구별 전체 주택 수 비교
# 막대그래프 생성
grouped.plot(kind='bar', figsize=(12, 6), color=['#66B2FF', '#FF9999'])

# 그래프 꾸미기
plt.title('년도별 구별 전체 주택 수 비교', fontsize=16)
plt.ylabel('전체 주택 수', fontsize=12)
plt.xlabel('구', fontsize=12)
plt.legend(title='년도', fontsize=10)
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()

In [None]:
# 선그래프 생성
grouped.T.plot(figsize=(12, 6), marker='o')

# 그래프 꾸미기
plt.title('년도별 구별 전체 주택 수 변화', fontsize=16)
plt.ylabel('전체 주택 수', fontsize=12)
plt.xlabel('년도', fontsize=12)
plt.legend(title='구', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()

plt.show()

In [None]:
# '서울특별시' 제외
df_filtered = df_combined[df_combined['구'] != '서울특별시']

# 년도별-구별 전체 주택 수 데이터
grouped_filtered = df_filtered.pivot(index='구', columns='년도', values='계')

print(grouped_filtered)  # 확인용 출력

In [None]:
# 구별 전체 주택 수 비교
# 막대그래프 생성
grouped_filtered.plot(kind='bar', figsize=(10, 6), color=['#66B2FF', '#FF9999'])

# 그래프 꾸미기
plt.title('년도별 구별 전체 주택 수 비교', fontsize=16)
plt.ylabel('전체 주택 수', fontsize=12)
plt.xlabel('구', fontsize=12)
plt.legend(title='년도', fontsize=10)
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()

In [None]:
# 구별 전체 주택 수 비교
# 선그래프 생성
grouped_filtered.T.plot(figsize=(10, 6), marker='o')

# 그래프 꾸미기
plt.title('년도별 구별 전체 주택 수 변화 (서울특별시 제외)', fontsize=16)
plt.ylabel('전체 주택 수', fontsize=12)
plt.xlabel('년도', fontsize=12)
plt.legend(title='구', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()

plt.show()

In [None]:
# df_filtered = df_filtered[df_filtered['구'].isin(['종로구', '중구'])]

In [None]:
# grouped_filtered = df_filtered.pivot(index='구', columns='년도', values='계')
# grouped_filtered = grouped_filtered[[2020]]  # 2020년만 선택

In [None]:
# '서울특별시' 제외
df_filtered = df_combined[df_combined['구'] != '서울특별시']

# 년도별-구별 전체 주택 수 데이터
grouped_filtered = df_filtered.pivot(index='구', columns='년도', values='계')

print(grouped_filtered)  # 확인용 출력

In [None]:
# 특정 주택 유형(예: 아파트) 분포
# 히트맵 생성
plt.figure(figsize=(10, 6))
sns.heatmap(
    grouped_filtered, 
    annot=True,  # 각 셀에 값 표시
    fmt=',',     # 천 단위 콤마 표시
    cmap='YlGnBu',  # 색상 팔레트
    linewidths=0.5  # 셀 간격
)

# 그래프 꾸미기
plt.title('년도별 구별 전체 주택 수 히트맵 (서울특별시 제외)', fontsize=16)
plt.ylabel('구', fontsize=12)
plt.xlabel('년도', fontsize=12)
plt.tight_layout()

plt.show()

In [None]:
# '서울특별시' 제외
df_filtered = df_combined[df_combined['구'] != '서울특별시']

# 비주거용 주택 비율 계산 (비주거용 주택 수 / 전체 주택 수 * 100)
df_filtered['비주거용 비율 (%)'] = (df_filtered['비주거용주택'] / df_filtered['계']) * 100

# 년도별-구별 비주거용 주택 비율 데이터
grouped_ratio = df_filtered.pivot(index='구', columns='년도', values='비주거용 비율 (%)')

print(grouped_ratio)  # 확인용 출력

In [None]:
# 지역 간 비주거용 주택 비율 비교
# 막대그래프 생성
grouped_ratio.plot(kind='bar', figsize=(10, 6), color=['#66B2FF', '#FF9999'])

# 그래프 꾸미기
plt.title('년도별 지역 간 비주거용 주택 비율 비교 (%)', fontsize=16)
plt.ylabel('비율 (%)', fontsize=12)
plt.xlabel('구', fontsize=12)
plt.legend(title='년도', fontsize=10)
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()

In [None]:
# 지역 간 비주거용 주택 비율 비교
# 히트맵 생성
plt.figure(figsize=(10, 6))
sns.heatmap(
    grouped_ratio, 
    annot=True,  # 각 셀에 값 표시
    fmt='.2f',   # 소수점 둘째 자리까지 표시
    cmap='Blues',  # 색상 팔레트
    linewidths=0.5
)

# 그래프 꾸미기
plt.title('년도별 지역 간 비주거용 주택 비율 히트맵 (%)', fontsize=16)
plt.ylabel('구', fontsize=12)
plt.xlabel('년도', fontsize=12)
plt.tight_layout()

plt.show()

In [None]:
# 지도 시각화
import folium
import json
import pandas as pd

# GeoJSON 파일 로드
geo_path = 'G:/workspace/python/python_project/json/seoul_municipalities_geo.json'
with open(geo_path, encoding='utf-8') as f:
    geo_data = json.load(f)

# GeoJSON 구조 확인 (첫 번째 지역의 properties 출력)
print(geo_data['features'][0]['properties'])

# 예시 데이터프레임
df = pd.DataFrame(df_combined)

# 특정 년도 데이터 필터링 (2021년 예시)
year = 2021
df_year = df[df['년도'] == year]

# 각 주택 유형의 비율 계산
df_year['단독주택 비율'] = df_year['단독주택'] / df_year['계']
df_year['아파트 비율'] = df_year['아파트'] / df_year['계']
df_year['연립주택 비율'] = df_year['연립주택'] / df_year['계']
df_year['다세대주택 비율'] = df_year['다세대주택'] / df_year['계']
df_year['비주거용주택 비율'] = df_year['비주거용주택'] / df_year['계']

# Folium 지도 생성
m = folium.Map(location=[37.5665, 126.9780], zoom_start=11)  # 서울 중심 좌표

# Choropleth 추가 (주택 유형별 비율 시각화)
folium.Choropleth(
    geo_data=geo_data,
    data=df_year,
    columns=['구', '단독주택 비율'],  # 단독주택 비율
    key_on='feature.properties.SIG_KOR_NM',  # 'name'이 GeoJSON에서 지역 이름이 있는 필드라고 가정
    fill_color='YlGnBu',  # 색상 팔레트
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name=f'{year}년 단독주택 비율'
).add_to(m)

# 지도 저장
# m.save('house_type_map.html')

# 지도 시각화 (Jupyter 환경에서 바로 출력)
display(m)

In [None]:
# pip install geopandas
# import geopandas
# geopandas.__version__

In [None]:
# DataFrame 전체 데이터는
# df_combined 
# 서울특별시 제외
# df_filtered
# 사용할 것

In [None]:
# 지도 시각화
import folium
import json
import pandas as pd

# GeoJSON 파일 로드
geo_path = 'G:/workspace/python/python_project/json/seoul_municipalities_geo.json'
with open(geo_path, encoding='utf-8') as f:
    geo_data = json.load(f)

df = pd.DataFrame(df_filtered)

# 각 주택 유형의 비율 계산
df['단독주택 비율'] = df['단독주택'] / df['계']
df['아파트 비율'] = df['아파트'] / df['계']
df['연립주택 비율'] = df['연립주택'] / df['계']
df['다세대주택 비율'] = df['다세대주택'] / df['계']
df['비주거용주택 비율'] = df['비주거용주택'] / df['계']

# 각 구의 위도, 경도 계산
gdf['centroid'] = gdf.geometry.centroid  # GeoDataFrame의 각 구의 중심 좌표 계산
gdf['위도'] = gdf['centroid'].y  # 위도
gdf['경도'] = gdf['centroid'].x  # 경도

df_with_coords = pd.merge(df, gdf[['구', '위도', '경도']], on='구', how='left')
# print(df_with_coords)

# 년도별로 필터링하고 시각화
years = df_with_coords['년도'].unique()  # 년도 목록
maps = []  # 저장할 지도 객체 리스트

# Folium 지도 생성 (서울 중심 좌표)
for year in years:
    df_year = df[df['년도'] == year]

    # Folium 지도 객체 생성
    m = folium.Map(location=[37.5665, 126.9780], zoom_start=11)  # 서울 중심 좌표
    
    # 각 주택 유형에 대해 Choropleth 추가 (단독주택, 아파트, 연립주택 등)
    for house_type in ['단독주택', '아파트', '연립주택', '다세대주택', '비주거용주택']:
        # 주택 유형 비율 컬럼 이름
        ratio_column = f'{house_type} 비율'
        
        folium.Choropleth(
            geo_data=geo_data,
            data=df_year,
            columns=['구', ratio_column],  # 구별로 해당 주택 유형 비율
            key_on='feature.properties.SIG_KOR_NM',  # GeoJSON에서 지역 이름이 있는 필드
            fill_color='YlGnBu',  # 색상 팔레트
            fill_opacity=0.7,
            line_opacity=0.2,
            legend_name=f'{year}년 {house_type} 비율'
        ).add_to(m)

    # 각 구의 이름을 지도에 추가 (tooltip 형태로 표시)
    for _, row in df_year.iterrows():
        region = gdf[gdf['구'] == row['구']]  # 해당 구의 정보를 가져옴
        folium.GeoJson(
            region.geometry,
            tooltip=row['구'],  # 구 이름을 툴팁으로 표시
            style_function=lambda feature: {
                'fillOpacity': 0,  # 영역에 색을 채우지 않음
                'weight': 0.5,
                'color': 'black'
            }
        ).add_to(m)

    # 지도 위에 행정구 이름 추가
    for _, row in df_with_coords.iterrows():
        folium.Marker(
            location=[row['위도'], row['경도']],  # 위도, 경도 리스트로 위치 지정
            icon=folium.DivIcon(html=f'<div style="font-weight: bold; font-size: 10px; color: black; white-space: nowrap;">{row["구"]}</div>')
        ).add_to(m)

    # 지도 객체를 리스트에 저장
    maps.append(m)

    # 지도 파일로 저장
    # map_filename = f'house_type_map_{year}.html'
    # m.save(map_filename)

# 모든 년도에 대한 지도를 표시하기 위해 Jupyter에서 display 사용
from IPython.display import display
for m in maps:
    display(m)