In [None]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')
import seaborn as sns
import matplotlib.pyplot as plt

import wordcloud
from wordcloud import WordCloud
import json
import folium
%matplotlib inline
# 한글 설정
# pip install koreanize_matplotlib
plt.rc('font', family='Malgun Gothic')
plt.rc('axes', unicode_minus=False)
root = 'C:/workspace/python/project/data/'

# 구글드라이브 : https://drive.google.com/drive/folders/1zIzm1o8-3uxcWSU2DoWpB8aV0Oxdfz_P?usp=sharing

In [None]:
'''
서울시 집값 데이터 프레임
'''
seoul_2021_df = pd.read_csv(root + '부동산_Data/부동산_2021.csv', encoding = 'cp949')
seoul_2022_df = pd.read_csv(root + '부동산_Data/부동산_2022.csv', encoding = 'cp949')
seoul_2023_df = pd.read_csv(root + '부동산_Data/부동산_2023.csv', encoding = 'cp949')

In [None]:
# 서울시 집값 데이터 확인
display(seoul_2021_df.info())
print()
print('+=' * 20)
print()
display(seoul_2022_df.info())
print()
print('+=' * 20)
print()
display(seoul_2023_df.info())

In [None]:
# dict_keys(['2019년 12월 31일 기준', '2020년 12월 31일 기준', '2021년 12월 31일 기준', '2022년 12월 31일 기준', '2023년 12월 4일 기준'])
all_bus_stop_dict = pd.read_excel(root + '교통_Data/버스_정류소현황(2019~2023년).xlsx', sheet_name=None)
bus_stop_address_df = pd.read_excel(root + '교통_Data/서울시버스정류소위치정보(20241110).xlsx')

In [None]:
'''
버스 정류장 데이터 프레임
'''
bus_stop_2021_df = all_bus_stop_dict['2021년 12월 31일 기준']
bus_stop_2022_df = all_bus_stop_dict['2022년 12월 31일 기준']
bus_stop_2023_df = all_bus_stop_dict['2023년 12월 4일 기준']

In [None]:
# 서울시 버스정류장 정보 확인
display(bus_stop_2021_df.info())
print()
print('+=' * 20)
print()
display(bus_stop_2022_df.info())
print()
print('+=' * 20)
print()
display(bus_stop_2023_df.info())

In [None]:
'''
지하철 데이터 프레임
'''
train_2021_df = pd.read_csv(root + '교통_Data/서울시 지역별 지하철역 정보_2021.csv', encoding = 'cp949')
train_2022_df = pd.read_csv(root + '교통_Data/서울시 지역별 지하철역 정보_2022.csv', encoding = 'cp949')
train_2023_df = pd.read_csv(root + '교통_Data/서울시 지역별 지하철역 정보_2023.csv', encoding = 'cp949')

In [None]:
# 지하철 정보 확인
train_2021_df.info()
print()
print('+=' * 20)
print()
train_2022_df.info()
print()
print('+=' * 20)
print()
train_2023_df.info()

In [None]:
'''
주거실태 데이터 프레임
'''
abode_family_df = pd.read_csv(root + '주거실태_Data/거처의_종류_및_거처__가구__가구원__시군구_20241120174650.csv', encoding = 'cp949')
abode_house_category = pd.read_csv(root + '주거실태_Data/주택의_종류별_주택__읍면동_연도_끝자리_0__5___시군구_그_외_연도__20241120174542.csv', encoding = 'cp949')

In [None]:
# 주거실태 정보 확인
abode_family_df.info()
print()
print('+=' * 20)
print()
abode_house_category.info()

In [None]:
'''
공원 데이터 프레임
'''
park_2021_df = pd.read_excel(root + '공원_Data/공원현황_2021.xlsx')
park_2022_df = pd.read_excel(root + '공원_Data/공원현황_2022.xlsx')
park_2023_df = pd.read_excel(root + '공원_Data/공원현황_2023.xlsx')

In [None]:
# 공원 정보 확인
display(park_2021_df.info())
print()
print('+=' * 20)
print()
display(park_2022_df.info())
print()
print('+=' * 20)
print()
display(park_2023_df.info())

In [None]:
'''
유통업체 데이터 프레임
'''
distributor_2021_df = pd.read_excel(root + '유통업체_Data/유통업체현황_2021.xlsx', header=None)
distributor_2022_df = pd.read_excel(root + '유통업체_Data/유통업체현황_2022.xlsx', header=None)
distributor_2023_df = pd.read_excel(root + '유통업체_Data/유통업체현황_2023.xlsx', header=None)

In [None]:
# 유통업체 정보 확인
display(distributor_2021_df.info())
print()
print('+=' * 20)
print()
display(distributor_2022_df.info())
print()
print('+=' * 20)
print()
display(distributor_2023_df.info())

In [None]:
'''
의료기간 데이터 프레임
'''
medical_2021_df = pd.read_excel(root + '의료기관_Data/의료기관_2021.xlsx')
medical_2022_df = pd.read_excel(root + '의료기관_Data/의료기관_2022.xlsx')
medical_2023_df = pd.read_excel(root + '의료기관_Data/의료기관_2023.xlsx')

In [None]:
# 의료기간 정보 확인
display(medical_2021_df.info())
print()
print('+=' * 20)
print()
display(medical_2022_df.info())
print()
print('+=' * 20)
print()
display(medical_2023_df.info())

In [None]:
population_df = pd.read_csv(root + '인구수_Data/인구수.csv', encoding = 'cp949')

In [None]:
display(population_df.info())

In [None]:
'''
서울시 집값 전처리 함수 (행정구 별 평균시세)
'''
def precleaning_seoul(df) :
  df = df.groupby(['접수연도', '자치구명'])['물건금액(만원)'].mean().reset_index()
  df = df.rename(columns = {'접수연도' : '연도', '자치구명' : '구', '물건금액(만원)' : '평균시세'})
  df['평균시세'] = round(df['평균시세'], 2)
  return df

In [None]:
# 서울시 집값 전처리 함수 적용
seoul_2021_avg_df = precleaning_seoul(seoul_2021_df)
seoul_2022_avg_df = precleaning_seoul(seoul_2022_df)
seoul_2023_avg_df = precleaning_seoul(seoul_2023_df)

In [None]:
  # 확인
display(seoul_2021_avg_df[:5])
display(seoul_2022_avg_df[:5])
display(seoul_2023_avg_df[:5])

In [None]:
'''
유통업체 전처리 함수
'''
def precleaning_distributor(df) :
  # 컬럼명 지정
  df.columns = df.iloc[1] + '_' + df.iloc[3]
  df.columns = df.columns.str.strip()
  # 쓸모없는 행 삭제
  df = df.iloc[4:].reset_index(drop=True)
  # 쓸모없는 열 삭제
  df = df.drop(columns = ['동별(1)_동별(1)'])
  
  # 컬럼명 보기 쉽게 변경
  df = df.rename(columns = {'동별(2)_동별(2)' : '구'})
  columns = []
  for column in df.columns : 
    column = column.split(' (')
    columns.append(column[0])
  df.columns = columns
  return df

In [None]:
'''
유통업체 전처리 함수 적용
'''
distributor_2021_df = precleaning_distributor(distributor_2021_df)
distributor_2022_df = precleaning_distributor(distributor_2022_df)
distributor_2023_df = precleaning_distributor(distributor_2023_df)

In [None]:
  # 확인
display(distributor_2021_df[:5])
display(distributor_2022_df[:5])
display(distributor_2023_df[:5])

In [None]:
'''
버스 정류장 전처리 함수
'''
def precleaning_bus(df) :
  # 연도를 보기쉽게 바꾸기 위해 앞 4글자만 추출
  year = df['기준일'].astype(str).str[:4]
  
  # 추출한 값으로 변경
  df['기준일'] = year
  
  # 컬럼명 통일
  df = df.rename(columns = {'기준일' : '연도', '행정구명' : '구'})
  
  # 버스 정보와 위치정보 병합
  df = pd.merge(df, bus_stop_address_df[['ARS_ID', 'X좌표', 'Y좌표']], 
                              left_on='ARS-ID', right_on='ARS_ID', how='left')
  # ARS_ID 중복 컬럼 제거
  df.drop(columns=['ARS_ID'], inplace=True)
  return df

In [None]:
'''
버스 전처리 함수 적용
'''
bus_stop_2021_df = precleaning_bus(bus_stop_2021_df)
bus_stop_2022_df = precleaning_bus(bus_stop_2022_df)
bus_stop_2023_df = precleaning_bus(bus_stop_2023_df)

In [None]:
  # 확인
display(bus_stop_2021_df)
display(bus_stop_2022_df)
display(bus_stop_2023_df)

In [None]:
'''
지하철 전처리 함수
'''
def precleaning_train(df) :
  df.columns = ['구', '해당역(호선)', '역개수']
  filtered_df = df[df['구'].isin(seoul_2021_avg_df['구'])]
  return filtered_df

In [None]:
# 지하철 전처리 함수 적용
train_2021_df.drop(columns = '연번', inplace= True)
train_2022_df.drop(columns = '연번', inplace= True)

train_2021_df = precleaning_train(train_2021_df)
train_2022_df = precleaning_train(train_2022_df)
train_2023_df = precleaning_train(train_2023_df)

In [None]:
  # 확인
display(train_2021_df)
display(train_2022_df)
display(train_2023_df)

In [None]:
'''
인구수 전처리 함수
'''
def precleaning_population(df, choice) :
  year = df.columns.str.contains(choice)
  year[0] = True
  
  tmp_df = df.loc[:, year]
  columns_name = tmp_df.iloc[0].values
  tmp_df.columns = columns_name
  tmp_df = tmp_df.drop(0)
  tmp_df = tmp_df.rename(columns = {'행정구역별(읍면동)' : '구'})
  columns_name = tmp_df.columns[1:]
  
  for idx, column in enumerate(columns_name) :
    tmp_df = tmp_df.rename(columns = {column : column.split(' ')[0]})
  
  return tmp_df

In [None]:
# 인구수 전처리 함수 적용
population_2021_df = precleaning_population(population_df, '2021')
population_2022_df = precleaning_population(population_df, '2022')
population_2023_df = precleaning_population(population_df, '2023')

In [None]:
  # 확인
display(population_2021_df[:5])
display(population_2022_df[:5])
display(population_2023_df[:5])

In [None]:
bus_stop_2021_df.info()

In [None]:
bus_stop_2021_df[['X좌표', 'Y좌표']].describe()

In [None]:
bus_stop_2021_df[bus_stop_2021_df['X좌표'] == 126.457230]

In [None]:
bus_stop_2021_df.loc[3179, 'X좌표'] = 127.037725
bus_stop_2021_df.loc[3179, 'Y좌표'] = 37.613705
display(bus_stop_2021_df.loc[3179])

In [None]:
plt.figure(figsize = (20, 16))
sns.scatterplot(bus_stop_2021_df, x = 'X좌표', y = 'Y좌표', hue = '구')

In [None]:
concat_seoul_df = pd.concat([seoul_2021_avg_df, seoul_2022_avg_df, seoul_2023_avg_df])

In [None]:
concat_seoul_df

In [None]:
'''
연도별 평당분양가격 : pointplot()
'''
plt.figure(figsize = (12, 4))
sns.pointplot(concat_seoul_df, x = '연도', y = '평균시세', hue = '구')

plt.legend(bbox_to_anchor = (1.02, 1), loc = 2, borderaxespad = 0.)
plt.title('서울시 연도별 평균분양가격 (2021 ~ 2023)')

In [None]:
plt.figure(figsize = (12, 4))
sns.barplot(concat_seoul_df, x = '구', y = '평균시세', hue = '연도', palette = 'pastel', ci = None)
plt.xticks(rotation=45)
plt.legend(bbox_to_anchor = (1.02, 1), loc = 2, borderaxespad = 0.)

In [None]:
plt.figure(figsize = (12, 4))
sns.boxplot(concat_seoul_df, x = '구', y = '평균시세', palette = 'pastel')

# plt.legend(bbox_to_anchor = (1.02, 1), loc = 2, borderaxespad = 0.)
plt.title('전국 연도별 평당분양가격 (2015.10 ~ 2024.09)')

In [None]:
def wordcloud(data, width=1200, height=500):
  word_c = WordCloud(font_path='C:/Windows/Fonts/malgun.ttf',
                     width=width, height=height,
                     background_color='white', random_state=42)
  word_c.generate(data)
  plt.figure(figsize=(15, 7))
  plt.imshow(word_c)
  plt.axis('off')
  plt.show()  

In [None]:
word2_df = pd.read_excel(root + 'NewsResult_2021.xlsx')
word3_df = pd.read_excel(root + 'NewsResult_2022.xlsx')
word4_df = pd.read_excel(root + 'NewsResult_2023.xlsx')

In [None]:
text = " ".join(word2_df['키워드'].values)
wordcloud(text, width=1200, height=500)

In [None]:
text = " ".join(word3_df['키워드'].values)
wordcloud(text, width=1200, height=500)

In [None]:
text = " ".join(word4_df['키워드'].values)
wordcloud(text, width=1200, height=500)

In [None]:
news_concat_df = pd.concat([word2_df, word3_df, word4_df])
text = " ".join(news_concat_df['키워드'].values)
wordcloud(text, width=1200, height=500)

In [None]:
seoul_2021_df.columns

In [None]:
json_path = root + '부동산_Data/seoul_municipalities_geo_simple.json'

geo_dict = json.load(open(json_path, encoding = 'utf-8'))
print(type(geo_dict))

In [None]:
# pip install shapely
from shapely.geometry import Polygon

center_coords = {}
for feature in geo_dict['features'] :
  coords_list = feature['geometry']['coordinates'][0]
  # 다각형 생성 및 중심점 계산
  polygon = Polygon(coords_list)
  centroid = polygon.centroid
  
  print(f"{feature['properties']['name']} 중심 좌표:", centroid.y, centroid.x)
  center_coords[feature['properties']['name']] = [centroid.y, centroid.x]


In [None]:
latitude  = bus_stop_2021_df['Y좌표'].mean()
longitude = bus_stop_2021_df['X좌표'].mean() 
latitude  = round(latitude, 4)
longitude = round(longitude, 4)
print(latitude, longitude)

In [None]:
map = folium.Map([latitude, longitude])

In [None]:
folium.Choropleth(
    geo_data=geo_dict,
    name='budongsan',
    data=seoul_2021_avg_df,  # '구'와 '매장수' 열이 포함된 데이터프레임
    columns=['구', '평균시세'],  # 사용할 열 지정
    key_on='feature.properties.name',  # geo_dict의 'name'과 매칭
    fill_color='PuRd',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='행정구별 평균시세'
).add_to(map)

In [None]:
# 지도 위에 행정구 이름 추가
for gu, coords in center_coords.items():
    folium.Marker(
        location=coords,
        icon=folium.DivIcon(html=f'<div style="font-weight: bold; font-size: 10px; color: black; white-space: nowrap;">{gu}</div>')
    ).add_to(map)


In [None]:
map