In [3]:
!pip install geopandas
!pip install shapely



In [27]:
import pandas as pd
from sklearn.linear_model import LinearRegression
import numpy as np
import folium
from shapely.geometry import shape
from sklearn.metrics import r2_score
import json
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures
import os

In [7]:
df = pd.read_csv("data/regression_data/Basic_model_preprocessing.csv", encoding='utf-8-sig')

df['사상자수'] = df['사망자수'] + df['부상자수']

features = [
    '평균기온', '평균최고기온', '극점최고기온',
    '평균최저기온', '극점최저기온',
    '강수량', '평균습도', '최저습도',
    '해면기압', '이슬점온도', '평균운량',
    '일조시간', '최심신적설',
    '평균풍속', '최대풍속', '최대순간풍속'
]

df = df[['발생건수', '사상자수'] + features].dropna()

corr_incident = df[features + ['발생건수']].corr()['발생건수'].drop('발생건수')
corr_casualty = df[features + ['사상자수']].corr()['사상자수'].drop('사상자수')

print("=== 발생건수와 기상데이터 상관계수 ===")
print(corr_incident.sort_values(ascending=False).round(3))

print("\n=== 사상자수와 기상데이터 상관계수 ===")
print(corr_casualty.sort_values(ascending=False).round(3))


=== 발생건수와 기상데이터 상관계수 ===
극점최고기온    0.112
평균최고기온    0.111
평균기온      0.110
평균최저기온    0.109
이슬점온도     0.104
극점최저기온    0.103
평균운량      0.055
평균습도      0.050
강수량       0.047
최대풍속      0.040
평균풍속      0.010
최저습도      0.002
일조시간      0.000
최대순간풍속   -0.001
최심신적설    -0.080
해면기압     -0.096
Name: 발생건수, dtype: float64

=== 사상자수와 기상데이터 상관계수 ===
평균최저기온    0.085
평균기온      0.084
평균최고기온    0.082
극점최고기온    0.082
극점최저기온    0.081
이슬점온도     0.078
최대풍속      0.058
강수량       0.046
평균운량      0.044
평균습도      0.035
평균풍속      0.033
최대순간풍속    0.006
최저습도     -0.012
일조시간     -0.022
최심신적설    -0.050
해면기압     -0.077
Name: 사상자수, dtype: float64


In [9]:
df = pd.read_csv("data/regression_data/Basic_model_preprocessing.csv", encoding='utf-8-sig')
df['사상자수'] = df['사망자수'] + df['부상자수']

features = [
    '평균기온', '평균최고기온', '극점최고기온',
    '평균최저기온', '극점최저기온',
    '강수량', '평균습도', '최저습도',
    '해면기압', '이슬점온도', '평균운량',
    '일조시간', '최심신적설',
    '평균풍속', '최대풍속', '최대순간풍속'
]

df = df[['구', '사상자수'] + features].dropna()

for gu, group in df.groupby('구'):
    corr = group[features + ['사상자수']].corr()['사상자수'].drop('사상자수')
    print(f"\n=== {gu} ===")
    print(corr.sort_values(ascending=False))



=== 강남구 ===
평균습도      0.230059
최저습도      0.220241
평균운량      0.218230
이슬점온도     0.200489
강수량       0.197298
평균최저기온    0.186400
극점최고기온    0.186297
평균기온      0.182257
극점최저기온    0.179240
평균최고기온    0.177704
평균풍속      0.077254
최대풍속      0.019033
최대순간풍속   -0.017871
일조시간     -0.068503
최심신적설    -0.078128
해면기압     -0.170045
Name: 사상자수, dtype: float64

=== 강동구 ===
극점최고기온    0.197162
평균기온      0.187355
평균최고기온    0.186652
평균최저기온    0.186097
극점최저기온    0.180012
이슬점온도     0.162598
평균풍속      0.082464
최대풍속      0.078068
평균운량      0.071932
강수량       0.059956
평균습도      0.019743
일조시간      0.009044
최대순간풍속   -0.026458
최저습도     -0.050975
최심신적설    -0.110940
해면기압     -0.169121
Name: 사상자수, dtype: float64

=== 강북구 ===
평균최저기온    0.233982
평균기온      0.232997
평균최고기온    0.229668
극점최고기온    0.229140
극점최저기온    0.213352
이슬점온도     0.211574
최대풍속      0.175798
평균운량      0.154434
강수량       0.096677
최대순간풍속    0.071982
평균습도      0.067511
평균풍속      0.028905
최저습도     -0.067179
일조시간     -0.078156
최심신적설    -0.170966
해면기압     -0.22

In [11]:
df = pd.read_csv("data/regression_data/Basic_model_preprocessing.csv", encoding='utf-8-sig')
df['사상자수'] = df['사망자수'] + df['부상자수']

features = [
    '평균기온', '평균최고기온', '극점최고기온',
    '평균최저기온', '극점최저기온',
    '강수량', '평균습도', '최저습도',
    '해면기압', '이슬점온도', '평균운량',
    '일조시간', '최심신적설',
    '평균풍속', '최대풍속', '최대순간풍속'
]

df = df[['구', '사상자수', '발생건수'] + features].dropna()

weather_dict = {
    '평균기온': -2.5,
    '평균최고기온': 1.5,
    '극점최고기온': 7.3,
    '평균최저기온': -6.2,
    '극점최저기온': -11.0,
    '강수량': 4.5,
    '평균습도': 52.0,
    '최저습도': 12.0,
    '해면기압': 1008.5,
    '이슬점온도': -11.9,
    '평균운량': 2.7,
    '일조시간': 191.5,
    '최심신적설': 1.4,
    '평균풍속': 2.4,
    '최대풍속': 7.5,
    '최대순간풍속': 15.1
}

weather_input = pd.DataFrame([weather_dict])[features]
scaler = MinMaxScaler()
scaler.fit(df[features])
weather_input_scaled = scaler.transform(weather_input)[0]

correlation_threshold = 0.08
correlations = df[features + ['사상자수']].corr()['사상자수'].drop('사상자수')
relevant_vars = correlations[correlations >= correlation_threshold].index.tolist()

threshold_trigger = 0.8
gu_risk_scores = []

for gu, group in df.groupby('구'):
    casualty_corr = group[features + ['사상자수']].corr()['사상자수'].drop('사상자수')
    corr_score = (casualty_corr.values * weather_input_scaled).sum()

    X = group[features]
    y = group['사상자수']
    model = LinearRegression()
    model.fit(X, y)
    predicted = model.predict(weather_input)[0]
    z_score = (predicted - y.mean()) / y.std()

    z_min = -3
    z_max = 3
    z_score_scaled = (z_score - z_min) / (z_max - z_min)
    z_score_scaled = max(0, min(1, z_score_scaled))

    alpha = 0.5
    beta = 0.5
    hybrid_score = alpha * corr_score + beta * z_score_scaled

    high_risk_factor = 1.0
    for i, var in enumerate(features):
        if var in relevant_vars and weather_input_scaled[i] > threshold_trigger:
            high_risk_factor = 1.25
            break

    hybrid_score *= high_risk_factor

    gu_risk_scores.append({
        '구': gu,
        '상관관계점수': round(corr_score, 3),
        '표준화위험편차': round(z_score_scaled, 3),
        '기상급증가중치': high_risk_factor,
        '최종_위험지수': round(hybrid_score, 3)
    })

df_risk = pd.DataFrame(gu_risk_scores).sort_values(by='최종_위험지수', ascending=False)

geo_path = r"C:\Users\Admin\SW Camp\Risk Map\data\map\HangJeongDong.geojson"
with open(geo_path, encoding='utf-8') as f:
    seoul_geo = json.load(f)

risk_dict = dict(zip(df_risk['구'], df_risk['최종_위험지수']))
for feature in seoul_geo['features']:
    gu_name = feature['properties']['sggnm'].strip()
    feature['properties']['위험지수'] = round(risk_dict.get(gu_name, 0), 3)
    feature['properties']['name'] = gu_name

m = folium.Map(location=[37.5642135, 127.0016985], zoom_start=11.2, tiles='cartodbpositron')

choropleth = folium.Choropleth(
    geo_data=seoul_geo,
    data=df_risk[['구', '최종_위험지수']],
    columns=['구', '최종_위험지수'],
    key_on='feature.properties.name',
    fill_color='YlOrRd',
    fill_opacity=0.9,
    line_opacity=0.3,
    nan_fill_color='white',
    legend_name='자치구별 하이브리드 위험지수',
    highlight=True
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(
        fields=['name', '위험지수'],
        aliases=['자치구:', '위험지수:'],
        localize=True,
        sticky=True
    )
)

m.save("result/서울시_자치구_위험지도1.html")
print(df_risk)

       구  상관관계점수  표준화위험편차  기상급증가중치  최종_위험지수
3    강서구   0.408    0.501      1.0    0.455
21   은평구   0.337    0.565      1.0    0.451
22   종로구   0.241    0.632      1.0    0.437
4    관악구   0.268    0.547      1.0    0.407
9    도봉구   0.173    0.614      1.0    0.393
5    광진구   0.165    0.597      1.0    0.381
2    강북구   0.212    0.545      1.0    0.378
8    노원구   0.091    0.646      1.0    0.368
16   성북구   0.223    0.495      1.0    0.359
23    중구   0.157    0.555      1.0    0.356
7    금천구   0.223    0.487      1.0    0.355
15   성동구   0.145    0.552      1.0    0.349
18   양천구   0.321    0.354      1.0    0.337
24   중랑구   0.118    0.556      1.0    0.337
11   동작구   0.125    0.535      1.0    0.330
10  동대문구   0.259    0.387      1.0    0.323
6    구로구   0.157    0.485      1.0    0.321
12   마포구   0.215    0.422      1.0    0.319
17   송파구   0.241    0.380      1.0    0.311
1    강동구   0.185    0.409      1.0    0.297
13  서대문구   0.099    0.462      1.0    0.280
20   용산구   0.137    0.422      1

In [13]:
df = pd.read_csv("data/regression_data/Basic_model_preprocessing.csv", encoding='utf-8-sig')
df['사상자수'] = df['사망자수'] + df['부상자수']

features = [
    '평균기온', '평균최고기온', '극점최고기온',
    '평균최저기온', '극점최저기온',
    '강수량', '평균습도', '최저습도',
    '해면기압', '이슬점온도', '평균운량',
    '일조시간', '최심신적설',
    '평균풍속', '최대풍속', '최대순간풍속'
]

df = df[['구', '사상자수', '발생건수'] + features].dropna()

weather_dict = {
    '평균기온': -2.5,
    '평균최고기온': 1.5,
    '극점최고기온': 7.3,
    '평균최저기온': -6.2,
    '극점최저기온': -11.0,
    '강수량': 4.5,
    '평균습도': 52.0,
    '최저습도': 12.0,
    '해면기압': 1008.5,
    '이슬점온도': -11.9,
    '평균운량': 2.7,
    '일조시간': 191.5,
    '최심신적설': 1.4,
    '평균풍속': 2.4,
    '최대풍속': 7.5,
    '최대순간풍속': 15.1
}

weather_input = pd.DataFrame([weather_dict])[features]
scaler = MinMaxScaler()
scaler.fit(df[features])
weather_input_scaled = scaler.transform(weather_input)[0]

threshold_trigger = 0.8
gu_risk_scores = []

for gu, group in df.groupby('구'):
    casualty_corr = group[features + ['사상자수']].corr()['사상자수'].drop('사상자수')
    corr_score = (casualty_corr.values * weather_input_scaled).sum()

    X = group[features]
    y = group['사상자수']
    model = LinearRegression()
    model.fit(X, y)
    predicted = model.predict(weather_input)[0]
    z_score = (predicted - y.mean()) / y.std()
    z_min, z_max = -3, 3
    z_score_scaled = (z_score - z_min) / (z_max - z_min)
    z_score_scaled = max(0, min(1, z_score_scaled))

    alpha, beta = 0.5, 0.5
    hybrid_score = alpha * corr_score + beta * z_score_scaled

    threshold = casualty_corr.quantile(0.7)
    relevant_vars = casualty_corr[casualty_corr >= threshold].index.tolist()
    high_risk_factor = 1.0
    trigger_vars = []

    for i, var in enumerate(features):
        if var in relevant_vars and weather_input_scaled[i] > threshold_trigger:
            high_risk_factor = 1.25
            trigger_vars.append(var)

    hybrid_score *= high_risk_factor

    gu_risk_scores.append({
        '구': gu,
        '상관관계점수': round(corr_score, 3),
        '표준화위험편차': round(z_score_scaled, 3),
        '기상급증가중치': high_risk_factor,
        '최종_위험지수': round(hybrid_score, 3)
    })

df_risk = pd.DataFrame(gu_risk_scores).sort_values(by='최종_위험지수', ascending=False)

geo_path = r"C:\Users\Admin\SW Camp\Risk Map\data\map\HangJeongDong.geojson"
with open(geo_path, encoding='utf-8') as f:
    seoul_geo = json.load(f)

risk_dict = dict(zip(df_risk['구'], df_risk['최종_위험지수']))
for feature in seoul_geo['features']:
    gu_name = feature['properties']['sggnm'].strip()
    feature['properties']['위험지수'] = round(risk_dict.get(gu_name, 0), 3)
    feature['properties']['name'] = gu_name

m = folium.Map(location=[37.5642135, 127.0016985], zoom_start=11.2, tiles='cartodbpositron')
choropleth = folium.Choropleth(
    geo_data=seoul_geo,
    data=df_risk[['구', '최종_위험지수']],
    columns=['구', '최종_위험지수'],
    key_on='feature.properties.name',
    fill_color='YlOrRd',
    fill_opacity=0.9,
    line_opacity=0.3,
    nan_fill_color='white',
    legend_name='자치구별 하이브리드 위험지수',
    highlight=True
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(
        fields=['name', '위험지수'],
        aliases=['자치구:', '위험지수:'],
        localize=True,
        sticky=True
    )
)

m.save("result/서울시_자치구_위험지도_버전1.html")
print(df_risk)


       구  상관관계점수  표준화위험편차  기상급증가중치  최종_위험지수
3    강서구   0.408    0.501      1.0    0.455
21   은평구   0.337    0.565      1.0    0.451
22   종로구   0.241    0.632      1.0    0.437
4    관악구   0.268    0.547      1.0    0.407
9    도봉구   0.173    0.614      1.0    0.393
5    광진구   0.165    0.597      1.0    0.381
2    강북구   0.212    0.545      1.0    0.378
8    노원구   0.091    0.646      1.0    0.368
16   성북구   0.223    0.495      1.0    0.359
23    중구   0.157    0.555      1.0    0.356
7    금천구   0.223    0.487      1.0    0.355
15   성동구   0.145    0.552      1.0    0.349
18   양천구   0.321    0.354      1.0    0.337
24   중랑구   0.118    0.556      1.0    0.337
11   동작구   0.125    0.535      1.0    0.330
10  동대문구   0.259    0.387      1.0    0.323
6    구로구   0.157    0.485      1.0    0.321
12   마포구   0.215    0.422      1.0    0.319
17   송파구   0.241    0.380      1.0    0.311
1    강동구   0.185    0.409      1.0    0.297
13  서대문구   0.099    0.462      1.0    0.280
20   용산구   0.137    0.422      1

In [14]:
df = pd.read_csv("data/regression_data/Basic_model_preprocessing.csv", encoding='utf-8-sig')
df['사상자수'] = df['사망자수'] + df['부상자수']

features = [
    '평균기온', '평균최고기온', '극점최고기온',
    '평균최저기온', '극점최저기온',
    '강수량', '평균습도', '최저습도',
    '해면기압', '이슬점온도', '평균운량',
    '일조시간', '최심신적설',
    '평균풍속', '최대풍속', '최대순간풍속'
]

df = df[['구', '사상자수', '발생건수'] + features].dropna()

weather_dict = {
    '평균기온': -2.5,
    '평균최고기온': 1.5,
    '극점최고기온': 7.3,
    '평균최저기온': -6.2,
    '극점최저기온': -11.0,
    '강수량': 4.5,
    '평균습도': 52.0,
    '최저습도': 12.0,
    '해면기압': 1008.5,
    '이슬점온도': -11.9,
    '평균운량': 2.7,
    '일조시간': 191.5,
    '최심신적설': 1.4,
    '평균풍속': 2.4,
    '최대풍속': 7.5,
    '최대순간풍속': 15.1
}

weather_input = pd.DataFrame([weather_dict])[features]

scaler = MinMaxScaler()
scaler.fit(df[features])
weather_input_scaled = scaler.transform(weather_input)[0]

global_mean = df['사상자수'].mean()
global_std = df['사상자수'].std()
threshold_trigger = 0.8

gu_risk_scores = []

for gu, group in df.groupby('구'):
    casualty_corr = group[features + ['사상자수']].corr()['사상자수'].drop('사상자수')
    corr_score = (casualty_corr.values * weather_input_scaled).sum()

    X = group[features]
    y = group['사상자수']
    model = LinearRegression()
    model.fit(X, y)
    predicted = model.predict(weather_input)[0]

    z_local = (predicted - y.mean()) / y.std()
    z_global = (predicted - global_mean) / global_std

    z_local_scaled = max(0, min(1, (z_local + 3) / 6))
    z_global_scaled = max(0, min(1, (z_global + 3) / 6))

    alpha = 0.4
    beta = 0.3
    gamma = 0.3
    hybrid_score = alpha * corr_score + beta * z_local_scaled + gamma * z_global_scaled

    threshold = casualty_corr.quantile(0.7)
    relevant_vars = casualty_corr[casualty_corr >= threshold].index.tolist()
    high_risk_factor = 1.0
    for i, var in enumerate(features):
        if var in relevant_vars and weather_input_scaled[i] > threshold_trigger:
            high_risk_factor = 1.25
            break

    hybrid_score *= high_risk_factor

    gu_risk_scores.append({
        '구': gu,
        '상관관계점수': round(corr_score, 3),
        '구내위험편차': round(z_local_scaled, 3),
        '전국위험편차': round(z_global_scaled, 3),
        '기상급증가중치': high_risk_factor,
        '최종_위험지수': round(hybrid_score, 3)
    })

df_risk = pd.DataFrame(gu_risk_scores).sort_values(by='최종_위험지수', ascending=False)
geo_path = r"C:\Users\Admin\SW Camp\Risk Map\data\map\HangJeongDong.geojson"
with open(geo_path, encoding='utf-8') as f:
    seoul_geo = json.load(f)

risk_dict = dict(zip(df_risk['구'], df_risk['최종_위험지수']))
for feature in seoul_geo['features']:
    gu_name = feature['properties']['sggnm'].strip()
    feature['properties']['위험지수'] = round(risk_dict.get(gu_name, 0), 3)
    feature['properties']['name'] = gu_name

m = folium.Map(location=[37.5642135, 127.0016985], zoom_start=11.2, tiles='cartodbpositron')
choropleth = folium.Choropleth(
    geo_data=seoul_geo,
    data=df_risk[['구', '최종_위험지수']],
    columns=['구', '최종_위험지수'],
    key_on='feature.properties.name',
    fill_color='YlOrRd',
    fill_opacity=0.9,
    line_opacity=0.3,
    nan_fill_color='white',
    legend_name='자치구별 하이브리드 위험지수',
    highlight=True
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(
        fields=['name', '위험지수'],
        aliases=['자치구:', '위험지수:'],
        localize=True,
        sticky=True
    )
)

m.save("result/서울시_자치구_위험지도_버전2.html")
print(df_risk)


       구  상관관계점수  구내위험편차  전국위험편차  기상급증가중치  최종_위험지수
3    강서구   0.408   0.501   0.546      1.0    0.477
21   은평구   0.337   0.565   0.451      1.0    0.439
22   종로구   0.241   0.632   0.489      1.0    0.433
4    관악구   0.268   0.547   0.514      1.0    0.425
17   송파구   0.241   0.380   0.711      1.0    0.424
0    강남구   0.212   0.244   0.854      1.0    0.414
8    노원구   0.091   0.646   0.562      1.0    0.399
5    광진구   0.165   0.597   0.487      1.0    0.391
16   성북구   0.223   0.495   0.474      1.0    0.380
24   중랑구   0.118   0.556   0.552      1.0    0.380
2    강북구   0.212   0.545   0.413      1.0    0.372
9    도봉구   0.173   0.614   0.358      1.0    0.361
23    중구   0.157   0.555   0.440      1.0    0.361
10  동대문구   0.259   0.387   0.466      1.0    0.360
12   마포구   0.215   0.422   0.481      1.0    0.357
18   양천구   0.321   0.354   0.399      1.0    0.354
6    구로구   0.157   0.485   0.479      1.0    0.352
15   성동구   0.145   0.552   0.395      1.0    0.342
11   동작구   0.125   0.535   0.43

In [16]:
df = pd.read_csv("data/merged_data/merged_result_updated.csv", encoding='utf-8-sig')
df = df[df["연도"].between(2017, 2023)]

target_col = "인구 10만명당 사망자수 (명)"
accident_cols = [col for col in df.columns if any(x in col for x in ["사망", "부상", "발생"]) and col != target_col]
df = df[["구", "연도", target_col] + accident_cols].dropna()

columns_by_gu = {gu: set(group.columns) for gu, group in df.groupby("구")}
common_cols = sorted(list(set.intersection(*columns_by_gu.values()) - {"구", "연도", target_col}))

weights = {}
for col in common_cols:
    if "사망" in col:
        weights[col] = 0.4
    elif "사상자수" in col:
        weights[col] = 0.25
    elif "부상" in col:
        weights[col] = 0.15
    elif "발생" in col:
        weights[col] = 0.1
    elif "소계" in col:
        weights[col] = 0.1
        
scaler = MinMaxScaler()
df_std = df.copy()
df_std[common_cols] = scaler.fit_transform(df_std[common_cols])

gu_scores = []
for gu, group in df_std.groupby("구"):
    mean_vals = group[common_cols].mean()
    score_components = {col: mean_vals[col] * weights[col] for col in common_cols}
    total_score = sum(score_components.values())
    max_factor = max(score_components, key=score_components.get)
    gu_scores.append({
        "구": gu,
        "위험지수": round(total_score, 3),
        "최대기여요인": max_factor
    })

df_risk = pd.DataFrame(gu_scores).sort_values(by="위험지수", ascending=False)

geo_path = r"C:\Users\Admin\SW Camp\Risk Map\data\map\HangJeongDong.geojson"
with open(geo_path, encoding='utf-8') as f:
    seoul_geo = json.load(f)

risk_dict = dict(zip(df_risk["구"], df_risk["위험지수"]))
factor_dict = dict(zip(df_risk["구"], df_risk["최대기여요인"]))

for feature in seoul_geo["features"]:
    gu_name = feature["properties"]["sggnm"].strip()
    feature["properties"]["위험지수"] = round(risk_dict.get(gu_name, 0), 3)
    feature["properties"]["기여요인"] = factor_dict.get(gu_name, "")

m = folium.Map(location=[37.5642135, 127.0016985], zoom_start=11.2, tiles='cartodbpositron')
choropleth = folium.Choropleth(
    geo_data=seoul_geo,
    data=df_risk[["구", "위험지수"]],
    columns=["구", "위험지수"],
    key_on="feature.properties.sggnm",
    fill_color="YlOrRd",
    fill_opacity=0.9,
    line_opacity=0.3,
    nan_fill_color="white",
    legend_name="자치구별 위험지수 (인구 10만명당 사망자수 기준)",
    highlight=True
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(
        fields=["sggnm", "위험지수", "기여요인"],
        aliases=["자치구:", "위험지수:", "기여요인:"],
        localize=True,
        sticky=True
    )
)

m.save("result/서울시_자치구_위험지도_도메인가중치기반.html")
print(df_risk)

       구   위험지수             최대기여요인
0    강남구  2.361            기타_사망자수
17   송파구  2.009            기타_사망자수
19  영등포구  1.776           횡단중_사망자수
14   서초구  1.707            기타_사망자수
10  동대문구  1.467            기타_사망자수
3    강서구  1.418            기타_사망자수
11   동작구  1.164        차도 통행중_사망자수
4    관악구  1.158            기타_사망자수
16   성북구  1.158           횡단중_사망자수
12   마포구  1.143           횡단중_사망자수
1    강동구  1.138           자전거_사망자수
8    노원구  1.124        차도 통행중_사망자수
24   중랑구  1.123           횡단중_사망자수
6    구로구  1.107           횡단중_사망자수
18   양천구  1.055            기타_사망자수
22   종로구  0.978        차도 통행중_사망자수
20   용산구  0.968           횡단중_사망자수
2    강북구  0.941           횡단중_사망자수
21   은평구  0.851           횡단중_사망자수
13  서대문구  0.830           횡단중_사망자수
15   성동구  0.816           횡단중_사망자수
23    중구  0.798  인구 10만명당 부상자수 (명)
7    금천구  0.778           횡단중_사망자수
5    광진구  0.766           뺑소니_사망자수
9    도봉구  0.544            기타_사망자수


In [18]:
df = pd.read_csv("data/merged_data/merged_result_updated.csv")
df = df[(df["연도"] >= 2017) & (df["연도"] <= 2023)]

target = "인구 10만명당 사망자수 (명)"

weights = {}
for col in df.columns:
    if "사망" in col:
        weights[col] = 0.6
    elif "부상" in col:
        weights[col] = 0.3
    elif "발생" in col:
        weights[col] = 0.1

accident_cols = [col for col in weights.keys() if col in df.columns and col not in ["연도", "구"]]

df_mean = df.groupby("구")[accident_cols].mean()

scaler = MinMaxScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df_mean), columns=accident_cols, index=df_mean.index)

risk_scores = []
for gu in df_scaled.index:
    score = 0
    max_contrib = ("", 0)
    for col in accident_cols:
        val = df_scaled.loc[gu, col]
        weight = weights[col]
        contrib = val * weight
        score += contrib
        if contrib > max_contrib[1]:
            max_contrib = (col, contrib)
    risk_scores.append({
        "구": gu,
        "위험지수": round(score, 3),
        "최대기여요인": max_contrib[0]
    })

df_risk = pd.DataFrame(risk_scores).sort_values(by="위험지수", ascending=False)

geo_path = r"C:\Users\Admin\SW Camp\Risk Map\data\map\HangJeongDong.geojson"
with open(geo_path, encoding="utf-8") as f:
    seoul_geo = json.load(f)

risk_dict = dict(zip(df_risk["구"], df_risk["위험지수"]))
reason_dict = dict(zip(df_risk["구"], df_risk["최대기여요인"]))

for feature in seoul_geo["features"]:
    gu_name = feature["properties"]["sggnm"].strip()
    feature["properties"]["위험지수"] = round(risk_dict.get(gu_name, 0), 3)
    feature["properties"]["최대기여요인"] = reason_dict.get(gu_name, "")
    feature["properties"]["name"] = gu_name

m = folium.Map(location=[37.5642135, 127.0016985], zoom_start=11.2, tiles='cartodbpositron')
choropleth = folium.Choropleth(
    geo_data=seoul_geo,
    data=df_risk[["구", "위험지수"]],
    columns=["구", "위험지수"],
    key_on="feature.properties.name",
    fill_color="YlOrRd",
    fill_opacity=0.9,
    line_opacity=0.3,
    nan_fill_color="white",
    legend_name="자치구별 위험지수",
    highlight=True
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(
        fields=["name", "위험지수", "최대기여요인"],
        aliases=["자치구:", "위험지수:", "최대기여요인:"],
        localize=True,
        sticky=True
    )
)

m.save("result/서울시_자치구_위험지도_최대기여요인포함.html")
print(df_risk)

       구   위험지수             최대기여요인
0    강남구  5.846         보도통행중_사망자수
18   송파구  5.345    길가장자리구역통행중_사망자수
20  영등포구  5.005           횡단중_사망자수
14   서초구  4.439            기타_사망자수
10  동대문구  4.315           자전거_사망자수
3    강서구  4.115            기타_사망자수
4    관악구  3.478           뺑소니_사망자수
1    강동구  3.360           자전거_사망자수
12   마포구  3.357           횡단중_사망자수
16   성북구  3.249           횡단중_사망자수
11   동작구  3.183        차도 통행중_사망자수
21   용산구  3.098  인구 10만명당 사망자수 (명)
6    구로구  3.014    길가장자리구역통행중_사망자수
19   양천구  2.969            기타_사망자수
23   종로구  2.852  인구 10만명당 사망자수 (명)
8    노원구  2.845        차도 통행중_사망자수
25   중랑구  2.806           횡단중_사망자수
5    광진구  2.433           뺑소니_사망자수
22   은평구  2.375  인구 10만명당 사망자수 (명)
7    금천구  2.327  인구 10만명당 사망자수 (명)
2    강북구  2.319           횡단중_사망자수
15   성동구  2.302  인구 10만명당 사망자수 (명)
13  서대문구  2.142  인구 10만명당 사망자수 (명)
24    중구  1.817  인구 10만명당 사망자수 (명)
9    도봉구  1.250  인구 10만명당 사망자수 (명)
17    소계    NaN            맑음_발생건수


In [20]:
df = pd.read_csv("data/merged_data/merged_result_updated.csv", encoding='utf-8-sig')
df = df[df["연도"].between(2017, 2023)]

accident_cols = [col for col in df.columns if any(x in col for x in ["사망", "부상", "발생"]) and col not in ["연도", "구"]]
df = df[["구", "연도"] + accident_cols].dropna()

df_mean = df.groupby("구")[accident_cols].mean()

corr_matrix = df_mean.corr()
avg_corr = corr_matrix.abs().mean().to_dict()

domain_weights = {}
for col in accident_cols:
    if "사망" in col:
        domain_weights[col] = 1.2
    elif "사상" in col:
        domain_weights[col] = 1.1
    elif "부상" in col:
        domain_weights[col] = 1.0
    elif "발생" in col:
        domain_weights[col] = 0.8
    else:
        domain_weights[col] = 0.8


final_weights = {col: avg_corr.get(col, 0) * domain_weights.get(col, 1.0) for col in accident_cols}

scaler = MinMaxScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df_mean), columns=accident_cols, index=df_mean.index)

risk_scores = []
for gu in df_scaled.index:
    score = 0
    max_contrib = ("", 0)
    for col in accident_cols:
        val = df_scaled.loc[gu, col]
        weight = final_weights[col]
        contrib = val * weight
        score += contrib
        if contrib > max_contrib[1]:
            max_contrib = (col, contrib)
    risk_scores.append({
        "구": gu,
        "위험지수": round(score, 3),
        "최대기여요인": max_contrib[0]
    })

df_risk = pd.DataFrame(risk_scores).sort_values(by="위험지수", ascending=False)

geo_path = r"C:\Users\Admin\SW Camp\Risk Map\data\map\HangJeongDong.geojson"
with open(geo_path, encoding="utf-8") as f:
    seoul_geo = json.load(f)

risk_dict = dict(zip(df_risk["구"], df_risk["위험지수"]))
reason_dict = dict(zip(df_risk["구"], df_risk["최대기여요인"]))

for feature in seoul_geo["features"]:
    gu_name = feature["properties"]["sggnm"].strip()
    feature["properties"]["위험지수"] = round(risk_dict.get(gu_name, 0), 3)
    feature["properties"]["기여요인"] = reason_dict.get(gu_name, "")
    feature["properties"]["name"] = gu_name

m = folium.Map(location=[37.5642135, 127.0016985], zoom_start=11.2, tiles='cartodbpositron')
choropleth = folium.Choropleth(
    geo_data=seoul_geo,
    data=df_risk[["구", "위험지수"]],
    columns=["구", "위험지수"],
    key_on="feature.properties.sggnm",
    fill_color="YlOrRd",
    fill_opacity=0.9,
    line_opacity=0.3,
    nan_fill_color="white",
    legend_name="자치구별 종합 위험지수",
    highlight=True
).add_to(m)

choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(
        fields=["sggnm", "위험지수", "기여요인"],
        aliases=["자치구:", "위험지수:", "기여요인:"],
        localize=True,
        sticky=True
    )
)

m.save("result/서울시_자치구_위험지도_상호상관기반.html")
print(df_risk)


       구    위험지수             최대기여요인
0    강남구  11.930         보도통행중_부상자수
17   송파구   9.571           횡단중_부상자수
14   서초구   7.946           뺑소니_부상자수
19  영등포구   7.936           횡단중_부상자수
10  동대문구   6.021            기타_사망자수
3    강서구   5.754            기타_사망자수
16   성북구   4.582           횡단중_사망자수
11   동작구   4.411        차도 통행중_부상자수
8    노원구   4.408           횡단중_부상자수
6    구로구   4.370           버스계_발생건수
24   중랑구   4.300           횡단중_부상자수
12   마포구   4.239           횡단중_사망자수
1    강동구   4.216           자전거_사망자수
4    관악구   4.137            기타_사망자수
18   양천구   3.683            기타_사망자수
2    강북구   3.526        차도 통행중_부상자수
22   종로구   3.423        차도 통행중_부상자수
20   용산구   3.053           뺑소니_사망자수
21   은평구   2.932        차도 통행중_부상자수
13  서대문구   2.852           횡단중_부상자수
23    중구   2.552  인구 10만명당 부상자수 (명)
15   성동구   2.417            기타_사망자수
7    금천구   2.204            기타_사망자수
5    광진구   2.099           뺑소니_사망자수
9    도봉구   1.058            기타_사망자수


In [22]:
# 파일 불러오기
df = pd.read_csv("data/merged_data/merged_result_updated_last.csv", encoding='utf-8-sig')

# 타겟 컬럼 목록
target_cols = [
    '기타_부상자수','기타_사망자수','길가장자리구역통행중_부상자수','길가장자리구역통행중_사망자수',
    '보도통행중_부상자수','보도통행중_사망자수','차도 통행중_부상자수','차도 통행중_사망자수',
    '횡단중_부상자수','횡단중_사망자수','뺑소니_발생건수','뺑소니_부상자수','뺑소니_사망자수',
    '자전거_발생건수','자전거_사망자수','자전거_부상자수','차대사람_사상자수','차대차_사상자수',
    '차량단독_사상자수','차대사람_발생건수','차대차_발생건수','차량단독_발생건수',
    '인구 10만명당 부상자수 (명)','인구 10만명당 사망자수 (명)','자동차 1만대당 발생건수 (건)'
]

predict_years = [2024, 2025]
final_result = []

for target in target_cols:
    sub_df = df[["구", "연도", "거주인구", "교통사고 발생건수", target]].dropna()
    if sub_df["연도"].max() < 2023 or sub_df["연도"].nunique() < 5:
        continue

    for gu in sub_df["구"].unique():
        gu_df = sub_df[sub_df["구"] == gu]
        if gu_df.shape[0] < 5:
            continue

        X = gu_df[["연도", "거주인구", "교통사고 발생건수"]]
        y = gu_df[target]

        # 선형 회귀
        linear_model = LinearRegression().fit(X, y)
        y_pred_linear = linear_model.predict(X)
        score_linear = r2_score(y, y_pred_linear)

        # 다항 회귀
        poly_model = make_pipeline(PolynomialFeatures(degree=2), LinearRegression()).fit(X, y)
        y_pred_poly = poly_model.predict(X)
        score_poly = r2_score(y, y_pred_poly)

        # 예측 대상 연도
        for year in predict_years:
            pop_row = df[(df["구"] == gu) & (df["연도"] == year)][["거주인구", "교통사고 발생건수"]]
            if pop_row.isnull().any().any():
                continue

            X_pred = pd.DataFrame({
                "연도": [year],
                "거주인구": pop_row["거주인구"].values,
                "교통사고 발생건수": pop_row["교통사고 발생건수"].values
            })

            if score_poly > score_linear:
                pred_val = poly_model.predict(X_pred)[0]
                model_used = "다항회귀"
            else:
                pred_val = linear_model.predict(X_pred)[0]
                model_used = "선형회귀"

            # 음수 값 보정
            pred_val = max(0, pred_val)

            final_result.append({
                "구": gu,
                "연도": year,
                "항목": target,
                "예측값": pred_val,
                "모델": model_used
            })

# 결과 저장
df_result = pd.DataFrame(final_result)
df_result.to_csv("result/예측_결과_선형vs다항_비교_음수보정.csv", index=False, encoding="utf-8-sig")

In [24]:
df = pd.read_csv("data/merged_data/merged_result_updated_last.csv", encoding="utf-8-sig")

columns_to_predict = [
    "기타_부상자수", "기타_사망자수", "길가장자리구역통행중_부상자수", "길가장자리구역통행중_사망자수",
    "보도통행중_부상자수", "보도통행중_사망자수", "차도 통행중_부상자수", "차도 통행중_사망자수",
    "횡단중_부상자수", "횡단중_사망자수", "뺑소니_발생건수", "뺑소니_부상자수", "뺑소니_사망자수",
    "자전거_발생건수", "자전거_사망자수", "자전거_부상자수", "차대사람_사상자수", "차대차_사상자수",
    "차량단독_사상자수", "차대사람_발생건수", "차대차_발생건수", "차량단독_발생건수",
    "인구 10만명당 부상자수 (명)", "인구 10만명당 사망자수 (명)", "자동차 1만대당 발생건수 (건)"
]

predict_years = [2024, 2025]
all_preds = []

for col in columns_to_predict:
    col_preds = []
    for gu in df["구"].unique():
        temp = df[df["구"] == gu][["연도", "거주인구", "교통사고 발생건수", col]].dropna()
        if len(temp) < 5:
            continue
        X = temp[["연도", "거주인구", "교통사고 발생건수"]]
        y = temp[col]
        model_lin = LinearRegression()
        model_poly = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())

        model_lin.fit(X, y)
        model_poly.fit(X, y)

        r2_lin = r2_score(y, model_lin.predict(X))
        r2_poly = r2_score(y, model_poly.predict(X))

        model = model_poly if r2_poly > r2_lin else model_lin

        for year in predict_years:
            if year == 2024:
                row = df[(df["구"] == gu) & (df["연도"] == 2024)]
                if row.empty or pd.isna(row["거주인구"].values[0]) or pd.isna(row["교통사고 발생건수"].values[0]):
                    continue
                x_input = pd.DataFrame([[year, row["거주인구"].values[0], row["교통사고 발생건수"].values[0]]],
                                       columns=["연도", "거주인구", "교통사고 발생건수"])
            elif year == 2025:
                hist = df[(df["구"] == gu) & (df["연도"] <= 2023)]
                if hist.empty or df[(df["구"] == gu) & (df["연도"] == 2025)]["거주인구"].isna().all():
                    continue
                pop_2025 = df[(df["구"] == gu) & (df["연도"] == 2025)]["거주인구"].values[0]
                avg_acc = hist.groupby("연도")["교통사고 발생건수"].mean().rolling(window=3, min_periods=1).mean()
                acc_2025 = avg_acc.iloc[-1] if not avg_acc.empty else hist["교통사고 발생건수"].mean()
                x_input = pd.DataFrame([[2025, pop_2025, acc_2025]],
                                       columns=["연도", "거주인구", "교통사고 발생건수"])

            y_pred = max(model.predict(x_input)[0], 0)
            col_preds.append({"구": gu, "연도": year, col: y_pred})
    all_preds.append(pd.DataFrame(col_preds))

df_pred = pd.concat(all_preds, axis=0).reset_index(drop=True)
df_wide = df_pred.groupby(["구", "연도"]).first().reset_index()

weights = {}
for col in df_wide.columns:
    if "사망" in col:
        weights[col] = 0.6
    elif "부상" in col:
        weights[col] = 0.3
    elif "발생" in col:
        weights[col] = 0.1

weighted_cols = [col for col in weights if col in df_wide.columns]
scaler = MinMaxScaler()
df_wide[weighted_cols] = scaler.fit_transform(df_wide[weighted_cols])

final = []
for _, row in df_wide.iterrows():
    gu = row["구"]
    year = int(row["연도"])
    score = 0
    max_col, max_val = "", 0
    for col in weighted_cols:
        val = row[col] * weights[col]
        score += val
        if val > max_val:
            max_val = val
            max_col = col
    final.append({"구": gu, "연도": year, "위험지수": round(score, 4), "최대기여요인": max_col})

df_result = pd.DataFrame(final)
df_result.to_csv("result/예측_위험지수_2024_2025.csv", index=False, encoding="utf-8-sig")


In [29]:
data_path = "data/regression_data/new_model_final.csv"
geo_path = r"C:\Users\Admin\SW Camp\Risk Map\data\map\HangJeongDong.geojson"
output_csv_path = "result/예측_위험지수_2024_2026.csv"
output_map_path = "result"

df = pd.read_csv(data_path, encoding="utf-8-sig")
df_future = df[df["연도"].isin([2024, 2025, 2026])].copy()

weights = {}
for col in df_future.columns:
    if "사망" in col:
        weights[col] = 0.4
    elif "사상자수" in col:
        weights[col] = 0.25
    elif "부상" in col:
        weights[col] = 0.15
    elif "발생" in col:
        weights[col] = 0.1
    elif "소계" in col:
        weights[col] = 0.1


for exclude_col in [
    "연도",
    "거주인구",
    "인구 10만명당 사망자수 (명)_x",
    "인구 10만명당 부상자수 (명)_x"
]:
    weights.pop(exclude_col, None)

norm_base = df_future.groupby("구")[list(weights.keys())].agg(["min", "max"])
norm_base.columns = [f"{c}_{stat}" for c, stat in norm_base.columns]

result_rows = []
for (gu, year), row_group in df_future.groupby(["구", "연도"]):
    row = row_group.iloc[0]
    norm_vals = {}
    for col in weights:
        val = row[col]
        min_val = norm_base.loc[gu, f"{col}_min"]
        max_val = norm_base.loc[gu, f"{col}_max"]
        if max_val != min_val:
            norm_val = (val - min_val) / (max_val - min_val)
        else:
            norm_val = 0
        norm_vals[col] = norm_val

    risk_score = sum(norm_vals[c] * weights[c] for c in weights)
    contribution = {c: norm_vals[c] * weights[c] for c in weights}
    max_factor = max(contribution.items(), key=lambda x: x[1])[0]
    max_value = row[max_factor]

    result_rows.append({
        "구": gu,
        "연도": year,
        "위험지수": round(risk_score, 4),
        "최대기여요인": max_factor,
        "기여값": int(round(max_value))
    })

df_risk = pd.DataFrame(result_rows)
df_risk.to_csv(output_csv_path, index=False, encoding="utf-8-sig")

with open(geo_path, encoding="utf-8") as f:
    seoul_geo = json.load(f)

df_risk["연도"] = df_risk["연도"].astype(str)

for year in ["2024", "2025", "2026"]:
    df_year = df_risk[df_risk["연도"] == year]
    risk_dict = dict(zip(df_year["구"], df_year["위험지수"]))
    reason_dict = dict(zip(df_year["구"], df_year["최대기여요인"]))
    value_dict = dict(zip(df_year["구"], df_year["기여값"]))

    for feature in seoul_geo["features"]:
        gu_name = feature["properties"]["sggnm"].strip()
        feature["properties"]["위험지수"] = round(risk_dict.get(gu_name, 0), 3)
        feature["properties"]["기여요인"] = reason_dict.get(gu_name, "")
        feature["properties"]["기여값"] = int(value_dict.get(gu_name, 0))
        feature["properties"]["name"] = gu_name

    m = folium.Map(location=[37.5642135, 127.0016985], zoom_start=11.2, tiles='cartodbpositron')
    choropleth = folium.Choropleth(
        geo_data=seoul_geo,
        data=df_year[["구", "위험지수"]],
        columns=["구", "위험지수"],
        key_on="feature.properties.sggnm",
        fill_color="YlOrRd",
        fill_opacity=0.9,
        line_opacity=0.3,
        nan_fill_color="white",
        legend_name=f"{year}년 자치구별 위험지수",
        highlight=True
    ).add_to(m)

    choropleth.geojson.add_child(
        folium.features.GeoJsonTooltip(
            fields=["sggnm", "위험지수", "기여요인", "기여값"],
            aliases=["자치구:", "위험지수:", "기여요인:", "해당 값:"],
            localize=True,
            sticky=True
        )
    )

    m.save(os.path.join(output_map_path, f"서울시_자치구_위험지도_{year}.html"))
