In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import warnings
import numpy as np
from collections import defaultdict
from dotenv import load_dotenv

# 한글 폰트 설정 (Windows 기준)
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings("ignore", message="Workbook contains no default style, apply openpyxl's default")

def read_and_extract_city(file_path, year, city='서울', id_col_count=3):
    """
    엑셀 파일을 읽어와 3행을 다중 헤더로 사용하고, 
    범죄 항목(첫 id_col_count 열)에 forward-fill을 적용한 후,
    헤더 레벨 0(연도)가 지정한 year이고, 헤더 레벨 1(도시)가 지정한 city인 열만 추출하여 DataFrame 반환.
    """
    df = pd.read_excel(file_path, header=[0, 1, 2])
    df.iloc[:, :id_col_count] = df.iloc[:, :id_col_count].ffill()
    
    id_cols = df.columns[:id_col_count]
    other_cols = df.columns[id_col_count:]
    target_cols = [col for col in other_cols if str(col[0]).strip() == str(year) and col[1] == city]
    
    df_target = df.loc[:, list(id_cols) + target_cols].copy()
    df_target.columns = ['_'.join(map(str, col)).strip() for col in df_target.columns.values]
    
    return df_target

def read_and_extract_district(file_path, year, district, city='서울', id_col_count=3):
    """
    파일을 읽어와 3행 다중 헤더를 사용하고, 
    범죄 항목(첫 id_col_count 열)에 forward-fill을 적용한 후,
    헤더 레벨 0(연도)가 year, 레벨 1(도시)가 city, 레벨 2(구)가 district인 열만 선택하여 
    식별용 열과 함께 반환하는 함수.
    """
    df = pd.read_excel(file_path, header=[0, 1, 2])
    df.iloc[:, :id_col_count] = df.iloc[:, :id_col_count].ffill()
    
    id_cols = df.columns[:id_col_count]
    other_cols = df.columns[id_col_count:]
    
    target_cols = [col for col in other_cols 
                   if str(col[0]).strip() == str(year) 
                   and col[1] == city 
                   and str(col[2]).strip() == district]
    
    df_target = df.loc[:, list(id_cols) + target_cols].copy()
    df_target.columns = ['_'.join(map(str, col)).strip() for col in df_target.columns.values]
    
    return df_target

load_dotenv()

# 환경 변수 불러오기
file2023_path = os.getenv('FILE2023_PATH')
file_path22_21 = os.getenv('FILE_PATH22_21')
file_path19_20 = os.getenv('FILE_PATH19_20')
file_path17_18 = os.getenv('FILE_PATH17_18')
file_image_crime = os.getenv('File_image_crime')

# 서울 전체 데이터 추출 (연도별)
df2023 = read_and_extract_city(file2023_path, year=2023, city='서울')
df2022 = read_and_extract_city(file_path22_21, year=2022, city='서울')
df2021 = read_and_extract_city(file_path22_21, year=2021, city='서울')
df2020 = read_and_extract_city(file_path19_20, year=2020, city='서울')
df2019 = read_and_extract_city(file_path19_20, year=2019, city='서울')
df2018 = read_and_extract_city(file_path17_18, year=2018, city='서울')
df2017 = read_and_extract_city(file_path17_18, year=2017, city='서울')




In [None]:
# 데이터를 숫자로 강제 변환
df2023 = df2023.apply(pd.to_numeric, errors='coerce')
df2022 = df2022.apply(pd.to_numeric, errors='coerce')
df2021 = df2021.apply(pd.to_numeric, errors='coerce')
df2020 = df2020.apply(pd.to_numeric, errors='coerce')
df2019 = df2019.apply(pd.to_numeric, errors='coerce')
df2018 = df2018.apply(pd.to_numeric, errors='coerce')
df2017 = df2017.apply(pd.to_numeric, errors='coerce')

# 각 열의 합계 구하기
column_2023 = df2023.sum()
column_2022 = df2022.sum()
column_2021 = df2021.sum()
column_2020 = df2020.sum()
column_2019 = df2019.sum()
column_2018 = df2018.sum()
column_2017 = df2017.sum()



In [None]:


column_2023 = pd.DataFrame(column_2023)
column_2022 = pd.DataFrame(column_2022)
column_2021 = pd.DataFrame(column_2021) 
column_2020 = pd.DataFrame(column_2020)
column_2019 = pd.DataFrame(column_2019) 
column_2018 = pd.DataFrame(column_2018)
column_2017 = pd.DataFrame(column_2017)


column_2023.to_excel('column_2023.xlsx')
column_2022.to_excel('column_2022.xlsx')
column_2021.to_excel('column_2021.xlsx')
column_2020.to_excel('column_2020.xlsx')
column_2019.to_excel('column_2019.xlsx')
column_2018.to_excel('column_2018.xlsx')
column_2017.to_excel('column_2017.xlsx')



In [1]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import warnings
import numpy as np
from collections import defaultdict
from dotenv import load_dotenv

In [2]:
file = r'E:\Traffic-Safety\범죄안전데이터\서울시 경찰청별 범죄 발생 및 검거 현황\범죄구\column_2023.xlsx'
file2 = r'E:\Traffic-Safety\범죄안전데이터\서울시 경찰청별 범죄 발생 및 검거 현황\범죄구\column_2022.xlsx'
file3 =r"E:\Traffic-Safety\범죄안전데이터\서울시 경찰청별 범죄 발생 및 검거 현황\범죄구\column_2021.xlsx"
file4 =r"E:\Traffic-Safety\범죄안전데이터\서울시 경찰청별 범죄 발생 및 검거 현황\범죄구\column_2020.xlsx"
file5 =r"E:\Traffic-Safety\범죄안전데이터\서울시 경찰청별 범죄 발생 및 검거 현황\범죄구\column_2019.xlsx"
file6 =r"E:\Traffic-Safety\범죄안전데이터\서울시 경찰청별 범죄 발생 및 검거 현황\범죄구\column_2018.xlsx"
file7 =r"E:\Traffic-Safety\범죄안전데이터\서울시 경찰청별 범죄 발생 및 검거 현황\범죄구\column_2017.xlsx"


column_2023 = pd.read_excel(file)
column_2022 = pd.read_excel(file2)
column_2021 = pd.read_excel(file3) 
column_2020 = pd.read_excel(file4)
column_2019 = pd.read_excel(file5) 
column_2018 = pd.read_excel(file6)
column_2017 = pd.read_excel(file7)

In [3]:
# 자치구 열을 문자열로 변환한 뒤 접두사 제거
column_2023['자치구'] = (
    column_2023['자치구']
        .astype(str)                       # 문자열화
        .str.replace(r'^2023_서울_', '', regex=True)
)

# '자치구' 열 후처리 : 끝이 '구'가 아니면 '구'를 덧붙임
column_2023['자치구'] = column_2023['자치구'].apply(
    lambda x: x if str(x).endswith('구') else f'{x}구'
)


In [4]:
# 자치구 열을 문자열로 변환한 뒤 접두사 제거
column_2022['자치구'] = (
    column_2022['자치구']
        .astype(str)                       # 문자열화
        .str.replace(r'^2022_서울_', '', regex=True)
)

# '자치구' 열 후처리 : 끝이 '구'가 아니면 '구'를 덧붙임
column_2022['자치구'] = column_2022['자치구'].apply(
    lambda x: x if str(x).endswith('구') else f'{x}구'
)


In [5]:
# 자치구 열을 문자열로 변환한 뒤 접두사 제거
column_2021['자치구'] = (
    column_2021['자치구']
        .astype(str)                       # 문자열화
        .str.replace(r'^2021_서울_', '', regex=True)
)

# '자치구' 열 후처리 : 끝이 '구'가 아니면 '구'를 덧붙임
column_2021['자치구'] = column_2021['자치구'].apply(
    lambda x: x if str(x).endswith('구') else f'{x}구'
)


In [6]:
# 자치구 열을 문자열로 변환한 뒤 접두사 제거
column_2020['자치구'] = (
    column_2020['자치구']
        .astype(str)                       # 문자열화
        .str.replace(r'^2020_서울_', '', regex=True)
)

# '자치구' 열 후처리 : 끝이 '구'가 아니면 '구'를 덧붙임
column_2020['자치구'] = column_2020['자치구'].apply(
    lambda x: x if str(x).endswith('구') else f'{x}구'
)


In [7]:
# 자치구 열을 문자열로 변환한 뒤 접두사 제거
column_2019['자치구'] = (
    column_2019['자치구']
        .astype(str)                       # 문자열화
        .str.replace(r'^2019_서울_', '', regex=True)
)

# '자치구' 열 후처리 : 끝이 '구'가 아니면 '구'를 덧붙임
column_2019['자치구'] = column_2019['자치구'].apply(
    lambda x: x if str(x).endswith('구') else f'{x}구'
)


In [8]:
# 자치구 열을 문자열로 변환한 뒤 접두사 제거
column_2018['자치구'] = (
    column_2018['자치구']
        .astype(str)                       # 문자열화
        .str.replace(r'^2018_서울_', '', regex=True)
)

# '자치구' 열 후처리 : 끝이 '구'가 아니면 '구'를 덧붙임
column_2018['자치구'] = column_2018['자치구'].apply(
    lambda x: x if str(x).endswith('구') else f'{x}구'
)


In [9]:
# 자치구 열을 문자열로 변환한 뒤 접두사 제거
column_2017['자치구'] = (
    column_2017['자치구']
        .astype(str)                       # 문자열화
        .str.replace(r'^2017_서울_', '', regex=True)
)

# '자치구' 열 후처리 : 끝이 '구'가 아니면 '구'를 덧붙임
column_2017['자치구'] = column_2017['자치구'].apply(
    lambda x: x if str(x).endswith('구') else f'{x}구'
)


In [10]:
df_merged = column_2023
for df in [column_2022, column_2020, column_2019, column_2018, column_2017]:
    df_merged = pd.merge(df_merged, df, on='자치구', how='outer', suffixes=('', '_other'))

# 인덱스를 다시 열로 변환
df_merged = df_merged.reset_index().drop(columns=['index'])
# 결과 확인

In [11]:
df_merged['행 합계'] = df_merged .iloc[:, 1:].sum(axis=1)

# 결과 출력
df_final = df_merged[['자치구', '행 합계']]


In [12]:
df_merged

Unnamed: 0,자치구,범죄유형 합계,범죄유형 합계_other,범죄유형 합계_other.1,범죄유형 합계_other.2,범죄유형 합계_other.3,범죄유형 합계_other.4,행 합계
0,강남구,20876,19355,20937.0,20767,20961,20448,123344.0
1,강동구,7027,6892,7254.0,7310,7176,7417,43076.0
2,강북구,5450,5742,5902.0,7211,6573,5940,36818.0
3,강서구,9323,9313,9430.0,10145,9546,9797,57554.0
4,관악구,11558,10419,11019.0,10745,10461,10696,64898.0
5,광진구,7348,7251,7434.0,7636,7282,8120,45071.0
6,구로구,7806,7916,8800.0,8986,8991,8968,51467.0
7,금천구,5289,5740,5485.0,6184,5597,5482,33777.0
8,노원구,7223,7735,7916.0,7503,7484,7580,45441.0
9,도봉구,4131,4419,4672.0,4563,4733,4142,26660.0


In [13]:
import json, pandas as pd, folium
from branca.colormap import linear

file_path = r'E:\Traffic-Safety\위치 데이터\서울특별시.json'

with open(file_path, encoding='utf‑8') as f:
    seoul_geo = json.load(f)

# ── 2) 자치구 컬럼 정리  (예: '강남구', '강동구' …) ─────────────
# df 예시
# df = pd.DataFrame({'자치구':['강남구','강동구',...],
#                    '행 합계':[370032,129228,...]})

df_final['자치구'] = df_final['자치구'].str.replace('구$', '', regex=True)   # '구' 제거
df_final = df_final.set_index('자치구')

# ── 3) 색상 스케일 정의 ───────────────────────────────────────
colormap = linear.YlOrRd_09.scale(df_final['행 합계'].min(), df_final['행 합계'].max())
colormap.caption = '자치구별 행 합계'

# ── 4) folium Map 생성  ───────────────────────────────────────
m = folium.Map(location=[37.5665, 126.9780],   # 서울 시청 좌표
               zoom_start=11,
               tiles='cartodbpositron')

# ── 5) Choropleth (GeoJson + style_function) ─────────────────
def style_function(feature):
    gu_name = feature['properties']['sggnm'].replace('구','')   # GeoJSON 속성 → 자치구
    value   = df_final.loc[gu_name, '행 합계'] if gu_name in df_final.index else None
    return {
        'fillOpacity': 0.75,
        'weight'     : 0.7,
        'color'      : 'black',
        'fillColor'  : colormap(value) if value is not None else '#dcdcdc'
    }

folium.GeoJson(
    seoul_geo,
    name='Seoul GU',
    style_function=style_function,
    tooltip=folium.GeoJsonTooltip(
        fields      = ['sggnm'],
        aliases     = ['자치구'],
        localize    = True,
        sticky      = False,
        labels      = True
    )
).add_to(m)

colormap.add_to(m)

# ── 6) HTML 파일로 저장 ───────────────────────────────────────
m.save('seoul_crime_sum.html')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final['자치구'] = df_final['자치구'].str.replace('구$', '', regex=True)   # '구' 제거
