In [13]:
import pandas as pd

# Load the CSV files
traffic_accidents_df = pd.read_csv('교통사고_전처리.csv')
crime_frequent_df = pd.read_csv('범죄빈발_전처리.csv')
population_statistics_df = pd.read_csv('인구통계_전처리.csv')
police_df = pd.read_csv('시도_시군구별_경찰서수.csv')
# Display the first few rows of each dataframe to understand their structure
traffic_accidents_df.head(), crime_frequent_df.head(), population_statistics_df.head(), police_df

# Merge the dataframes on '시도' and '시군구'
merged_df = pd.merge(traffic_accidents_df, crime_frequent_df, on=['시도', '시군구'], how='outer')
merged_df = pd.merge(merged_df, population_statistics_df, on=['시도', '시군구'], how='outer')
merged_df = pd.merge(merged_df, police_df, on=['시도', '시군구'], how='outer')

# 데이터 프레임 전체 출력 설정
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
merged_df.fillna(30, inplace=True)

merged_df[['교통사고건수', '총 신고수', '인구수', '경찰서수']] = merged_df[['교통사고건수', '총 신고수', '인구수', '경찰서수']].astype(int)

merged_df.to_csv('치안데이터.csv', index=False, encoding='utf-8-sig')



In [8]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
import numpy as np

df = pd.read_csv('치안데이터.csv')
print(df.columns)

# 인구 1,000명당 교통사고건수와 총 신고수 계산
df['교통사고건수_인구비례'] = (df['교통사고건수'] / df['인구수']) * 1000
df['총 신고수_인구비례'] = (df['총 신고수'] / df['인구수']) * 1000

# 무한대 또는 매우 큰 값이 있는지 확인하고 처리
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df.fillna(df.max(), inplace=True)

# 정규화
scaler = MinMaxScaler()
df[['교통사고건수_인구비례', '총 신고수_인구비례', '경찰서수', 'cctv 수']] = scaler.fit_transform(df[['교통사고건수_인구비례', '총 신고수_인구비례', '경찰서수', 'cctv 수']])

# 역정규화 (교통사고건수_인구비례, 총 신고수_인구비례는 적을수록 안전하므로)
df['교통사고건수_인구비례'] = 1 - df['교통사고건수_인구비례']
df['총 신고수_인구비례'] = 1 - df['총 신고수_인구비례']

# 가중치 설정 (가중치는 필요에 따라 조정 가능)
weights = {
    '교통사고건수_인구비례': 0.25,
    '총 신고수_인구비례': 0.25,
    '경찰서수': 0.3,
    'cctv 수': 0.2
}

# 안전 점수 계산
df['안전점수'] = (
    df['교통사고건수_인구비례'] * weights['교통사고건수_인구비례'] +
    df['총 신고수_인구비례'] * weights['총 신고수_인구비례'] +
    df['경찰서수'] * weights['경찰서수'] +
    df['cctv 수'] * weights['cctv 수']
)

# 결과 출력
print(df[['시도', '시군구', '안전점수']])

Index(['시도', '시군구', '교통사고건수', '총 신고수', '인구수', '경찰서수', 'cctv 수'], dtype='object')
       시도   시군구      안전점수
0   서울특별시   강남구  0.628945
1   서울특별시   강동구  0.575241
2   서울특별시   강북구  0.439091
3   서울특별시   강서구  0.508131
4   서울특별시   관악구  0.439986
5   서울특별시   광진구  0.599059
6   서울특별시   구로구  0.543488
7   서울특별시   금천구  0.352512
8   서울특별시   노원구  0.471113
9   서울특별시   도봉구  0.513770
10  서울특별시  동대문구  0.528644
11  서울특별시   동작구  0.484954
12  서울특별시   마포구  0.526634
13  서울특별시  서대문구  0.564738
14  서울특별시   서초구  0.534640
15  서울특별시   성동구  0.593484
16  서울특별시   성북구  0.629087
17  서울특별시   송파구  0.575937
18  서울특별시   양천구  0.523413
19  서울특별시  영등포구  0.495471
20  서울특별시   용산구  0.447507
21  서울특별시   은평구  0.664944
22  서울특별시   종로구  0.546937
23  서울특별시    중구  0.361926
24  서울특별시   중랑구  0.494860


In [14]:
# DB에 저장
from sqlalchemy import create_engine

# MySQL 연결 설정
username = 'ssafy'
password = 'ssafy'
database_name = 'newschema'

# 불필요한 컬럼 삭제
df.drop(columns=['교통사고건수_인구비례', '총 신고수_인구비례'], inplace=True)

# 컬럼명 영어로 변경
print(df.columns)
df.columns = ['sido', 'gugun', 'traffic_accidents', 'total_reports', 'population', 'police_stations', 'cctv_count', 'safety_score']

# MySQL 연결 설정
username = 'ssafy'
password = 'ssafy'
database_name = 'newschema'

# SQLAlchemy 엔진 생성
engine = create_engine(f'mysql+pymysql://{username}:{password}@localhost/{database_name}')

# 데이터프레임을 MySQL DB에 저장
table_name = 'safety_scores'
df.to_sql(name=table_name, con=engine, if_exists='replace', index=False)



Index(['시도', '시군구', '교통사고건수', '총 신고수', '인구수', '경찰서수', 'cctv 수', '안전점수'], dtype='object')
