In [17]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

<br>

#### 관서별 5대 범죄 현황 데이터 전처리 (2016)

In [158]:
# 원본 데이터 출처 : https://www.data.go.kr/dataset/3075835/fileData.do
# 원본 파일인 "2016년.csv" 파일은 저장 당시의 설정값으로 인해 read_csv 로 import 시 에러가 발생합니다.
# 따라서 MS Excel 에서 해당 파일을 열고 '5_big_crime_2016.xlsx' 라는 파일로 새로이 저장 후 이를 import 합니다.

df = pd.read_excel('(changed from original file) 5_big_crime_2016.xlsx', encoding='utf-8')
df.head()

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,2
1,중부,살인,검거,2
2,중부,강도,발생,3
3,중부,강도,검거,3
4,중부,강간,발생,141


In [159]:
# 데이터를 경찰서별로 정리하기 위해 죄종과 발생검거 여부에 해당하는 열을 합쳐 새로운 열을 만들어줍니다.

column_name = []
for line in df.iterrows():
    column_name.append("{}({})".format(line[1]['죄종'], line[1]['발생검거']))
    df.loc[line[0], '구분'] = line[1]['구분']+'서'
    
df['column_name'] = column_name
df.head()

Unnamed: 0,구분,죄종,발생검거,건수,column_name
0,중부서,살인,발생,2,살인(발생)
1,중부서,살인,검거,2,살인(검거)
2,중부서,강도,발생,3,강도(발생)
3,중부서,강도,검거,3,강도(검거)
4,중부서,강간,발생,141,강간(발생)


In [160]:
# 데이터를 경찰서별로 정리하면서 추가해 둔 column_name 열로 새로운 column들의 이름을 설정합니다.

df = pd.pivot_table(df, index='구분', columns='column_name')
df_new = df.reset_index()
df_new.columns = ['관서명', '강간(검거)', '강간(발생)', '강도(검거)', '강도(발생)', '살인(검거)', '살인(발생)', '절도(검거)', '절도(발생)', '폭력(검거)', '폭력(발생)']
df_new.head(3)

Unnamed: 0,관서명,강간(검거),강간(발생),강도(검거),강도(발생),살인(검거),살인(발생),절도(검거),절도(발생),폭력(검거),폭력(발생)
0,강남서,269,339,26,24,3,3,1129,2438,2096,2336
1,강동서,152,160,13,14,5,4,902,1754,2201,2530
2,강북서,159,217,4,5,6,7,672,1222,2482,2778


In [161]:
# 총계에 해당하는 행을 마지막에 추가합니다.

total = df_new.sum()
total['관서명'] = '계'
df_new.loc[max(df_new.index)] = total
df_new

Unnamed: 0,관서명,강간(검거),강간(발생),강도(검거),강도(발생),살인(검거),살인(발생),절도(검거),절도(발생),폭력(검거),폭력(발생)
0,강남서,269,339,26,24,3,3,1129,2438,2096,2336
1,강동서,152,160,13,14,5,4,902,1754,2201,2530
2,강북서,159,217,4,5,6,7,672,1222,2482,2778
3,강서서,239,275,10,10,10,9,1070,1952,2768,3204
4,관악서,264,322,10,12,7,6,937,2103,2707,3235
5,광진서,234,279,6,11,4,4,1057,2636,2011,2392
6,구로서,181,273,13,10,9,9,861,1910,2680,3164
7,금천서,143,175,7,7,6,6,654,1264,1946,2193
8,남대문서,52,57,4,5,1,1,429,946,832,890
9,노원서,142,159,9,6,6,5,740,1857,2124,2516


In [162]:
# 각 경찰서별로 소계를 계산하여 새로운 열들로 추가해줍니다.

df_new['소계(검거)'] = list(df_new[['강간(검거)', '강도(검거)', '살인(검거)', '절도(검거)', '폭력(검거)']].sum(axis=1))
df_new['소계(발생)'] = list(df_new[['강간(발생)', '강도(발생)', '살인(발생)', '절도(발생)', '폭력(발생)']].sum(axis=1))
df_new.head(3)

Unnamed: 0,관서명,강간(검거),강간(발생),강도(검거),강도(발생),살인(검거),살인(발생),절도(검거),절도(발생),폭력(검거),폭력(발생),소계(검거),소계(발생)
0,강남서,269,339,26,24,3,3,1129,2438,2096,2336,3523,5140
1,강동서,152,160,13,14,5,4,902,1754,2201,2530,3273,4462
2,강북서,159,217,4,5,6,7,672,1222,2482,2778,3323,4229


<br>

#### 서울특별시 구별 인구 데이터 전처리

In [7]:
# 원본 데이터 출처 : https://goo.gl/LNty4y
# 원본 파일인 "Report.xls" 파일은 구 버전의 excel 파일로서 pandas 버전에 따라 import 시 에러가 발생할 수 있습니다.
# 따라서 MS Excel 에서 해당 파일을 열고 'popul_Report.xlsx' 라는 파일로 새로이 저장 후 이를 import 합니다.

df = pd.read_excel("(changed from original file) popul_Report.xlsx", encoding='utf-8')
del df['기간']
df.head()

Unnamed: 0,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,합계,4254018,10068381,4922959,5145422,9793003,4789821,5003182,275378,133138,142240,2.3,1405404
3,종로구,73696,163086,79301,83785,153396,75024,78372,9690,4277,5413,2.08,26622
4,중구,61232,135258,66554,68704,125815,62063,63752,9443,4491,4952,2.05,21902


In [19]:
df_new = df[['자치구', '인구']] # 구 이름과 전체 인구수만 남깁니다 (5대 범죄의 발생에는 자국민 뿐만 아니라 외국인도 포함되어 있을 수 있으므로 합산된 열을 선택합니다.)
df_new.drop([0, 1, 2], inplace=True) # 불필요한 행을 지웁니다.
df_new.columns=['구별', '인구수'] # 열 이름을 다시 설정해줍니다.
df_new.sort_values(by='구별', inplace=True) 
df_new.reset_index(inplace=True, drop=True)
df_new

Unnamed: 0,구별,인구수
0,강남구,549255
1,강동구,434992
2,강북구,324276
3,강서구,605068
4,관악구,521685
5,광진구,369999
6,구로구,439234
7,금천구,252359
8,노원구,551069
9,도봉구,342990
