In [52]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

<br>

#### 관서별 5대 범죄 현황 데이터 전처리 (2020)

In [53]:
# 원본 데이터 출처 : https://www.data.go.kr/data/15054738/fileData.do
# 원본 파일인 "2020년.csv" 파일은 저장 당시의 설정값으로 인해 read_csv 로 import 시 에러가 발생합니다.
# 따라서 MS Excel 에서 해당 파일을 열고 '5_big_crime_2020.xlsx' 라는 파일로 새로이 저장 후 이를 import 합니다.

df = pd.read_excel('(changed from original file) 5_big_crime_2020.xlsx')
df.head()

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,1
1,중부,살인,검거,1
2,중부,강도,발생,3
3,중부,강도,검거,4
4,중부,"강간,추행",발생,113


In [55]:
# '강간,추행'을 '강간'으로 합산

df['죄종'] = df['죄종'].replace({'강간,추행':'강간'})

In [56]:
# 데이터를 경찰서별로 정리하기 위해 죄종과 발생검거 여부에 해당하는 열을 합쳐 새로운 열을 만들어줍니다.

column_name = []
for line in df.iterrows():
    column_name.append("{}({})".format(line[1]['죄종'], line[1]['발생검거']))
    df.loc[line[0], '구분'] = line[1]['구분']+'서'
    
df['column_name'] = column_name
df.head()

Unnamed: 0,구분,죄종,발생검거,건수,column_name
0,중부서,살인,발생,1,살인(발생)
1,중부서,살인,검거,1,살인(검거)
2,중부서,강도,발생,3,강도(발생)
3,중부서,강도,검거,4,강도(검거)
4,중부서,강간,발생,113,강간(발생)


In [59]:
# 데이터를 경찰서별로 정리하면서 추가해 둔 column_name 열로 새로운 column들의 이름을 설정합니다.

df = pd.pivot_table(df, index='구분', columns='column_name')
df_new = df.reset_index()
df_new.columns = ['관서명', '강간(검거)', '강간(발생)', '강도(검거)', '강도(발생)', '살인(검거)', '살인(발생)', '절도(검거)', '절도(발생)', '폭력(검거)', '폭력(발생)']
df_new.head(3)

Unnamed: 0,관서명,강간(검거),강간(발생),강도(검거),강도(발생),살인(검거),살인(발생),절도(검거),절도(발생),폭력(검거),폭력(발생)
0,강남서,433,513,10,12,3,5,1016,1941,1911,2283
1,강동서,167,188,14,15,3,3,781,1640,1697,1942
2,강북서,132,159,4,5,8,9,490,780,1625,1817


In [63]:
# 총계에 해당하는 행을 마지막에 추가합니다.

total = df_new.sum()
total['관서명'] = '계'
df_new.loc[max(df_new.index) + 1] = total
df_new

Unnamed: 0,관서명,강간(검거),강간(발생),강도(검거),강도(발생),살인(검거),살인(발생),절도(검거),절도(발생),폭력(검거),폭력(발생)
0,강남서,433,513,10,12,3,5,1016,1941,1911,2283
1,강동서,167,188,14,15,3,3,781,1640,1697,1942
2,강북서,132,159,4,5,8,9,490,780,1625,1817
3,강서서,222,265,5,6,9,10,1070,1689,2087,2445
4,관악서,351,403,3,3,12,12,1137,2229,2355,2614
5,광진서,224,255,4,4,2,2,874,1664,1407,1676
6,구로서,142,197,5,5,6,6,1008,1763,1823,2204
7,금천서,93,117,6,7,4,4,553,999,1310,1471
8,남대문서,52,73,2,2,1,1,368,699,494,579
9,노원서,148,169,3,3,3,4,646,1404,1781,2163


In [64]:
# 각 경찰서별로 소계를 계산하여 새로운 열들로 추가해줍니다.

df_new['소계(검거)'] = list(df_new[['강간(검거)', '강도(검거)', '살인(검거)', '절도(검거)', '폭력(검거)']].sum(axis=1))
df_new['소계(발생)'] = list(df_new[['강간(발생)', '강도(발생)', '살인(발생)', '절도(발생)', '폭력(발생)']].sum(axis=1))
df_new.head(3)

Unnamed: 0,관서명,강간(검거),강간(발생),강도(검거),강도(발생),살인(검거),살인(발생),절도(검거),절도(발생),폭력(검거),폭력(발생),소계(검거),소계(발생)
0,강남서,433,513,10,12,3,5,1016,1941,1911,2283,3373,4754
1,강동서,167,188,14,15,3,3,781,1640,1697,1942,2662,3788
2,강북서,132,159,4,5,8,9,490,780,1625,1817,2259,2770


In [66]:
df_new.to_excel('관서별 5대범죄 발생 및 검거.xlsx', index=False)

<br>

#### 서울특별시 구별 인구 데이터 전처리

In [67]:
# 원본 데이터 출처 : https://goo.gl/LNty4y
# 원본 파일인 "Report.xls" 파일은 구 버전의 excel 파일로서 pandas 버전에 따라 import 시 에러가 발생할 수 있습니다.
# 따라서 MS Excel 에서 해당 파일을 열고 'popul_Report.xlsx' 라는 파일로 새로이 저장 후 이를 import 합니다.

df = pd.read_excel("(changed from original file) popul_Report.xlsx")
del df['기간']
df.head()

Unnamed: 0,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,합계,4426007,9736027,4721977,5014050,9509458,4618040,4891418,226569,103937,122632,2.15,1605416
3,종로구,73494,153789,74186,79603,144683,70183,74500,9106,4003,5103,1.97,27818
4,중구,63519,131787,64083,67704,122499,59630,62869,9288,4453,4835,1.93,24392


In [68]:
df_new = df[['자치구', '인구']] # 구 이름과 전체 인구수만 남깁니다 (5대 범죄의 발생에는 자국민 뿐만 아니라 외국인도 포함되어 있을 수 있으므로 합산된 열을 선택합니다.)
df_new.drop([0, 1, 2], inplace=True) # 불필요한 행을 지웁니다.
df_new.columns=['구별', '인구수'] # 열 이름을 다시 설정해줍니다.
df_new.sort_values(by='구별', inplace=True) 
df_new.reset_index(inplace=True, drop=True)
df_new

Unnamed: 0,구별,인구수
0,강남구,537800
1,강동구,466472
2,강북구,302563
3,강서구,579768
4,관악구,499449
5,광진구,352627
6,구로구,421163
7,금천구,244891
8,노원구,514946
9,도봉구,319373


In [69]:
df_new.to_csv('pop_kor.csv', index=False)