# 서울시 범죄 현황 데이터 정리

> pivot_table을 사용해 원하는 DataFrame 형태를 만든다.

In [1]:
import pandas as pd

crime_raw_data = pd.read_csv("./result_data/01_crime_raw_data.csv")
crime_raw_data.head()

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,2.0
1,중부,살인,검거,2.0
2,중부,강도,발생,3.0
3,중부,강도,검거,3.0
4,중부,강간,발생,141.0


#### 🔰 Index 설정

- 경찰서 이름인 "구분" 컬럼을 Index로 설정해 정리한다.

- 집계 함수의 Default가 '평균(mean)'이므로 사건의 합이 기록되도록 `aggfunc` param에 sum을 사용한다.

In [19]:
import numpy as np

crime_station = crime_raw_data.pivot_table(
	index="구분",
	columns=['죄종', '발생검거'],
	aggfunc=np.sum
)

crime_station.head()

Unnamed: 0_level_0,건수,건수,건수,건수,건수,건수,건수,건수,건수,건수
죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0


❓ sum 함수를 왜 리스트에 넣었을까??? 2개 이상의 함수를 적용하는 것도 아니고 단일 함수인데...

In [20]:
crime_station = crime_raw_data.pivot_table(
	index="구분",
	columns=['죄종', '발생검거'],
	aggfunc=[np.sum]
)

crime_station.head()

Unnamed: 0_level_0,sum,sum,sum,sum,sum,sum,sum,sum,sum,sum
Unnamed: 0_level_1,건수,건수,건수,건수,건수,건수,건수,건수,건수,건수
죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0


👆 문제는 컬럼이 Multi로 표현된다는 것이다!

- Multi Columns Index
	- 맨 위 "건수"에서 부터 level[0] 컬럼, 그 아래로 level[1], level[2], level[3] 컬럼까지 4개의 컬럼이 존재

In [21]:
crime_station.columns

MultiIndex([('sum', '건수', '강간', '검거'),
            ('sum', '건수', '강간', '발생'),
            ('sum', '건수', '강도', '검거'),
            ('sum', '건수', '강도', '발생'),
            ('sum', '건수', '살인', '검거'),
            ('sum', '건수', '살인', '발생'),
            ('sum', '건수', '절도', '검거'),
            ('sum', '건수', '절도', '발생'),
            ('sum', '건수', '폭력', '검거'),
            ('sum', '건수', '폭력', '발생')],
           names=[None, None, '죄종', '발생검거'])

👆 컬럼을 조회해 보면 'sum'과 '건수'가 10개씩 반복되는 것을 알 수 있다.

- Multi Index에 대한 접근 방법

In [22]:
crime_station['sum', '건수', '강도', '검거']

구분
강남     26.0
강동     13.0
강북      4.0
강서     10.0
관악     10.0
광진      6.0
구로     13.0
금천      7.0
남대문     4.0
노원      9.0
도봉      5.0
동대문    12.0
동작      7.0
마포      7.0
방배      5.0
서대문     4.0
서부      2.0
서초      5.0
성동      5.0
성북      3.0
송파     12.0
수서     16.0
양천      7.0
영등포    14.0
용산     10.0
은평      5.0
종로      3.0
종암      5.0
중랑     14.0
중부      3.0
혜화      6.0
Name: (sum, 건수, 강도, 검거), dtype: float64

In [23]:
crime_station['sum', '건수', '강도', '검거'][:5]

구분
강남    26.0
강동    13.0
강북     4.0
강서    10.0
관악    10.0
Name: (sum, 건수, 강도, 검거), dtype: float64

#### 🔰 다중 컬럼에서 특정 컬럼 제거

- 필요 없는 'sum'과 '건수' 컬럼을 날린다.

In [24]:
crime_station.columns = crime_station.columns.droplevel([0, 1])
crime_station.columns

MultiIndex([('강간', '검거'),
            ('강간', '발생'),
            ('강도', '검거'),
            ('강도', '발생'),
            ('살인', '검거'),
            ('살인', '발생'),
            ('절도', '검거'),
            ('절도', '발생'),
            ('폭력', '검거'),
            ('폭력', '발생')],
           names=['죄종', '발생검거'])

In [25]:
crime_station.head()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0


In [26]:
crime_station.index

Index(['강남', '강동', '강북', '강서', '관악', '광진', '구로', '금천', '남대문', '노원', '도봉',
       '동대문', '동작', '마포', '방배', '서대문', '서부', '서초', '성동', '성북', '송파', '수서',
       '양천', '영등포', '용산', '은평', '종로', '종암', '중랑', '중부', '혜화'],
      dtype='object', name='구분')

👆 현재 Index는 경찰서의 이름으로 되어 있다.

- 우리의 목적은 "구별" 범죄 현황이므로 경찰서 이름을 구 이름으로 변경해야 한다.

- 경찰서의 이름으로 구 이름을 알아내기 위해 Googlemaps를 활용한다.