# 1. 서울 CCTV 데이터 프레임 셋팅

### 1 - 1. 서울 범죄 데이터 불러와서 살펴보기

In [296]:
import numpy as np
import pandas as pd

In [297]:
# 데이터 읽기
# thousands는 천 단위 숫자에 콤마를 빼고 불러오기를 위함.

crime_raw_data = pd.read_csv(
    "../data/02. crime_in_Seoul.csv",
    thousands = ",",
    encoding = "euc-kr")

crime_raw_data.head()

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,2.0
1,중부,살인,검거,2.0
2,중부,강도,발생,3.0
3,중부,강도,검거,3.0
4,중부,강간,발생,141.0


In [298]:
crime_raw_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65534 entries, 0 to 65533
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   구분      310 non-null    object 
 1   죄종      310 non-null    object 
 2   발생검거    310 non-null    object 
 3   건수      310 non-null    float64
dtypes: float64(1), object(3)
memory usage: 2.0+ MB


- index가 0 ~ 65533으로 나오는데 데이터 개수는 310개다.
    - 뭔가 이상하니 데이터를 더 살펴 봐야한다.
    - 특정 컬럼(여기서는 죄종)을 unique() 함수를 활용해 조사해보자.    

In [299]:
crime_raw_data["죄종"].unique()

array(['살인', '강도', '강간', '절도', '폭력', nan], dtype=object)

In [300]:
crime_raw_data["죄종"].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
65529     True
65530     True
65531     True
65532     True
65533     True
Name: 죄종, Length: 65534, dtype: bool

- nan값이 들어 있음을 확인.
    - notnull() 함수를 활용해 마스킹하자.
    - 마스킹이란 원하는 조건으로 다시 데이터프레임으로 만드는 방법이다.
    - 원하는 조건 : nan(null) 값은 제거한 데이터 프레임

In [301]:
# notnull() 함수를 활용해 마스킹하자.
# 마스킹이란 주어진조건에 해당하는 값들만 다시 데이터프레임으로 만드는 방법이다.
crime_raw_data[crime_raw_data["죄종"].notnull()]

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,2.0
1,중부,살인,검거,2.0
2,중부,강도,발생,3.0
3,중부,강도,검거,3.0
4,중부,강간,발생,141.0
...,...,...,...,...
305,수서,강간,검거,144.0
306,수서,절도,발생,1149.0
307,수서,절도,검거,789.0
308,수서,폭력,발생,1666.0


- notnull()을 사용해보니 데이터와 인덱스가 서로 310개가 잘 맞는다.
- 마스킹만 한 것이므로 다시 crime_raw_data 변수에 넣어서 사용하자.

In [302]:
crime_raw_data = crime_raw_data[crime_raw_data["죄종"].notnull()]
crime_raw_data

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,2.0
1,중부,살인,검거,2.0
2,중부,강도,발생,3.0
3,중부,강도,검거,3.0
4,중부,강간,발생,141.0
...,...,...,...,...
305,수서,강간,검거,144.0
306,수서,절도,발생,1149.0
307,수서,절도,검거,789.0
308,수서,폭력,발생,1666.0


# 2. 데이터 프레임 튜닝( pivot_table()활용)

- pivot_table()을 활용해 데이터 프레임 튜닝
    - 구분 컬럼을 인덱스로.
    - 각 범죄검거, 발생으로 컬럼 구분.
    ```
        => | 구분 | 살인발생 | 살인검거 |.....
    ```    

In [303]:
crime_station = pd.pivot_table(
    crime_raw_data,
    index =["구분"],
    columns = ["죄종", "발생검거"],
    aggfunc = [np.sum],# 겹치는 데이터는 합쳐주기
    fill_value = 0, # nan 값은 0으로 초기화 해준다.
    #margins = True # 총계 (All) 추가하기
)
crime_station.head()

Unnamed: 0_level_0,sum,sum,sum,sum,sum,sum,sum,sum,sum,sum
Unnamed: 0_level_1,건수,건수,건수,건수,건수,건수,건수,건수,건수,건수
죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4
강남,269,339,26,24,3,3,1129,2438,2096,2336
강동,152,160,13,14,5,4,902,1754,2201,2530
강북,159,217,4,5,6,7,672,1222,2482,2778
강서,239,275,10,10,10,9,1070,1952,2768,3204
관악,264,322,10,12,7,6,937,2103,2707,3235


- 여기서 컬럼명을 보면 당황할 것이다.
    - 이는 pivot테이블을 사용하며 컬럼명들이 합쳐졌기 때문이다.
    - 이를 멀티 컬럼이라하며 멀티컬럼을 없애주자.

In [304]:
# 합치고 난 후의 컬럼명
crime_station.columns

MultiIndex([('sum', '건수', '강간', '검거'),
            ('sum', '건수', '강간', '발생'),
            ('sum', '건수', '강도', '검거'),
            ('sum', '건수', '강도', '발생'),
            ('sum', '건수', '살인', '검거'),
            ('sum', '건수', '살인', '발생'),
            ('sum', '건수', '절도', '검거'),
            ('sum', '건수', '절도', '발생'),
            ('sum', '건수', '폭력', '검거'),
            ('sum', '건수', '폭력', '발생')],
           names=[None, None, '죄종', '발생검거'])

- 각 컬럼명이 4개 씩 들어있다.
    - 앞에 sum, '건수'는 컬럼명에서 필요가 없으니 지워주자.
    - 컬럼명을 지우는 함수는 droplevel([])

In [305]:
# 멀티 컬럼일 때 컬럼을 제거하기

# sum , '건수' 을 제거 함
crime_station.columns = crime_station.columns.droplevel([0,1])
crime_station.head()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
강남,269,339,26,24,3,3,1129,2438,2096,2336
강동,152,160,13,14,5,4,902,1754,2201,2530
강북,159,217,4,5,6,7,672,1222,2482,2778
강서,239,275,10,10,10,9,1070,1952,2768,3204
관악,264,322,10,12,7,6,937,2103,2707,3235


In [306]:
crime_station.head()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
강남,269,339,26,24,3,3,1129,2438,2096,2336
강동,152,160,13,14,5,4,902,1754,2201,2530
강북,159,217,4,5,6,7,672,1222,2482,2778
강서,239,275,10,10,10,9,1070,1952,2768,3204
관악,264,322,10,12,7,6,937,2103,2707,3235


- 현재 인덱스의 정보는 각 경찰서 이름으로 되어있다.
    - 각 경찰서가 어디 구에 있는지 지역구 위치정보가 필요하다.
    - Google Maps API를 활용해 지역이름 찾아보자.

# 3. Google Maps API를 활용해 지역이름 찾기

In [307]:
import googlemaps

In [308]:
gmaps_key = "AIzaSyCkh2-SXnE37ekglf74zs4JPK-CwdE1KLo"
gmaps = googlemaps.Client(key=gmaps_key)

In [309]:
# 한 개 예시
tmp = gmaps.geocode("서울영등포경찰서",language = "ko") # 테스트
tmp

[{'address_components': [{'long_name': '608',
    'short_name': '608',
    'types': ['premise']},
   {'long_name': '국회대로',
    'short_name': '국회대로',
    'types': ['political', 'sublocality', 'sublocality_level_4']},
   {'long_name': '영등포구',
    'short_name': '영등포구',
    'types': ['political', 'sublocality', 'sublocality_level_1']},
   {'long_name': '서울특별시',
    'short_name': '서울특별시',
    'types': ['administrative_area_level_1', 'political']},
   {'long_name': '대한민국',
    'short_name': 'KR',
    'types': ['country', 'political']},
   {'long_name': '150-043',
    'short_name': '150-043',
    'types': ['postal_code']}],
  'formatted_address': '대한민국 서울특별시 영등포구 국회대로 608',
  'geometry': {'location': {'lat': 37.5260441, 'lng': 126.9008091},
   'location_type': 'ROOFTOP',
   'viewport': {'northeast': {'lat': 37.5273930802915,
     'lng': 126.9021580802915},
    'southwest': {'lat': 37.5246951197085, 'lng': 126.8994601197085}}},
  'partial_match': True,
  'place_id': 'ChIJ1TimJLaffDURptXOs0Tj6s

- 결과가 리스트로 나오고 안에는 딕셔너리가 들어있다.
- 리스트 요소에 접근, 딕셔너리에서 get(key)을 사용해 원하는 value 값을 반환하자

In [310]:
# 위도 경도 정보 추출

print(tmp[0].get("geometry")["location"]["lat"])
print(tmp[0].get("geometry")["location"]["lng"])

37.5260441
126.9008091


In [311]:
# 지역구 이름 정보 추출

tmp[0].get("formatted_address").split()[2]
#tmp[0].get("address_components")[2]["long_name"]

'영등포구'

- 이제 원본데이터에 추가하자.
    - 각 지역이름 컬럼 : 구별
    - 위도 : lat
    - 경도 : lng

In [312]:
count = 1

for idx, rows in crime_station.iterrows():
    
    #  범죄데이터의 인덱스인 경찰서를 구글맵에 검색할 검색어로 만들자
    station_name = "서울"+str(idx)+"경찰서"
    
    # 구글 맵스에 서울00경찰서를 변수로 던져 정보를 반환 받자.
    tmp = gmaps.geocode(station_name, language = "ko")
    
    # 경찰서 정보에서 구 이름을 추출하기
    tmp_gu = tmp[0].get("formatted_address").split()[2]

    # 경찰서 정보에서 위도, 경도 추출하기
    lat = tmp[0].get("geometry")["location"]["lat"]
    lng = tmp[0].get("geometry")["location"]["lng"]
    
    # 범죄 데이터에 만들어놓은 구별, lat, lng 컬럼에 위에서 찾은 데이터를 차례로 넣기, ex) crime_station.loc["강남","lat"] = 10.74
    crime_station.loc[idx, "lat"] = lat
    crime_station.loc[idx, "lng"] = lng
    crime_station.loc[idx, "구별"] = tmp_gu
    
    # 데이터 입력 확인
    print(f'{count}. {idx}의 위치 정보 넣기 완료.')
    count += 1

1. 강남의 위치 정보 넣기 완료.
2. 강동의 위치 정보 넣기 완료.
3. 강북의 위치 정보 넣기 완료.
4. 강서의 위치 정보 넣기 완료.
5. 관악의 위치 정보 넣기 완료.
6. 광진의 위치 정보 넣기 완료.
7. 구로의 위치 정보 넣기 완료.
8. 금천의 위치 정보 넣기 완료.
9. 남대문의 위치 정보 넣기 완료.
10. 노원의 위치 정보 넣기 완료.
11. 도봉의 위치 정보 넣기 완료.
12. 동대문의 위치 정보 넣기 완료.
13. 동작의 위치 정보 넣기 완료.
14. 마포의 위치 정보 넣기 완료.
15. 방배의 위치 정보 넣기 완료.
16. 서대문의 위치 정보 넣기 완료.
17. 서부의 위치 정보 넣기 완료.
18. 서초의 위치 정보 넣기 완료.
19. 성동의 위치 정보 넣기 완료.
20. 성북의 위치 정보 넣기 완료.
21. 송파의 위치 정보 넣기 완료.
22. 수서의 위치 정보 넣기 완료.
23. 양천의 위치 정보 넣기 완료.
24. 영등포의 위치 정보 넣기 완료.
25. 용산의 위치 정보 넣기 완료.
26. 은평의 위치 정보 넣기 완료.
27. 종로의 위치 정보 넣기 완료.
28. 종암의 위치 정보 넣기 완료.
29. 중랑의 위치 정보 넣기 완료.
30. 중부의 위치 정보 넣기 완료.
31. 혜화의 위치 정보 넣기 완료.


In [313]:
crime_station

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력,lat,lng,구별
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
강남,269,339,26,24,3,3,1129,2438,2096,2336,37.509435,127.066958,강남구
강동,152,160,13,14,5,4,902,1754,2201,2530,37.528511,127.126822,강동구
강북,159,217,4,5,6,7,672,1222,2482,2778,37.637197,127.027305,강북구
강서,239,275,10,10,10,9,1070,1952,2768,3204,37.539783,126.829997,양천구
관악,264,322,10,12,7,6,937,2103,2707,3235,37.474395,126.951349,관악구
광진,234,279,6,11,4,4,1057,2636,2011,2392,37.542823,127.083839,광진구
구로,181,273,13,10,9,9,861,1910,2680,3164,37.507442,126.890224,구로구
금천,143,175,7,7,6,6,654,1264,1946,2193,37.456813,126.896806,금천구
남대문,52,57,4,5,1,1,429,946,832,890,37.554758,126.973498,중구
노원,142,159,9,6,6,5,740,1857,2124,2516,37.642139,127.071047,노원구


In [314]:
crime_station.at["종암", "구별"] = "성북구"
crime_station.tail()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력,lat,lng,구별
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
종로,113,137,3,6,0,4,389,952,1135,1291,37.571824,126.984153,종로구
종암,42,51,5,5,1,2,344,680,815,932,37.601267,127.033377,성북구
중랑,150,164,14,14,7,8,1052,1691,2712,3164,37.605643,127.076487,중랑구
중부,96,141,3,3,2,2,485,1204,1164,1335,37.563617,126.989652,중구
혜화,64,101,6,6,2,2,379,988,842,972,37.571968,126.998957,종로구


In [315]:
crime_station

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력,lat,lng,구별
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
강남,269,339,26,24,3,3,1129,2438,2096,2336,37.509435,127.066958,강남구
강동,152,160,13,14,5,4,902,1754,2201,2530,37.528511,127.126822,강동구
강북,159,217,4,5,6,7,672,1222,2482,2778,37.637197,127.027305,강북구
강서,239,275,10,10,10,9,1070,1952,2768,3204,37.539783,126.829997,양천구
관악,264,322,10,12,7,6,937,2103,2707,3235,37.474395,126.951349,관악구
광진,234,279,6,11,4,4,1057,2636,2011,2392,37.542823,127.083839,광진구
구로,181,273,13,10,9,9,861,1910,2680,3164,37.507442,126.890224,구로구
금천,143,175,7,7,6,6,654,1264,1946,2193,37.456813,126.896806,금천구
남대문,52,57,4,5,1,1,429,946,832,890,37.554758,126.973498,중구
노원,142,159,9,6,6,5,740,1857,2124,2516,37.642139,127.071047,노원구


#  4. 시각화 분석을 위한 데이터 튜닝

### 컬럼명 깔끔하게 정리
- 현재 각 '강도','발생','강도','검거' 이렇게 따로 있다.
- 이를  강도검거, 강도발생, 살인검거, 살인발생 이런식으로 바꾸자.
- 반복작업에 리스트를 반환하니 리스트 컴프리헨션 방법을 사용해보자.

In [316]:
# 리스트 컴프리헨션 방법을 사용해보자.

tmp = [
    crime_station.columns.get_level_values(0)[n] + crime_station.columns.get_level_values(1)[n]
    for n in range(0, len(crime_station.columns.get_level_values(0)))
]
print(tmp)

['강간검거', '강간발생', '강도검거', '강도발생', '살인검거', '살인발생', '절도검거', '절도발생', '폭력검거', '폭력발생', 'lat', 'lng', '구별']


In [317]:
crime_station.columns = tmp
crime_station.head()

Unnamed: 0_level_0,강간검거,강간발생,강도검거,강도발생,살인검거,살인발생,절도검거,절도발생,폭력검거,폭력발생,lat,lng,구별
구분,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
강남,269,339,26,24,3,3,1129,2438,2096,2336,37.509435,127.066958,강남구
강동,152,160,13,14,5,4,902,1754,2201,2530,37.528511,127.126822,강동구
강북,159,217,4,5,6,7,672,1222,2482,2778,37.637197,127.027305,강북구
강서,239,275,10,10,10,9,1070,1952,2768,3204,37.539783,126.829997,양천구
관악,264,322,10,12,7,6,937,2103,2707,3235,37.474395,126.951349,관악구


In [318]:
# 데이터 중간 저장
crime_station.to_csv("../data/02. crime_station_raw_self_summary.csv", sep = ",", encoding = "euc-kr")

- 위도, 경도 제거

In [282]:
# 위도, 경도 컬럼 제거
del crime_station["lat"]
crime_station.drop("lng", axis = 1, inplace = True)
crime_station.head()

Unnamed: 0_level_0,강간검거,강간발생,강도검거,강도발생,살인검거,살인발생,절도검거,절도발생,폭력검거,폭력발생,구별
구분,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
강남,269,339,26,24,3,3,1129,2438,2096,2336,강남구
강동,152,160,13,14,5,4,902,1754,2201,2530,강동구
강북,159,217,4,5,6,7,672,1222,2482,2778,강북구
강서,239,275,10,10,10,9,1070,1952,2768,3204,양천구
관악,264,322,10,12,7,6,937,2103,2707,3235,관악구


- CCTV 데이터 프레임과 합치기 위해 각 구 이름이 인덱스로 오게 만들자
    - pivot_table을 활용


In [283]:
## 지역구 정보인 "구별" 컬럼을 인덱스로 전환

crime_anal_gu = pd.pivot_table(crime_station, index = ["구별"], aggfunc = np.sum)
crime_anal_gu.head()

Unnamed: 0_level_0,강간검거,강간발생,강도검거,강도발생,살인검거,살인발생,절도검거,절도발생,폭력검거,폭력발생
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,413,516,42,39,5,5,1918,3587,3527,4002
강동구,152,160,13,14,5,4,902,1754,2201,2530
강북구,159,217,4,5,6,7,672,1222,2482,2778
관악구,264,322,10,12,7,6,937,2103,2707,3235
광진구,234,279,6,11,4,4,1057,2636,2011,2392


In [284]:
# 각 범죄율을 나타내는 칼럼 만들기
# 계산이 많으니 리스트형식으로 div 활용

num = ["강간검거","강도검거","살인검거","절도검거","폭력검거"]
den = ["강간발생","강도발생","살인발생","절도발생","폭력발생"]

target = []
for i in num:
    target.append(i+"율")

crime_anal_gu[target] = crime_anal_gu[num].div(crime_anal_gu[den].values)*100
crime_anal_gu.head()

Unnamed: 0_level_0,강간검거,강간발생,강도검거,강도발생,살인검거,살인발생,절도검거,절도발생,폭력검거,폭력발생,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
강남구,413,516,42,39,5,5,1918,3587,3527,4002,80.03876,107.692308,100.0,53.470867,88.130935
강동구,152,160,13,14,5,4,902,1754,2201,2530,95.0,92.857143,125.0,51.425314,86.996047
강북구,159,217,4,5,6,7,672,1222,2482,2778,73.271889,80.0,85.714286,54.991817,89.344852
관악구,264,322,10,12,7,6,937,2103,2707,3235,81.987578,83.333333,116.666667,44.555397,83.678516
광진구,234,279,6,11,4,4,1057,2636,2011,2392,83.870968,54.545455,100.0,40.098634,84.071906


- 이제 검거 컬럼은 삭제
- 범죄발생 컬럼은 범죄 컬럼으로 치환하자
    - 살인발생 => 살인

In [285]:
# 검거 칼럼 삭제.
del crime_anal_gu["강간검거"]
del crime_anal_gu["강도검거"]
del crime_anal_gu["살인검거"]
crime_anal_gu.drop(["절도검거", "폭력검거"], axis = 1, inplace = True)

crime_anal_gu.head()

Unnamed: 0_level_0,강간발생,강도발생,살인발생,절도발생,폭력발생,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,516,39,5,3587,4002,80.03876,107.692308,100.0,53.470867,88.130935
강동구,160,14,4,1754,2530,95.0,92.857143,125.0,51.425314,86.996047
강북구,217,5,7,1222,2778,73.271889,80.0,85.714286,54.991817,89.344852
관악구,322,12,6,2103,3235,81.987578,83.333333,116.666667,44.555397,83.678516
광진구,279,11,4,2636,2392,83.870968,54.545455,100.0,40.098634,84.071906


In [286]:
# 컬럼명을 살인발생 => 살인 으로 바꾸자

crime_anal_gu.rename(columns = {
    "강간발생" : "강간", 
    "강도발생" : "강도", 
    "살인발생" : "살인", 
    "절도발생" : "절도", 
    "폭력발생" : "폭력"},
    inplace = True)

crime_anal_gu.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,516,39,5,3587,4002,80.03876,107.692308,100.0,53.470867,88.130935
강동구,160,14,4,1754,2530,95.0,92.857143,125.0,51.425314,86.996047
강북구,217,5,7,1222,2778,73.271889,80.0,85.714286,54.991817,89.344852
관악구,322,12,6,2103,3235,81.987578,83.333333,116.666667,44.555397,83.678516
광진구,279,11,4,2636,2392,83.870968,54.545455,100.0,40.098634,84.071906


- 여기서 검거율을 잘 보면 100이상 값이 보인다.
    - 상식적으로 검거율이 100이 넘을 수가 없다.
    - 몇 년 전 미해결 이었던 범죄를 집계 당시 검거하면서 검거 집계수가 올라갔을 수 있다고 추측해본다.
    - 일단 100이상인 검거율은 100으로 마스킹 하자.

In [287]:
# 검거율 100이 넘는게 말이안됨. 100넘으면 100으로 치환하자.

target = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율"]

crime_anal_gu[crime_anal_gu[target] > 100] = 100
crime_anal_gu.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,516,39,5,3587,4002,80.03876,100.0,100.0,53.470867,88.130935
강동구,160,14,4,1754,2530,95.0,92.857143,100.0,51.425314,86.996047
강북구,217,5,7,1222,2778,73.271889,80.0,85.714286,54.991817,89.344852
관악구,322,12,6,2103,3235,81.987578,83.333333,100.0,44.555397,83.678516
광진구,279,11,4,2636,2392,83.870968,54.545455,100.0,40.098634,84.071906


# 🚩 5. 데이터 튜닝 (정규화)


- 범죄 데이터 값의 천의 자리 까지 나타나서 편차가 클 경우 시각화에 어려움이 있다.
- 최고값을 1. 최소값을 0으로 정규화하는 작업을 하자.
- 각 범죄 컬럼 값들을 각 범죄컬럼의 max값으로 나누면 정규화가 된다.

In [288]:
# 범죄 데이터 정규화
# 새로운 변수에 담기 "crime_anal_norm"
col = ["강간", "강도" , "살인" , "절도", "폭력"]

crime_anal_norm = crime_anal_gu[col] / crime_anal_gu[col].max()
crime_anal_norm.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
강남구,1.0,1.0,0.357143,0.977118,0.733773
강동구,0.310078,0.358974,0.285714,0.477799,0.46388
강북구,0.420543,0.128205,0.5,0.332879,0.509351
관악구,0.624031,0.307692,0.428571,0.572868,0.593143
광진구,0.540698,0.282051,0.285714,0.71806,0.438577


In [289]:
# crime_anal_norm에 검거율 데이터 추가
col2 = ["강간검거율", "강도검거율" , "살인검거율" , "절도검거율", "폭력검거율"]

crime_anal_norm[col2] = crime_anal_gu[col2]
crime_anal_norm.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,1.0,1.0,0.357143,0.977118,0.733773,80.03876,100.0,100.0,53.470867,88.130935
강동구,0.310078,0.358974,0.285714,0.477799,0.46388,95.0,92.857143,100.0,51.425314,86.996047
강북구,0.420543,0.128205,0.5,0.332879,0.509351,73.271889,80.0,85.714286,54.991817,89.344852
관악구,0.624031,0.307692,0.428571,0.572868,0.593143,81.987578,83.333333,100.0,44.555397,83.678516
광진구,0.540698,0.282051,0.285714,0.71806,0.438577,83.870968,54.545455,100.0,40.098634,84.071906


# 🚩 6. 데이터 추가 (1차시 결과 데이터)

## 1차시에 했던 CCTV 자료에서 인구수와 CCTV 소계 컬럼을 추가하자

In [290]:
# 1차시 결과 데이터 불러오기

result_CCTV = pd.read_csv("../data/01. CCTV_result Self Summary.csv", index_col="구별", encoding="euc-kr")
result_CCTV.head()

Unnamed: 0_level_0,소계,최근 증가율,인구수,한국인,외국인,고령자,외국인 비율,고령자 비율,CCTV 비율,오차
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,3238,150.62,561052,556164,4888,65060,0.87,11.6,0.57713,1549.2
강동구,1010,166.49,440359,436223,4136,56161,0.94,12.75,0.229358,-544.64
강북구,831,125.2,328002,324479,3523,56530,1.07,17.23,0.253352,-598.75
강서구,911,134.79,608255,601691,6564,76032,1.08,12.5,0.149773,-830.27
관악구,2109,149.29,520929,503297,17632,70046,3.38,13.45,0.404854,464.8


In [291]:
crime_anal_norm[["인구수", "CCTV"]] = result_CCTV[["인구수", "소계"]]
crime_anal_norm.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율,인구수,CCTV
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
강남구,1.0,1.0,0.357143,0.977118,0.733773,80.03876,100.0,100.0,53.470867,88.130935,561052,3238
강동구,0.310078,0.358974,0.285714,0.477799,0.46388,95.0,92.857143,100.0,51.425314,86.996047,440359,1010
강북구,0.420543,0.128205,0.5,0.332879,0.509351,73.271889,80.0,85.714286,54.991817,89.344852,328002,831
관악구,0.624031,0.307692,0.428571,0.572868,0.593143,81.987578,83.333333,100.0,44.555397,83.678516,520929,2109
광진구,0.540698,0.282051,0.285714,0.71806,0.438577,83.870968,54.545455,100.0,40.098634,84.071906,372298,878


# 🚩 7. 데이터 튜닝

- 범죄의 종류를 다 합친 범죄 컬럼을 만들어서 경향을 비교하는게 좋을 것 같다.
- 이때 범죄 컬럼을 다 합쳐 평균을 내어 범죄 컬럼으로 만들 것이다.
- 검거율도 다 합쳐 하나의 검거 컬럼으로 만들자.

In [292]:
col = ["강간", "강도" , "살인" , "절도", "폭력"]

crime_anal_norm["범죄"] = np.mean(crime_anal_norm[col], axis = 1)
crime_anal_norm.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율,인구수,CCTV,범죄
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
강남구,1.0,1.0,0.357143,0.977118,0.733773,80.03876,100.0,100.0,53.470867,88.130935,561052,3238,0.813607
강동구,0.310078,0.358974,0.285714,0.477799,0.46388,95.0,92.857143,100.0,51.425314,86.996047,440359,1010,0.379289
강북구,0.420543,0.128205,0.5,0.332879,0.509351,73.271889,80.0,85.714286,54.991817,89.344852,328002,831,0.378196
관악구,0.624031,0.307692,0.428571,0.572868,0.593143,81.987578,83.333333,100.0,44.555397,83.678516,520929,2109,0.505261
광진구,0.540698,0.282051,0.285714,0.71806,0.438577,83.870968,54.545455,100.0,40.098634,84.071906,372298,878,0.45302


In [293]:
col = ["강간검거율", "강도검거율" , "살인검거율" , "절도검거율", "폭력검거율"]

crime_anal_norm["검거"] = np.mean(crime_anal_norm[col], axis = 1)
crime_anal_norm.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율,인구수,CCTV,범죄,검거
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
강남구,1.0,1.0,0.357143,0.977118,0.733773,80.03876,100.0,100.0,53.470867,88.130935,561052,3238,0.813607,84.328112
강동구,0.310078,0.358974,0.285714,0.477799,0.46388,95.0,92.857143,100.0,51.425314,86.996047,440359,1010,0.379289,85.255701
강북구,0.420543,0.128205,0.5,0.332879,0.509351,73.271889,80.0,85.714286,54.991817,89.344852,328002,831,0.378196,76.664569
관악구,0.624031,0.307692,0.428571,0.572868,0.593143,81.987578,83.333333,100.0,44.555397,83.678516,520929,2109,0.505261,78.710965
광진구,0.540698,0.282051,0.285714,0.71806,0.438577,83.870968,54.545455,100.0,40.098634,84.071906,372298,878,0.45302,72.517393


# 🚩 8. 저장

In [294]:
# 데이터 저장
crime_anal_norm.to_csv("../data/02. crime_in_Seoul_self_summary.csv", sep = ",", encoding = "euc-kr")

In [295]:
# 잘 저장 됬는지 불러와서 확인

tmp = pd.read_csv("../data/02. crime_in_Seoul_self_summary.csv", encoding = "euc-kr")
tmp.head()

Unnamed: 0,구별,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율,인구수,CCTV,범죄,검거
0,강남구,1.0,1.0,0.357143,0.977118,0.733773,80.03876,100.0,100.0,53.470867,88.130935,561052,3238,0.813607,84.328112
1,강동구,0.310078,0.358974,0.285714,0.477799,0.46388,95.0,92.857143,100.0,51.425314,86.996047,440359,1010,0.379289,85.255701
2,강북구,0.420543,0.128205,0.5,0.332879,0.509351,73.271889,80.0,85.714286,54.991817,89.344852,328002,831,0.378196,76.664569
3,관악구,0.624031,0.307692,0.428571,0.572868,0.593143,81.987578,83.333333,100.0,44.555397,83.678516,520929,2109,0.505261,78.710965
4,광진구,0.540698,0.282051,0.285714,0.71806,0.438577,83.870968,54.545455,100.0,40.098634,84.071906,372298,878,0.45302,72.517393
